PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Clustal-W Oscar Miranda.
Augusto NevesJoão CarlosRodrigo Paula Linguagem de Programação C++ Componentes do Grupo.
Especificação de Consultas
SISTEMAS DE INFORMAÇÃO
Matrizes para Análise de Similaridade entre Seqüências.
Redes de Hopfield Redes Neurais COPIN
Seqüenciamento parcial de transcritos
Introduction of RefSeq and LocusLink: resources at the NCBI
Geoestatística Aplicada à Agricultura de Precisão II
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Reconhecimento de Padrões Principal Component Analysis (PCA) Análise dos Componentes Principais David Menotti, Ph.D. Universidade.
A FAST APRIORI implementation
O Surgimento dos Sistemas de Bioinformática
Implementação de pipeline de sequenciamento configurável
Evolução Molecular Metodologias de Análise
Capítulo 10 Strings & File I/O. Strings Strings são um conjunto de Caracteres ASCII. No Controle de Instrumentação pode-se converter valores numéricos.
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Gráficos Tipos de gráfico: Colunas Velocidades (canos) Barras Linhas
TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO
Algoritmos 1º Semestre Materia: Informática Profº: Cristiano.
Tecnologias da Informação e Comunicação
POWER POWER POINT POINT.
Título do projeto Equipe Local Data.
Bancos de Dados.
Apresentação RHBSaas O RHBSaaS é um novo sistema desenvolvido pela RHBrasil com o intuito de unificar as senhas utilizadas hoje nas nossas aplicações.
Geração de Código aula-12-geração-de-código.pdf.
Bancos de Dados Natália F. Martins. BD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicos Mais de 348 BD –BD de.
Aplicações Estatísticas uma rápida abordagem
Criando uma formatação
CAP3 (Contig Assembly Program)
Análise Descritiva de Dados
Introdução à Biologia Molecular História Cadeias de DNA e de Proteínas.
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Definições e tipos de alinhamento. O uso do BLAST
Allan Lima  Revisão sobre BDs Biológicos  Integração de Dados para DBs Biológicos ◦ Aplicação de Ontologias  The Gene Ontology 
Introdução à Biologia Molecular Computacional
RequisitePro Ismênia Galvão Lourenço da Silva ANÁLISE E ESPECIFICAÇÃO DE REQUISITOS CENTRO DE INFORMÁTICA UNIVERSIDADE FEDERAL DE PERNAMBUCO.
Melhorando Alinhamentos Locais Katia Guimarães
Gene Projects Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica Unicamp.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
MENU ARQUIVO Comando Imprimir Imprimi o documento atual # Impressora
Mecanismo de sugestão e processo de caracterização de redes sociais
Domínios, Motivos, Padrões e Perfis
Algoritmos e Heurísticas para Seqüenciamento de DNA
1 HapBlock Rogério Rosa Recife, Março de Introdução O genoma humano é composto por regiões de alta LD intercaladas com regiões de baixa LD; Áreas.
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
Fluxograma Juliana Borges
Versão em Português, traduzida por Luiz Carlos Machado – ACBC - Brasil.
MRTG: Muito Ruim Ter que Gravar :D (Brincadeira) na verdade é:
FERRAMENTAS DE ANÁLISE MOLECULAR
Microsoft Excel.
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Computação Evolutiva Nome dado ao estudo de algoritmos cuja inspiração é o processo de evolução natural das espécies. Origem: trabalho de um pesquisador.
Alinhamento Global de Seqüências Katia Guimarães.
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
Professor: Cezar Augusto Pereira dos Santos
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
Profª Dalila Borges Justino Lins
18/09/ /12/20082 Testes Baseados Em Modelo Diana Rúbia Paulo César Qualidade, Processos e Gestão de Software Alexandre Vasconcelos {drrr, pco,
Programação p/ INTERNET - HTML Prof. João Ricardo Andrêo 30/5/ :10 1 Listas Numeradas As listas numeradas funcionam da mesma forma que as listas.
UNIVERSIDADE CATÓLICA DE PELOTAS CENTRO POLITÉCNICO CURSO DE CIÊNCIA DA COMPUTAÇÃO Redes de Computadores Ferramenta NTop (Network Traffic Probe) Explorador.
Glossário Autor: Skyup Informática. Atividade - Glossário A atividade glossário permite que o administrador crie páginas de definições, um dicionário.
COMO APRESENTAR UM PÔSTER: INSTRUÇÕES PARA O XI SEPECH, 2016 Ronaldo Baltar (Dep. C. Sociais, Universidade Estadual de Londrina) INTRODUÇÃO.
Noções básicas de editores de texto Profª Juliana Schivani MÍDIAS EDUCACIONAIS.
Transcrição da apresentação:

PSI e PHI BLAST Eduardo Sampaio Rocha

BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto de ferramentas web ( ou de linha de commando. –Em 1997 foi lançada a versão 2.0 que é 3x mais rápida que a original

BLAST e Proteínas BLAST não é muito sensível as similaridades fracas. Estas similaridades podem ser biologicamente importantes. As famílias de proteínas geralmente são caracterizadas por padrões de regiões conservadas. O BLAST original não permitia a consulta de padrões de proteínas Os dois problemas acima são resolvidos respectivamente por duas ferramentas incorporadas ao BLAST 2.0: –PSI-BLAST (Posicion-Specific Iterated BLAST) –PHI-BLAST (Pattern-HIT initiated BLAST)

PSI-BLAST Ferramenta iterativa que usa um profile como entrada para aumentar a sensitividade O profile é gerado automaticamente a partir dos alinhamentos da saída no passo anterior O profile é usado na geração de uma nova matriz de score Muito sensível ao conteúdo da base de dados

PHI-BLAST Integrado ao PSI-BLAST Pega como entrada um padrão de proteína e uma seqüência Procura na base por proteínas que casem com o padrão especificado e que tenham similaridade com a seqüência original Ferramenta em desenvolvimento!

Fluxograma BLAST 2.0 Profile Seqüência/Padrão Alinhamentos > limiar PSSM

A Ferramenta Web –Pode ser encontrada em Linha de Comando –Pode ser baixada em: ftp://ncbi.nlm.nih.gov/blast

Entrada da Ferramenta Seqüência no formato FASTA –Exemplo: gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS Seqüência no formato simples (podendo ter espaços e números) –Exemplo: 1 qikdllvsss tdldttlvlv naiyfkgmwk tafnaedtre mpfhvtkqes kpvqmmcmnn 61 sfnvatlpae kmkilelpfa sgdlsmlvll pdevsdleri ektinfeklt ewtnpntmek 121 rrvkvylpqm kieekynlts vlmalgmtdl fipsanltgi ssaeslkisq avhgafmels 181 edgiemagst gviedikhsp eseqfradhp flflikhnpt ntivyfgryw sp

Entrada da Ferramenta (PHI-BLAST) Padrão de aminoácido que se deseja procurar –Exemplo: [RG]-[M]-[X]-[YWF]-5[X]-[A]

Principais Parâmetros de Entrada Base de Dados de Seqüências Peptídicas –nr, swissprot, pat, yeast, ecoli, pdb, Drosophila genome e month Matriz de Substituição –PAM30, PAM70, BLOSSUM80, BLOSSUM62, BLOSSUM45 Custo do Gap –Custo de Inclusão e Extensão Limiar de inclusão de uma seqüência no modelo usado pelo PSI-BLAST para a geração da PSSM usada na próxima iteração

Matriz de Substituição PAM (Percent Accepted Mutation) –Derivada do alinhamento global de seqüências bastante relacionadas –O número da matriz (e.g. PAM120) se refere a distância evolucional. Assim da PAM30 nós devemos esperar alinhamentos que são mais próximos na evolução do que a PAM250 –A matriz de maior número são extrapoladas das de menores números

Matriz de Substituição BLOSSUM (Block Substitution Matrix) –Mais sensível a alinhamentos locais de seqüências relacionadas – O número da matriz (Blossum62) é relacionada com a mínima porcentagem de identidade dos blocos usados para construir a matriz – quanto maior o número, menor a distância –Geralmente possuem melhor performance na procura de similaridade local do que as PAMs

Saída do Programa Formato HTML/XML, arquivo texto ou ASN.1 Saída pode ser dividida em: –Descrição do programa –Gráfico mostrando os principais alinhamentos –Descrição dos Alinhamentos ordenados pelo menor E- value (aqui podemos selecionar quais alinhamentos vão ser considerados na próxima iteração) –Alinhamentos –Estatísticas referentes ao programa

Saída do Programa Alinhamento E-Value – o valor esperado é a probabilidade que o casamento associado seja devido ao acaso (fator randômico). Depende do tamanho da base de dados e da query. Score(bits) – é a soma dos valores obtidos para o alinhamento de acordo com a matriz de alinhamento. Quanto maior o score, melhor o alinhamento Identities – porcentagem do casamento exato entre a seqüência fonte e a seqüência da base de dados Gaps – porcentagem do número de gaps Positives – porcentagem do casamento exato e de score positivo.

Montando o Profile No final de cada iteração, o PSI-BLAST mostra quais alinhamentos foram acima do limiar e quais foram abaixo. Com um checkbox ao lado de cada alinhamento, o PSI-BLAST da a possibilidade de escolha de qual alinhamento deve entrar na construção do profile que ira servir de entrada para a próxima iteração Símbolos indicam quando uma seqüência foi levada em consideração na iteração anterior e quando uma seqüência foi encontrada nesta iteração

Exemplo Encontrar parentes distantes da proteína MJ0577 da Methanococcus jannaschii gi| |sp|Q57997|Y577_METJA PROTEIN MJ0577 MSVMYKKILYPTDFSETAEIALKHVKAFKTLKAEEVILLHVIDEREIKKRDIFSLLLGVAGLNKSVEEFE NELKNKLTEEAKNKMENIKKELEDVGFKVKDIIVVGIPHEEIVKIAEDEGVDIIIMGSHGKTNLKEILLG SVTENVIKKSNKPVLVVKRKNS Usar a base de dados nr Usar a matriz BLOSSUM62 Usar um limiar de 0.001

Resultado – Iteração 1

Iteração 2

Referências Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25: Zheng Zhangm Alejandro A. Schäffer, Webb Miller, Thomas L. Madden, David J. Lipman, Eugene V. Kooning, and Stephen F. Altschul (1998), “Protein sequence similarity searches using patterns as seeds”, Nucleic Acids Res. Vol. 26, No. 17