Alinhamento de sequências

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

Clustal-W Oscar Miranda.
Instituto de Computação
Engenharia da Qualidade II
Introdução à Bioinformática
Matrizes para Análise de Similaridade entre Seqüências.
Máxima Parcimônia.
UM ESTUDO SOBRE O PROBLEMA DO CAIXEIRO VIAJANTE
Seqüenciamento parcial de transcritos
Uso da bioinformática na análise genômica
Avaliação de Sistemas Operacionais
FACENS – Engenharia da Computação Inteligência Artificial
O Surgimento dos Sistemas de Bioinformática
ESTRUTURA DE COMUNICAÇÃO DE DADOS
Evolução Molecular Metodologias de Análise
Inteligência Artificial
Métodos de distância e modelos de evolução molecular
Organização, Planejamento e Gestão De Projetos Educacionais
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Aproximação da binomial pela normal
Intr. à Biologia Computacional ALINHAMENTO DE SEQÜÊNCIAS.
Biologia Molecular, revisão do conteúdo
Compressão de Textos Juliano Palmieri Lage.
Desempenho de Algoritmos Genéticos
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Juliana Frizzoni Candian Coordenação de Análise e Publicações
INF 1771 – Inteligência Artificial
Bioinformática (Alinhamento de Seqüências)
Algoritmos Crescimento de Funções
1 A COMPUTAÇÃO MODERNA Valdemar W. Setzer Depto. de Ciência da Computação da USP
Olhe fixamente para a Bruxa Nariguda
Bancos de Dados.
Sistemas Operacionais
Oficina de Apropriação de Resultados
ALGORITMOS Intensivo Janeiro e Fevereiro de 2011
SISTEMAS OPERACIONAIS I
AVALIAÇÕES FÍSICAS EVOLUÇÃO PILAR FÍSICO. QUADRO FERJ 85% 79%78% 82% 91% EM MAIO DE 2007 ERAM 56% DE APROVADOS 93% 92% 95%
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Introdução à Bioinformática
DNA Seqüenciamento Alinhamento 1 - Introdução Usuário Cenário atual 2 - Problema Nossa Solução Nossa Proposta 3 - Solução.
Uma Visão Geral Sobre Reconstrução Filogenética
Alinhamento de sequências
Banco de Dados Biológicos
Curso Intensivo de Anotação de ESTs de Crinipellis perniciosa Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Fevereiro
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Distância Mínima de Edição Profa. Sandra de Amo Bacharelado em Ciência da Computação - UFU.
 Solucionar de forma otimizada os problemas que exijam alto esforço computacional e assim assegurar a satisfação dos clientes.
RepeatMasker Aluno: Fred Ulisses maranhão Professora: Kátia S. Guimarães Algoritmos p/ processamento de Cadeias, Cin, UFPE - 1/2001.
Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN
Definições e tipos de alinhamento. O uso do BLAST
PSI e PHI BLAST Eduardo Sampaio Rocha. BLAST Basic Local Alignment Search Tool –Desenvolvido por Altschul, Gish, Miller, Myers e Lipman em 1990 –Conjunto.
Programação Dinâmica.
Problemas NP-completos e Programação Dinâmica
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Marcelo Falsarella Carazzolle Laboratório de Genômica e Proteômica
Algoritmos FPT para o Problema da k-Cobertura por Vértices
Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005.
Alinhamento de Cadeias de DNA COMPARAÇÃO DE SEQÜÊNCIAS
 Solucionar de forma otimizada os problemas que exijam alto esforço computacional e assim assegurar a satisfação dos clientes.
Domínios, Motivos, Padrões e Perfis
Algoritmos e Heurísticas para Seqüenciamento de DNA
Principais algoritmos de alinhamento de sequências genéticas
Alinhamentos Múltiplos
FERRAMENTAS DE ANÁLISE MOLECULAR
* Com o avanço das descobertas acerca dos Ácidos Nucléicos e das Proteínas surgiu o Dogma da biologia Molecular; * Surgimento dos métodos de sequenciamento.
Alinhamento Global de Seqüências Katia Guimarães.
Alinhamentos e Busca de Similaridade Ariane Machado Lima.
Sylvia Campos da Luz e Silva Universidade Federal de Pernambuco Centro de Informática Pós-Graduação em Ciência da Computação.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Combinatorial Pattern Matching BLAST. Tópicos Introdução Repetições Gênicas Combinatorial Pattern Matching – Exact Pattern Matching – Approximate Pattern.
Transcrição da apresentação:

Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

Definição O alinhamento de sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade Comparação de strings Identificação de substrings compartilhadas Uma das mais poderosas técnicas da bioinformática

Tipos de alinhamento Simples X Múltiplo Local X Global Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698

Alinhamento Simples Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375 Interpretando os valores

Alinhamento múltiplo Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

Alinhamentos Global e Local Global: as seqs são alinhadas de ponta a ponta Local: pedaços das seqs é que são comparados Qual deles é melhor?

Alinhamentos ótimo e heurístico heurística -- do dicionário Houaiss Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar LOGO: Alinhamento ótimo: produz o melhor resultado computacionalmente possível Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

Ferramentas de alinhamento Programa Tipo de Alinhamento Precisão do Alinhamento Número de seqüências a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT (Smith-Waterman) Ótimo ClustalW Global N Multalin Needleman-Wunsch

Elementos de um alinhamento

Matrizes de substituição Definem pontuação específica específica para a troca entre símbolos Qual a diferença entre as duas matrizes ao lado Modelos de substituição Jukes-Cantor X Kimura A C G T 1 -2 A C G T 1 -2 -1

Matrizes de substituição de aminoácidos

Outros parâmetros Matrizes de substituição definem a pontuação para matches e mismatches A penalidade de abertura e extensão de gaps também é importante Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução Não deve ser utilizado a menos que se saiba o que se está fazendo

Prof. Dr. Francisco Prosdocimi BLAST Prof. Dr. Francisco Prosdocimi

BLAST Basic Local Alignment Search Tool Ferramenta de alinhamento mais utilizada no mundo Todo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes) Diz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas É um algoritmo de alinhamento simples, heurístico e local Alinha um seqüência de entrada contra uma base de dados desejada

Sub-programas BLAST Formato da Seqüência de Entrada Banco de dados Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos BLASTn Proteínas BLASTp BLASTx TBLASTn TBLASTtx

BLAST, funcionamento Heurístico Define um tamanho de palavra chamado seed (semente) Blastn = 11; Megablast = 28 Blastx = 3; Procura em seu banco de dados sequências com 100% de match da seed quando comparada com a query Alonga a extremidade da seed até onde o alinhamento seja “bom” Metodologia verdadeiramente rápida E-value: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB

Bases de dados BLAST Apresentam um formato especial As sequências no formato FASTA devem ser formatadas usando um programa especial (formatdb) Cria uma base de dados com todas as seeds possíveis e as sequências que as contém Dados da base de dados estão pré-computados (velocidade) O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto >gi|188497754|ref|NP_000179.2| hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS BlastDB Query and Subject

BLAST em LINUX Download dos programas executáveis BLAST através do NCBI Permite que o usuário monte sua própria base de dados específica para um projeto Permite parametrização detalhada $> formatdb –i cog.fasta –p T –n COG $> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62

Programação dinâmica Algoritmos gulosos

Alinhamentos múltiplos Prof. Dr. Francisco Prosdocimi

What is a multiple alignment? conserved residues secondary structure conservation profile

Blocos conservados DbClustal Blocos conservados Domínios funcionais Sítios catalíticos de enzimas Assinaturas de famílias gênicas

Alinhamentos múltiplos Problema altamente complexo Teoria da complexidade de algoritmos O valor de O Problema NP-completo (NP-hard) Aumentando o número de sequências (ou o tamanho das sequências), o aumento no tempo de computação sobe exponencialmente Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN

Alinhamentos múltiplos e homologia

Do alinhamento à filogenia Métodos fenéticos Montagem da matrix de distância Example in Clustalx : distance between 2 sequences = 1- No. identical residues No. aligned residues Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 - .17 - .59 .60 - .59 .59 .13 - .77 .77 .75 .75 - .81 .82 .73 .74 .80 - .87 .86 .86 .88 .93 .90 - 2 3 4 5 6 7 1 2 3 4 5 6 7

Produção da árvore Método fenético Vizinhos mais-próximos 2 3 1 4 5 6 Não considera a evolução de cada caráter (coluna no alinhamento) Produz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados Vizinhos mais-próximos Neighbor-joining Average neighbor Nearest neighbor Farthest neighbor Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 3 4 5 6 2 .081 .084 .055 .065 .226 .219 .398 .389 .442 .015 .061 .062

Conclusões O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente