A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Alinhamento de sequências Prof. Dr. Francisco Prosdocimi.

Apresentações semelhantes


Apresentação em tema: "Alinhamento de sequências Prof. Dr. Francisco Prosdocimi."— Transcrição da apresentação:

1 Alinhamento de sequências Prof. Dr. Francisco Prosdocimi

2 Definição O alinhamento de sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade Comparação de strings Identificação de substrings compartilhadas Uma das mais poderosas técnicas da bioinformática

3 Tipos de alinhamento Simples X Múltiplo Local X Global Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698

4 Alinhamento Simples Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375 Interpretando os valores

5 Alinhamento múltiplo Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas Seq Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

6 Alinhamentos Global e Local Global: as seqs são alinhadas de ponta a ponta Local: pedaços das seqs é que são comparados Qual deles é melhor?

7 Alinhamentos ótimo e heurístico heurística -- do dicionário Houaiss Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar LOGO: Alinhamento ótimo: produz o melhor resultado computacionalmente possível Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

8 Ferramentas de alinhamento Programa Tipo de Alinhamento Precisão do Alinhamento Número de seqüências a serem alinhadas BLAST2SequencesLocalHeurístico2 SWAT (Smith-Waterman) LocalÓtimo2 ClustalWGlobalHeurísticoN MultalinGlobalHeurísticoN Needleman-WunschGlobalÓtimo2

9 Elementos de um alinhamento

10 Matrizes de substituição Definem pontuação específica específica para a troca entre símbolos Qual a diferença entre as duas matrizes ao lado Modelos de substituição –Jukes-Cantor X Kimura ACGT A1-2 C 1 G 1 T 1 ACGT A1 -2 C 1 G -21 T -21

11 Matrizes de substituição de aminoácidos

12 Outros parâmetros Matrizes de substituição definem a pontuação para matches e mismatches A penalidade de abertura e extensão de gaps também é importante Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução –Não deve ser utilizado a menos que se saiba o que se está fazendo

13 BLAST Prof. Dr. Francisco Prosdocimi

14 BLAST Basic Local Alignment Search Tool Ferramenta de alinhamento mais utilizada no mundo Todo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes) Diz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas É um algoritmo de alinhamento simples, heurístico e local Alinha um seqüência de entrada contra uma base de dados desejada

15 Sub-programas BLAST Formato da Seqüência de Entrada Banco de dados Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos BLASTn Proteínas BLASTp NucleotídeosProteínas BLASTx ProteínasNucleotídeosProteínasTBLASTn Nucleotídeos ProteínasTBLASTtx

16 BLAST, funcionamento Heurístico Define um tamanho de palavra chamado seed (semente) –Blastn = 11; Megablast = 28 –Blastx = 3; Procura em seu banco de dados sequências com 100% de match da seed quando comparada com a query Alonga a extremidade da seed até onde o alinhamento seja bom Metodologia verdadeiramente rápida E-value: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB

17 Bases de dados BLAST Apresentam um formato especial As sequências no formato FASTA devem ser formatadas usando um programa especial (formatdb) –Cria uma base de dados com todas as seeds possíveis e as sequências que as contém –Dados da base de dados estão pré-computados (velocidade) O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto >gi| |ref|NP_ | hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS BlastDB Query and Subject

18 BLAST em LINUX Download dos programas executáveis BLAST através do NCBI Permite que o usuário monte sua própria base de dados específica para um projeto Permite parametrização detalhada $> formatdb –i cog.fasta –p T –n COG $> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62

19 Programação dinâmica Algoritmos gulosos

20 Alinhamentos múltiplos Prof. Dr. Francisco Prosdocimi

21 conservation profile conserved residues secondary structure What is a multiple alignment?

22 Blocos conservados DbClustal Blocos conservados –Domínios funcionais –Sítios catalíticos de enzimas –Assinaturas de famílias gênicas

23 Alinhamentos múltiplos Problema altamente complexo Teoria da complexidade de algoritmos –O valor de O Problema NP-completo (NP-hard) –Aumentando o número de sequências (ou o tamanho das sequências), o aumento no tempo de computação sobe exponencialmente Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN

24 Alinhamentos múltiplos e homologia

25 Do alinhamento à filogenia Métodos fenéticos Montagem da matrix de distância Example in Clustalx : distance between 2 sequences = 1- No. identical residues No. aligned residues Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla

26 Produção da árvore Método fenético –Não considera a evolução de cada caráter (coluna no alinhamento) –Produz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados Vizinhos mais-próximos –Neighbor-joining Average neighbor Nearest neighbor Farthest neighbor Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla

27 Conclusões O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente


Carregar ppt "Alinhamento de sequências Prof. Dr. Francisco Prosdocimi."

Apresentações semelhantes


Anúncios Google