A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Alinhamento de sequências

Apresentações semelhantes


Apresentação em tema: "Alinhamento de sequências"— Transcrição da apresentação:

1 Alinhamento de sequências
Prof. Dr. Francisco Prosdocimi

2 Definição O alinhamento de sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade Comparação de strings Identificação de substrings compartilhadas Uma das mais poderosas técnicas da bioinformática

3 Tipos de alinhamento Simples X Múltiplo Local X Global
Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698

4 Alinhamento Simples Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375 Interpretando os valores

5 Alinhamento múltiplo Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas Seq Seq GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

6 Alinhamentos Global e Local
Global: as seqs são alinhadas de ponta a ponta Local: pedaços das seqs é que são comparados Qual deles é melhor?

7 Alinhamentos ótimo e heurístico
heurística -- do dicionário Houaiss Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar LOGO: Alinhamento ótimo: produz o melhor resultado computacionalmente possível Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

8 Ferramentas de alinhamento
Programa Tipo de Alinhamento Precisão do Alinhamento Número de seqüências a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT (Smith-Waterman) Ótimo ClustalW Global N Multalin Needleman-Wunsch

9 Elementos de um alinhamento

10 Matrizes de substituição
Definem pontuação específica específica para a troca entre símbolos Qual a diferença entre as duas matrizes ao lado Modelos de substituição Jukes-Cantor X Kimura A C G T 1 -2 A C G T 1 -2 -1

11 Matrizes de substituição de aminoácidos

12 Outros parâmetros Matrizes de substituição definem a pontuação para matches e mismatches A penalidade de abertura e extensão de gaps também é importante Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução Não deve ser utilizado a menos que se saiba o que se está fazendo

13 Prof. Dr. Francisco Prosdocimi
BLAST Prof. Dr. Francisco Prosdocimi

14 BLAST Basic Local Alignment Search Tool
Ferramenta de alinhamento mais utilizada no mundo Todo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes) Diz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas É um algoritmo de alinhamento simples, heurístico e local Alinha um seqüência de entrada contra uma base de dados desejada

15 Sub-programas BLAST Formato da Seqüência de Entrada Banco de dados
Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos BLASTn Proteínas BLASTp BLASTx TBLASTn TBLASTtx

16 BLAST, funcionamento Heurístico
Define um tamanho de palavra chamado seed (semente) Blastn = 11; Megablast = 28 Blastx = 3; Procura em seu banco de dados sequências com 100% de match da seed quando comparada com a query Alonga a extremidade da seed até onde o alinhamento seja “bom” Metodologia verdadeiramente rápida E-value: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB

17 Bases de dados BLAST Apresentam um formato especial
As sequências no formato FASTA devem ser formatadas usando um programa especial (formatdb) Cria uma base de dados com todas as seeds possíveis e as sequências que as contém Dados da base de dados estão pré-computados (velocidade) O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto >gi| |ref|NP_ | hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS BlastDB Query and Subject

18 BLAST em LINUX Download dos programas executáveis BLAST através do NCBI Permite que o usuário monte sua própria base de dados específica para um projeto Permite parametrização detalhada $> formatdb –i cog.fasta –p T –n COG $> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62

19 Programação dinâmica Algoritmos gulosos

20 Alinhamentos múltiplos
Prof. Dr. Francisco Prosdocimi

21 What is a multiple alignment?
conserved residues secondary structure conservation profile

22 Blocos conservados DbClustal Blocos conservados Domínios funcionais
Sítios catalíticos de enzimas Assinaturas de famílias gênicas

23 Alinhamentos múltiplos
Problema altamente complexo Teoria da complexidade de algoritmos O valor de O Problema NP-completo (NP-hard) Aumentando o número de sequências (ou o tamanho das sequências), o aumento no tempo de computação sobe exponencialmente Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN

24 Alinhamentos múltiplos e homologia

25 Do alinhamento à filogenia
Métodos fenéticos Montagem da matrix de distância Example in Clustalx : distance between 2 sequences = 1- No. identical residues No. aligned residues Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 - .17 - 2 3 4 5 6 7 1 2 3 4 5 6 7

26 Produção da árvore Método fenético Vizinhos mais-próximos 2 3 1 4 5 6
Não considera a evolução de cada caráter (coluna no alinhamento) Produz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados Vizinhos mais-próximos Neighbor-joining Average neighbor Nearest neighbor Farthest neighbor Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 3 4 5 6 2 .081 .084 .055 .065 .226 .219 .398 .389 .442 .015 .061 .062

27 Conclusões O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente


Carregar ppt "Alinhamento de sequências"

Apresentações semelhantes


Anúncios Google