Alinhamento de sequências Prof. Dr. Francisco Prosdocimi
Definição O alinhamento de sequências consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade Comparação de strings Identificação de substrings compartilhadas Uma das mais poderosas técnicas da bioinformática
Tipos de alinhamento Simples X Múltiplo Local X Global Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698
Alinhamento Simples Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375 Interpretando os valores
Alinhamento múltiplo Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************
Alinhamentos Global e Local Global: as seqs são alinhadas de ponta a ponta Local: pedaços das seqs é que são comparados Qual deles é melhor?
Alinhamentos ótimo e heurístico heurística -- do dicionário Houaiss Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar LOGO: Alinhamento ótimo: produz o melhor resultado computacionalmente possível Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz
Ferramentas de alinhamento Programa Tipo de Alinhamento Precisão do Alinhamento Número de seqüências a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT (Smith-Waterman) Ótimo ClustalW Global N Multalin Needleman-Wunsch
Elementos de um alinhamento
Matrizes de substituição Definem pontuação específica específica para a troca entre símbolos Qual a diferença entre as duas matrizes ao lado Modelos de substituição Jukes-Cantor X Kimura A C G T 1 -2 A C G T 1 -2 -1
Matrizes de substituição de aminoácidos
Outros parâmetros Matrizes de substituição definem a pontuação para matches e mismatches A penalidade de abertura e extensão de gaps também é importante Na maioria dos programas, o usuário pode fornecer um parâmetro para modificar a pontução Não deve ser utilizado a menos que se saiba o que se está fazendo
Prof. Dr. Francisco Prosdocimi BLAST Prof. Dr. Francisco Prosdocimi
BLAST Basic Local Alignment Search Tool Ferramenta de alinhamento mais utilizada no mundo Todo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes) Diz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas É um algoritmo de alinhamento simples, heurístico e local Alinha um seqüência de entrada contra uma base de dados desejada
Sub-programas BLAST Formato da Seqüência de Entrada Banco de dados Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos BLASTn Proteínas BLASTp BLASTx TBLASTn TBLASTtx
BLAST, funcionamento Heurístico Define um tamanho de palavra chamado seed (semente) Blastn = 11; Megablast = 28 Blastx = 3; Procura em seu banco de dados sequências com 100% de match da seed quando comparada com a query Alonga a extremidade da seed até onde o alinhamento seja “bom” Metodologia verdadeiramente rápida E-value: chance estatística de encontrar aquele ao alinhamento ao acaso, dado o tamanho da DB
Bases de dados BLAST Apresentam um formato especial As sequências no formato FASTA devem ser formatadas usando um programa especial (formatdb) Cria uma base de dados com todas as seeds possíveis e as sequências que as contém Dados da base de dados estão pré-computados (velocidade) O BLAST então pode comparar uma sequência FASTA de entrada com o banco de dados pronto >gi|188497754|ref|NP_000179.2| hexokinase 1 isoform HKI [Homo sapiens] MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKEMKNGLSRDFNPTATVKMLPTFVRS IPDGSEKGDFIALDLGGSSFRILRVQVNHEKNQNVHMESEVYDTPENIVHGSGSQLFDHVAECLGDFMEK RKIKDKKLPVGFTFSFPCQQSKIDEAILITWTKRFKASGVEGADVVKLLNKAIKKRGDYDANIVAVVNDT VGTMMTCGYDDQHCEVGLIIGTGTNACYMEELRHIDLVEGDEGRMCINTEWGAFGDDGSLEDIRTEFDRE IDRGSLNPGKQLFEKMVSGMYLGELVRLILVKMAKEGLLFEGRITPELLTRGKFNTSDVSAIEKNKEGLH NAKEILTRLGVEPSDDDCVSVQHVCTIVSFRSANLVAATLGAILNRLRDNKGTPRLRTTVGVDGSLYKTH PQYSRRFHKTLRRLVPDSDVRFLLSESGSGKGAAMVTAVAYRLAEQHRQIEETLAHFHLTKDMLLEVKKR MRAEMELGLRKQTHNNAVVKMLPSFVRRTPDGTENGDFLALDLGGTNFRVLLVKIRSGKKRTVEMHNKIY AIPIEIMQGTGEELFDHIVSCISDFLDYMGIKGPRMPLGFTFSFPCQQTSLDAGILITWTKGFKATDCVG HDVVTLLRDAIKRREEFDLDVVAVVNDTVGTMMTCAYEEPTCEVGLIVGTGSNACYMEEMKNVEMVEGDQ GQMCINMEWGAFGDNGCLDDIRTHYDRLVDEYSLNAGKQRYEKMISGMYLGEIVRNILIDFTKKGFLFRG QISETLKTRGIFETKFLSQIESDRLALLQVRAILQQLGLNSTCDDSILVKTVCGVVSRRAAQLCGAGMAA VVDKIRENRGLDRLNVTVGVDGTLYKLHPHFSRIMHQTVKELSPKCNVSFLLSEDGSGKGAALITAVGVR LRTEASS BlastDB Query and Subject
BLAST em LINUX Download dos programas executáveis BLAST através do NCBI Permite que o usuário monte sua própria base de dados específica para um projeto Permite parametrização detalhada $> formatdb –i cog.fasta –p T –n COG $> blastall –p blastp –i hexokinase.fasta –d COG –e 10 –m 10 –o hexokinase.blast.output –F T –v 500 –b 250 –M BLOSUM62
Programação dinâmica Algoritmos gulosos
Alinhamentos múltiplos Prof. Dr. Francisco Prosdocimi
What is a multiple alignment? conserved residues secondary structure conservation profile
Blocos conservados DbClustal Blocos conservados Domínios funcionais Sítios catalíticos de enzimas Assinaturas de famílias gênicas
Alinhamentos múltiplos Problema altamente complexo Teoria da complexidade de algoritmos O valor de O Problema NP-completo (NP-hard) Aumentando o número de sequências (ou o tamanho das sequências), o aumento no tempo de computação sobe exponencialmente Clustal, MAFFT, T-coffe, MUSCLE, DIALIGN
Alinhamentos múltiplos e homologia
Do alinhamento à filogenia Métodos fenéticos Montagem da matrix de distância Example in Clustalx : distance between 2 sequences = 1- No. identical residues No. aligned residues Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 - .17 - .59 .60 - .59 .59 .13 - .77 .77 .75 .75 - .81 .82 .73 .74 .80 - .87 .86 .86 .88 .93 .90 - 2 3 4 5 6 7 1 2 3 4 5 6 7
Produção da árvore Método fenético Vizinhos mais-próximos 2 3 1 4 5 6 Não considera a evolução de cada caráter (coluna no alinhamento) Produz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados Vizinhos mais-próximos Neighbor-joining Average neighbor Nearest neighbor Farthest neighbor Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 3 4 5 6 2 .081 .084 .055 .065 .226 .219 .398 .389 .442 .015 .061 .062
Conclusões O alinhamento de sequências e as técnicas para implementá-lo estão entre as mais importantes tarefas da bioinformática Existe uma limitação para a análise filogenética que vem do fato de os alinhamentos multiplos não serem rápidos ou ótimos O bioinformata deve conhecer as diferentes técnicas de alinhamento e saber aplicá-las corretamente