Alinhamentos e Busca de Similaridade Ariane Machado Lima
Busca de identidade Identificar o que é determinada seqüência Ex.acabou de seqüenciar, seria contaminante? Outras fases de um projeto de seqüenciamento
Seqüenciamento shot-gun
Mascaramento de vetor
Montagem
Inferência de função a partir de similaridade
Nem sempre funciona...
Estrutura 3D de proteínas
2 seqüências cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat
Processo evolutivo
Similaridade (e não identidade) entre os aminoácidos
Evolução convergente CUIDADO: Duas seqüências similares e com a mesma função podem não ter o mesmo ancestral...
Homologia, paralogia e ortologia Homologia: 2 seqüências são homólogas se elas possuem uma seqüência ancestral comum Paralogia: homologia por duplicação Ortologia: homologia por especiação
Homologia, paralogia e ortologia Paralogia Ortologia
Se duas (ou mais) seqüências são parecidas: – elas podem ser homólogas – elas podem ter funções similares – elas podem ter a mesma estrutura Identidade, similaridade e homologia
Busca de similaridade Predição de genes Predição de função Predição de estrutura Inferência de árvores filogenéticas
Alinhamentos Pairwise: 2 seqüências Múltiplo: mais de 2 seqüências
Alinhamentos de 2 seqüências (pairwise) “Deixar 2 seqüências o mais parecidas possível” ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Ajustando as posições de suas letras, se necessário usando espaços:
ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15)
Sistema de scores Pontos para match (ex: +2) Penalidades para mismatch (ex: -1) Penalidades para gap – abertura (ex: -3) – extensão (ex: -1)
ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) SCORE: ??? ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) SCORE: ???
Identidade, similaridade e homologia Identidade Similaridade Homologia Tipo de Medida Quantitativa QUALITATIVA Sentido quantos idênticos quantos parecidos TEM ou NÃO TEM um ancestral comum
Tipos de alinhamentos Global Local Semi-global
Alinhamento global QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME---
Alinhamento global Aplicação: – comparar 2 proteínas (ex. para inferir estrutura secundária)
Alinhamento global Algoritmo Needleman-Wunsch Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA
Alinhamento local QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME--- QUER |||| QUER ROSAVERME ||| ||||| ROSOVERME
Alinhamento local Aplicações: – Encontrar um gene em um genoma – Identificar éxons – Identificar domínios proteicos – Identificar possíveis homólogos em um banco de dados
Alinhamento Local Algoritmo Smith-Waterman Programas – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – bom para mascaramento – FASTA – BLAST – BLAT
Alinhamento semi-global ---ROSAVERMELHA ||| ||||| AMOROSOVERME---
Alinhamento semi-global Aplicação: montagem de genomas!
Alinhamento múltiplo
Resumindo Alinhamento pairwise – global – local – semi-global Alinhamento múltiplo (sempre global)
Voltando ao sistema de score... Match/mismatch pode ser substituído por – uma matriz 4x4 (nucleotídeos) – uma matriz 20x20 (aminoácidos)
Similaridade entre os aminoácidos
Matrizes de score (matrizes de substituição) q ij : probabilidade do aa i ser substituído pelo aa j p i : probabilidade do aa i m ij = log (q ij / p i p j ) = m ij M ij = 1/ log (q ij / p i p j ) = M ij
Como achar q ij, p i e p j ? Algumas matrizes: – PAMs – BLOSUMs Matrizes de score (matrizes de substitição)
Matrizes PAM de aminoácidos – Point Accepted Mutation Dayhoff, 1978 Processo: – Alinhamento de conjuntos de seqüências relacionadas (85% id) – Construção de árvores filogenéticas – Cálculo da freqüência de substituição de cada par de aa – Normalização das freqüências: 1% de mudança ~ 50 milhões de anos (PAM1)
Matrizes PAM de aminoácidos – Point Accepted Mutation Em um período de 2 PAMs, pode ter havido A ?, e então ? D Extrapolação: PAM2 = PAM1 x PAM1 PAMy = PAM1 x PAM1 x.... x PAM1 PAM120: 40% de identidade PAM250: 20% de identidade
PAM250 Diagonal Hidrofóbicos Hidrofílicos
Problemas das PAMs Inferida por um conjunto restrito de proteínas Extrapolação Muitas novas proteínas foram seqüênciadas desde 78...
Matrizes BLOSUM de aminoácidos Henikoff & Henikoff, 1992 Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS) Cálculo de freqüência de substituição de cada par de aa BLOSUMx: blocos de seqüências com no máximo x% de identidade Ex: BLOSUM62 e BLOSUM85
BLOSUM62 Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: A R N D C Q E G H I L K M F P S T W Y V B Z X * A R N D C Q E G H I L K M F P S T W Y V B Z X *
PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: – PAMs – BLOSUMs Para encontrar alinhamentos mais longos e com menor similaridade: – PAMs – BLOSUMs mais baixas mais altas
Papel dos gaps Veremos na aula prática....
Significância de scores Scores e a distribuição de Gumbel P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases
Significância de scores E-value é um número real não negativo Quanto menor melhor!!!! E-value depende de... E(S) = Kmne - S... por isso não existe número mágico
BLAST Basic Local Alignment Search Tool NCBI BLAST ou WU-BLAST Heurísticas
“Palavras” do BLAST (W) MLI LII MLIIKRDELVISWASHERE seqüência query IIK IKR KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE todas as palavras de tamanho 3 com sobreposição
Outros programas BLAST PSI-BLAST – Position-Specific Iterated BLAST: –busca iterativa a partir de seqüências encontradas PHI-BLAST – Pattern-Hit Initiated BLAST: –expressões regulares + alinhamento local nos matches MEGABLAST: –algoritmo guloso para acelerar buscas de seqüências altamente similares (até 10x)
BLAT – Blast Like Alignment Tool Mais rápido e mais preciso (para seqüências altamente similares) Aplicação: mapeamento de seqüências (ex: transcritos) Mantém um índice de todo o banco em memória (non-overlapping k-mers)
Formato FASTA >Identificador da seqüência GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG
Programas standalone Programas como Blast, BLAT e muuuuitos outros: – via web server – standalone (linha de comando) – Perl scripts!!!! netblast: linha de comando, mas executa remotamente
Similaridade de seqüências Aula Prática
Ex.1: Identidade e similaridade Qual é o melhor alinhamento? a) 100% (10/10) b) 91% (95/104) c) 74% (80/108) d) 53% (59/111)
Alinhamento global Needleman-Wunsch Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA Alinhamento múltiplo: – ClustalW – T-Coffee
Alinhamento local Smith-Waterman Programas – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – FASTA – BLAST
Ex.2: needle Vamos alinhar as seqüências de uma hemoglobina humana e outra de camundongo
Ex.2: needle Vamos alinhar as seqüências de uma hemoglobina humana e outra de cavalo x2
Ex.2: needle – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)
Ex.3: water Vamos alinhar as seqüências do ex. 2 – Gaps default (10.0 ; 0.5) – Homework: Conservador (100.0 ; 10.0) Flexível (1.0 ; 0.1)
Ex.4: needle Vamos alinhar as seqüências de um mRNA de hemoglobina de camundongo com seu locus genômico – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)
Ex.5: water Vamos alinhar as seqüências do exercício 4 – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)
Ex.6 - Matrizes BLOSUM Usando a matriz de escore default BLOSUM62, você encontrou duas proteínas que divergiram bem recentemente. Se você quiser refinar seu alinhamento, que matriz você deveria usar (com número mais alto ou mais baixo)?
Ex. 7 - Score e E-value Ordene por relevância: a) Score = 155 bits (393), Expect = 4e-37 Identities = 79/150 (52%), Positives = 101/150 (67%), Gaps = 1/150 (0%) b) Score = 74.3 bits (181), Expect = 2e-12 Identities = 36/105 (34%), Positives = 57/105 (54%), Gaps = 0/105 (0%) c) Score = 347 bits (889), Expect = 1e-94 Identities = 167/167 (100%), Positives = 167/167 (100%), Gaps = 0/167 (0%) d) Score = 189 bits (480), Expect = 3e-47 Identities = 88/151 (58%), Positives = 114/151 (75%), Gaps = 1/151 (0%) e) Score = 89.7 bits (221), Expect = 4e-17 Identities = 52/127 (40%), Positives = 68/127 (53%), Gaps = 5/127 (3%)
Ex. 8 - BLAST e filtros Vamos buscar seqüências similares a Qual um programa apropriado? 1) Ligue os filtros 2) Desligue os filtros
Ex. 9 - BLASTP Busque no SWISSPROT seqüências similares à hemoglobina de camundongo
Ex ? Você seqüenciou uma seqüência de DNA – Agora você quer encontrar seqüências similares com alta qualidade de anotação – Assim, você quer começar fazendo uma busca no SWISSPROT Que programa usar?
Ex ? Você tem uma seqüência de proteína (hemoglobina de camundongo) e quer saber em qual chromossomo está o gene desta proteína. Qual programa usar?
Ex: 12 - Seqüências de proteína x DNA Seqüências de DNA são menos conservadas que seqüências de aminoácidos, que por sua vez são menos conservadas que a estrutura de uma proteína Se você quer inferir função, qual das duas usar? Se você quer detalhes mais finos (ex: distância evolutiva), qual usar?
Ex.13 - BLAT Útil para buscar seqüências altamente similares (de forma mais rápida) Utilize a seqüência de hemoglobina de camundongo para fazer seu mapeamento no genoma de camundongo
Ex.14 - BLAT Dá para fazer o mesmo com seqüência de proteína? Utilize a seqüência de hemoglobina de proteína de camundongo para fazer seu mapeamento no genoma de camundongo
Ex PSI-BLAST Você se pergunta se há parentes próximos da família de antígenos de membrana no SWISSPROT. Para buscá-las, você decide usar o PSI-BLAST que usa seqüências similares à sua seqüência query (antígeno de membrana) para obter uma descrição mais flexível dessa família.
Ex PHI-BLAST Além das vantagens do PSI-BLAST, você também quer definir um “padrão” que as seqüências devem ter
Referências Caprichado: Mount - Básico: O'Reilly - BLAST: