Alinhamentos e Busca de Similaridade Ariane Machado Lima.

Alinhamentos e Busca de Similaridade Ariane Machado Lima

Busca de identidade Identificar o que é determinada seqüência Ex.acabou de seqüenciar, seria contaminante? Outras fases de um projeto de seqüenciamento

Seqüenciamento shot-gun

Mascaramento de vetor

Montagem

Inferência de função a partir de similaridade

Nem sempre funciona...

Estrutura 3D de proteínas

2 seqüências cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat

Processo evolutivo

Similaridade (e não identidade) entre os aminoácidos

Evolução convergente CUIDADO: Duas seqüências similares e com a mesma função podem não ter o mesmo ancestral...

Homologia, paralogia e ortologia Homologia: 2 seqüências são homólogas se elas possuem uma seqüência ancestral comum Paralogia: homologia por duplicação Ortologia: homologia por especiação

Homologia, paralogia e ortologia Paralogia Ortologia

Se duas (ou mais) seqüências são parecidas: – elas podem ser homólogas – elas podem ter funções similares – elas podem ter a mesma estrutura Identidade, similaridade e homologia

Busca de similaridade Predição de genes Predição de função Predição de estrutura Inferência de árvores filogenéticas

Alinhamentos Pairwise: 2 seqüências Múltiplo: mais de 2 seqüências

Alinhamentos de 2 seqüências (pairwise) “Deixar 2 seqüências o mais parecidas possível” ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Ajustando as posições de suas letras, se necessário usando espaços:

ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15)

Sistema de scores Pontos para match (ex: +2) Penalidades para mismatch (ex: -1) Penalidades para gap – abertura (ex: -3) – extensão (ex: -1)

ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) SCORE: ??? ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) SCORE: ???

Identidade, similaridade e homologia Identidade Similaridade Homologia Tipo de Medida Quantitativa QUALITATIVA Sentido quantos idênticos quantos parecidos TEM ou NÃO TEM um ancestral comum

Tipos de alinhamentos Global Local Semi-global

Alinhamento global QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME---

Alinhamento global Aplicação: – comparar 2 proteínas (ex. para inferir estrutura secundária)

Alinhamento global Algoritmo Needleman-Wunsch Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA

Alinhamento local QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME--- QUER |||| QUER ROSAVERME ||| ||||| ROSOVERME

Alinhamento local Aplicações: – Encontrar um gene em um genoma – Identificar éxons – Identificar domínios proteicos – Identificar possíveis homólogos em um banco de dados

Alinhamento Local Algoritmo Smith-Waterman Programas – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – bom para mascaramento – FASTA – BLAST – BLAT

Alinhamento semi-global ---ROSAVERMELHA ||| ||||| AMOROSOVERME---

Alinhamento semi-global Aplicação: montagem de genomas!

Alinhamento múltiplo

Resumindo Alinhamento pairwise – global – local – semi-global Alinhamento múltiplo (sempre global)

Voltando ao sistema de score... Match/mismatch pode ser substituído por – uma matriz 4x4 (nucleotídeos) – uma matriz 20x20 (aminoácidos)

Similaridade entre os aminoácidos

Matrizes de score (matrizes de substituição) q ij : probabilidade do aa i ser substituído pelo aa j p i : probabilidade do aa i m ij = log (q ij / p i p j ) = m ij M ij = 1/ log (q ij / p i p j ) = M ij

Como achar q ij, p i e p j ? Algumas matrizes: – PAMs – BLOSUMs Matrizes de score (matrizes de substitição)

Matrizes PAM de aminoácidos – Point Accepted Mutation Dayhoff, 1978 Processo: – Alinhamento de conjuntos de seqüências relacionadas (85% id) – Construção de árvores filogenéticas – Cálculo da freqüência de substituição de cada par de aa – Normalização das freqüências: 1% de mudança ~ 50 milhões de anos (PAM1)

Matrizes PAM de aminoácidos – Point Accepted Mutation Em um período de 2 PAMs, pode ter havido A  ?, e então ?  D Extrapolação: PAM2 = PAM1 x PAM1 PAMy = PAM1 x PAM1 x.... x PAM1 PAM120: 40% de identidade PAM250: 20% de identidade

PAM250 Diagonal Hidrofóbicos Hidrofílicos

Problemas das PAMs Inferida por um conjunto restrito de proteínas Extrapolação Muitas novas proteínas foram seqüênciadas desde 78...

Matrizes BLOSUM de aminoácidos Henikoff & Henikoff, 1992 Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS) Cálculo de freqüência de substituição de cada par de aa BLOSUMx: blocos de seqüências com no máximo x% de identidade Ex: BLOSUM62 e BLOSUM85

BLOSUM62 Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: – PAMs – BLOSUMs Para encontrar alinhamentos mais longos e com menor similaridade: – PAMs – BLOSUMs mais baixas mais altas

Papel dos gaps Veremos na aula prática....

Significância de scores Scores e a distribuição de Gumbel P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

Significância de scores E-value é um número real não negativo Quanto menor...... melhor!!!! E-value depende de... E(S) = Kmne - S... por isso não existe número mágico

BLAST Basic Local Alignment Search Tool NCBI BLAST ou WU-BLAST Heurísticas

“Palavras” do BLAST (W) MLI LII MLIIKRDELVISWASHERE seqüência query IIK IKR KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE todas as palavras de tamanho 3 com sobreposição

Outros programas BLAST PSI-BLAST – Position-Specific Iterated BLAST: –busca iterativa a partir de seqüências encontradas PHI-BLAST – Pattern-Hit Initiated BLAST: –expressões regulares + alinhamento local nos matches MEGABLAST: –algoritmo guloso para acelerar buscas de seqüências altamente similares (até 10x)

BLAT – Blast Like Alignment Tool Mais rápido e mais preciso (para seqüências altamente similares) Aplicação: mapeamento de seqüências (ex: transcritos) Mantém um índice de todo o banco em memória (non-overlapping k-mers)

Formato FASTA >Identificador da seqüência GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG

Programas standalone Programas como Blast, BLAT e muuuuitos outros: – via web server – standalone (linha de comando) – Perl scripts!!!! netblast: linha de comando, mas executa remotamente

Similaridade de seqüências Aula Prática

Ex.1: Identidade e similaridade Qual é o melhor alinhamento? a) 100% (10/10) b) 91% (95/104) c) 74% (80/108) d) 53% (59/111)

Alinhamento global Needleman-Wunsch Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA Alinhamento múltiplo: – ClustalW – T-Coffee

Alinhamento local Smith-Waterman Programas – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – FASTA – BLAST

Ex.2: needle Vamos alinhar as seqüências de uma hemoglobina humana e outra de camundongo

Ex.2: needle Vamos alinhar as seqüências de uma hemoglobina humana e outra de cavalo http://www.vision.ime.usp.br/~ariane/inverno2008/e x2

Ex.2: needle http://www.ebi.ac.uk/Tools/emboss/align/ http://www.vision.ime.usp.br/~ariane/inverno2008/ex2 – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

Ex.3: water http://www.ebi.ac.uk/emboss Vamos alinhar as seqüências do ex. 2 http://www.vision.ime.usp.br/~ariane/inverno2008/ex2 – Gaps default (10.0 ; 0.5) – Homework: Conservador (100.0 ; 10.0) Flexível (1.0 ; 0.1)

Ex.4: needle http://www.ebi.ac.uk/emboss Vamos alinhar as seqüências de um mRNA de hemoglobina de camundongo com seu locus genômico http://www.vision.ime.usp.br/~ariane/inverno2008/ex4 – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

Ex.5: water http://www.ebi.ac.uk/emboss Vamos alinhar as seqüências do exercício 4 http://www.vision.ime.usp.br/~ariane/inverno2008/ex4 – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

Ex.6 - Matrizes BLOSUM Usando a matriz de escore default BLOSUM62, você encontrou duas proteínas que divergiram bem recentemente. Se você quiser refinar seu alinhamento, que matriz você deveria usar (com número mais alto ou mais baixo)?

Ex. 7 - Score e E-value Ordene por relevância: a) Score = 155 bits (393), Expect = 4e-37 Identities = 79/150 (52%), Positives = 101/150 (67%), Gaps = 1/150 (0%) b) Score = 74.3 bits (181), Expect = 2e-12 Identities = 36/105 (34%), Positives = 57/105 (54%), Gaps = 0/105 (0%) c) Score = 347 bits (889), Expect = 1e-94 Identities = 167/167 (100%), Positives = 167/167 (100%), Gaps = 0/167 (0%) d) Score = 189 bits (480), Expect = 3e-47 Identities = 88/151 (58%), Positives = 114/151 (75%), Gaps = 1/151 (0%) e) Score = 89.7 bits (221), Expect = 4e-17 Identities = 52/127 (40%), Positives = 68/127 (53%), Gaps = 5/127 (3%)

Ex. 8 - BLAST e filtros Vamos buscar seqüências similares a http://www.vision.ime.usp.br/~ariane/inverno2008/ex8 Qual um programa apropriado? 1) Ligue os filtros 2) Desligue os filtros

Ex. 9 - BLASTP Busque no SWISSPROT seqüências similares à hemoglobina de camundongo http://www.vision.ime.usp.br/~ariane/inverno2008/ex2

Ex. 10 - ? Você seqüenciou uma seqüência de DNA – Agora você quer encontrar seqüências similares com alta qualidade de anotação – Assim, você quer começar fazendo uma busca no SWISSPROT Que programa usar? http://www.vision.ime.usp.br/~ariane/inverno2008/ex10

Ex. 11 - ? Você tem uma seqüência de proteína (hemoglobina de camundongo) e quer saber em qual chromossomo está o gene desta proteína. Qual programa usar? http://www.vision.ime.usp.br/~ariane/inverno2008/ex9

Ex: 12 - Seqüências de proteína x DNA Seqüências de DNA são menos conservadas que seqüências de aminoácidos, que por sua vez são menos conservadas que a estrutura de uma proteína Se você quer inferir função, qual das duas usar? Se você quer detalhes mais finos (ex: distância evolutiva), qual usar?

Ex.13 - BLAT Útil para buscar seqüências altamente similares (de forma mais rápida) Utilize a seqüência de hemoglobina de camundongo para fazer seu mapeamento no genoma de camundongo http://www.vision.ime.usp.br/~ariane/inverno2008/ex4

Ex.14 - BLAT Dá para fazer o mesmo com seqüência de proteína? Utilize a seqüência de hemoglobina de proteína de camundongo para fazer seu mapeamento no genoma de camundongo http://www.vision.ime.usp.br/~ariane/inverno2008/ex2

Ex. 14 - PSI-BLAST Você se pergunta se há parentes próximos da família de antígenos de membrana no SWISSPROT. Para buscá-las, você decide usar o PSI-BLAST que usa seqüências similares à sua seqüência query (antígeno de membrana) para obter uma descrição mais flexível dessa família. http://www.vision.ime.usp.br/~ariane/inverno2008/ex14

Ex. 15 - PHI-BLAST Além das vantagens do PSI-BLAST, você também quer definir um “padrão” que as seqüências devem ter http://www.vision.ime.usp.br/~ariane/inverno2008/ex15

Referências Caprichado: Mount - http://www.bioinformaticsonline.org/ Básico: O'Reilly - http://www.oreilly.com/catalog/bioskills/ BLAST: http://www.oreilly.com/catalog/blast/

Alinhamentos e Busca de Similaridade Ariane Machado Lima.

Apresentações semelhantes

Apresentação em tema: "Alinhamentos e Busca de Similaridade Ariane Machado Lima."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Alinhamentos e Busca de Similaridade Ariane Machado Lima.

Apresentações semelhantes

Apresentação em tema: "Alinhamentos e Busca de Similaridade Ariane Machado Lima."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback