A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Alinhamentos e Busca de Similaridade Ariane Machado Lima.

Apresentações semelhantes


Apresentação em tema: "Alinhamentos e Busca de Similaridade Ariane Machado Lima."— Transcrição da apresentação:

1 Alinhamentos e Busca de Similaridade Ariane Machado Lima

2 Busca de identidade Identificar o que é determinada seqüência Ex.acabou de seqüenciar, seria contaminante? Outras fases de um projeto de seqüenciamento

3 Seqüenciamento shot-gun

4 Mascaramento de vetor

5 Montagem

6 Inferência de função a partir de similaridade

7 Nem sempre funciona...

8 Estrutura 3D de proteínas

9 2 seqüências cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat

10 Processo evolutivo

11

12 Similaridade (e não identidade) entre os aminoácidos

13 Evolução convergente CUIDADO: Duas seqüências similares e com a mesma função podem não ter o mesmo ancestral...

14 Homologia, paralogia e ortologia Homologia: 2 seqüências são homólogas se elas possuem uma seqüência ancestral comum Paralogia: homologia por duplicação Ortologia: homologia por especiação

15 Homologia, paralogia e ortologia Paralogia Ortologia

16 Se duas (ou mais) seqüências são parecidas: – elas podem ser homólogas – elas podem ter funções similares – elas podem ter a mesma estrutura Identidade, similaridade e homologia

17 Busca de similaridade Predição de genes Predição de função Predição de estrutura Inferência de árvores filogenéticas

18 Alinhamentos Pairwise: 2 seqüências Múltiplo: mais de 2 seqüências

19 Alinhamentos de 2 seqüências (pairwise) “Deixar 2 seqüências o mais parecidas possível” ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Ajustando as posições de suas letras, se necessário usando espaços:

20 ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15)

21 Sistema de scores Pontos para match (ex: +2) Penalidades para mismatch (ex: -1) Penalidades para gap – abertura (ex: -3) – extensão (ex: -1)

22 ROSAVERMELHA | AMOROSOVERME Identidade: 8% (1/12) SCORE: ??? ---ROSAVERMELHA ||| ||||| AMOROSOVERME--- Identidade: 53% (8/15) SCORE: ???

23 Identidade, similaridade e homologia Identidade Similaridade Homologia Tipo de Medida Quantitativa QUALITATIVA Sentido quantos idênticos quantos parecidos TEM ou NÃO TEM um ancestral comum

24 Tipos de alinhamentos Global Local Semi-global

25 Alinhamento global QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME---

26 Alinhamento global Aplicação: – comparar 2 proteínas (ex. para inferir estrutura secundária)

27 Alinhamento global Algoritmo Needleman-Wunsch Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA

28 Alinhamento local QUERIDA---ROSAVERMELHA |||| ||| ||||| QUEROUMAMOROSOVERME--- QUER |||| QUER ROSAVERME ||| ||||| ROSOVERME

29 Alinhamento local Aplicações: – Encontrar um gene em um genoma – Identificar éxons – Identificar domínios proteicos – Identificar possíveis homólogos em um banco de dados

30 Alinhamento Local Algoritmo Smith-Waterman Programas – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – bom para mascaramento – FASTA – BLAST – BLAT

31 Alinhamento semi-global ---ROSAVERMELHA ||| ||||| AMOROSOVERME---

32 Alinhamento semi-global Aplicação: montagem de genomas!

33 Alinhamento múltiplo

34 Resumindo Alinhamento pairwise – global – local – semi-global Alinhamento múltiplo (sempre global)

35 Voltando ao sistema de score... Match/mismatch pode ser substituído por – uma matriz 4x4 (nucleotídeos) – uma matriz 20x20 (aminoácidos)

36 Similaridade entre os aminoácidos

37 Matrizes de score (matrizes de substituição) q ij : probabilidade do aa i ser substituído pelo aa j p i : probabilidade do aa i m ij = log (q ij / p i p j ) = m ij M ij = 1/ log (q ij / p i p j ) = M ij

38 Como achar q ij, p i e p j ? Algumas matrizes: – PAMs – BLOSUMs Matrizes de score (matrizes de substitição)

39 Matrizes PAM de aminoácidos – Point Accepted Mutation Dayhoff, 1978 Processo: – Alinhamento de conjuntos de seqüências relacionadas (85% id) – Construção de árvores filogenéticas – Cálculo da freqüência de substituição de cada par de aa – Normalização das freqüências: 1% de mudança ~ 50 milhões de anos (PAM1)

40 Matrizes PAM de aminoácidos – Point Accepted Mutation Em um período de 2 PAMs, pode ter havido A  ?, e então ?  D Extrapolação: PAM2 = PAM1 x PAM1 PAMy = PAM1 x PAM1 x.... x PAM1 PAM120: 40% de identidade PAM250: 20% de identidade

41 PAM250 Diagonal Hidrofóbicos Hidrofílicos

42 Problemas das PAMs Inferida por um conjunto restrito de proteínas Extrapolação Muitas novas proteínas foram seqüênciadas desde 78...

43 Matrizes BLOSUM de aminoácidos Henikoff & Henikoff, 1992 Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS) Cálculo de freqüência de substituição de cada par de aa BLOSUMx: blocos de seqüências com no máximo x% de identidade Ex: BLOSUM62 e BLOSUM85

44 BLOSUM62 Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

45 PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: – PAMs – BLOSUMs Para encontrar alinhamentos mais longos e com menor similaridade: – PAMs – BLOSUMs mais baixas mais altas

46 Papel dos gaps Veremos na aula prática....

47 Significância de scores Scores e a distribuição de Gumbel P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

48 Significância de scores E-value é um número real não negativo Quanto menor...... melhor!!!! E-value depende de... E(S) = Kmne - S... por isso não existe número mágico

49 BLAST Basic Local Alignment Search Tool NCBI BLAST ou WU-BLAST Heurísticas

50 “Palavras” do BLAST (W) MLI LII MLIIKRDELVISWASHERE seqüência query IIK IKR KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE todas as palavras de tamanho 3 com sobreposição

51

52 Outros programas BLAST PSI-BLAST – Position-Specific Iterated BLAST: –busca iterativa a partir de seqüências encontradas PHI-BLAST – Pattern-Hit Initiated BLAST: –expressões regulares + alinhamento local nos matches MEGABLAST: –algoritmo guloso para acelerar buscas de seqüências altamente similares (até 10x)

53 BLAT – Blast Like Alignment Tool Mais rápido e mais preciso (para seqüências altamente similares) Aplicação: mapeamento de seqüências (ex: transcritos) Mantém um índice de todo o banco em memória (non-overlapping k-mers)

54 Formato FASTA >Identificador da seqüência GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG

55 Programas standalone Programas como Blast, BLAT e muuuuitos outros: – via web server – standalone (linha de comando) – Perl scripts!!!! netblast: linha de comando, mas executa remotamente

56

57 Similaridade de seqüências Aula Prática

58 Ex.1: Identidade e similaridade Qual é o melhor alinhamento? a) 100% (10/10) b) 91% (95/104) c) 74% (80/108) d) 53% (59/111)

59 Alinhamento global Needleman-Wunsch Programas: – needle (EMBOSS) – stretcher (EMBOSS) (demora mais, mas economiza memória) – FASTA Alinhamento múltiplo: – ClustalW – T-Coffee

60 Alinhamento local Smith-Waterman Programas – water (EMBOSS) – matcher (demora mais, mas economiza memória) – cross_match (swat) – FASTA – BLAST

61 Ex.2: needle Vamos alinhar as seqüências de uma hemoglobina humana e outra de camundongo

62 Ex.2: needle Vamos alinhar as seqüências de uma hemoglobina humana e outra de cavalo http://www.vision.ime.usp.br/~ariane/inverno2008/e x2

63 Ex.2: needle http://www.ebi.ac.uk/Tools/emboss/align/ http://www.vision.ime.usp.br/~ariane/inverno2008/ex2 – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

64 Ex.3: water http://www.ebi.ac.uk/emboss Vamos alinhar as seqüências do ex. 2 http://www.vision.ime.usp.br/~ariane/inverno2008/ex2 – Gaps default (10.0 ; 0.5) – Homework: Conservador (100.0 ; 10.0) Flexível (1.0 ; 0.1)

65 Ex.4: needle http://www.ebi.ac.uk/emboss Vamos alinhar as seqüências de um mRNA de hemoglobina de camundongo com seu locus genômico http://www.vision.ime.usp.br/~ariane/inverno2008/ex4 – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

66 Ex.5: water http://www.ebi.ac.uk/emboss Vamos alinhar as seqüências do exercício 4 http://www.vision.ime.usp.br/~ariane/inverno2008/ex4 – Gaps default (10.0 ; 0.5) – Conservador (100.0 ; 10.0) – Flexível (1.0 ; 0.1)

67 Ex.6 - Matrizes BLOSUM Usando a matriz de escore default BLOSUM62, você encontrou duas proteínas que divergiram bem recentemente. Se você quiser refinar seu alinhamento, que matriz você deveria usar (com número mais alto ou mais baixo)?

68 Ex. 7 - Score e E-value Ordene por relevância: a) Score = 155 bits (393), Expect = 4e-37 Identities = 79/150 (52%), Positives = 101/150 (67%), Gaps = 1/150 (0%) b) Score = 74.3 bits (181), Expect = 2e-12 Identities = 36/105 (34%), Positives = 57/105 (54%), Gaps = 0/105 (0%) c) Score = 347 bits (889), Expect = 1e-94 Identities = 167/167 (100%), Positives = 167/167 (100%), Gaps = 0/167 (0%) d) Score = 189 bits (480), Expect = 3e-47 Identities = 88/151 (58%), Positives = 114/151 (75%), Gaps = 1/151 (0%) e) Score = 89.7 bits (221), Expect = 4e-17 Identities = 52/127 (40%), Positives = 68/127 (53%), Gaps = 5/127 (3%)

69 Ex. 8 - BLAST e filtros Vamos buscar seqüências similares a http://www.vision.ime.usp.br/~ariane/inverno2008/ex8 Qual um programa apropriado? 1) Ligue os filtros 2) Desligue os filtros

70 Ex. 9 - BLASTP Busque no SWISSPROT seqüências similares à hemoglobina de camundongo http://www.vision.ime.usp.br/~ariane/inverno2008/ex2

71 Ex. 10 - ? Você seqüenciou uma seqüência de DNA – Agora você quer encontrar seqüências similares com alta qualidade de anotação – Assim, você quer começar fazendo uma busca no SWISSPROT Que programa usar? http://www.vision.ime.usp.br/~ariane/inverno2008/ex10

72 Ex. 11 - ? Você tem uma seqüência de proteína (hemoglobina de camundongo) e quer saber em qual chromossomo está o gene desta proteína. Qual programa usar? http://www.vision.ime.usp.br/~ariane/inverno2008/ex9

73 Ex: 12 - Seqüências de proteína x DNA Seqüências de DNA são menos conservadas que seqüências de aminoácidos, que por sua vez são menos conservadas que a estrutura de uma proteína Se você quer inferir função, qual das duas usar? Se você quer detalhes mais finos (ex: distância evolutiva), qual usar?

74 Ex.13 - BLAT Útil para buscar seqüências altamente similares (de forma mais rápida) Utilize a seqüência de hemoglobina de camundongo para fazer seu mapeamento no genoma de camundongo http://www.vision.ime.usp.br/~ariane/inverno2008/ex4

75 Ex.14 - BLAT Dá para fazer o mesmo com seqüência de proteína? Utilize a seqüência de hemoglobina de proteína de camundongo para fazer seu mapeamento no genoma de camundongo http://www.vision.ime.usp.br/~ariane/inverno2008/ex2

76 Ex. 14 - PSI-BLAST Você se pergunta se há parentes próximos da família de antígenos de membrana no SWISSPROT. Para buscá-las, você decide usar o PSI-BLAST que usa seqüências similares à sua seqüência query (antígeno de membrana) para obter uma descrição mais flexível dessa família. http://www.vision.ime.usp.br/~ariane/inverno2008/ex14

77 Ex. 15 - PHI-BLAST Além das vantagens do PSI-BLAST, você também quer definir um “padrão” que as seqüências devem ter http://www.vision.ime.usp.br/~ariane/inverno2008/ex15

78 Referências Caprichado: Mount - http://www.bioinformaticsonline.org/ Básico: O'Reilly - http://www.oreilly.com/catalog/bioskills/ BLAST: http://www.oreilly.com/catalog/blast/


Carregar ppt "Alinhamentos e Busca de Similaridade Ariane Machado Lima."

Apresentações semelhantes


Anúncios Google