A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Alinhamento de sequências

Apresentações semelhantes


Apresentação em tema: "Alinhamento de sequências"— Transcrição da apresentação:

1 Alinhamento de sequências
Almir R. Pepato

2 Homologia primária e secundária
1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes – codificação dos caracteres e seus estados- homologia primária sensu Pinna, 19910) 2- Busca do esquema de relações filogenéticas ótima segundo algum critério, levando a proposição de hipóteses filogenéticas. De acordo com a topologia obtida caracteres codificados sob o mesmo estado podem se revelar verdadeiras sinapomorfias ou homoplasias (homologia secundária sensu Pinna, 1990).

3 O problema da homologia no que se refere às sequências de nucleotídeos
A rose is a rose is a rose is a rose is a rose Gertrude Stein A cytosine is a cytosine, is a cytosine, is a cytosine...

4 O problema da homologia: alinhamento

5 Alinhamento como problema informacional
Custos altos para substituições : TCAG-ACG-ATTG | | | | | | | TC-GGA- GC-T- G 0 mis 7 mat 6 gaps 2. Custos altos para as inserções/deleções : TCAGACGATTG | | | | TCGGAGCTG–- 5 mis 4 mat 2 gaps A maior parte dos programas usa um sistema de custos para substituições, introdução de inserções/deleções e outros eventos. Como a enumeração/avaliação de todas as possibilidades seria muito custosa, os programas usam o recurso da programação dinâmica como com o algoritmo de Needleman & Wunch.

6 Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) i,j * A T G C -1 -2 -3 -4 -5 X Preenchendo a matriz: Substituição= -1 gap= -1 Regra: Fij = max(Fi − 1,j − 1 + Sij, Fi,j − 1 + gap, Fi − 1,j + gap) Para preencher a casa, X= Fij = max(0 + 0, -1-1, -1-1) = 0

7 Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) I,j * A T G C -1 -2 -3 -4 -5 X Preenchendo a matriz: Substituição= -1 gap= -1 Regra: Fij = max(Fi − 1,j − 1 + Si,j), Fi,j − 1 + gap, Fi − 1,j + gap) Para preencher a casa, X= Fij = max(-2 + 0, -3-1, -3-1) = -2

8 Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) I,j * A T G C -1 -2 -3 -4 -5 Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento

9 Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) I,j * A T G C -1 -2 -3 -4 -5 Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento Caminho 1 (1 sub, 1 gap): AA T G C | | | | A G- G C

10 Alinhamento como problema informacional
Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970) I,j * A T G C -1 -2 -3 -4 -5 Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento Caminho 1 (1 sub, 1 gap): AA T G C | | | | A- G G C Caminho 2 (1 sub., 1 gap): AA T G C | | | | AG G-- C

11 Alinhamentos de múltiplas sequências
Soma com pesagem de Pares WSP (Weighted Sum of Pairs): WSP= ∑ ∑ Wij Dij Complexidade informacional: O (NM): Proporcional ao comprimento da sequência elevado ao número de sequências Poucos programas implementam (BaliBase, FastMSA), pois pode ser usado para poucas sequências! i j

12 Clustal Método Heurístico: Não garante que todo o espaço de respostas ao problema será examinado. Passos: 1- Faz um alinhamento empregando uma função de custos para todos os possíveis pares de sequências. 2- A partir daí monta uma matriz de distâncias para todas as sequências

13 Clustal 3-Daí deriva-se uma árvore de similaridade. Para cada nó da árvore é produzido um alinhamento aos pares, que produz uma sequência de consenso para o próximo alinhamento. Note que os gaps introduzidos nas sequências que são alinhadas nas primeiras etapas não podem ser modificados!

14 T-Coffe

15 T-Coffe

16 Mafft e Muscle

17 Muscle

18 Malign, POY e Otimização Direta
O POY é um programa que implementa uma série de algoritmos para inferência filogenética, a maior parte dos quais baseado na parcimônia como critério de otimização. A Otimização Direta consiste na otimização dos caracteres das sequências diretamente, sem o passo preliminar de inferência das homologias primárias

19 Malign, POY e Otimização Direta
Uma análise empregando a otimização direta geralmente inclui: 1- O teste do maior número possível de combinações de valores de custo, já que como qualquer outro método automático, o resultado é dependente dele. 2- A presença/ausência de clados nos diversos valores de custo é compilada. A assim chamada análise de sensibilidade é vista como uma medida da estabilidade dos clados. 3- Um regime de custos ótimo é escolhido de forma a minimizar a incongruência entre as partições de dados. A incongruência é medida através de índices como ILD, RILD, TILD etc...

20 Malign, POY e Otimização Direta
Custos ILD 1:1:1 0.0286 1:2:1 0.0372 1:4:1 0.0354 1:8:1 0.0307 2:1:1 0.0424 2:2:1 0.0335 2:4:1 0.0352 2:8:1 0.0326 4:1:1 0.0463 4:2:1 0.0493 4:4:1 0.0444 4:8:1 0.0366 ILD= (.Comp.comb -ΣComp. ind.)/ Comp.comb

21 Malign, POY e Otimização Direta

22 BAli-Phy é um programa que estima árvores filogenéticas a partir de dados não alinhados quando o alinhamento é incerto. Ao invés de condicionar a inferência a um único alinhamento, ele dá conta da incerteza relacionada integrando sobre todos os alinhamentos possíveis . árvores Probabilidades conjuntas Comprimentos dos ramos Probabilidades marginais

23 BAli-Phy é um programa que estima árvores filogenéticas a partir de dados não alinhados quando o alinhamento é incerto. Ao invés de condicionar a inferência a um único alinhamento, ele dá conta da incerteza relacionada integrando sobre todos os alinhamentos possíveis .

24 Alinhamento como problema biológico
Mas será mesmo o alinhamento um problema informacional? Não pode ser tratado como um problema biológico onde a homologia é inferida levando em conta informações relacionadas a processos biológicos?

25 Alinhamento como problema biológico

26 Homologia molecular: sumário
As inserções/deleções são inferências feitas durante o estabelecimento de relações de homologia. Tem dois impactos sobre a inferência filogenética: levam a introdução de uma certa margem de erro, intrínseca a qualquer inferência por um lado, e informação filogenética adicional por outro. Como nas análises morfológicas, o estabelecimento das homologias primárias e a construção da matriz é o alicerce sobre o qual a inferência é assentado. Pouca atenção tem sido dada a esse aspecto, no entanto. Há debate na literatura sobre cada um dos métodos descritos nessa aula. Algo mandatário, no entanto, é que as hipóteses de homologia fiquem tão explicita ao leitor de um artigo de sistemática molecular quanto o que ficaria a um que use caracteres morfológicos.


Carregar ppt "Alinhamento de sequências"

Apresentações semelhantes


Anúncios Google