Métodos geométricos (baseados em distância)

Slides:



Advertisements
Apresentações semelhantes
Vetores II.
Advertisements

Análise de Decisão Aplicada a Gerência Empresarial – UVA Grafos - V
ESTIMAÇÃO.
Elisabete Longo Isabel Branco Árvores abrangentes.
Mineração de Dados Avaliação de Classificadores
FOLHA DE CÁLCULO 1.
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 9.
Ludwig Krippahl, 2008 Programação para as Ciências Experimentais 2007/8 Teórica 11.
Equação de uma circunferência
Máxima Verossimilhança ou Maximum Likelihood
Máxima Parcimônia.
FILOGENIA DAS ANGIOSPERMAS: PRIMEIROS PASSOS
Acompanhamento de Cenas com Calibração Automática de Câmeras
KRIGAGEM INDICATIVA No processo básico da krigagem, a estimativa é feita para determinar um valor médio em um local não amostrado. Pode-se, porém, fazer.
THOBER CORADI DETOFENO, MSC. Aula 07
EQUAÇÕES POLINOMIAIS Prof. Marlon.
Lógica de Programação Módulo II
Algoritmo Evolutivo para Filogenia Palestrante: Alexandre C. B. Delbem Instituto de Ciências Matemáticas e da Computação Universidade de São Paulo ICMC-USP.
Evolução Molecular Metodologias de Análise
for Deep Precambrian Divergence
Adaptado de Arnaldo William Pinto (Dom Bosco 2008)
Introdução • Ponto A, B, C,... Reta r, s, p,... Plano ß,Ω,...
Métodos de distância e modelos de evolução molecular
Previsão de consumos a curto prazo
Buscas em Grafos Prof. André Renato 1º Semestre/2012
Meta - heurísticas Prof. Aurora
Seleção de modelos e miscelânea
Parcimônia e medidas de suporte
Parte D Inversão de dados
Alexandre Xavier Falcão & David Menotti
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Tópicos Avançados de Base de Dados
DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO DA AMOSTRA OU
DISTRIBUIÇÃO AMOSTRAL DA MÉDIA DA AMOSTRA OU DISTRIBUIÇÃO AMOSTRAL DE
Evolução Molecular O uso de macromoléculas como documentos históricos.
GEOMETRIA AXIOMÁTICA, SEGMENTOS DE RETA
Problema do menor Caminho
O método dos gradientes conjugados
Redes ADSA António Câmara.
Cálculo Numérico / Métodos Numéricos
Inferência Estatística
2 Probabilidade Albertazzi.Probabilidade. (2.1).
Teste de Hipótese.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Análise de Agrupamentos
Uma Visão Geral Sobre Reconstrução Filogenética
Alinhamento de sequências
Formas de calibração 1º - Padrões externos É a forma mais utilizada de calibração. São utilizadas soluções contendo concentrações conhecidas do analito.
Análise Computacional de Seqüências Nucleotídicas e Protéicas
Geometria aula 3.
Algoritmos para Obtenção de Árvore Geradora Mínima
Ludwig Krippahl, 2009 Programação para as Ciências Experimentais 2008/9 Teórica 12.
Alinhamento de sequências Almir R. Pepato. Homologia primária e secundária 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes.
Modelos de evolução molecular
GEOMETRIA FRACTAL O JOGO DO CAOS.
Principais algoritmos de alinhamento de sequências genéticas
História da Criptografia
UNIDADE 2 – ZEROS DAS FUNÇÕES REAIS
ME623A Planejamento e Pesquisa
Revisão de conceitos relacionados à inferência filogenética
1 Algoritmos Genéticos em Otimização de Planejamento l Planejamento ocorre em todas as atividades e envolve: PLANEJAMENTO Recursos Tarefas Tempo Objetivos.
CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática
Hidden Markov Models 2 de maio de K … 1 2 K … 1 2 K … … … … 1 2 K … x1x1 x2x2 x3x3 xKxK 2 1 K 2.
Validando árvoresConstruindo árvoresModelos evolutivosEncontrando homologiasAs árvoresO problema 1 Construindo filogenias Coletar os dados Localizar homologias.
Aula X: Curva ROC e teste de hipóteses M-ário
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Conceitos.
Métodos Populacionais. Mantém um conjunto de soluções candidatas e não só uma solução Cada solução será modificada e avaliada Hill-Climbing paralelos.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
[SCC0271] Introdução à Bioinformática Arvores Filogenéticas Estagiário PAE: Pedro Shiguihara-Juárez Professor: Dilvan de Abreu Moreira Instituto de Ciências.
Transcrição da apresentação:

Métodos geométricos (baseados em distância)

Cálculo de Distâncias As distâncias evolutivas são calculadas para todos os pares de taxa (ou OTUs) e a árvore é construída considerando as relações entre estes valores

www.megasofware.net

Estatísticas das Seqüências Conteúdo de bases Distância das sequências par a par transiçoes/transversões (0,5) Ou 2x trans/transv (1,0) Todas estas estatísticas são levadas em conta na escolha do modelo de substituição a ser utilizado

Cálculo de Distâncias Distância p

Distância p Se as seqüências forem muito distintas, p pode ser subestimado por homoplasias Com isso, algumas correções são necessárias Como regra geral: se p > 0,3 a distância calculada por p é uma subestimativa Se p > 0,5 – metade dos aa são diferentes... Se p > 0,15 – utilizar algum modelo de substituição para corrigir a estimativa

Jukes-Cantor (d) - JC Correção que leva em conta a possibilidade de substituições de bases A T C G A - α α α T α - α α C α α - α G α α α -

Jukes-Cantor (d) - JC Substituições ocorrem com igual frequência em todos os nn, e que cada nn muda para qualquer outro com uma probabilidade α por ano (r = 3 α) r é a taxa de substituição por sítio e por ano. Considere duas sequencias, X e Y que divergiram de um ancestral há t anos Seja qt a proporção de sítios idênticos e pt a proporção de sítios diferentes (1 – qt)

Jukes-Cantor (d) - JC Proporção de sítios idênticos em t+1: Probabilidade de que um sítio idêntico em t continue idêntico em t+1: (1 – r)2 = 1 – 2r + r2 1 – 2r probabilidade de que um sítio diferente em t se torne idêntico em t+1 2r/3

Seja Xi e Yj em t: Para que sejam idênticos em t+1: Xi Xj e Yj Yj ; α (1 – r) ou Xi Xi e Yj Yi ; (1 – r) α 2 . α (1 – r) = 2 . r/3 (1-r) = 2r/3 – 2r2/3 2r/3

Jukes-Cantor (d) - JC Então: Ou:

Sítio idêntico em t que continua idêntico Jukes-Cantor (d) - JC Então: Ou: Sítio idêntico em t que continua idêntico

Jukes-Cantor (d) - JC Então: Ou: Sítio idêntico em t que continua idêntico Sítio não idêntico em t que passou a ser idêntico

Jukes-Cantor (d) - JC Representando qt+1 – qt por dq/dt: Em condições iniciais q = 1 em t = 0:

Jukes-Cantor (d) - JC Se p = (1 - q) Sendo d a proporção de nn que se modificaram com o tempo: d = 2r . t

Jukes-Cantor (d) - JC

Kimura 2 parâmetros – K80 Correção que leva em conta probabilidades diferentes de transições e transversões A T C G A - β β α T β - α β C β α - β G α β β -

Kimura 2 parâmetros – K80 r = α + 2β Transições As transversões

Tamura Leva em conta as diferenças em transições e transversões (α e β), além da frequência diferencial de CG. A T C G A - βθ2 βθ1 αθ1 T βθ2 - αθ1 βθ1 C βθ2 αθ2 - βθ1 G αθ2 βθ2 βθ1 - θ1 = frequência de CG θ2 = freqüência de AT

Tamura-Nei (TrN) Leva em conta as diferenças em transições e transversões (α e β), além da frequência diferencial de bases (g). A T C G A - βgT βgC α1gG T βgA - α2gC βgG C βgA α2gT - βgG G α1gA βgT βgC - gA, gT, gC, gG = frequência de cada uma das bases

Tajima-Nei (F81) Leva em conta apenas as diferentes freqüências das bases: A T C G A - αgT αgC α1gG T αgA - αgC α1gG C αgA αgT - α1gG G αgA αgT αgC - gA, gT, gC, gG = frequência de cada uma das bases

General Time Reversible (GTR) Leva em conta diferentes freqüências de bases e de substituições A T C G A - agT bgC cgG T agA - dgC egG C bgA dgT - fgG G cgA egT fgC - gA, gT, gC, gG = frequência de cada uma das bases a, b, c, d, e, f = probabilidade de substituição

Distâncias Gamma Nas distâncias consideradas anteriormente, assume-se que a taxa de substituições nucleotídicas é a mesma para todos os sítios... Na verdade, isso dificilmente é assim, e esta taxa varia de sítio para sítio.

Distâncias Gamma Parâmetro a ser ajustado = α α=0,2 α=5 α=1 α=2 α=10

UPGMA (Unweighted Pair-Group Method with Arithmetic Mean) B D E F G H I C Tempo É o mais simples e intuitivo dos métodos Se baseia nas médias das distâncias entre as OTUs Parte do princípio de que o relógio molecular está “funcionando”

Exemplo numérico Localizar a menor distância: A B C D E F X 1 4 5 6 3 9 2 7 8

Exemplo numérico Localizar a menor distância: A B C D E F X 1 4 5 6 3 9 2 7 8

Exemplo numérico Localizar a menor distância: A B C D E F X 1 4 5 6 3 9 2 7 8

Calcular médias A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4 2 3 5

A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4,5 4 2 3 5

A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4,5 4 2 3 5

A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4,5 4 9 2 3 5

A B C D E F X 1 4 5 6 3 9 2 7 8 AB C D E F X 4,5 4 9 2 7,5 3 5

AB C D E F X 4,5 4 9 2 7,5 3 5

AB C D E F X 4,5 4 9 2 7,5 3 5

AB C D E F X 4,5 4 9 2 7,5 3 5

A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 5

(dAC+dAE+dBC=dBE)/4 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 5

(dAC+dAE+dBC=dBE)/4 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 5

Repetindo a matriz anterior B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 4,5 7,5 5

(dCD+dED)/2 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 4,5 7,5 5

(dCD+dED)/2 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 4,5 4 7,5

(dCF+dEF)/2 A B C D E F X 1 4 5 6 3 9 2 7 8 AB CE D F X 6,75 4,5 4 7,5

AB CE D F X 6,75 4,5 4 7,5 3 5

Calcular as médias (dAC+dAE+dAF+dBC+dBE+dBF)/6; (dCD+dED+dFD)/3 AB CEF X 7 4,5 4,3

Calcular a média (dAC+dAD+dAE+dAF+dBC+dBD+dBE+dBF)/8 AB CEFD X 6.3

Matriz cofenética A B C D E F X 1 6,3 4,3 2 3

Comparação entre matrizes... Original Cofenética A B C D E F X 1 6,3 4,3 2 3 A B C D E F X 1 4 5 6 3 9 2 7 8

UPGMA - Limitações Quando a taxa de substituição de nucleotídeos varia de uma linhagem para a outra, o UPGMA fornece a topologia incorreta Nestes casos é necessário utilizar métodos que permitam taxas evolutivas diferentes entre os organismos

Evolução Mínima Método que busca, dentre todas as árvores possíveis, aquela cuja soma dos tamanhos de ramos é a menor (parte do princípio que a árvore verdadeira seria a que contém os menores tamanhos de ramos) Limitações: como o número de topologias possíveis é muito grande, a busca pode tornar-se lenta

Neighbor Joining (NJ) Saitou & Nei (1987) Método baseado no princípio da evolução mínima Não examina todas as topologias, mas requer o princípio da EM em todos os estágios (é uma simplificação da EM)

Neighbor Joining (NJ) Conceito de “vizinhos” – dois taxa conectados por um único nó numa árvore não enraizada (1,2 e 5,6)

Neighbor Joining (NJ)

Neighbor Joining (NJ) Algoritmo: Início com uma topologia em estrela Somar todos os tamanhos de ramos da árvore inicial (S0) Tomar um par de vizinhos, estabelecer a distância entre este par e todos os outros Estimar Si,j Repetir o procedimento para todos os pares de vizinhos até encontrar o menor S.

Neighbor Joining (NJ)

Neighbor Joining (NJ)

Neighbor-Joining

Testes Estatísticos Bootstrap: é o mais utilizado, faz uma reamostragem dos sítios com reposição: G A C T N e b o k e f e h c j k f m n i G A C T N a b c d e f g h i j k l m n o a b c d c f g h d j o l m n o G A C T N

Bibliografia Li W-H. 1997. Molecular Evolution. Sinauer Ass. Publish. Matioli, S.R. 2001. Biologia Molecular e Evolução. Editora Holos, São Paulo. Nei, M. & Kumar, S. 2000. Molecular Evolution and Phylogenetics. Oxford University Press.