A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uma Visão Geral Sobre Reconstrução Filogenética

Apresentações semelhantes


Apresentação em tema: "Uma Visão Geral Sobre Reconstrução Filogenética"— Transcrição da apresentação:

1 Uma Visão Geral Sobre Reconstrução Filogenética
André Ricardo Marlus Barbosa

2 Agenda Filogenia Uso da filogenia em pesquisa biológica
Etapas da análise filogenética Problemas de pesquisa em filogenia molecular Métodos de reconstrução de árvores filogenéticas Conclusão

3 Filogenia Teoria: toda a vida na Terra descende de um único ancestral comum. Filogenias: Relações evolucionárias. Importância em vários campos da biologia. Bioinformática. Representação de toda a vida na Terra. Grafo acíclico direcionado (DAG). Phylogenetic groups: A monophyletic taxon contains a common ancestor and all of its descendants. Diagram: in yellow, the group of "reptiles and birds" A paraphyletic taxon contains its most recent common ancestor, but does not contain all the descendants of that ancestor. Diagram: in blue, the reptiles A polyphyletic taxon does not contain the most recent common ancestor of all its members. Diagram: in red, the group of "all warm-blooded animals"

4 Uso Da Filogenia Utilizações diversas e crescentes:
Estudo comparativo. Testar hipóteses biogeográficas. Inferir informações “extintas”. Rastrear evolução de doenças. Casos criminais. Resumindo, inferir a história do ponto de interesse. Estudo comparativo, questão particular, e quer comparar como certas características biológicas evoluíram nas diferentes espécies. Quando um aspecto de organismos evoluiu em um tempo maior do que o tempo da espécie individual.

5 Análise Filogenética, como é feita na prática?
A filogenia de toda a vida não pode ser reconstruída diretamente, então subconjuntos são independentemente inferidos. Grupos taxonômicos muito diferentes, Passos similares/idênticos. Reconstrução baseada em características, Qualitativas: cor dos olhos, presença de bico, etc. Quantitativas: altura, peso, etc.

6 Etapas: Projeto Do Estudo
Amostragem: Taxon, Tamanho, Geografia, Presença de amostra. Características: Não-recombinável (mitocôndrias, cloroplastos). De única cópia genética. Prontamente amplificável (PCR). Facilmente seqüenciados. Boa velocidade de evolução. DNA normalmente. Escolha de outgroups para poder enraizar a árvore. Quantos indivíduos serão necessários para ter uma amostra válida estatisticamente. Características N-recombinavel, pois organismos que retêm uma cópia de informação de dna do pai e da mãe são exemplos ruins, a tira de dna vai ser uma mistura de duas ou mais histórias genealógicas. Código genético duplicado pode perder as suas partes aleatoriamente em duas histórias genealógicas. Prontamente amplificável: tendem a ser regiões conservadas. Facilmente sequênciados-> se tem repetições, a dna polimerase pode gaguejar e aumentar o número de repetições. Evolui rápido o suficiente para se perceber a última evolução de espécie do ingroup, mas n tão rápido que n se possa construir/inferir um mas confiável. Caracteristicas Thus, some characters might be seen as more likely to reflect the true evolutionary relationships among taxa, and thus they might be weighted at a value 2 or more; changes in these characters would then count as two evolutionary "steps" rather than one when calculating tree scores (see below)

7 Etapas: Coleta De Organismos
- Geografia - Tempo

8 Etapas: Laboratorial Purificação do DNA. Problema: tempo.
Estudo preliminar das características: Informações discriminatórias. Amplificação e seqüenciamento.

9 Etapas: Alinhamento Múltiplo
Matriz: Seqüências alinhadas. Homologia posicional. Homologia estrutural. Tamanho das seqüências: Inserção de gaps. Redução de ruídos: Eliminação de colunas.

10 Etapas: Reconstrução Filogenética (1/8)
Modelos estocásticos: Jukes-Cantor (JC). General Time Reversible (GTR). Padrão de evolução: Início na raiz, Evolução sobre a árvore. Mudança de estados. Descrevem a evolução começando na raiz e evoluíndo sobre os galhos como uma sequencia de pontos de mutacao. Modelos: Kimura Tamura Felsenstein HKY - Hasegawa, kishino and yano

11 Etapas: Reconstrução Filogenética (2/8)
Freqüência de evolução: Freqüência de evolução: Variável. os sítios evoluem com frequencias diferentes, alguns são imutáveis. Os modelos se preocupam com duas coisas como um sitio aleatorio evolui Distribuição Gamma.

12 Etapas: Reconstrução Filogenética (3/8)
Modelo JC: “Se um sítio muda seu estado, ele muda com igual probabilidade para os outros estados”. JC69 is the simplest substitution model. There are several assumptions. It assumes equal base frequencies () and equal mutation rates. The only parameter of this model is therefore μ, the overall substitution rate.

13 Etapas: Reconstrução Filogenética (4/8)
Modelo GTR: Reversível no tempo. Mudança de estado, Matriz de substituição 4x4. In terms of substitution models, this simply means that over time, the relative frequencies of each character do not change. For a time reversible model, there is no assumption that substitutions preferentially change in certain directions over time. For example A -> C -> G is the same as G -> C -> A. The reason for this is because when an analysis of real biological data is performed, there is generally no access to the sequences of ancestral species, only to the species present today. However, when a model is time-reversible, which species was the ancestral species is irrelevant. Instead, the phylogenetic tree can be rooted along the branch leading to any arbitrary extant species, re-rooted later based on new knowledge, or left unrooted. The GTR parameters consist of an equilibrium base frequency vector, Π = (π1π2π3π4), giving the frequency at which each base occurs at each site, and the rate matrix

14 Etapas: Reconstrução Filogenética (5/8)
Métodos: Distância dos pares. Tempo polinomial; rápida e prática. Maximum Parsimony (MP), Maximum Likelihood (ML). Markov Chain Monte Carlo (MCMC). Distância dos pares the topology that gives the least total branch length is preferred at each step of the algorithm.

15 Etapas: Reconstrução Filogenética (6/8)
Método MP: Entrada: conjunto S de seqüências, de tamanho k, em um alinhamento múltiplo. Saída: árvore T, cujas folhas são referenciadas por S, e com seqüências adicionais, todas de tamanho k, referenciando os nós internos de T, que minimiza a fórmula: NP-hard. MP Maximum parsimony, often simply referred to as "parsimony," is a non-parametric statistical method commonly used in computational phylogenetics for estimating phylogenies. Under maximum parsimony, the preferred phylogenetic tree is the tree that requires the least number of evolutionary changes., Maximum parsimony is part of a class of character-based tree estimation methods which use a matrix of discrete phylogenetic characters to infer one or more optimal phylogenetic trees for a set of taxa These methods operate by evaluating candidate phylogenetic trees according to an explicit optimality criterion; the tree with the most favorable score is taken as the best estimate of the phylogenetic relationships of the included taxa

16 Etapas: Reconstrução Filogenética (7/8)
Método ML: Entrada: Conjunto S de seqüências de mesmo tamanho, e um valor B. Saída: Uma árvore modelo (T,p), de modo que Pr[S|T,p] >= B, senão falha. NP-hard. T tree, p seus parametros associados. ML Maximum likelihood estimation (MLE) is a popular statistical method used to calculate the best way of fitting a mathematical model to some data. Modeling real world data by estimating maximum likelihood offers a way of tuning the free parameters of the model to provide an optimum fit. The method of maximum likelihood corresponds to many well-known estimation methods in statistics. For example, suppose you are interested in the heights of Americans. You have a sample of some number of Americans, but not the entire population, and record their heights. Further, you are willing to assume that heights are normally distributed with some unknown mean and variance. The sample mean is then the maximum likelihood estimator of the population mean, and the sample variance is a close approximation to the maximum likelihood estimator of the population variance . Loosely speaking, for a fixed set of data and underlying probability model, maximum likelihood picks the values of the model parameters that make the data "more likely" than any other values of the parameters would make them. Mechanically, maximum likelihood analysis functions much like parsimony analysis, in that trees are scored based on a character dataset, and the tree with the best score is selected. Maximum likelihood is a , in that it employs an explicit model of character evolution Maximum likelihood, as implemented in phylogenetics, uses a stochastic model that gives the probability of a particular character changing at any given point on a tree. This model can have a potentially large number of parameters, which can account for differences in the probabilities of particular states, the probabilities of particular changes, and differences in the probabilities of change among characters. describe all substitution as a function of a number of parameters which are estimated for every data set analyzed This has the advantage that the model can be adjusted to the particularities of a specific data set (e.g. different composition biases in DNA). Problems can arise when too many parameters are used, particularly if they can compensate for each other. Then it is often the case that the data set is too small to yield enough information to estimate all parameters accurately. Empirical models Empirical models are created by estimating many parameters (typically all entries of the rate matrix and the character frequencies, see the GTR model above) from a large data set. These parameters are then fixed and will be reused for every data set. This has the advantage that those parametes can be estimated more accurately. Normally, it is not possible to estimate all entries of the substitution matrix from the current data set only. On the downside, the estimated parameters might be too generic and don't fit a particular data set well enough. With the large-scale genome sequencing still producing very large amounts of DNA and protein sequences, there is enough data available to create empirical models with any number of parameters. Because of the problems mentioned above, the two approaches are often combined, by estimating most of the parameters once on large-scale data, while a few remaining parameters are then adjusted to the data set under consideration

17 Etapas: Reconstrução Filogenética (8/8)
Método MCMC: “Random walk”. A saída não é uma árvore. Distribuição de probabilidade. MCMC Bayesian phylogenetic analysis uses Bayes' theorem, which relates the posterior probability of a tree to the likelihood of data, and the prior probability of the tree and model of evolution. However, unlike parsimony and likelihood methods, Bayesian analysis does not produce a single tree or set of equally optimal trees. Bayesian analysis uses the likelihood of trees in a Markov chain Monte Carlo (MCMC) simulation to sample trees in proportion to their likelihood, thereby producing a credible sample of trees.

18 Etapas: Suporte à Avaliação
Qual a melhor reconstrução? Medida de Confiabilidade. Arestas. Data-mining. Abordagem combinatória. Abordagem estatística. MP -> até milhares Medida objetiva (confiabilidade). Arestas individuais. Técnicas estatísticas, Técnicas combinatoriais, “Data-mining”. Estimating phylogenies is not a trivial problem. A huge number of possible phylogenetic trees exist for any reasonably sized set of taxa; for example, a mere ten species gives over two million possible unrooted trees. These possibilities must be searched to find a tree that best fits the data according to the optimality criterion. However, the data themselves do not lead to a simple, arithmetic solution to the problem.

19 Suporte à Avaliação: Abordagem Combinatória
Técnica do consenso: Conjunto de melhores árvores. Inicialmente igualmente confiáveis. Inferência da melhor árvore. Bipartição induzida de arestas. Pega a árvore que cujas bipartições aparecem em mais da metade das árvores.

20 Suporte à Avaliação: Abordagem Estatística (1/2)
The Bootstrap: Reamostragem. “Árvore Bootstrap”. Comparação com a árvore reconstruída: Armazenamento de informações sobre as arestas. Reamostragem sobre a mesma distribuição do conjunto original. Avaliar se os dados têm repetibilidade.

21 Suporte à Avaliação: Abordagem Estatística (2/2)
The Jackknife: Remoção aleatória de sítios. Reconstrução. MCMC: Freqüência de cada árvore visitada.

22 Problemas De Pesquisa Em Filogenia Molecular

23 Problemas De Pesquisa: Análise De Performance Algorítmica
Simulação: Escolha de um modelo estocástico de evolução. Seqüência de tamanho qualquer. Evolução sobre a árvore T. Adição de outras sequências nas folhas. Método de reconstrução. Reconstrução da árvore T’. Comparação T versus T’. A maior vantagem da comparação simulativa é que para todos os conjuntos de dados, não é possível saber precisamente a história evolucionária correta, mas os aspectos evolucionários confiáveis são geralmente fáceis de se obter utilizando qualquer método. Avalia-se a precisão topológica das árvores. Métrica usada = Robinson Foulds.

24 Problemas De Pesquisa: Reconstrução Filogenética (1/3)
Buscas heurísticas para MP e ML: Baseadas em hill-climbing. Máximo local. Fuga do máximo local: The Ratchet. Tempo impraticável. Fuga do máximo local The Ratchet:perturba aleatoriamente a sequência e escala (usando a sequência perturbada para scorar cada árvore visitada), até achar um máximo local, então a sequência é restaurada e a escalada resume. Tempo impraticável 1000 sequências -> semanas - Técnica atual, rodar o algortimo até convergir Quando ter certeza? É preciso determinar melhores limites para mp e ml

25 Problemas De Pesquisa: Reconstrução Filogenética (2/3)
MP: Por que MP é tão bom? Técnica de maior abordagem H(x,y) distância de hamming (números de posições que diferem) Su, Sv são as sequências referenciando os nós u e v E conjunto de arestas de T Fitch Hartigan algorithm: Para uma árvore fixa, tempo linear = O(rnk), onde n = sequencias, k = tamanho, r = alfabeto Questao de busca Mp é provado n estatisticamente consistente até mesmo para uma simples sequencia evolutiva de dna

26 Problemas De Pesquisa: Reconstrução Filogenética (3/3)
ML: Comparar possíveis scores. Desde que modelos estocásticos diferem de acordo com os parâmetros que devem ser especificados, uma análise ML precisa desse modelo previamente explicitado. Os parâmetros determinam a velocidade da construção das árvores ML. Porém, a matemática para estimar ML n muda entre os modelos, então avaliamos o mais simples, JC. Score: Usamos supremo pq omáximo pode n existir, mas o supremo vai pq o conjunto pr...é limitado acima por 1. T = raiz da árvore, p = função de probabilidade S = conjunto de sequencias localizadas nas folhas geradas por T,p Pr = probabilidade Modelo JC: objetivo encontrar a árvore com maior score; Porém esse pode n existir, pois o conjunto n é fechado, por isso tratamos ML como um problema de decisão Quetao de pesquisa: Calcular o score é difícil, estimar os parâmetros também

27 Problemas De Pesquisa: Alinhamento Múltiplo (MSA)
Nenhum critério atingiu aceitação geral... Nenhum critério para MSA atingiu aceitação geral. Alinhamento dos pares. Soma dos pares. Alinhamento de árvores.

28 Problemas De Pesquisa: Filogenia em Larga-escala
Métodos NP-hard Conjunto das melhores árvores Dados desconhecidos MSA complicado Dividir o conjunto de dados e aplicar uma análise supertree.

29 Aspectos De Reconstrução De Árvores Filogenéticas (1/2)
Topologia. Distância entre nós. Raiz.

30 Aspectos De Reconstrução De Árvores Filogenéticas (2/2)
Entradas: Características discretas (matriz de estados). Dados numéricos comparativos (matriz de distâncias). Características contínuas.

31 Problema Da Filogenia Perfeita (1/3)
Dados um conjunto de objetos e um conjunto de características, temos uma matriz de estados. Problemas ao se criar uma filogenia: Convergência ou evolução paralela. Reversões. Para evitar isso, na árvore T desejada, queremos que, para cada estado de uma característica, o conjunto de todos os nós que possuem essa característica forme uma subárvore.

32 Problema Da Filogenia Perfeita (2/3)
Computacionalmente difícil. Mas pode ser simplificado em casos especiais: Características binárias. Duas características.

33 Problema Da Filogenia Perfeita (3/3)

34 Filogenia Com Matrizes De Distância (1/7)
Dois problemas: Dada uma matriz de distâncias, construir uma árvore com arestas com peso, onde cada folha seja apenas um objeto da matriz e tal que as distâncias entre duas folhas correspondam às distâncias dadas na matriz. Esse problema exige que as distâncias na matriz sejam aditivas, uma condição pouco comum. Daí surge o segundo problema: Construir a árvore com duas matrizes, que servirão como limites superior e inferior das distâncias entre os objetos.

35 Filogenia Com Matrizes De Distância (2/7)
Árvores aditivas. Matriz de entrada precisa ser um espaço métrico aditivo. O algoritmo consiste em calcular a árvore para dois objetos (uma aresta) e a partir daí acrescentar outros objetos.

36 Filogenia Com Matrizes De Distância (3/7)

37 Filogenia Com Matrizes De Distância (4/7)
O problema com árvores aditivas é que distâncias dois a dois sempre possuem incertezas. Utilizar duas matrizes. Limites inferior e superior. Árvores ultramétricas: Árvores enraizadas, tais que o comprimento de todos os caminhos raiz-folha seja igual.

38 Filogenia Com Matrizes De Distância (5/7)
Minimum Spanning Tree (MST). Calcular Cut-Weights para cada aresta. Construir a árvore propriamente.

39 Filogenia Com Matrizes De Distância (6/7)

40 Filogenia Com Matrizes De Distância (7/7)

41 Métodos Supertree (1/5) Tentam estimar a história evolucionária de um conjunto através das histórias dos seus subconjuntos. “Tree of Life”. Recomendado para problemas de larga escala e com dados faltando. Meta análises. Supermatrizes. Métodos supertree podem ser usados como parte de uma estratégia dividir e conquistar.

42 Métodos Supertree (2/5) Compatibilidade de árvores. Refinamento.
Problema: dado um conjunto de árvores, cada um sobre um conjunto de características, encontrar uma árvore que refine todas as árvores do conjunto. Problema NP-hard. Caso em que as árvores são enraizadas: tempo polinomial. Infelizmente, as entradas para o problema tendem a não ser compatíveis.

43 Métodos Supertree (3/5)

44 Métodos Supertree (4/5) Matrix Representation Parsimony (MRP).
Método que lida com incompatibilidades nas entradas. Cria uma matriz para cada árvore, concatena todas as matrizes e analisa a matriz concatenada com o método de máxima parsimônia. Apesar de ser bom na teoria, sua aplicação prática é pouco clara.

45 Métodos Supertree (5/5) Existem outros métodos que lidam com árvores que contém erros. Consenso estrito de Gordon e DCM. Apesar do potencial dos métodos pouco se sabe sobre seu funcionamento com dados reais.

46 Reconstrução De Filogenias Genômicas
Ao invés de analisar seqüências, analisa genomas completos. Modificações genômicas e análises mais profundas. Modelos estatísticos pouco desenvolvidos. Computacionalmente muito mais complexo.

47 Conclusões Métodos de reconstrução filogenéticas apresentam desafios profundos e complexos. Compreender aspectos como dados e métodos e como os biólogos usam filogenias pode ser crucial.


Carregar ppt "Uma Visão Geral Sobre Reconstrução Filogenética"

Apresentações semelhantes


Anúncios Google