A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

José Augusto Amgarten Quitzau

Apresentações semelhantes


Apresentação em tema: "José Augusto Amgarten Quitzau"— Transcrição da apresentação:

1 José Augusto Amgarten Quitzau
Um Consenso Completamente Resolvido entre Árvores Filogenéticas Completamente Resolvidas José Augusto Amgarten Quitzau

2 Organização Introdução n-Árvores e Sistemas de Cortes
Métodos de Consenso Árvore Mais Provável Um Algoritmo para Determinar as Árvores Mais Prováveis Testes

3 Introdução Começamos a apresentação definindo o objeto básico do nosso estudo: a árvore filogenética. Árvores filogenéticas são definidas de inúmeras maneiras, de modo que o modo prático de apresentá-las é dando uma definição puramente intuitiva. Tratam-se de diagramas usados para representar a classificação e/ou história evolutiva de seres vivos ou grupos de seres vivos. É dificil dizer exatamente quando estes diagramas começaram a ser utilizados. É um fato que Darwin apresentou um diagrama semelhante em “A Origem das Espécies” e usou explicitamente a metáfora da “Árvore da Vida”, mas desde a apresentação do sistema de classificação dos seres vivos de Linneaus, como veremos mais tarde, já era possível construir tais diagramas.

4 Introdução É claro que poucos cientistas têm tempo para fazer diagramas tão rebuscados, de forma versões simplificadas do diagrama, como a mostrada acima, são as únicas formas encontradas hoje em dia nos artigos de cunho biológico. O diagrama acima à direita é derivado de um trecho de uma das árvores de Haeckel mostradas anteriormente. O trecho adaptado do diagrama pode ser visto à esquerda.

5 Introdução Para matemáticos e cientistas da computação, no entanto, as árvores filogenéticas são comumente vistas como grafos acíclicos, tais como o mostrado nesta figura. Este grafo, assim como o diagrama do slide anterior, foi criado a partir de um trecho de uma das árvores de Haeckel mostradas anteriormente.

6 Introdução Grafo: Acíclico Conexo Com no máximo um vértice de grau 2.
Formalmente para nós, então, uma árvore filogenética é um grafo acíclico e conexo com no máximo um vértice de grau dois.

7 Introdução Vértices de grau 1 são denominados folhas
Todos os demais são nós internos No máximo um vértice pode ser eleito para ser a raiz da árvore Se houver um vértice de grau 2, ele é obrigatoriamente a raiz Denotamos o conjunto de folhas por L (Explicar as linhas do slide) Além disso, arestas também recebem nomes especiais: Arestas Folha: são as arestas adjacentes às folhas Arestas Internas: são as demais arestas

8 Introdução Vértices de grau maior que três são denominados politomias
Uma árvore filogenética sem politomias é considerada completamente resolvida Em especial, a raiz de uma árvore filogenética é considerada uma politomia se ela tiver grau maior ou igual a 3.

9 n-Árvores e Sistemas de Cortes
Sistema de Classificação de Linnaeus Hierarquia de Classes Cada ser vivo pertence a exatamente uma classe em cada nível da hierarquia Se um ser vivo de uma classe qualquer A num nível inferior pertence a uma classe qualquer B num nível superior, então A  B Os subconjuntos de L determinados pelas classes são o que se costuma chamar de uma n-Árvore Como dito anteriormente, o sistema de classificação de Linneaus foi o primeiro sistema que pode ser representado por um grafo acíclico. Isso porque, no sistema de Linneaus, duas classes quaisquer de níveis quaisquer da hierarquia são sempre tais que, se não possuem interseção vazia, então uma está completamente contida na outra. Esta é uma condição essencial para que um conjunto de classes seja considerado uma n-árvore. Os sistemas usados até então, que eram normalmente derivados do sistema proposto por Aristóteles em seu “Historia Animalium”, usava classes como animais domésticos e animais bípedes, que não são totalmente disjuntos, ao mesmo tempo que nenhuma delas contém a outra.

10 n-Árvores e Sistemas de Cortes
Um conjunto  de subgrupos (subconjuntos) de L é denominado uma n-árvore se e somente se as quatro condições abaixo forem verificadas:    L   {x}   para todo x  L AB  {A, B, } para todos os subgrupos A,B   A quarta condição apresenta o conceito de compatibilidade entre subgrupos. Subgrupos que satisfazem à quarta restrição são os únicos que podem ser representados simultaneamente em uma mesma árvore filogenética com raiz.

11 n-Árvores e Sistemas de Cortes
Toda n-árvore determina exatamente uma árvore filogenética com raiz. Dizemos que uma n-Árvore  é completamente resolvida se e somente se a inclusão em  de qualquer subgrupo não vazio que não pertença a  fere a condição de que AB  {A, B, } para todos os subgrupos A, B  

12 n-Árvores e Sistemas de Cortes
Uma n-árvore  é completamente resolvida se e somente se para qualquer subgrupo S com cardinalidade maior que um existirem dois subgrupos A,B tais que AB = S e AB =  [Teo 2.2.3] O número de subgrupos de uma n-árvore completamente resolvida sobre L é 2|L| - 1 [Teo 2.2.4]

13 n-Árvores e Sistemas de Cortes
Triviais em negrito Relação 1:1 entre vértices e subgrupos Falta apenas um subgrupo para que seja completamente resolvida e os únicos subgrupos que podem ser acrescentados são {1, 2, 3, 5}; {2, 6, 7, 8} e {1, 3, 5, 6, 7, 8}, que resolvem a politomia da árvore. É bom notar que existem 36 subgrupos, o que indica que somente um grupo poderá ser acrescentado antes que esta n-árvore seja uma n-árvore completamente resolvida. L= {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19}; {1, 2, 3, 4, 5, 6, 7, 8, 15, 16, 17, 18, 19}; Protista = {1, 2, 3, 4, 5, 6, 7, 8}; Plantae = {9, 10, 11, 12, 13, 14}; {1, 2, 3, 5, 6, 7, 8}; Animalia = {5, 16, 17, 18, 19}; {16, 17, 18, 19}; {9, 10, 11, 12}; {16, 17, 18}; {9, 10, 11}; {6, 7, 8}; {1, 3, 5}; {16, 17}; {13, 14}; {9, 11}; {6, 7}; {1, 3}; {19}; {18}; {17}; {16}; {15}; {14}; {13}; {12}; {11}; {10}; {9}; {8}; {7}; {6}; {5}; {4}; {3}; {2}; {1}

14 n-Árvores e Sistemas de Cortes
Até agora tínhamos os vértices como referência, já que a existência de uma raiz evidencia quais os elementos que fazem parte do subgrupo determinado por um vértice. A árvore apresentada neste slide é a mesma usada como exemplo anteriormente, mas sem a raiz. Se considerarmos o vértice que antigamente determinava o subgrupo das plantas na árvore com raiz, ficaremos entre três hipóteses possíveis: {{1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 15, 16, 17, 18, 19},{13, 14}} {{1, 2, 3, 4, 5, 6, 7, 8, 13, 14, 15, 16, 17, 18, 19},{9, 10, 11, 12}} {{9, 10, 11, 12, 13, 14},{1, 2, 3, 4, 5, 6, 7, 8, 15, 16, 17, 18, 19}} Das quais sabemos que somente a última é correta, pelos diagramas anteriores.

15 n-Árvores e Sistemas de Cortes
O ideal, no caso de árvore sem raiz, é focar nas arestas, uma vez que para cada grupo de vértices há uma aresta que o separa das folhas que não fazem parte do grupo. Como neste exemplo, em que separamos o grupo das plantas dos demais grupos, obtendo então um corte definido sobre o conjunto L, formado pelos subconjuntos: {9, 10, 11, 12, 13, 14} e {1, 2, 3, 4, 5, 6, 7, 8, 15, 16, 17, 18, 19}

16 n-Árvores e Sistemas de Cortes
Um corte S={A,B} de um conjunto qualquer X é uma bipartição de X em dois subconjuntos não vazios A e B Dois cortes S e S’ são chamados compatíveis se e somente se existem cortes AS e A’S’ tais que AA’=; caso contrário, eles são chamados incompatíveis Um conjunto de cortes é chamado um sistema de cortes Da mesma forma que para n-árvores, o conceito de compatibilidade aqui tem a ver com a possibilidade de representar dois cortes em uma mesma árvore filogenética sem raiz. Assim, como conseqüência da definição de cortes compatíveis, dois cortes são compatíveis se e somente se existe uma árvore na qual os dois estão representados. É claro que, se fizermos a operação exemplificada no último slide para cada aresta de uma árvore, obteremos um sistema de cortes. O que não é tão claro, mas que é um resultado famoso da teoria de sistemas de cortes é que os cortes de um sistema de cortes obtido desta maneira são todos 2 a 2 compatíveis. Outro resultado clássico dos sistemas de cortes é que qualquer sistema de cortes 2 a 2 compatíveis definidos sobre um conjunto L tem no máximo 2|L| - 3 cortes, que é também o número máximo de arestas em uma árvore filogenética sem raiz.

17 n-Árvores e Sistemas de Cortes
A distância de cortes () entre dois sistemas de cortes é definido como o número mínimo de inserções e remoções de cortes que deve ser aplicado em um sistema para transformá-lo no outro. (S1,S2) = |S1| + |S2| - 2|S1S2| [Teo2.1.6] Letras caligráficas correspondem a sistemas de cortes

18 n-Árvores e Sistemas de Cortes
A função  é uma enumeração arbitrária dos elementos de L Se R é um subgrupo de L, (R) = {(r) | r  R} Sejam R e S subgrupos de L, então R<S se e somente se: |R| < |S|, ou min((R\S)) < min((S\R)) Se A, B e C são três subgrupos distintos de L. Se A<B e B<C, então A<C[Teo 2.3.2]

19 n-Árvores e Sistemas de Cortes
Seja S={A,B} um corte de L tal que A<B, então chamamos A de subgrupo pequeno de S e denotamos A por Sp Dois cortes são compatíveis se e somente se seus subgrupos pequenos são compatíveis [Teo 2.3.3] Seja L um conjunto de cardinalidade maior que dois e T uma árvore filogenética sem raiz com conjunto de folhas L. Então T é completamente resolvida se e somente se F(T) tiver exatamente três n-árvores maximais e estas árvores forem completamente resolvidas [Teo 2.3.5] Explicar n-árvores maximais e F(T).

20 Métodos de Consenso

21 Métodos de Consenso Consenso Estrito Consenso de Nelson
Componentes Combináveis Regra da Maioria

22 Árvore Mais Provável Seja L um conjunto de unidades taxonômicas e T uma coleção não vazia qualquer de árvore filogenéticas completamente resolvidas e sem raiz com conjunto de folhas L Freqüência relativa com que o corte C é encontrado numa coleção de cortes: Peso de uma árvore: Uma árvore que maximiza p(T,T ) é uma Árvore Mais Provável para o conjunto.

23 Árvore Mais Provável Definições semelhantes para subgrupos:
Freqüência relativa com que o subgrupo C é encontrado numa coleção de cortes: Peso de uma n-árvore:

24 O Algoritmo Usa a relação entre peso de árvores e peso de n-árvores dada pelo Teorema 6.0.2: Baseado no Teorema 2.3.5, procura encontrar pares de subgrupos para tentar resolver subgrupos maiores

25 O Algoritmo Um subgrupo S é considerado resolvido se:
|S| = 1, ou Há um par de subgrupos A,B associados a ele tal que AB=S e AB= O algoritmo usará uma estrutura composta por três tipos de sub-estruturas para representar as árvores mais prováveis

26 O Algoritmo Analisa todos os possíveis pares de subgrupos pequenos encontrados na coleção de árvores Cada par A,B de subgrupos pode se enquadrar em exatamente um dos três casos abaixo: O par é solução de um terceiro subgrupo pequeno O subgrupo C = L\{AB} é um subgrupo pequeno e {A, B, C} pode ser uma Árvore mais provável Nenhum dos casos acima ocorre

27 O Algoritmo Analisa todos os possíveis pares de subgrupos pequenos encontrados na coleção de árvores Cada par A,B de subgrupos pode se enquadrar em exatamente um dos três casos abaixo: O par é solução de um terceiro subgrupo pequeno O par é condicionalmente adicionado à lista de soluções O subgrupo C = L\{AB} é um subgrupo pequeno e {A, B, C} pode ser uma Árvore mais provável A tripla é condicionalmente adicionada à lista de árvores Nenhum dos casos acima ocorre O par é descartado

28 O Algoritmo

29 O Algoritmo

30 O Algoritmo Complexidade: O(l2t2lglt)

31 O Algoritmo Complexidade: O(l2t2lglt)

32 O Algoritmo

33 Testes Nr. Software Detalhes 1 fastMe
Distâncias obtidas pelo modelo de Jukes-Cantor 2 Distâncias obtidas pelo modelo de 2 parâmetros de Kimura (K2P) 3 Mega Reconstrução por evolução mínima e distâncias por Jukes-Cantor 4 Reconstrução por evolução mínima e distâncias por K2P 5 Reconstrução por evolução mínima e distâncias por Tamura-Nei 6 Reconstrução por maximização de parcimônia através de troca de vizinhos 7 Reconstrução por Neighbor-Joining e distâncias por Jukes-Cantor 8 Reconstrução por Neighbor-Joining e distâncias por K2P 9 Reconstrução por Neighbor-Joining e distâncias por Tamura-Nei 10 Dnacomp Reconstrução por compatibilidade 11 Dnaml Reconstrução por probabilidade máxima 12 Dnamlk Reconstrução por probabilidade máxima assumindo a hipótese do relógio molecular 13 Dnapars Reconstrução por maximização de parcimônia 14 Neighbor 15 16 Reconstrução por UPGMA e distâncias por Jukes-Cantor 17 Reconstrução por UPGMA e distâncias por K2P 18 Weighbor 19 Distâncias obtidas pelo modelo K2P

34 Testes CD1 CD2 CD3 CD4 REAIS C M M* O 48 118 86 88 108 1 26 66 36 38 64 18 50 22 2 72 40 42 70 56 30 3 60 24 20 46 n/u 4 34 62 5 6 112 96 76 7 28 74 52 8 54 9 78 58 10 144 172 126 11 44 - 12 13 94 14 16 32 15 100 106 122 120 102 17 104 19 MÉDIA 43,68 77,78 53,44 52,67 69,11 36,67 60,17 EX IS

35 Testes CD1 CD2 CD3 CD4 REAIS C M M* PERDE 5 11 2 4 EMPATA 1 GANHA 13 6
EMPATA 1 GANHA 13 6 14 12 16 % 72% 33% 78% 67% 83% 94%


Carregar ppt "José Augusto Amgarten Quitzau"

Apresentações semelhantes


Anúncios Google