A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA &

Apresentações semelhantes


Apresentação em tema: "GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA &"— Transcrição da apresentação:

1 GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE Departamento de Ecologia, ICB, Universidade Federal de Goiás, Brasil

2 Ecologia & Genética ESPACIALMENTE IMPLICITAS ABORDAGENS ESPACIAIS ESPACIALMENTE EXPLICITAS

3 Relação genética entre as populações F ST (e estatísticas relacionadas) par-a- par Distâncias genéticas Outras matrizes de similaridade Matriz quadrada (n * n), simétrica e com zero na diagonal principal

4 Masatoshi Nei D = -ln (I) Where I = Σx i y i / (Σx i 2 Σy i 2 ) 0.5 A identidade de Nei é, portanto, a correlação de Pearson entre as populações ao longo das frequencias alélicas... Neis genetic distances

5 Wrights F ST Análise de Variância de Frequencias Alélicas ( P ) AMOVA R ST Holsingers Bayesian ST G ST Q ST (fenótipo) Valores par- a-par (n * n, simétrica)

6 Distância Euclidiana (ca. distância de Rogers 1972)

7 dijdijdijdij Alelo X 2 Alelo X 1 Xj2Xj2Xj2Xj2 X i2 X i1 Xj1Xj1Xj1Xj1 i j Quando existem apenas dois descritores, essa equação resulta no valor da hipotenusa: população

8 A distância Euclidiana não apresenta um limite superior, ou seja, o valor aumenta indefinidamente com o aumento do número de descritores. Assim, podemos calcular a distância Euclidiana média: A distância de Rogers usa p = 2

9 Cavalli-Sforzas & Edward (1967) chord distance Populations are conceptualised as existing as points in a m-dimensional Euclidean space which are specified by m allele frequencies (i.e. m equals the total number of alleles in both populations).

10

11 Coeficientes de SIMILARIDADE para dados binários Transformar frequencias alélicas em dados 0/1 (ou seja, presença ou ausência do alelo ou haplótipo) População 1 População 2 Tabela de Freqüência 2 X 2

12 Uma maneira simples de calcular a similaridade entre os dois objetos envolve a contagem dos números de descritores que codificam estes objetos do mesmo modo e a posterior divisão pelo número total de descritores p (a+b+c+d): S 1 = Coincidência simples (simple matching)

13 (0 = baixa similaridade e 1 = alta similaridade)

14 Coeficientes de similaridade para dados binários: modo Q (Coeficientes assimétricos) Jaccard Sørensen

15 A idéia é desdobrar a (dis)similaridade em diferentes componentes, incluindo turnover e riqueza de alelos

16 Turnover (substituição) Riqueza alélica Para o Baru, o componente de turnover representa 69% da similaridade, mas o interessante é que apenas o componente de riqueza possui padrão espacial

17 [n (n – 1)/2] valores (e.g. se n = valores) E agora, José? Com n objetos (unidades amostrais) vamos ter uma matriz com: Como podemos representar eficientemente o padrão de similaridade entre esses objetos? As relações entre as n populações estão definidas em um espaço p-dimensional (onde p é o numero de alelos)

18 e.g., Quais as relações entre os 6 objetos a partir dessa matriz de distancias?

19 Agrupamento & Ordenações

20 Classificação das técnicas de agrupamentos Algumas propriedades das técnicas: Aglomerativos: Os grupos são formados, sucessivamente, até reunir todos os objetos em um único grande grupo, ou; Divisivos: Subdivide os grupos até o isolamento de cada objeto (e.g. chaves de taxonomia); Hierárquicos: elementos de um determinado grupo são agrupados dentro de grupos em níveis maiores, ou; Não-hierárquicos: Produzem uma única divisão que maximiza a homogeneidade dentro de grupos;

21 Análise de Classificação Análise de Agrupamentos (SAHN)

22 métodos de agrupamento: Vários métodos de agrupamento:

23 Aplicação da técnica de agrupamento: Construção do dendrograma (método médias das distâncias, UPGMA)

24 Primeiro passo: Unir D e F (0,37) D F 0,37 Distância de ligação

25 Segundo passo: Calcular as distância em relação ao novo grupo E assim, sucessivamente, para esta linha Neste ponto, vamos verificar qual o par com menor distância (2,12+2,49)/2

26 Terceiro passo: Unir A e B (0,67) D F Distância de ligação AB

27 Quarto passo: Calcular as distância em relação ao novo grupo Vamos agrupar: (E) com (AB)

28 Quinto passo: Unir E e AB (0,73) D F Distância de ligação ABE

29 Demais passos: Calcular as distância em relação ao novo grupo D FABE C Agrupar (CDF) com (ABE)

30 Resultado do NTSYS

31 Para os dados das 25 populações de Baru (UPGMA), a partir do F ST par-a-par... ?

32 Subp.Local de coleta 1Cocalinho-MT 2Água Boa-MT 3Pirenópolis-GO 4Sonora-MS 5Alcinópolis-MS 6Alvorada-TO 7São Miguel do Araguaia-GO 8Luziânia-GO 9Icém-SP 10Monte Alegre de Minas-MG 11Estrela do Norte-GO 12Santa Terezinha-GO 13Arinos-MG 14Pintópolis-MG 15Paraíso-MS (Chapadão do Sul) 16Paraíso/Camapuã-MS (Camapuã) 17Camapuã-MS 18Indiara-GO 19Araguaia-MT (Barra do Garça) 20Araguaia-GO (Aragarças) 21Jandaia-GO 22Natividade-TO 23Arraias-TO 24Aquidauana- MS 25Cáceres- MT

33 Subp.Local de coleta 1Cocalinho-MT 2Água Boa-MT 3Pirenópolis-GO 4Sonora-MS 5Alcinópolis-MS 6Alvorada-TO 7São Miguel do Araguaia-GO 8Luziânia-GO 9Icém-SP 10Monte Alegre de Minas-MG 11Estrela do Norte-GO 12Santa Terezinha-GO 13Arinos-MG 14Pintópolis-MG 15Paraíso-MS (Chapadão do Sul) 16Paraíso/Camapuã-MS (Camapuã) 17Camapuã-MS 18Indiara-GO 19Araguaia-MT (Barra do Garça) 20Araguaia-GO (Aragarças) 21Jandaia-GO 22Natividade-TO 23Arraias-TO 24Aquidauana- MS 25Cáceres- MT

34 VISUALIZANDO OS PADRÕES NO ESPAÇO...

35

36 O dendrograma representa adequadamente a matriz de distância original? Matriz Cofenética Matriz Original CCC=0,75 Bom ou Ruim? Coeficiente de Correlação Cofenética CCC)

37 Diagrama de Shepard: diagrama de dispersão que relaciona distâncias em um espaço com dimensão reduzida com a distâncias originais (mais adequado para técnicas de ordenação): No caso do Baru, o CCC foi igual a 0.845

38 (i) Resultados são dependentes dos protocolos utilizados; Problemas com a Análise de Agrupamentos (ii) discretizar um processo que pode ser, na verdade, contínuo, de modo que; (iv) Dificuldade de interpretação (iii) O número de grupos é dependente do nível de corte;

39

40 Métodos para determinação do nível de corte Maximizar diferenças entre grupos Minimizar diferenças dentro de grupos

41 Zero para quando u.a. estão em grupos iguais definidos pelo nível de corte 1 para quando u.a. estão em diferentes grupos definidos pelo nível de corte Nível 1 Nível 2 Bini, L. M. & Diniz Filho, J. A. F. (1995) Spectral Decomposition in cluster analysis with applications to limnological data. Acta Limnologica Brasiliensia, 7:

42 Matriz Modelo (Nível de corte 1) Matriz Modelo (Nível de corte 2) Matriz de distância Original Nível de Corte CCC

43 (v) Mesmo com um conjunto aleatório de dados é possível encontrar grupos.

44 Model-based Clustering: STRUCTURE -Pressupostos (H-W, equilibrio de ligação) -Maximizar a probabilidade de individuos pertencerem a grupos (que são desconhecidos) -Vários dados (marcadores) e modelos de evolução -Associar com outras caracteristicas dos individuos (inclusive espaço) - Abordagem Bayesiana (MCMC)

45 Estimated Ln Prob of Data = Mean value of ln likelihood = Variance of ln likelihood = Mean value of alpha =

46

47 Subp.Local de coleta 1Cocalinho-MT 2Água Boa-MT 3Pirenópolis-GO 4Sonora-MS 5Alcinópolis-MS 6Alvorada-TO 7São Miguel do Araguaia-GO 8Luziânia-GO 9Icém-SP 10Monte Alegre de Minas-MG 11Estrela do Norte-GO 12Santa Terezinha-GO 13Arinos-MG 14Pintópolis-MG 15Paraíso-MS (Chapadão do Sul) 16Paraíso/Camapuã-MS (Camapuã) 17Camapuã-MS 18Indiara-GO 19Araguaia-MT (Barra do Garça) 20Araguaia-GO (Aragarças) 21Jandaia-GO 22Natividade-TO 23Arraias-TO 24Aquidauana- MS 25Cáceres- MT CLUSTERS nBESTp

48 Subp.Local de coleta 1Cocalinho-MT 2Água Boa-MT 3Pirenópolis-GO 4Sonora-MS 5Alcinópolis-MS 6Alvorada-TO 7São Miguel do Araguaia-GO 8Luziânia-GO 9Icém-SP 10Monte Alegre de Minas-MG 11Estrela do Norte-GO 12Santa Terezinha-GO 13Arinos-MG 14Pintópolis-MG 15Paraíso-MS (Chapadão do Sul) 16Paraíso/Camapuã-MS (Camapuã) 17Camapuã-MS 18Indiara-GO 19Araguaia-MT (Barra do Garça) 20Araguaia-GO (Aragarças) 21Jandaia-GO 22Natividade-TO 23Arraias-TO 24Aquidauana- MS 25Cáceres- MT

49

50 Os 8 grupos do STRUCTURE no espaço geográfico

51

52

53

54

55

56

57 TÈCNICAS DE ORDENAÇÃO Representar a variação p-dimensional em um espaço (eixos) contínuo que compacte essa variação variação em um numero com m > p de dimensões (normalmente 1, 2 ou 3)

58 Hotteling, H Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p MAPAS SINTÉTICOS baseados em Análise de Componentes Principais (ACP) -Eliminar estrutura de correlação entre variáveis transformando-as em eixos ortogonais (os componentes principais); -Interpretar os eixos principais como conseqüência de processos microevolutivos.

59 Em resumo, na ACP três matrizes são importantes 1)Autovalores – importância de cada eixo; 2)Autovetores – coeficientes das variáveis nos eixos; 3)Escores – componentes principais (eixo)

60 Análise de Componentes Principais (PCA) (Principal Component Analysis) Pearson, K On lines and planes of closest fit to a system of points in space. Phylosophical magazine. v. 2, p Hotteling, H Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p Etapas: -Interpretação geométrica; -Procedimentos matemáticos; -Interpretação de dados reais; -Aplicações

61 Matematicamente, o objetivo da PCA é encontrar uma combinação linear de variáveis de tal forma que a variância entre os indivíduos seja a maior possível (1 o componente principal): Os coeficientes a são os autovetores. São obtidos de tal forma a maximizar a variância de Z 1 (var(Z 1 )), com a seguinte condição: Esta condição garante que a var(Z 1 ) não aumente com a simples adição de qualquer um dos valores de a 1j.

62 O segundo componente principal: É calculado de tal forma que a var(Z 2 ) seja a maior possível (a segunda principal direção da variância). A mesma condição anterior é requerida: Além disso, estes autovetores são calculados de tal maneira que Z 2 não seja correlacionado com Z 1 (componentes independentes).

63 X1 X2 X1 X2 X1 X2 Eixos independentes ou ortogonais:

64 O terceiro componente principal: É calculado de tal forma que a var(Z 3 ) seja a maior possível. A mesma condição anterior é requerida: Além disso, estes autovetores são calculados de tal maneira que Z 3 não seja correlacionado com Z 2 e Z 1 (componentes independentes).

65 Por exemplo, se temos 5 variáveis podemos extrair 5 componentes principais, tal como definido anteriormente. De forma mais geral, o número possível de componente é igual a p (variáveis). No entanto, como foi demonstrado, sucessivos componentes principais apresentam uma variância cada vez menor. Esse resultado será útil para a redução da dimensionalidade dos dados.

66 As variâncias dos componentes principais são os autovalores ( ) de uma matriz de covariância ou correlação (com dados previamente estandardizados). Os autovetores (a) são os coeficientes das combinações lineares e informam quais as variáveis que apresentam o maior poder de discriminação das u.a. (maximizam a dispersão das unidades amostrais ao longo do espaço).

67 CP 1 CP 2 CP3 X1X1 X2X2 X3X3

68 Autovalores e Autovetores Ca = a C =

69 Autovalores e Autovetores Ra = a R =

70 Exemplo numérico Matriz de correlação entre variáveis:

71 (R- I)a=0 Cuja equação característica: |R- I|=0

72

73 Determinante de uma matriz 2 x 2: o primeiro termo ao quadrado, menos duas vezes o produto dos dois termos mais o quadrado do segundo)

74 (Ignore o sinal) a bc

75 % de explicação do CP 1 = I / = 1,82/2 = 91 % % de explicação do CP 2 = II / = 0,18/2 = 9 % Total = 100 %

76 Autovetores: Ra = a O autovetor associado com I =1,82 é:

77 Arranjando: Para resolver essa equação, o valor a 1,I é, arbitrariamente, fixado como 1 e o resultado de a 2,I é encontrado:

78 Para resolver essa equação, 0 valor a 1,I é, arbitrariamente, fixado como 1 e o resultado de a 2,I é encontrado: Assim, a 2,1 = 1 Assim, o autovetor associado com o 1 é:

79 Similarmente, para 2 :

80 Para que a condição : seja atendida, o autovetor deve ser normalizado através de um fator, dado por: Posteriormente, cado autovetor é multiplicado pelo seu respectivo fator:

81 Note que:

82 De posse dos autovetores podemos criar as combinações lineares e, deste modo, encontrar os escores das unidades amostrais através da substituição das variáveis originais nestas combinações lineares:

83 Para as demais unidades amostrais

84 Escores = posição das novas u.a. nas novas variáveis denominadas CPs

85 A correlação (loading, coeficiente de estrutura) das variáveis originais com os componentes é dada pela correlação linear de Pearson entre as variáveis originais e os escores ou:

86

87 Para a realização da PCA, em conjuntos reais de dados, p deve ser sempre maior que 3, para fins de ordenação e redução da dimensionalidade dos dados (com 3 dimensões basta fazer um diagrama tridimensional). Deste modo, quando p >>> 3, por exemplo, p = 10, é possível obter 10 combinações lineares. Assim, é necessário um critério de parada. Em outras palavras, precisamos de um critério para verificar quais são os componentes principais interpretáveis. Se interpretamos um número muito grande de componente voltamos para o problema da análise univariada e não conseguimos o objetivo principal: redução da dimensionalidade do problema.

88 Critérios de Parada Jackson, D. A Stopping rules in principal components analysis: a comparison of heuristical and statistical approaches. Ecology 74: Critério de Kaiser-Guttman ( > 1); -Proporção da variância total (e.g. 95%); -Scree plot; -Teste de esferecidade de Bartlett; -Modelo de Broken-Stick;

89 Regras de Parada: Scree plot Os componentes residuais tendem a estar em uma linha reta. Assim, neste exemplo, somente o 1 o CP seria interpretável.

90 CP 1 CP 2 CP3 X1X1 X2X2 X3X3 Regras de Parada: Esferidade de Bartlett

91 Regras de Parada: Broken Stick Broken-Stick Observado

92 Um exemplo clássico... Considerem os dados obtidos por Bumpus (1898): -49 pardais (21 vivos e 29 mortos, após uma tempestade); -5 medidas morfométricas (landmarks); Passer domesticus

93 ***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space ********** PC-ORD, Version 3.0 VARIANCE EXTRACTED, FIRST 5 AXES Broken-stick AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue ***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space ********** PC-ORD, Version 3.0 VARIANCE EXTRACTED, FIRST 5 AXES Broken-stick AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue

94 Latent Vectors (Eigenvectors) X X X X X

95

96 Eixo de tamanho (72,3 %) Seleção estabilizadora?

97

98

99

100

101 Nature Genetics 35: , 2003

102

103

104 Dados do Baru (1 locus – DA20)

105

106

107 OUTRAS TÉCNICAS DE ORDENAÇÃO ANALISE DE COORDENADAS PRINCIPAIS (PCOA) - resolve o problema do PCA de poucas populações, pois extrai os autovetores de uma matriz de distâncias (transformada) - Pode utilizar qualquer métrica de distância (incluindo distancias de Nei, F ST, etc) ESCALONAMENTO MULTIDIMENSIONAL NÃO-MÉTRICO (NMDS) -Técnica de otimização não-linear para espaço com m dimensões (medida de stress) -Pode iniciar com a PCOA e melhorar a configuração

108 PCOA CCC = NMDS Final STRESS1 = CCC = 0.968

109

110 PCOA CCC = NMDS Final STRESS1 = CCC = 0.968


Carregar ppt "GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA &"

Apresentações semelhantes


Anúncios Google