A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA &

Apresentações semelhantes


Apresentação em tema: "GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA &"— Transcrição da apresentação:

1 GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE Departamento de Ecologia, ICB, Universidade Federal de Goiás, Brasil (diniz@icb.ufg.br)

2 Ecologia & Genética ESPACIALMENTE IMPLICITAS ABORDAGENS ESPACIAIS ESPACIALMENTE EXPLICITAS

3 Relação genética entre as populações F ST (e estatísticas relacionadas) par-a- par Distâncias genéticas Outras matrizes de similaridade Matriz quadrada (n * n), simétrica e com zero na diagonal principal http://www.uwyo.edu/dbmcd/molmark/gendisteqns.pdf

4 Masatoshi Nei D = -ln (I) Where I = Σx i y i / (Σx i 2 Σy i 2 ) 0.5 A identidade de Nei é, portanto, a correlação de Pearson entre as populações ao longo das frequencias alélicas... Neis genetic distances

5 Wrights F ST Análise de Variância de Frequencias Alélicas ( P ) AMOVA R ST Holsingers Bayesian ST G ST Q ST (fenótipo) Valores par- a-par (n * n, simétrica)

6 Distância Euclidiana (ca. distância de Rogers 1972)

7 dijdijdijdij Alelo X 2 Alelo X 1 Xj2Xj2Xj2Xj2 X i2 X i1 Xj1Xj1Xj1Xj1 i j Quando existem apenas dois descritores, essa equação resulta no valor da hipotenusa: população

8 A distância Euclidiana não apresenta um limite superior, ou seja, o valor aumenta indefinidamente com o aumento do número de descritores. Assim, podemos calcular a distância Euclidiana média: A distância de Rogers usa p = 2

9 Cavalli-Sforzas & Edward (1967) chord distance Populations are conceptualised as existing as points in a m-dimensional Euclidean space which are specified by m allele frequencies (i.e. m equals the total number of alleles in both populations).

10

11 Coeficientes de SIMILARIDADE para dados binários Transformar frequencias alélicas em dados 0/1 (ou seja, presença ou ausência do alelo ou haplótipo) População 1 População 2 Tabela de Freqüência 2 X 2

12 Uma maneira simples de calcular a similaridade entre os dois objetos envolve a contagem dos números de descritores que codificam estes objetos do mesmo modo e a posterior divisão pelo número total de descritores p (a+b+c+d): S 1 = Coincidência simples (simple matching)

13 (0 = baixa similaridade e 1 = alta similaridade)

14 Coeficientes de similaridade para dados binários: modo Q (Coeficientes assimétricos) Jaccard Sørensen

15 A idéia é desdobrar a (dis)similaridade em diferentes componentes, incluindo turnover e riqueza de alelos

16 Turnover (substituição) Riqueza alélica Para o Baru, o componente de turnover representa 69% da similaridade, mas o interessante é que apenas o componente de riqueza possui padrão espacial

17 [n (n – 1)/2] valores (e.g. se n = 25 300 valores) E agora, José? Com n objetos (unidades amostrais) vamos ter uma matriz com: Como podemos representar eficientemente o padrão de similaridade entre esses objetos? As relações entre as n populações estão definidas em um espaço p-dimensional (onde p é o numero de alelos)

18 e.g., Quais as relações entre os 6 objetos a partir dessa matriz de distancias?

19 Agrupamento & Ordenações

20 Classificação das técnicas de agrupamentos Algumas propriedades das técnicas: Aglomerativos: Os grupos são formados, sucessivamente, até reunir todos os objetos em um único grande grupo, ou; Divisivos: Subdivide os grupos até o isolamento de cada objeto (e.g. chaves de taxonomia); Hierárquicos: elementos de um determinado grupo são agrupados dentro de grupos em níveis maiores, ou; Não-hierárquicos: Produzem uma única divisão que maximiza a homogeneidade dentro de grupos;

21 Análise de Classificação Análise de Agrupamentos (SAHN)

22 métodos de agrupamento: Vários métodos de agrupamento:

23 Aplicação da técnica de agrupamento: Construção do dendrograma (método médias das distâncias, UPGMA)

24 Primeiro passo: Unir D e F (0,37) D F 0,37 Distância de ligação

25 Segundo passo: Calcular as distância em relação ao novo grupo E assim, sucessivamente, para esta linha Neste ponto, vamos verificar qual o par com menor distância (2,12+2,49)/2

26 Terceiro passo: Unir A e B (0,67) D F Distância de ligação AB

27 Quarto passo: Calcular as distância em relação ao novo grupo Vamos agrupar: (E) com (AB)

28 Quinto passo: Unir E e AB (0,73) D F Distância de ligação ABE

29 Demais passos: Calcular as distância em relação ao novo grupo D FABE C Agrupar (CDF) com (ABE)

30 Resultado do NTSYS

31 Para os dados das 25 populações de Baru (UPGMA), a partir do F ST par-a-par... ?

32 Subp.Local de coleta 1Cocalinho-MT 2Água Boa-MT 3Pirenópolis-GO 4Sonora-MS 5Alcinópolis-MS 6Alvorada-TO 7São Miguel do Araguaia-GO 8Luziânia-GO 9Icém-SP 10Monte Alegre de Minas-MG 11Estrela do Norte-GO 12Santa Terezinha-GO 13Arinos-MG 14Pintópolis-MG 15Paraíso-MS (Chapadão do Sul) 16Paraíso/Camapuã-MS (Camapuã) 17Camapuã-MS 18Indiara-GO 19Araguaia-MT (Barra do Garça) 20Araguaia-GO (Aragarças) 21Jandaia-GO 22Natividade-TO 23Arraias-TO 24Aquidauana- MS 25Cáceres- MT

33 Subp.Local de coleta 1Cocalinho-MT 2Água Boa-MT 3Pirenópolis-GO 4Sonora-MS 5Alcinópolis-MS 6Alvorada-TO 7São Miguel do Araguaia-GO 8Luziânia-GO 9Icém-SP 10Monte Alegre de Minas-MG 11Estrela do Norte-GO 12Santa Terezinha-GO 13Arinos-MG 14Pintópolis-MG 15Paraíso-MS (Chapadão do Sul) 16Paraíso/Camapuã-MS (Camapuã) 17Camapuã-MS 18Indiara-GO 19Araguaia-MT (Barra do Garça) 20Araguaia-GO (Aragarças) 21Jandaia-GO 22Natividade-TO 23Arraias-TO 24Aquidauana- MS 25Cáceres- MT

34 VISUALIZANDO OS PADRÕES NO ESPAÇO...

35

36 O dendrograma representa adequadamente a matriz de distância original? Matriz Cofenética Matriz Original CCC=0,75 Bom ou Ruim? Coeficiente de Correlação Cofenética CCC)

37 Diagrama de Shepard: diagrama de dispersão que relaciona distâncias em um espaço com dimensão reduzida com a distâncias originais (mais adequado para técnicas de ordenação): No caso do Baru, o CCC foi igual a 0.845

38 (i) Resultados são dependentes dos protocolos utilizados; Problemas com a Análise de Agrupamentos (ii) discretizar um processo que pode ser, na verdade, contínuo, de modo que; (iv) Dificuldade de interpretação (iii) O número de grupos é dependente do nível de corte;

39

40 Métodos para determinação do nível de corte Maximizar diferenças entre grupos Minimizar diferenças dentro de grupos

41 Zero para quando u.a. estão em grupos iguais definidos pelo nível de corte 1 para quando u.a. estão em diferentes grupos definidos pelo nível de corte Nível 1 Nível 2 Bini, L. M. & Diniz Filho, J. A. F. (1995) Spectral Decomposition in cluster analysis with applications to limnological data. Acta Limnologica Brasiliensia, 7: 35-40.

42 Matriz Modelo (Nível de corte 1) Matriz Modelo (Nível de corte 2) Matriz de distância Original Nível de Corte CCC

43 (v) Mesmo com um conjunto aleatório de dados é possível encontrar grupos.

44 Model-based Clustering: STRUCTURE -Pressupostos (H-W, equilibrio de ligação) -Maximizar a probabilidade de individuos pertencerem a grupos (que são desconhecidos) -Vários dados (marcadores) e modelos de evolução -Associar com outras caracteristicas dos individuos (inclusive espaço) - Abordagem Bayesiana (MCMC)

45 -------------------------------------------- Estimated Ln Prob of Data = -8723.8 Mean value of ln likelihood = -8313.4 Variance of ln likelihood = 820.8 Mean value of alpha = 0.0405

46

47 Subp.Local de coleta 1Cocalinho-MT 2Água Boa-MT 3Pirenópolis-GO 4Sonora-MS 5Alcinópolis-MS 6Alvorada-TO 7São Miguel do Araguaia-GO 8Luziânia-GO 9Icém-SP 10Monte Alegre de Minas-MG 11Estrela do Norte-GO 12Santa Terezinha-GO 13Arinos-MG 14Pintópolis-MG 15Paraíso-MS (Chapadão do Sul) 16Paraíso/Camapuã-MS (Camapuã) 17Camapuã-MS 18Indiara-GO 19Araguaia-MT (Barra do Garça) 20Araguaia-GO (Aragarças) 21Jandaia-GO 22Natividade-TO 23Arraias-TO 24Aquidauana- MS 25Cáceres- MT CLUSTERS 12345678nBESTp2 0.0260.010.0780.0120.7530.030.0730.0173250.581 0.0070.0950.0860.0130.1670.5250.0920.0143260.329 0.0070.0130.0560.0170.310.5470.0320.0183260.400 0.120.1450.0170.530.0140.0170.0540.1033140.331 0.0690.6920.0180.0810.0120.0560.0230.053220.497 0.0130.0090.1280.0610.0890.0160.0940.5893280.384 0.0110.0180.5830.0120.3010.0150.0440.0163230.433 0.0090.0150.3470.1240.0450.3980.0440.0183260.299 0.0090.0320.2320.590.0340.0240.0510.0293130.408 0.0220.0210.0280.0340.5090.0360.0150.3353250.376 0.0090.020.4360.0210.3230.0450.0770.0681230.308 0.0140.0410.0240.0380.5160.0340.1220.2111250.331 0.0080.010.0110.0140.0580.0240.8540.0213270.734 0.0060.0170.0920.0290.0160.0120.8110.0163270.668 0.0960.50.1370.0170.0220.0660.0770.0851320.296 0.010.8110.0270.0150.0430.0160.0110.0671320.665 0.0150.8070.0610.0630.0110.0130.0140.0171320.660 0.0050.1450.0580.0340.0350.6760.010.0361360.485 0.0180.1570.1730.1830.030.3480.0430.0482760.215 0.0180.2850.0680.090.030.1290.0250.3563780.239 0.0110.0140.3890.1040.0630.3560.0140.0493230.296 0.0070.0080.810.0360.0190.0220.0120.0861230.666 0.009 0.6670.1420.10.0240.0210.0281530.477 0.0330.0490.1710.4840.0610.1390.0470.0163140.292 0.940.0080.0070.0090.0070.0050.0080.0143010.884

48 Subp.Local de coleta 1Cocalinho-MT 2Água Boa-MT 3Pirenópolis-GO 4Sonora-MS 5Alcinópolis-MS 6Alvorada-TO 7São Miguel do Araguaia-GO 8Luziânia-GO 9Icém-SP 10Monte Alegre de Minas-MG 11Estrela do Norte-GO 12Santa Terezinha-GO 13Arinos-MG 14Pintópolis-MG 15Paraíso-MS (Chapadão do Sul) 16Paraíso/Camapuã-MS (Camapuã) 17Camapuã-MS 18Indiara-GO 19Araguaia-MT (Barra do Garça) 20Araguaia-GO (Aragarças) 21Jandaia-GO 22Natividade-TO 23Arraias-TO 24Aquidauana- MS 25Cáceres- MT

49

50 1 4 4 2 8 83 3 5 6 6 3 3 5 7 6 Os 8 grupos do STRUCTURE no espaço geográfico

51

52

53 1 4 4 2 8 83 3 5 6 6 3 3 5 7 6

54 1 4 4 2 8 83 3 5 6 6 3 3 5 7 6

55 1 4 2 8 83 3 5 6 6 3 3 5 7 6 1 4 2 8 7 5 3 6

56 1 4 4 2 8 83 3 5 6 6 3 3 5 7 6 1 4 2 8 7 5 3 6

57 TÈCNICAS DE ORDENAÇÃO Representar a variação p-dimensional em um espaço (eixos) contínuo que compacte essa variação variação em um numero com m > p de dimensões (normalmente 1, 2 ou 3)

58 Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417- 441. MAPAS SINTÉTICOS baseados em Análise de Componentes Principais (ACP) -Eliminar estrutura de correlação entre variáveis transformando-as em eixos ortogonais (os componentes principais); -Interpretar os eixos principais como conseqüência de processos microevolutivos.

59 Em resumo, na ACP três matrizes são importantes 1)Autovalores – importância de cada eixo; 2)Autovetores – coeficientes das variáveis nos eixos; 3)Escores – componentes principais (eixo)

60 Análise de Componentes Principais (PCA) (Principal Component Analysis) Pearson, K. 1901. On lines and planes of closest fit to a system of points in space. Phylosophical magazine. v. 2, p. 557-572. Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417-441. Etapas: -Interpretação geométrica; -Procedimentos matemáticos; -Interpretação de dados reais; -Aplicações

61 Matematicamente, o objetivo da PCA é encontrar uma combinação linear de variáveis de tal forma que a variância entre os indivíduos seja a maior possível (1 o componente principal): Os coeficientes a são os autovetores. São obtidos de tal forma a maximizar a variância de Z 1 (var(Z 1 )), com a seguinte condição: Esta condição garante que a var(Z 1 ) não aumente com a simples adição de qualquer um dos valores de a 1j.

62 O segundo componente principal: É calculado de tal forma que a var(Z 2 ) seja a maior possível (a segunda principal direção da variância). A mesma condição anterior é requerida: Além disso, estes autovetores são calculados de tal maneira que Z 2 não seja correlacionado com Z 1 (componentes independentes).

63 X1 X2 X1 X2 X1 X2 Eixos independentes ou ortogonais:

64 O terceiro componente principal: É calculado de tal forma que a var(Z 3 ) seja a maior possível. A mesma condição anterior é requerida: Além disso, estes autovetores são calculados de tal maneira que Z 3 não seja correlacionado com Z 2 e Z 1 (componentes independentes).

65 Por exemplo, se temos 5 variáveis podemos extrair 5 componentes principais, tal como definido anteriormente. De forma mais geral, o número possível de componente é igual a p (variáveis). No entanto, como foi demonstrado, sucessivos componentes principais apresentam uma variância cada vez menor. Esse resultado será útil para a redução da dimensionalidade dos dados.

66 As variâncias dos componentes principais são os autovalores ( ) de uma matriz de covariância ou correlação (com dados previamente estandardizados). Os autovetores (a) são os coeficientes das combinações lineares e informam quais as variáveis que apresentam o maior poder de discriminação das u.a. (maximizam a dispersão das unidades amostrais ao longo do espaço).

67 CP 1 CP 2 CP3 X1X1 X2X2 X3X3

68 Autovalores e Autovetores Ca = a C =

69 Autovalores e Autovetores Ra = a R =

70 Exemplo numérico Matriz de correlação entre variáveis:

71 (R- I)a=0 Cuja equação característica: |R- I|=0

72

73 Determinante de uma matriz 2 x 2: o primeiro termo ao quadrado, menos duas vezes o produto dos dois termos mais o quadrado do segundo)

74 (Ignore o sinal) a bc

75 % de explicação do CP 1 = I / = 1,82/2 = 91 % % de explicação do CP 2 = II / = 0,18/2 = 9 % Total = 100 %

76 Autovetores: Ra = a O autovetor associado com I =1,82 é:

77 Arranjando: Para resolver essa equação, o valor a 1,I é, arbitrariamente, fixado como 1 e o resultado de a 2,I é encontrado:

78 Para resolver essa equação, 0 valor a 1,I é, arbitrariamente, fixado como 1 e o resultado de a 2,I é encontrado: Assim, a 2,1 = 1 Assim, o autovetor associado com o 1 é:

79 Similarmente, para 2 :

80 Para que a condição : seja atendida, o autovetor deve ser normalizado através de um fator, dado por: Posteriormente, cado autovetor é multiplicado pelo seu respectivo fator:

81 Note que:

82 De posse dos autovetores podemos criar as combinações lineares e, deste modo, encontrar os escores das unidades amostrais através da substituição das variáveis originais nestas combinações lineares:

83 Para as demais unidades amostrais

84 Escores = posição das novas u.a. nas novas variáveis denominadas CPs

85 A correlação (loading, coeficiente de estrutura) das variáveis originais com os componentes é dada pela correlação linear de Pearson entre as variáveis originais e os escores ou:

86

87 Para a realização da PCA, em conjuntos reais de dados, p deve ser sempre maior que 3, para fins de ordenação e redução da dimensionalidade dos dados (com 3 dimensões basta fazer um diagrama tridimensional). Deste modo, quando p >>> 3, por exemplo, p = 10, é possível obter 10 combinações lineares. Assim, é necessário um critério de parada. Em outras palavras, precisamos de um critério para verificar quais são os componentes principais interpretáveis. Se interpretamos um número muito grande de componente voltamos para o problema da análise univariada e não conseguimos o objetivo principal: redução da dimensionalidade do problema.

88 Critérios de Parada Jackson, D. A. 1993. Stopping rules in principal components analysis: a comparison of heuristical and statistical approaches. Ecology 74:2204-2214. -Critério de Kaiser-Guttman ( > 1); -Proporção da variância total (e.g. 95%); -Scree plot; -Teste de esferecidade de Bartlett; -Modelo de Broken-Stick;

89 Regras de Parada: Scree plot Os componentes residuais tendem a estar em uma linha reta. Assim, neste exemplo, somente o 1 o CP seria interpretável.

90 CP 1 CP 2 CP3 X1X1 X2X2 X3X3 Regras de Parada: Esferidade de Bartlett

91 Regras de Parada: Broken Stick Broken-Stick Observado

92 Um exemplo clássico... Considerem os dados obtidos por Bumpus (1898): -49 pardais (21 vivos e 29 mortos, após uma tempestade); -5 medidas morfométricas (landmarks); Passer domesticus

93 ***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space ********** PC-ORD, Version 3.0 VARIANCE EXTRACTED, FIRST 5 AXES --------------------------------------------------------------- Broken-stick AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue --------------------------------------------------------------- 1 3.616 72.320 72.320 2.283 2.532 10.630 82.950 1.283 3.386 7.728 90.678.783 4.302 6.031 96.709.450 5.165 3.291 100.000.200 --------------------------------------------------------------- ***** PRINCIPAL COMPONENTS ANALYSIS -- pardais in medidas space ********** PC-ORD, Version 3.0 VARIANCE EXTRACTED, FIRST 5 AXES --------------------------------------------------------------- Broken-stick AXIS Eigenvalue % of Variance Cum.% of Var. Eigenvalue --------------------------------------------------------------- 1 3.616 72.320 72.320 2.283 2.532 10.630 82.950 1.283 3.386 7.728 90.678.783 4.302 6.031 96.709.450 5.165 3.291 100.000.200 ---------------------------------------------------------------

94 Latent Vectors (Eigenvectors) 1 2 3 4 5 X1 0.452 -0.051 -0.690 -0.420 -0.374 X2 0.462 0.300 -0.341 0.548 0.530 X3 0.451 0.325 0.454 -0.606 0.343 X4 0.471 0.185 0.411 0.388 -0.652 X5 0.398 -0.876 0.178 0.069 0.192

95

96 Eixo de tamanho (72,3 %) Seleção estabilizadora?

97

98

99

100

101 Nature Genetics 35: 311- 313, 2003

102

103

104 Dados do Baru (1 locus – DA20)

105

106

107 OUTRAS TÉCNICAS DE ORDENAÇÃO ANALISE DE COORDENADAS PRINCIPAIS (PCOA) - resolve o problema do PCA de poucas populações, pois extrai os autovetores de uma matriz de distâncias (transformada) - Pode utilizar qualquer métrica de distância (incluindo distancias de Nei, F ST, etc) ESCALONAMENTO MULTIDIMENSIONAL NÃO-MÉTRICO (NMDS) -Técnica de otimização não-linear para espaço com m dimensões (medida de stress) -Pode iniciar com a PCOA e melhorar a configuração

108 PCOA CCC = 0.907 NMDS Final STRESS1 = 0.07954 CCC = 0.968

109

110 PCOA CCC = 0.907 NMDS Final STRESS1 = 0.07954 CCC = 0.968


Carregar ppt "GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA &"

Apresentações semelhantes


Anúncios Google