A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Análise de Agrupamentos

Apresentações semelhantes


Apresentação em tema: "Análise de Agrupamentos"— Transcrição da apresentação:

1 Análise de Agrupamentos
Valério De Patta Pillar Departamento de Ecologia Universidade Federal do Rio Grande do Sul Porto Alegre

2 Análise de dados com MULTIV
Disponível em

3 Análise de Agrupamentos (método de ligação simples)
6 7 4 2 3 1 5 4 8

4 Análise de Agrupamentos
Agrupamento hierárquico Algoritmos podem ser aglomerativos ou divisivos Processo de agrupamento representado por um dendrograma Não produz uma classificação mas n-1 possibilidades de classificação, pois o número de grupos é definido a posteriori Alguns algoritmos aglomerativos: Ligação simples, ligação completa, ligação média (UPGMA, WPGMA), soma de quadrados (Ward) Agrupamento não-hierárquico Número de grupos é especificado a priori e o resultado é uma classificação.

5 Algoritmo de agrupamento aglomerativo hierárquico
Baseado em uma matriz de semelhança comparando n objetos (unidades amostrais ou variáveis) aos pares: (1) São agrupados os dois objetos (ou dois grupos de objetos) que forem mais semelhantes na matriz de semelhança. (2) A matriz de semelhança é redefinida de acordo com o grupo que foi formado. (3) Repete-se o processo até que todos os objetos formem um único grupo (n-1 passos de agrupamentos).

6 Alguns critérios para a redefinição da matriz de semelhança após cada passo aglomerativo (Extraído de Podani 1994:82)

7 Ligação Simples Quando a matriz contém dissimilaridades, a dissimilaridade entre os grupos P e Q é: dPQ = INF [ djk, para j=1, ..., n-1 e k=j+1, ..., n objetos, desde que j pertença ao grupo P e k ao grupo Q ] onde: djk é um elemento da matriz de dissimilaridades INF é valor mínimo no conjunto entre [] Quando a matriz contém similaridades, SUP (máximo) é usado ao invés de INF.

8 Ligação Simples

9 Ligação Completa Quando a matriz contém dissimilaridades, a dissimilaridade entre os grupos P e Q é dPQ = SUP [ djk, para j=1, ..., n-1 and k=j+1, ..., n objetos, desde que j pertença ao grupo P e k ao grupo Q ] onde: djk é um elemento da matrizx de dissimilaridades SUP é o valor máximo no conjunto entre [] Quando a matriz contém similaridades, INF é usado aon invés de SUP.

10 Ligação Completa

11 Ligação Média (UPGMA) Rohlf (1963)
UPGMA: Unweighted Pair Group Method using Arithmetic Averages A distância entre dois objetos ou grupos M e N é dada pela média aritmética das distâncias entre os elementos dos dois grupos.

12 Soma de quadrados progressiva (Ward 1963, Orlóci 1967)
O critério de agrupamento minimiza o aumento na soma de quadrados dentro do grupo formado a cada passo de agrupamento, i.e. QPQ = QP+Q - QP - QQ Onde QP+Q é a soma de quadrados total no grupo P+Q e QP e QQ são as somas de quadrados dentro dos grupos P e Q.

13 Soma de quadrados progressiva

14

15 Nitidez de grupos e suficiência amostral em análise de agrupamentos
Análise de agrupamentos é uma ferramenta para classificação de quaisquer objetos. Métodos de agrupamento revelam grupos mesmo quando não existe estrutura clara de grupos nos dados. Os grupos revelados são reais? Como escolher um nível de partição adequado? Seria estável a classificação se o levantamento fosse repetido muitas vezes? O tamanho da amostra é suficiente para responder essas questões?

16 Quantos grupos? (onde “cortar” o dendrograma)
Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias. Análise de agrupamentos (soma de quadrados) com dados simulados: 50 unidades descritas por quatro variáveis aleatórias definindo 2 grupos nítidos.

17 São nítidos os grupos? Análise de agrupamentos de 20 comunidades em vegetação de campo (quadros 0.1 x 1 m) (Cadenazzi 1996). O método de agrupamentos é variância mínima e a análise é baseada em distâncias Euclidianas. Qual a probabilidade de que uma classificação (e.g., tipos de comunidades) obtida de um levantamento se mantenha ao se repetir o levantamento no mesmo universo amostral?

18 Avaliação da nitidez de grupos por auto-reamostragem (bootstrap)
Análise de agrupamentos é realizada com uma amostra, e grupos são definidos a um dado nível de partição. Amostras bootstrap são tomadas reamostrando a amostra com reposição. Análise de agrupamentos é realizada com cada amostra bootstrap e os grupos encontrados são comparados com os grupos originais. Quanto mais nítidos forem os grupos na amostra, mais estáveis serão os grupos encontrados nas amostras bootstrap. Quanto mais difusos forem os grupos na amostra, mais instáveis serão os grupos nas amostras bootstrap. Pillar, V.D How sharp are classifications? Ecology 80:

19 Avaliação da nitidez de grupos por bootstrap combinada com amostragem em processo
Dada uma amostra de n unidades amostrais e p variáveis submetida a análise de agrupamentos, o método gera as probabilidades necessárias para avaliar a significância das partições com k grupos usando tamanhos crescentes de amostra nz ≤ n. Pillar, V.D Sampling sufficiency in ecological surveys. Abstracta Botanica 22:

20 Avaliação de nitidez de grupos por auto-reamostragem (bootstrap)

21 Evaluation of group sharpness by bootstrap resampling

22 Evaluation of group sharpness by bootstrap resampling

23

24

25

26

27 Dimensions: 245 sampling units, 9 variables
Data type: (5) mixed Type: Resemblance measure: (5)Gower index, (1)between sampling units Clustering criterion: (4)average linkage (UPGMA) SAMPLER Bootstrap resampling Sample attribute: sharpness of group structure (G*) Considering partitions with 2 to 5 groups. Sample size at 1 sampling step(s): 245 Probabilities P(GNull<=G*) generated in 1000 iterations of bootstrap resampling: 2 groups: 0.281 3 groups: 0.141 4 groups: 0.106 5 groups: 0.027

28 Cluster analysis (UPGMA) of 245 vegetation patches delimited on grassland, Morro Santana, Porto Alegre (Klebe 2003). Description used 6 structural variables and the analysis was based on Gower similarities.

29 Types of grassland vegetation patches, Morro Santana, Porto Alegre (Klebe 2003). Classification based on 9 variables describing vegetation structure.


Carregar ppt "Análise de Agrupamentos"

Apresentações semelhantes


Anúncios Google