A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.

Apresentações semelhantes


Apresentação em tema: "Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN."— Transcrição da apresentação:

1 Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN

2 Algoritmos de Agrupamento Agrupamento Hierárquico k-médias

3 Procedimentos Hierárquicos de Agrupamento Envolvem a construção de uma hierarquia de uma estrutura do tipo árvore Divisivo Aglomerativo Ligação Individual Ligação Completa Ligação Média

4 Métodos Aglomerativos Cada objeto começa como seu próprio grupo (cluster) Em passos seguintes, os dois grupos (ou objetos) mais próximos (similares) são combinados em um novo agregado O número de grupos é reduzido em uma unidade em cada passo Ao final, todos os elementos são reunidos em um grande agregado

5 Método Hierárquico: Ligação Individual Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado A distância (similaridade) entre dois grupos quaisquer é a menor distância (maior similaridade) de qualquer ponto de um grupo até qualquer ponto do outro O procedimento continua até que todos os objetos formem um só agregado

6 Ligação Individual: Exemplo (1/6) Exemplo do uso do Método Hierárquico Aglomerativo de Ligação Individual, com Correlação de Pearson como medida de proximidade

7 Ligação Individual: Exemplo (2/6)

8 Ligação Individual: Exemplo (3/6)

9 Ligação Individual: Exemplo (4/6)

10 Ligação Individual: Exemplo (5/6)

11 Ligação Individual: Exemplo (6/6)

12 Ligação Simples: Características Gera grupos alongados Problemas em lidar com grupos mal delineados Em tais casos, procedimentos de ligação individual longas cadeias e eventualmente todos os objetos são colocados em uma sua cadeia Os objetos em extremos opostos de uma cadeia podem ser muito diferentes

13 Ligação Simples: Características AB C Ficaria mais homogêneo juntar C com A ou C com B do que A com B

14 Método Hierárquico: Ligação Completa Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado A distância (similaridade) entre dois grupos quaisquer é a maior distância (menor similaridade) de qualquer ponto de um grupo até qualquer ponto do outro O procedimento continua até que todos os objetos formem um só agregado

15 Método Hierárquico: Ligação Completa A distância máxima entre indivíduos entre objetos em cada grupo representa a menor esfera (diâmetro mínimo) que pode inclui todos os objetos em ambos os grupos Esse método é chamado de ligação completa porque todos os objetos em agrupamento são conectados um com o outro a alguma distancia máxima ou similaridade mínima Essa técnica elimina o problema de encadeamento identificado na ligação individual separados pela menor distância (mais similares) e os coloca no primeiro grupo

16 Ligação Individual x Ligação Completa Distancia mais curta Distancia mais longa Tendência a produzir grupos alongados Tendência a produzir grupos compactos

17 Método Hierárquico: Ligação Média Esse método começa da mesma forma que a ligação individual ou completa, mas o critério de agrupamento é a distância (similaridade) média de todos os objetos em um grupo para os demais em outro São menos dependentes de valores extremos, como ocorre com a ligação individual ou completa A partição é baseada em todos os valores dos grupos, ao invés de de um único par de membros extremos Tendem a combinar grupos com pequena variação interna Tendem a produzir grupos com aproximadamente a mesma variância

18 Métodos Hierárquicos Características Abordagem aglomerativa Hierárquia Determinístico Produz uma ordem para os objetos – informativo para a exibição de dados Dificuldades Não reflete as maneiras distintas em que objetos podem ser similares A estrutura é sempre uma árvore Os objetos só podem ser agrupados baseando-se em decisões locais, as quais, uma vez tomadas, não podem ser re-avaliadas Essas técnicas não são robustas a ruído

19 k-Médias Esta técnica difere do agrupamento hierárquico de várias maneiras. Em particular, Não há hierarquias, os dados são particionados Ou seja, a solução de seis grupos não é apenas a combinação de dois grupos a partir de uma solução com sete grupos, como no hierárquico, mas baseada apenas na descoberta da melhor solução com seis grupos O resultado é apenas a pertinência final de cada padrão aos aglomerados O número de aglomerados permitido (k) tem que ser definido a priori

20 k-Médias: Algoritmo Passo 1: Os primeiros k centros dos aglomerados são escolhidos aleatoriamente Passo2: Cada objeto é atribuído ao grupo associado com o centro mais próximo Passo3: Compute um novo centro para cada grupo (média dos valores de todos os objetos - centróide) Passo4: Repita Passo2 (com os novos centros) e Passo3 até que não haja mudança nos centros

21 k-Médias: Exemplo (1/7) Exemplo do uso do k-médias, com Correlação de Pearson como medida de proximidade

22 k-Médias: Exemplo (2/7)

23 k-Médias: Exemplo (3/7)

24 k-Médias: Exemplo (4/7)

25 k-Médias: Exemplo (5/7)

26 k-Médias: Exemplo (6/6)

27 k-Médias: Exemplo (7/7)

28 k-médias: sensibilidade à condição inicial X2 X1 FGFGDEDE A CBCB Grupo 1 Grupo 2 Grupo 3

29 k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, F e E

30 k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, F e E

31 k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, B e C

32 k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, B e C

33 k-médias Características Partição O número de grupos deve ser definido a priori Não-determinístico – inicializações aleatórias dos centros Grupos (clusters) esféricos Dificuldades Como determinar se há realmente apenas k grupos distintos representado nos dados?

34 Bibliografia Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp. 381-419. Bookman. Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp. 264-323. Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp. 645-678.


Carregar ppt "Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN."

Apresentações semelhantes


Anúncios Google