Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouGabriel Feria Alterado mais de 9 anos atrás
1
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN
2
Algoritmos de Agrupamento Agrupamento Hierárquico k-médias
3
Procedimentos Hierárquicos de Agrupamento Envolvem a construção de uma hierarquia de uma estrutura do tipo árvore Divisivo Aglomerativo Ligação Individual Ligação Completa Ligação Média
4
Métodos Aglomerativos Cada objeto começa como seu próprio grupo (cluster) Em passos seguintes, os dois grupos (ou objetos) mais próximos (similares) são combinados em um novo agregado O número de grupos é reduzido em uma unidade em cada passo Ao final, todos os elementos são reunidos em um grande agregado
5
Método Hierárquico: Ligação Individual Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado A distância (similaridade) entre dois grupos quaisquer é a menor distância (maior similaridade) de qualquer ponto de um grupo até qualquer ponto do outro O procedimento continua até que todos os objetos formem um só agregado
6
Ligação Individual: Exemplo (1/6) Exemplo do uso do Método Hierárquico Aglomerativo de Ligação Individual, com Correlação de Pearson como medida de proximidade
7
Ligação Individual: Exemplo (2/6)
8
Ligação Individual: Exemplo (3/6)
9
Ligação Individual: Exemplo (4/6)
10
Ligação Individual: Exemplo (5/6)
11
Ligação Individual: Exemplo (6/6)
12
Ligação Simples: Características Gera grupos alongados Problemas em lidar com grupos mal delineados Em tais casos, procedimentos de ligação individual longas cadeias e eventualmente todos os objetos são colocados em uma sua cadeia Os objetos em extremos opostos de uma cadeia podem ser muito diferentes
13
Ligação Simples: Características AB C Ficaria mais homogêneo juntar C com A ou C com B do que A com B
14
Método Hierárquico: Ligação Completa Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado A distância (similaridade) entre dois grupos quaisquer é a maior distância (menor similaridade) de qualquer ponto de um grupo até qualquer ponto do outro O procedimento continua até que todos os objetos formem um só agregado
15
Método Hierárquico: Ligação Completa A distância máxima entre indivíduos entre objetos em cada grupo representa a menor esfera (diâmetro mínimo) que pode inclui todos os objetos em ambos os grupos Esse método é chamado de ligação completa porque todos os objetos em agrupamento são conectados um com o outro a alguma distancia máxima ou similaridade mínima Essa técnica elimina o problema de encadeamento identificado na ligação individual separados pela menor distância (mais similares) e os coloca no primeiro grupo
16
Ligação Individual x Ligação Completa Distancia mais curta Distancia mais longa Tendência a produzir grupos alongados Tendência a produzir grupos compactos
17
Método Hierárquico: Ligação Média Esse método começa da mesma forma que a ligação individual ou completa, mas o critério de agrupamento é a distância (similaridade) média de todos os objetos em um grupo para os demais em outro São menos dependentes de valores extremos, como ocorre com a ligação individual ou completa A partição é baseada em todos os valores dos grupos, ao invés de de um único par de membros extremos Tendem a combinar grupos com pequena variação interna Tendem a produzir grupos com aproximadamente a mesma variância
18
Métodos Hierárquicos Características Abordagem aglomerativa Hierárquia Determinístico Produz uma ordem para os objetos – informativo para a exibição de dados Dificuldades Não reflete as maneiras distintas em que objetos podem ser similares A estrutura é sempre uma árvore Os objetos só podem ser agrupados baseando-se em decisões locais, as quais, uma vez tomadas, não podem ser re-avaliadas Essas técnicas não são robustas a ruído
19
k-Médias Esta técnica difere do agrupamento hierárquico de várias maneiras. Em particular, Não há hierarquias, os dados são particionados Ou seja, a solução de seis grupos não é apenas a combinação de dois grupos a partir de uma solução com sete grupos, como no hierárquico, mas baseada apenas na descoberta da melhor solução com seis grupos O resultado é apenas a pertinência final de cada padrão aos aglomerados O número de aglomerados permitido (k) tem que ser definido a priori
20
k-Médias: Algoritmo Passo 1: Os primeiros k centros dos aglomerados são escolhidos aleatoriamente Passo2: Cada objeto é atribuído ao grupo associado com o centro mais próximo Passo3: Compute um novo centro para cada grupo (média dos valores de todos os objetos - centróide) Passo4: Repita Passo2 (com os novos centros) e Passo3 até que não haja mudança nos centros
21
k-Médias: Exemplo (1/7) Exemplo do uso do k-médias, com Correlação de Pearson como medida de proximidade
22
k-Médias: Exemplo (2/7)
23
k-Médias: Exemplo (3/7)
24
k-Médias: Exemplo (4/7)
25
k-Médias: Exemplo (5/7)
26
k-Médias: Exemplo (6/6)
27
k-Médias: Exemplo (7/7)
28
k-médias: sensibilidade à condição inicial X2 X1 FGFGDEDE A CBCB Grupo 1 Grupo 2 Grupo 3
29
k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, F e E
30
k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, F e E
31
k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, B e C
32
k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, B e C
33
k-médias Características Partição O número de grupos deve ser definido a priori Não-determinístico – inicializações aleatórias dos centros Grupos (clusters) esféricos Dificuldades Como determinar se há realmente apenas k grupos distintos representado nos dados?
34
Bibliografia Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp. 381-419. Bookman. Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp. 264-323. Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp. 645-678.
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.