Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN
Algoritmos de Agrupamento Agrupamento Hierárquico k-médias
Procedimentos Hierárquicos de Agrupamento Envolvem a construção de uma hierarquia de uma estrutura do tipo árvore Divisivo Aglomerativo Ligação Individual Ligação Completa Ligação Média
Métodos Aglomerativos Cada objeto começa como seu próprio grupo (cluster) Em passos seguintes, os dois grupos (ou objetos) mais próximos (similares) são combinados em um novo agregado O número de grupos é reduzido em uma unidade em cada passo Ao final, todos os elementos são reunidos em um grande agregado
Método Hierárquico: Ligação Individual Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado A distância (similaridade) entre dois grupos quaisquer é a menor distância (maior similaridade) de qualquer ponto de um grupo até qualquer ponto do outro O procedimento continua até que todos os objetos formem um só agregado
Ligação Individual: Exemplo (1/6) Exemplo do uso do Método Hierárquico Aglomerativo de Ligação Individual, com Correlação de Pearson como medida de proximidade
Ligação Individual: Exemplo (2/6)
Ligação Individual: Exemplo (3/6)
Ligação Individual: Exemplo (4/6)
Ligação Individual: Exemplo (5/6)
Ligação Individual: Exemplo (6/6)
Ligação Simples: Características Gera grupos alongados Problemas em lidar com grupos mal delineados Em tais casos, procedimentos de ligação individual longas cadeias e eventualmente todos os objetos são colocados em uma sua cadeia Os objetos em extremos opostos de uma cadeia podem ser muito diferentes
Ligação Simples: Características AB C Ficaria mais homogêneo juntar C com A ou C com B do que A com B
Método Hierárquico: Ligação Completa Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado A distância (similaridade) entre dois grupos quaisquer é a maior distância (menor similaridade) de qualquer ponto de um grupo até qualquer ponto do outro O procedimento continua até que todos os objetos formem um só agregado
Método Hierárquico: Ligação Completa A distância máxima entre indivíduos entre objetos em cada grupo representa a menor esfera (diâmetro mínimo) que pode inclui todos os objetos em ambos os grupos Esse método é chamado de ligação completa porque todos os objetos em agrupamento são conectados um com o outro a alguma distancia máxima ou similaridade mínima Essa técnica elimina o problema de encadeamento identificado na ligação individual separados pela menor distância (mais similares) e os coloca no primeiro grupo
Ligação Individual x Ligação Completa Distancia mais curta Distancia mais longa Tendência a produzir grupos alongados Tendência a produzir grupos compactos
Método Hierárquico: Ligação Média Esse método começa da mesma forma que a ligação individual ou completa, mas o critério de agrupamento é a distância (similaridade) média de todos os objetos em um grupo para os demais em outro São menos dependentes de valores extremos, como ocorre com a ligação individual ou completa A partição é baseada em todos os valores dos grupos, ao invés de de um único par de membros extremos Tendem a combinar grupos com pequena variação interna Tendem a produzir grupos com aproximadamente a mesma variância
Métodos Hierárquicos Características Abordagem aglomerativa Hierárquia Determinístico Produz uma ordem para os objetos – informativo para a exibição de dados Dificuldades Não reflete as maneiras distintas em que objetos podem ser similares A estrutura é sempre uma árvore Os objetos só podem ser agrupados baseando-se em decisões locais, as quais, uma vez tomadas, não podem ser re-avaliadas Essas técnicas não são robustas a ruído
k-Médias Esta técnica difere do agrupamento hierárquico de várias maneiras. Em particular, Não há hierarquias, os dados são particionados Ou seja, a solução de seis grupos não é apenas a combinação de dois grupos a partir de uma solução com sete grupos, como no hierárquico, mas baseada apenas na descoberta da melhor solução com seis grupos O resultado é apenas a pertinência final de cada padrão aos aglomerados O número de aglomerados permitido (k) tem que ser definido a priori
k-Médias: Algoritmo Passo 1: Os primeiros k centros dos aglomerados são escolhidos aleatoriamente Passo2: Cada objeto é atribuído ao grupo associado com o centro mais próximo Passo3: Compute um novo centro para cada grupo (média dos valores de todos os objetos - centróide) Passo4: Repita Passo2 (com os novos centros) e Passo3 até que não haja mudança nos centros
k-Médias: Exemplo (1/7) Exemplo do uso do k-médias, com Correlação de Pearson como medida de proximidade
k-Médias: Exemplo (2/7)
k-Médias: Exemplo (3/7)
k-Médias: Exemplo (4/7)
k-Médias: Exemplo (5/7)
k-Médias: Exemplo (6/6)
k-Médias: Exemplo (7/7)
k-médias: sensibilidade à condição inicial X2 X1 FGFGDEDE A CBCB Grupo 1 Grupo 2 Grupo 3
k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, F e E
k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, F e E
k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, B e C
k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, B e C
k-médias Características Partição O número de grupos deve ser definido a priori Não-determinístico – inicializações aleatórias dos centros Grupos (clusters) esféricos Dificuldades Como determinar se há realmente apenas k grupos distintos representado nos dados?
Bibliografia Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp Bookman. Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp