A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE Sandra de Amo AULA 21 DATA MINING.

Apresentações semelhantes


Apresentação em tema: "Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE Sandra de Amo AULA 21 DATA MINING."— Transcrição da apresentação:

1 Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE Sandra de Amo AULA 21 DATA MINING

2 Clustering Using REpresentatives (CURE) No início, cada amostra é um cluster. número de clusters = número de amostras Calcula-se distância entre os clusters. Clusters próximos são reunidos num único cluster. Repete-se o processo de cálculo da distância entre clusters e reunião de clusters próximos. O processo termina quando se atinge o número pré- fixado de clusters.

3 Como medir a distância entre clusteres Enfoque baseado em centróide Distância entre clusteres C1 e C2 = d mean (C1,C2) = d(m1,m2) mi = centróide de Ci Enfoque MST (Minimum Spanning Tree) d min (C1,C2) = min d(p,q) p ɛ C1, q ɛ C2

4 Como medir a distância entre clusteres Média d media (C1,C2) = 1 Σ Σ d(p,q) n i n j n i = tamanho do cluster Ci Max d(C1,C2) = max d(p,q) p ɛ C1, q ɛ C2 p ɛ C1q ɛ C2

5 Distância entre Clusters Centróides MST Média MAX

6 Cálculo da Distância em CURE Política mista: centróides e MST Determina um número N de objetos em cada cluster que são mais representativos do cluster. Elementos bem distribuídos Representam zonas distintas do cluster Calcula a mínima distância entre estes elementos mais representativos.

7 Distância entre Clusters CURE Elementos representativos do Cluster C1 Elementos representativos do Cluster C2

8 Cálculo da Distância entre Clusters CURE + + Coeficiente de Retração Número de representantes escolhidos em cada cluster Parâmetros de Entrada

9 Parâmetros de Ajuste Representantes : capturam o formato do cluster Retração em direção do centro de gravidade: Diminuir a influência de ruídos Coeficientes de retração : Valores pequenos : favorecem clusters de formato não convexo, menos compacto Valores grandes : aproximam os representantes do centro do cluster, favorecem clusters convexos, de forma esférica.

10 Algoritmo CURE Entrada Banco de Dados BD K = número de clusters α = fator de retração ( 0 α < 1) N = número de representantes em cada cluster Saída K clusters disjuntos

11 Algoritmo CURE Duas estruturas de dados Uma para armazenar os clusters a cada iteração (heap sequencial) Uma para armazenar os representantes dos clusters a cada iteração (kd-tree – estrutura de dados utilizada para armazenamento e consulta eficientes de dados multidimensionais)

12 Apresentação simplificada Q = arquivo para armazenar os clusters u = cluster = {a1, a2,..., an} u.mp = cluster mais próximo de u id1 id2 id3 id4 u1 u2 u3 u clustersd(u, u.mp)Arquivo Q ordenado pela terceira coluna T = arquivo para armazenar os representantes de cada cluster id1 id2 id3 id4 {p1,p2,p3} {q1,q2,q3} {w1,w2,w3} {v1,v2,v3} u1. rep u2. rep u3. rep u4. rep u2 = u1.mp

13 Criação dos Clusteres 1. u i = {pi}, onde BD = {p1,...,pm} Inicialmente cada objeto é um cluster Clusteres são ordenados em Q segundo a menor distância a seus clusteres mais próximos. Arquivo T contém m registros, cada registro é um conjunto unitário {pi}. 2. Repeat 1. Considera-se o primeiro cluster u em Q e v = u. mp 2. Retira u e v de Q 3. w = u U v ; w.rep = representantes de w 4. Remove de T os registros u.rep e v.rep 5. Calcula w.mp 6. Atualiza a terceira coluna do arquivo Q 7. Insere em Q o cluster w na posição adequada e w.rep em T Until Q contém k clusteres

14 Exemplo: cálculo de w.rep q1 q2 p1 p2 p3 Centro de gravidade de w = u U v Cluster u Cluster v N = 3 α = 0.5 w = {p1, p2, p3, q1, q2} Repr. 1 = o que está mais afastado do centro = q1 Repr. 2 = o que está mais afastado de q1 = p2 Repr. 3 = o que está mais afastado de {q1, p2} d(p1,{q1,p2}) = min {d(p1,q1), d(p1,p2)} = d(p1,p2) d(p2,{q1,p2}) = 0 d(p3,{q1,p2}) = d(p3,p2) d(q1,{q1,p2}) = 0 d(q2,{q1,p2}) = d(q1,q2)

15 Exemplo: cálculo de w.rep q1 q2 p1 p2 p3 Centro de gravidade de w = u U v Cluster u Cluster v N = 3 w = {p1, p2, p3, q1, q2} N = 3 α = 0.5 w.rep = representantes do cluster w

16 Cálculo de w.mp (mais próximo de w) 1. Considera-se x = o primeiro cluster de Q – {u,v} 2. Fazemos w.mp = x 3. Para cada y em Q – {u,v} 3.1 Se d(y,w) < d(w,w.mp) então w.mp:= y 3.2 Se y.mp = u ou v Se d(y,y.mp) < d(y,w) Existe z em Q – {u,v}tal que d(y, z) < d(y,w) ? Sim : y.mp := z Não : y.mp := w Se d(y,y.mp) d(y,w) y.mp:= w 3.3 Se y.mp é diferente de u e v Se d(y,y.mp) > d(y, w) y.mp:= w Para cada cluster y atualiza seu cluster mais próximo

17 Vantagens e Desvantagens CURE detecta clusters de formato arbitrário K-means detecta clusters de formato esférico CURE é robusto quanto a outliers Desvantagem de CURE : complexidade O(n 2 ), n = tamanho do banco de dados

18 Referência S. Guha, R. Rastogi, K. Shim: CURE – An Efficient Clustering Algorithm for Large Databases. ACM/SIGMOD 1998.CURE – An Efficient Clustering Algorithm for Large Databases


Carregar ppt "Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE Sandra de Amo AULA 21 DATA MINING."

Apresentações semelhantes


Anúncios Google