A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Método K-medóides Algoritmos PAM e CLARA AULA 15 DATA MINING.

Apresentações semelhantes


Apresentação em tema: "Método K-medóides Algoritmos PAM e CLARA AULA 15 DATA MINING."— Transcrição da apresentação:

1 Método K-medóides Algoritmos PAM e CLARA AULA 15 DATA MINING

2 Problema Dados Uma base de dados um número k Objetivo: particionar o conjunto de dados em k clusteres Algoritmo PAM: (Partinioning Around Medoids) encontra k clusters baseados em protótipos Protótipos são objetos da base de dados, representativos dos clusteres Agrupamentos particionais (clusteres disjuntos) Método de particionamento.

3 Idéia do Algoritmo PAM Determinar os k objetos que melhor representam os clusteres = medóides Distribuir os objetos nos k clusteres.

4 Algoritmo 1. Seleciona k objetos aleatoriamente: M1, M2,..., Mk = medóides iniciais O1,..., Op = objetos não medóides 2. Para cada objeto Oi (Oi não medóide) e cada medóide Mj, calcula-se O custo de trocar Mj por Oi (Oi seria um novo medóide no lugar de Mj) CT ij = Σ C mij m = 1 p C mij = erro local provocado ao se trocar o medóide Mj por Oi

5 Como calcular o erro C mij Caso 1 : O m está no cluster de Mj e com a substituição de Mj por O i, O m ficar mais próximo de um outro medóide M j2 MjMj2 OmOm OiOi Cmij = d(O m,Mj2) – d(O m,Mj) Número positivo

6 Como calcular o erro C mij Caso 2 : O m está no cluster de Mj e com a substituição de Mj por O i, O m ficar mais próximo de Oi MjMj2 OmOm OiOi Cmij = d(O m,Oi) – d(O m,Mj) Número positivo ou negativo

7 Como calcular o erro C mij Caso 3 : O m não está no cluster de Mj – (está no cluster de Mj2) e com a substituição de Mj por O i, O m continua no cluster de Mj2 (não muda de cluster) Mj Mj2 OmOm OiOi Cmij = d(O m,Mj2) – d(O m,Mj2) = 0

8 Como calcular o erro C mij Caso 4 : O m não está no cluster de Mj – (está no cluster de Mj2) e com a substituição de Mj por O i, O m vai para o cluster de Oi Mj Mj2 OmOm OiOi Cmij = d(O m,Oi) – d(O m,Mj2) Número negativo

9 Algoritmo (continuação...) 3. Seleciona-se o par (Mj,Oi) que corresponde ao minimo CTij. Se este mínimo é negativo então substitui-se Mj por Oi e volta ao passo 2. Se este mínimo é positivo, vai para o passo Varre o banco de dados e distribui os objetos entre os k clusteres cujos representantes são os k medóides encontrados no passo 3.

10 Observação No passo 3: se o custo mínimo é negativo, significa que existe uma maneira de se substituir um medóide por outro objeto de modo a diminuir a soma dos erros SSE. se o custo mínimo é positivo, significa que não há possibilidade de se modificar os medóides atuais de modo a diminuir o SSE. Logo, neste ponto, os medóides convergiram.

11 Complexidade PAM funciona satisfatoriamente para pequenos conjuntos de dados (em torno de 100 objetos e 5 clusters) Ineficiente para grandes volumes de dados. Número de pares MjOi = k(n-k) Para cada par é preciso computar Cmij, considerando todos os objetos não medóides Om Complexidade de cada iteração = O(k(n-k) 2 )

12 Variante de PAM CLARA (Clustering LARge Applications) Considera uma amostragem do banco de dados Aplica PAM na amostragem e encontra os k medóides. A idéia é encontrar uma amostragem tal que os k- medóides da amostragem estão próximos dos k- medóides da base de dados inteira.

13 Como encontrar a amostragem ideal ? Considera diversas amostragens Para cada amostragem, produz um particionamento da base original em k clusteres = C1,…, Ck. Considera o melhor particionamento, calculando a dissimilaridade média de todos os objetos do banco de dados. Dissimilaridade média = Σ Σ d(x,Mi) x ɛ Ci i = 1 k k Quanto menor a dissimilaridade melhor o particionamento.

14 Observações Número e tamanho das amostragens (obtidos experimentalmente) Número de amostragens = 5 Tamanho da amostragem = k Performance satisfatória para bancos de dados em torno de 1000 objetos e 10 clusteres.

15 Referência R.T. Ng, J. Han: Efficient and Effective Clustering Methods for Spatial Data MiningEfficient and Effective Clustering Methods for Spatial Data Mining VLDB 1994


Carregar ppt "Método K-medóides Algoritmos PAM e CLARA AULA 15 DATA MINING."

Apresentações semelhantes


Anúncios Google