Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Agrupamento de padrões Métodos hierárquicos
Jairo Lucas Wesley Menenguci
2
Agrupamento de padrões
Introdução Motivação Mineração de Dados Métodos hierarquicos Hierárquico Divisivo Hierárquico Aglomerativo Bibliografia
3
Introdução Atualmente cresce cada vez mais o volume e a velocidade com que dados digitais são armazenados e disponibilizados para o usuário, da mesma forma cresce a necessidade e a expectativa de poder se obter, de forma automatizada, informações implícitas nestes dados sem a necessidade de prévio conhecimento dos mesmos
4
Motivação Empresas como a Unimed e a Visa possuem atualmente mais de 2 milhões de associados no Brasil, como segmentar estes associados em grupos com perfis semelhantes? Como reconhecer áreas semelhantes em imagens geográficas de satelites?
5
Agrupamento de padrões
A mineração de dados (data mining) através de técnicas de classificação automática e KDD KnowLedge Discovery em database) procuram ajudar em soluções para este tipo de problema. Existem uma vasta diversidade de métodos e técnicas de classificação (baseadas em associação, regressão, sumarização, agrupamento).
6
Agrupamento de padrões
Agrupamento de padrões (clustering) - Técnica não supervisionada que busca extrair conhecimentos úteis de uma base de dados. Diversas técnicas Hierárquicos Divisivo Aglomerativo Genéticos Memeticos K-means
7
Agrupamento de padrões – hierárquico Divisivo
O método hierárquico divisivo cria uma decomposição da base principal, onde no primeiro passo, todos os dados pertencem ao mesmo cluster , sendo separados em cluster menores nos passos subsequentes. Solução top down
8
Agrupamento de padrões – hierárquico Divisivo
Medidas de similaridade Distância Euclidiana quadrática Distância de Manhatan Escolha do maior cluster Baseado na soma das distância quadráticas (SSE) Menos suscetível a ruídos da base Sofre maior influência do número de elementos do cluster
9
Agrupamento de padrões – hierárquico Divisivo
Soma das distâncias de todos os elementos até o centro de massa de centróide (centro de massa) Baseado na dimensionalidade Mais suscetível a ruídos da base Não sofre influência do número de elementos do cluster
10
Agrupamento de padrões – hierárquico Divisivo
Técnica
11
Agrupamento de padrões – hierárquico Divisivo
Matriz de distância entre os elementos Ex: D(a,b) = ^ – 80 ^ ^ ^ 2 = 3.364
12
Agrupamento de padrões – hierárquico Divisivo
13
Agrupamento de padrões – hierárquico Divisivo
14
Agrupamento de padrões – hierárquico Divisivo
15
Agrupamento de padrões – hierárquico Divisivo
16
Agrupamento de padrões – hierárquico Divisivo
17
Agrupamento de padrões – hierárquico Divisivo
18
Agrupamento de padrões – hierárquico Divisivo
19
Agrupamento de padrões – hierárquico Divisivo
20
Agrupamento de padrões – hierárquico Divisivo
21
Agrupamento de padrões – hierárquico Divisivo
Complexidade Montar a matriz de distâncias : n2 /2 Calcular o SSE : K * n (k= nr partições) Possui tempo assintótico de O n2 Principais Vantagens * Apresenta solução clara e “rastreavel” * Fácil implementação Principais limitações * Custo computacional * Não possui backing tracking
22
Agrupamento de padrões – hierárquico Aglomerativo
No início cada elemento forma um cluster, nas interações seguintes os cluster vão se unindo até atingir o número de cluster desejados. Solução Botom – up Utiliza distância euclidiana para unir os cluster mais próximos Em Cluster com mais de um elemento a distância é medida em relação ao seu centróide.
23
Agrupamento de padrões – hierárquico Aglomerativo
24
Agrupamento de padrões – hierárquico Aglomerativo
25
Agrupamento de padrões – hierárquico Aglomerativo
26
Agrupamento de padrões – hierárquico Aglomerativo
27
Agrupamento de padrões – hierárquico Aglomerativo
28
Agrupamento de padrões – hierárquico Aglomerativo
29
Agrupamento de padrões – hierárquico Aglomerativo
30
Agrupamento de padrões – hierárquico Aglomerativo
31
Agrupamento de padrões – hierárquico Aglomerativo
Complexidade Montar a matriz de distâncias : n2 /2 Calcular o centróide e distâncias até ele : K * n Possui tempo assintótico de O n2 Principais Vantagens * Apresenta solução clara e “rastreavel” * Fácil implementação Principais limitações * Custo computacional * Não possui backing tracking * É mais suscetível a ruídos que o divisivo.
32
Agrupamento de padrões – hierárquico Aglomerativo
Bibliografia: Prass, Fernando Sarturi: Estudo de comparativo entre algoritmos de análise de agrupamento em Data Minning – Dissertação de mestrado submetida a Universidade Federal de Santa Catarina – SC 2004 Metz, Jean e Monard, Maria Carolina - Estudo e análise das diversas representações e estrutura de dados utilizadas nos algoritmos de clustering hierárquico – Relatório técnico do ICMC – USP – 2006
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.