A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Agrupamento de padrões Métodos hierárquicos Jairo Lucas Wesley Menenguci.

Apresentações semelhantes


Apresentação em tema: "Agrupamento de padrões Métodos hierárquicos Jairo Lucas Wesley Menenguci."— Transcrição da apresentação:

1 Agrupamento de padrões Métodos hierárquicos Jairo Lucas Wesley Menenguci

2 Agrupamento de padrões Introdução Introdução Motivação Motivação Mineração de Dados Mineração de Dados Métodos hierarquicos Métodos hierarquicos Hierárquico Divisivo Hierárquico Divisivo Hierárquico Aglomerativo Hierárquico Aglomerativo Bibliografia Bibliografia

3 Introdução Atualmente cresce cada vez mais o volume e a velocidade com que dados digitais são armazenados e disponibilizados para o usuário, da mesma forma cresce a necessidade e a expectativa de poder se obter, de forma automatizada, informações implícitas nestes dados sem a necessidade de prévio conhecimento dos mesmos Atualmente cresce cada vez mais o volume e a velocidade com que dados digitais são armazenados e disponibilizados para o usuário, da mesma forma cresce a necessidade e a expectativa de poder se obter, de forma automatizada, informações implícitas nestes dados sem a necessidade de prévio conhecimento dos mesmos

4 Motivação Empresas como a Unimed e a Visa possuem atualmente mais de 2 milhões de associados no Brasil, como segmentar estes associados em grupos com perfis semelhantes? Empresas como a Unimed e a Visa possuem atualmente mais de 2 milhões de associados no Brasil, como segmentar estes associados em grupos com perfis semelhantes? Como reconhecer áreas semelhantes em imagens geográficas de satelites? Como reconhecer áreas semelhantes em imagens geográficas de satelites?

5 Agrupamento de padrões A mineração de dados (data mining) através de técnicas de classificação automática e KDD KnowLedge Discovery em database) procuram ajudar em soluções para este tipo de problema. A mineração de dados (data mining) através de técnicas de classificação automática e KDD KnowLedge Discovery em database) procuram ajudar em soluções para este tipo de problema. Existem uma vasta diversidade de métodos e técnicas de classificação (baseadas em associação, regressão, sumarização, agrupamento). Existem uma vasta diversidade de métodos e técnicas de classificação (baseadas em associação, regressão, sumarização, agrupamento).

6 Agrupamento de padrões Agrupamento de padrões (clustering) - Técnica não supervisionada que busca extrair conhecimentos úteis de uma base de dados. Agrupamento de padrões (clustering) - Técnica não supervisionada que busca extrair conhecimentos úteis de uma base de dados. Diversas técnicas Diversas técnicas Hierárquicos Hierárquicos Divisivo Divisivo Aglomerativo Aglomerativo Genéticos Genéticos Memeticos Memeticos K-means K-means

7 Agrupamento de padrões – hierárquico Divisivo O método hierárquico divisivo cria uma decomposição da base principal, onde no primeiro passo, todos os dados pertencem ao mesmo cluster, sendo separados em cluster menores nos passos subsequentes. O método hierárquico divisivo cria uma decomposição da base principal, onde no primeiro passo, todos os dados pertencem ao mesmo cluster, sendo separados em cluster menores nos passos subsequentes. Solução top down Solução top down

8 Agrupamento de padrões – hierárquico Divisivo Medidas de similaridade Medidas de similaridade Distância Euclidiana quadrática Distância Euclidiana quadrática Distância de Manhatan Distância de Manhatan Escolha do maior cluster Escolha do maior cluster Baseado na soma das distância quadráticas (SSE) Baseado na soma das distância quadráticas (SSE) Menos suscetível a ruídos da base Menos suscetível a ruídos da base Sofre maior influência do número de elementos do cluster Sofre maior influência do número de elementos do cluster

9 Soma das distâncias de todos os elementos até o centro de massa de centróide (centro de massa) Soma das distâncias de todos os elementos até o centro de massa de centróide (centro de massa) Baseado na dimensionalidade Baseado na dimensionalidade Mais suscetível a ruídos da base Mais suscetível a ruídos da base Não sofre influência do número de elementos do cluster Não sofre influência do número de elementos do cluster Agrupamento de padrões – hierárquico Divisivo

10 Técnica Técnica

11 Agrupamento de padrões – hierárquico Divisivo Matriz de distância entre os elementos Matriz de distância entre os elementos Ex: D(a,b) = ^ – 80 ^ ^ ^ 2 = Ex: D(a,b) = ^ – 80 ^ ^ ^ 2 = 3.364

12 Agrupamento de padrões – hierárquico Divisivo

13

14

15

16

17

18

19

20

21 Complexidade Complexidade Montar a matriz de distâncias : n 2 /2 Montar a matriz de distâncias : n 2 /2 Calcular o SSE : K * n (k= nr partições) Calcular o SSE : K * n (k= nr partições) Possui tempo assintótico de O n 2 Possui tempo assintótico de O n 2 Principais Vantagens * Apresenta solução clara e rastreavel * Fácil implementação Principais limitações * Custo computacional * Não possui backing tracking

22 Agrupamento de padrões – hierárquico Aglomerativo No início cada elemento forma um cluster, nas interações seguintes os cluster vão se unindo até atingir o número de cluster desejados. No início cada elemento forma um cluster, nas interações seguintes os cluster vão se unindo até atingir o número de cluster desejados. Solução Botom – up Solução Botom – up Utiliza distância euclidiana para unir os cluster mais próximos Utiliza distância euclidiana para unir os cluster mais próximos Em Cluster com mais de um elemento a distância é medida em relação ao seu centróide. Em Cluster com mais de um elemento a distância é medida em relação ao seu centróide.

23 Agrupamento de padrões – hierárquico Aglomerativo

24

25

26

27

28

29

30

31 Complexidade Complexidade Montar a matriz de distâncias : n 2 /2 Montar a matriz de distâncias : n 2 /2 Calcular o centróide e distâncias até ele : K * n Possui tempo assintótico de O n 2 Calcular o centróide e distâncias até ele : K * n Possui tempo assintótico de O n 2 Principais Vantagens * Apresenta solução clara e rastreavel * Fácil implementação Principais limitações * Custo computacional * Não possui backing tracking * É mais suscetível a ruídos que o divisivo.

32 Agrupamento de padrões – hierárquico Aglomerativo Bibliografia: Bibliografia: Prass, Fernando Sarturi: Estudo de comparativo entre algoritmos de análise de agrupamento em Data Minning – Dissertação de mestrado submetida a Universidade Federal de Santa Catarina – SC 2004 Prass, Fernando Sarturi: Estudo de comparativo entre algoritmos de análise de agrupamento em Data Minning – Dissertação de mestrado submetida a Universidade Federal de Santa Catarina – SC 2004 Metz, Jean e Monard, Maria Carolina - Estudo e análise das diversas representações e estrutura de dados utilizadas nos algoritmos de clustering hierárquico – Relatório técnico do ICMC – USP – 2006 Metz, Jean e Monard, Maria Carolina - Estudo e análise das diversas representações e estrutura de dados utilizadas nos algoritmos de clustering hierárquico – Relatório técnico do ICMC – USP – 2006


Carregar ppt "Agrupamento de padrões Métodos hierárquicos Jairo Lucas Wesley Menenguci."

Apresentações semelhantes


Anúncios Google