Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.

Slides:



Advertisements
Apresentações semelhantes
Agrupamentos Baseados em Probabilidade Marcílio Souto DIMAp/UFRN.
Advertisements

Paulo Sérgio Rodrigues PEL205
Fluxo em Redes Prof. Ricardo R. Santos.
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.
Análise de Voz e Vídeo Reconhecimento de voz baseado em modelos de palavras conectadas André Vitor de Almeida Palhares.
Análise de Agrupamentos (Clusters) Marcílio C. P. de Souto DIMAp/UFRN.
Mineração de Dados Avaliação de Classificadores
Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE
Análise de Clusters – Introdução Método K-means
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
Avaliação de Clusteres
Formação de agrupamentos: conceitos básicos e algoritmos prof
ANÁLISE DE AGRUPAMENTO
Reconhecimento de Padrões Segmentação
Reconhecimento de Padrões Segmentação
Quantização de cores em Imagens: o caso do K-means
Agrupamento de Dados: uma Revisão Data Clustering
Processo Desenvolvimento de Software Tradicional
Agrupamento de padrões Métodos hierárquicos
José Augusto Baranauskas
A implementação de avaliação formativa na sala de aula
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Alexandre Xavier Falcão & David Menotti
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
COMO FUNCIONA A SIMULAÇÃO
Aprendizagem de Máquina - Agrupamento
Finding and Evaluating Community Structure in Networks
D ETECÇÃO DE C OMUNIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Agrupamentos / Clustering
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
Caracterização de consumos
K-Means / Clustering.
Segmentação de Imagens
Avaliação de Clusteres Parte II
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Redes Bayesianas - Aplicação em Risco Operacional
Comitês (Ensembles) de Agrupamentos Marcílio C. P. de Souto DIMAp/UFRN.
Tópicos Avançados em Inteligência Artificial
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Análise de Agrupamentos
Pesquisa Mensal de Emprego
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Aplicações Estatísticas uma rápida abordagem
ARRANJO FÍSICO CÉLULAS
Análise de padrões de uso em grades computacionais oportunistas
Sistema de Previsão Financeira Tendências e medidas de probabilidade.
Sistemas de Recomendação – Filtragem Colaborativa
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Aprendizado não-supervisionado
Revisão 2° Bimestre Inteligência Artificial. Redes Neurais.
Recuperação Inteligente de Informação
Validação de Agrupamentos
Prof. André Luis Roland Tancredo Engenheiro da Computação e Pesquisador em Desenvolvimento Tecnológico para Semicondutores pelo CNPq Especialista em Microeletrônica.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Agrupamento Camilo Daleles Rennó
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
(A psicologia da Forma)
Ergonomia e Manufatura Enxuta
III - Amostragem Prof. Herondino.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
1 Reunião do Grupo de Estudos do Serviço de Informática do InCor Artigo-base: Nonparametric Snakes (Umut Ozertem e Deniz Erdogmus) 28 de março de 2008.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Data Aprovação:03/12/2010 Data Divulgação:16/12/2010 IASB:IFRS 1 CPC 43 (R1) ADOÇÃO INICIAL DOS PRONUNCIAMENTOS TÉCNICOS CPCs 15 A 41 Aprovações dos Reguladores:
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida.
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 12 Aprendizado não Supervisionado Mapas auto-organizáveis Max Pereira.
Transcrição da apresentação:

Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN

Algoritmos de Agrupamento Agrupamento Hierárquico k-médias

Procedimentos Hierárquicos de Agrupamento Envolvem a construção de uma hierarquia de uma estrutura do tipo árvore Divisivo Aglomerativo Ligação Individual Ligação Completa Ligação Média

Métodos Aglomerativos Cada objeto começa como seu próprio grupo (cluster) Em passos seguintes, os dois grupos (ou objetos) mais próximos (similares) são combinados em um novo agregado O número de grupos é reduzido em uma unidade em cada passo Ao final, todos os elementos são reunidos em um grande agregado

Método Hierárquico: Ligação Individual Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado A distância (similaridade) entre dois grupos quaisquer é a menor distância (maior similaridade) de qualquer ponto de um grupo até qualquer ponto do outro O procedimento continua até que todos os objetos formem um só agregado

Ligação Individual: Exemplo (1/6) Exemplo do uso do Método Hierárquico Aglomerativo de Ligação Individual, com Correlação de Pearson como medida de proximidade

Ligação Individual: Exemplo (2/6)

Ligação Individual: Exemplo (3/6)

Ligação Individual: Exemplo (4/6)

Ligação Individual: Exemplo (5/6)

Ligação Individual: Exemplo (6/6)

Ligação Simples: Características Gera grupos alongados Problemas em lidar com grupos mal delineados Em tais casos, procedimentos de ligação individual longas cadeias e eventualmente todos os objetos são colocados em uma sua cadeia Os objetos em extremos opostos de uma cadeia podem ser muito diferentes

Ligação Simples: Características AB C Ficaria mais homogêneo juntar C com A ou C com B do que A com B

Método Hierárquico: Ligação Completa Encontra os dois objetos separados pela menor distância (mais similares) e os coloca no primeiro grupo Em seguida, a próxima menor distância (ou maior similaridade) é determinada, e um terceiro objeto se junta aos dois primeiros para formar um grupo, ou um novo grupo de dois elementos é formado A distância (similaridade) entre dois grupos quaisquer é a maior distância (menor similaridade) de qualquer ponto de um grupo até qualquer ponto do outro O procedimento continua até que todos os objetos formem um só agregado

Método Hierárquico: Ligação Completa A distância máxima entre indivíduos entre objetos em cada grupo representa a menor esfera (diâmetro mínimo) que pode inclui todos os objetos em ambos os grupos Esse método é chamado de ligação completa porque todos os objetos em agrupamento são conectados um com o outro a alguma distancia máxima ou similaridade mínima Essa técnica elimina o problema de encadeamento identificado na ligação individual separados pela menor distância (mais similares) e os coloca no primeiro grupo

Ligação Individual x Ligação Completa Distancia mais curta Distancia mais longa Tendência a produzir grupos alongados Tendência a produzir grupos compactos

Método Hierárquico: Ligação Média Esse método começa da mesma forma que a ligação individual ou completa, mas o critério de agrupamento é a distância (similaridade) média de todos os objetos em um grupo para os demais em outro São menos dependentes de valores extremos, como ocorre com a ligação individual ou completa A partição é baseada em todos os valores dos grupos, ao invés de de um único par de membros extremos Tendem a combinar grupos com pequena variação interna Tendem a produzir grupos com aproximadamente a mesma variância

Métodos Hierárquicos Características Abordagem aglomerativa Hierárquia Determinístico Produz uma ordem para os objetos – informativo para a exibição de dados Dificuldades Não reflete as maneiras distintas em que objetos podem ser similares A estrutura é sempre uma árvore Os objetos só podem ser agrupados baseando-se em decisões locais, as quais, uma vez tomadas, não podem ser re-avaliadas Essas técnicas não são robustas a ruído

k-Médias Esta técnica difere do agrupamento hierárquico de várias maneiras. Em particular, Não há hierarquias, os dados são particionados Ou seja, a solução de seis grupos não é apenas a combinação de dois grupos a partir de uma solução com sete grupos, como no hierárquico, mas baseada apenas na descoberta da melhor solução com seis grupos O resultado é apenas a pertinência final de cada padrão aos aglomerados O número de aglomerados permitido (k) tem que ser definido a priori

k-Médias: Algoritmo Passo 1: Os primeiros k centros dos aglomerados são escolhidos aleatoriamente Passo2: Cada objeto é atribuído ao grupo associado com o centro mais próximo Passo3: Compute um novo centro para cada grupo (média dos valores de todos os objetos - centróide) Passo4: Repita Passo2 (com os novos centros) e Passo3 até que não haja mudança nos centros

k-Médias: Exemplo (1/7) Exemplo do uso do k-médias, com Correlação de Pearson como medida de proximidade

k-Médias: Exemplo (2/7)

k-Médias: Exemplo (3/7)

k-Médias: Exemplo (4/7)

k-Médias: Exemplo (5/7)

k-Médias: Exemplo (6/6)

k-Médias: Exemplo (7/7)

k-médias: sensibilidade à condição inicial X2 X1 FGFGDEDE A CBCB Grupo 1 Grupo 2 Grupo 3

k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, F e E

k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, F e E

k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, B e C

k-médias: sensibilidade à condição inicial X2 X1 FGFG DEDE A CBCB Inicialização com A, B e C

k-médias Características Partição O número de grupos deve ser definido a priori Não-determinístico – inicializações aleatórias dos centros Grupos (clusters) esféricos Dificuldades Como determinar se há realmente apenas k grupos distintos representado nos dados?

Bibliografia Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp Bookman. Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp