Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20081/34 Análise de Clustering: Tópicos adicionais Rodrigo Rocha Gomes e Souza Aula de Mineração.

Slides:



Advertisements
Apresentações semelhantes
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Advertisements

Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
José Eduardo MATEMÁTICA 7.º ANO Semelhança de Figuras José Eduardo
ESTIMAÇÃO.
Criando bons Slides no Powerpoint
Agrupamento (clustering)
Estimação Não-Paramétrica
Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE
Método K-medóides Algoritmos PAM e CLARA
Análise de Clusters – Introdução Método K-means
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
Avaliação de Clusteres
Formação de agrupamentos: conceitos básicos e algoritmos prof
Reconhecimento de Padrões Tipos de Aprendizagem
Reconhecimento de Padrões Segmentação
Reconhecimento de Padrões Dissimilaridade
Universidade Federal de Ouro Preto (UFOP)
Reconhecimento de Padrões PCA David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa de Pós-Graduação em Ciência.
Reconhecimento de Padrões Tipos de Aprendizagem David Menotti, Ph.D. Universidade Federal de Ouro Preto (UFOP) Programa.
Reconhecimento de Padrões Principal Component Analysis (PCA) Análise dos Componentes Principais David Menotti, Ph.D. Universidade.
Quantização de cores em Imagens: o caso do K-means
Apresentação: Léia Michelle de Souza
Agrupamento de padrões Métodos hierárquicos
Técnicas para algoritmos de superfície visível eficientes (Techniques for efficient visible-surface algorithms) Fabio Utzig Rodrigo Senger.
INF 1771 – Inteligência Artificial
Blogues (Blogs) Ed. Física e Desporto ISCE Jun 2008 © Rui Lourenço.
Aprendizado de Máquina
Alexandre Xavier Falcão & David Menotti
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
Finding and Evaluating Community Structure in Networks
D ETECÇÃO DE C OMUNIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Clustering de Documentos
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Laís Araújo Lopes de Souza
Tópicos Avançados de Base de Dados
Caracterização de consumos
K-Means / Clustering.
Métodos de Agrupamentos baseados em Grafos
Segmentação de Imagens
E NHANCED S ELF -O RGANIZING I NCREMENTAL N EURAL N ETWORK FOR O NLINE U NSUPERVISED L EARNING Cesar Lima José Francisco Maíra Nascimento.
Clustering Estudo de métodos computacionais para encontrar os grupos naturais existentes nos dados. Processo também conhecido por Segmentação ou por Aprendizagem.
Teoria dos Grafos Coloração
Avaliação de Clusteres Parte II
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Introdução à Aprendizagem Estatística Prof. Dr. Hemerson Pistori INOVISAO – Pesquisa, Desenvolvimento e Inovação em Visão Computacional Universidade Católica.
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Análise de Agrupamentos
Análise de padrões de uso em grades computacionais oportunistas
Sistemas de Recomendação – Filtragem Colaborativa
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Aprendizado não-supervisionado
Recuperação Inteligente de Informação
UFPE-CIN SeminárioSeminário Erivan A. Andrade Jacques Robin Mineração de Exceções.
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Hugo Feitosa Yuri Lacerda.  Introdução  Projeto  Protótipo  Avaliação  Trabalhos Futuros  Conclusões.
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Agrupamento Camilo Daleles Rennó
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
Plano de Aulas  Estruturas de aceleração  Descarte contra volume de visão  Descarte por oclusão  Grafo de cena: OpenSceneGraph  Traçado de raios em.
Software Weka Waikato 2004, Witten & Frank 2000.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
1 Reunião do Grupo de Estudos do Serviço de Informática do InCor Artigo-base: Nonparametric Snakes (Umut Ozertem e Deniz Erdogmus) 28 de março de 2008.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida.
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 12 Aprendizado não Supervisionado Mapas auto-organizáveis Max Pereira.
Transcrição da apresentação:

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20081/34 Análise de Clustering: Tópicos adicionais Rodrigo Rocha Gomes e Souza Aula de Mineração de Dados (pós-graduação)‏ Universidade Federal de Campina Grande, 11/11/2008 Figuras tiradas do livro “Introduction to Data Mining”, de Tan, Steinbach e Kumar

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20082/34 Sumário  Algoritmos baseados em protótipos –Fuzzy c-means –EM (Expectation Maximization)  Algoritmos baseados em densidades –Grid-based –DENCLUE O algoritmo SOM será omitido O algoritmo CLIQUE (subspaces) será omitido

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20083/34  Algoritmos baseados em grafos –Sparsification (técnica)‏ –Chameleon –SNN (Shared Nearest Neighbor - técnica)‏ –Jarvis-Patrick –SNN Density OPOSSUM e BIRCH serão omitidos –Algoritmos escaláveis  CURE

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20084/34 –Subspace clusters –Clusters mal separados –Distribuição de dados Algoritmos baseados em protótipos

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20085/34 K-means (revisão)‏  Não lida bem com clusters de diferentes formas, tamanhos e densidades  É um algoritmo rápido

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20086/34 Fuzzy c-means: Introdução  Motivação –Nem sempre os dados estão bem separados –Atribuição de um elemento a um cluster pode ser quase arbitrária  Solução –Clusters são conjuntos nebulosos: x i pertence a C j com grau w ij (entre 0 e 1)‏ –w i1 + w i w ik = 1

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20087/34 Fuzzy c-means: Algoritmo  Atribua um valor a cada w ij  repita –Calcule o centróide de cada cluster –Recalcule cada w ij  até os centróides se estabilizarem  Para obter um clustering, atribua cada elemento ao cluster para o qual seu grau de pertinência é maior

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20088/34 Fuzzy c-means: Exemplo

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/20089/34 EM (Expectation Maximization)‏  Motivação: dados seguem distribuições estatísticas conhecidas  Generalização do k-means e do fuzzy c-means É como se fosse o K-means que passou pela mão de um estatístico  Algoritmo EM: cada cluster segue uma distribuição estatística. Procura parâmetros para as distribuições.

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200810/34 EM: Maximum Likelihood Estimation  Likelihood: até que ponto determinada distribuição estatística explica os dados? Aqui consideramos dados em 1 dimensão, para simplificar as figuras

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200811/34 EM: Algoritmo  Cada cluster é representado por uma distribuição estatística com determinados parâmetros  Algoritmo –Selecione um conjunto inicial de parâmetros –repita  Para cada objeto x i, calcule a probabilidade de x i pertencer a cada distribuição.  Ache os parâmetros que maximizam o likelihood –até os parâmetros se estabilizarem

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200812/34

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200813/34 densidades e tamanhos diferentes formas elípticas EM K-means

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200814/34 EM: Weka === Run information === Scheme: weka.clusterers.EM -I 100 -N 3 -M 1.0E-6 -S 100 Relation: iris Instances: 150 Attributes: 5 sepallength sepalwidth petallength petalwidth class Test mode: evaluate on training data === Model and evaluation on training set === EM == Number of clusters: 3 Fonte: Wikipedia

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200815/34 Cluster Attribute (0.34) (0.33) (0.32)‏ ============================================ sepallength mean std. dev sepalwidth mean std. dev petallength mean std. dev petalwidth mean std. dev class Iris-setosa Iris-versicolor Iris-virginica [total] Clustered Instances 0 52 ( 35%)‏ 1 50 ( 33%)‏ 2 48 ( 32%)‏ Log likelihood: likelihood ≈ 0,11

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200816/34 Algoritmos baseados em densidades

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200817/34 DBSCAN (revisão)‏  Lida bem com clusters de diferentes tamanhos e formas  Não lida bem com clusters de diferentes densidades Não lida bem com dados com muitas dimensões (e nem os outros algoritmos baseados em densidade)‏

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200818/34 Grid-based  Motivação: eficiência  Desvantagem: sensível a parâmetros (limiar de densidade, tamanho de cada célula)‏ Problemas: ocupa muita memória (mas dá pra armazenar só células preenchidas)‏ Se o limiar for alto, alguns clusters serão perdidos Se o limiar for baixo, clusters serão unidos O quadriculado não captura bem a densidade das regiões curvas. Podemos diminuir as células, mas aí haverá flutuação das densidades já que os pontos não são bem distribuídos.

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200819/34 DENCLUE  Generalização do DBSCAN  Maneira mais precisa de calcular densidades É como um DBSCAN que passou pela mão de um estatístico –desvantagens  kernel-based é caro. DENCLUE simplifica usando grids (mas aí sofre de problemas de grid)‏  não lida bem com diferentes densidades  não lida bem com altas dimensões –vantagem: lida bem com diferentes tamanhos e outliers Fonte: Wikipedia

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200820/34 Algoritmos baseados em grafos

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200821/34 Clustering Hierárquico Aglomerativo  Matriz de proximidade entre objetos

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200822/34 Clustering Hierárquico Aglomerativo  Inicialmente, cada cluster contém um objeto  A cada passo, agrupa os dois clusters mais próximos entre si Clusters aninhadosDendrograma

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200823/34 Clustering Hierárquico Aglomerativo  Proximidade entre clusters? Mais pra frente veremos outro critério para agrupar clusters, usado pelo Chameleon

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200824/34 Sparsification  Variações –Remover arestas com similaridade < limiar –Manter apenas arestas para os k vizinhos mais próximos de cada nó  Vantagens: menos dados a processar; é possível usar algoritmos de particionamento de grafos

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200825/34 Chameleon  Motivação: modelo local (dinâmico) de cluster Closeness schemes will merge (a) and (b)‏ (a)‏ (b)‏ (c)‏ (d)‏ Average connectivity schemes will merge (c) and (d)‏ Pronúncia: kamílion Esse algoritmo é adaptável como um camaleão

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200826/34 Chameleon: Conceitos  Relative closeness (RC)‏  Relative interconnectivity (RI)‏  Proximidade entre dois clusters: RI(C i, C j ) * RC(C i, C j ) a

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200827/34 Chameleon: Algoritmo  Construa o grafo dos k vizinhos mais próximos  Particione o grafo (algoritmo METIS)‏  repita – Agrupe os clusters de acordo com RI e RC  até não ser possível agrupar clusters

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200828/34 Chameleon: Resultados  Lida bem com diferentes formas, tamanhos e densidades  Assume que o particionamento do grafo produz subclusters

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200829/34 SNN (Shared Nearest Neighbors)‏  Motivação: dificuldade em tratar alta dimensionalidade e densidades diferentes  “Dois pontos similares aos mesmos pontos são similares entre si” (mesmo se a similaridade original era pequena)‏

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200830/34 SNN: Algoritmo  Compute o grafo dos k vizinhos mais próximos  Se dois pontos x, y não estão ligados, similaridade(x, y) = 0  Caso contrário, similaridade(x, y) = número de vizinhos comuns entre x e y

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200831/34 Jarvis-Patrick  Algoritmo –Compute o grafo de similaridade SNN –Remova as arestas com similaridade < limiar –Encontre os componentes conexos do grafo resultante

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200832/34 Jarvis-Patrick: Resultados  Lida bem com clusters de diferentes densidades, tamanhos e formas  Muito sensível ao parâmetro limiar limiar = Llimiar = L + 1

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200833/34 SNN density  Algoritmo –Compute o grafo de similaridade SNN –Aplique o DBSCAN (Eps, MinPts)  Lida bem com diferentes tamanhos, densidades e formas

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200834/34 SNN density a) All Points b) High SNN Density c) Medium SNN Density d) Low SNN Density

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200835/34

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200836/34 CURE  Cada cluster tem múltiplos pontos representativos  Escolhe pontos mais distantes uns dos outros  Encolhe os pontos em direção ao centróide  Usa amostragem e particionamento para tratar de forma eficiente grandes volumes de dados 

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200837/34 CURE: Algoritmo  Selecione uma amostra aleatória dos dados  Particione a amostra em partições de tamanho igual  Agrupe os pontos de cada partição usando o AHC de CURE  Use o AHC de CURE para agrupar os clusters do passo anterior até restarem apenas K clusters  Atribua cada ponto (de fora da amostra) ao cluster mais próximo

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200838/34 CURE: Resultados  Não lida bem com diferentes densidades  Lida bem com outliers

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200839/34 Subspace (CLIQUE)‏  Motivação: clusters em subespaços  CLIQUE: de Agrawal, baseado no Apriori  Vantagens e desvantagens do Apriori –lento

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200840/34 SOM – Mapas auto-organizáveis  Motivação: redução de dimensões, visualização  Motivação: vizinhança entre clusters  Desvantagem: –convergência não é garantida –lento

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200841/34 Escalabilidade  Amostragem  Particionamento ...

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200842/34 Minimum Spanning Tree OPOSSUM

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200843/34 Características de dados  Alta “dimensionalidade” (procurar termo na álgebra linear)‏  Muitas instâncias  Dados esparsos. Booleano vs. inteiro  Outliers ... Remover este slide?

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200844/34 Sumário  Características de dados e clusters  Algoritmos e técnicas –protótipo –densidade –grafos  Algoritmos escaláveis  Considerações finais

Rodrigo RochaAnálise de Clustering (tópicos adicionais)‏ 11/11/200845/34 Características de clusters  Forma  Diferentes tamanhos  Diferentes densidades