Robson de Carvalho Soares

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Fluxo em Redes Prof. Ricardo R. Santos.
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Eveline Alonso Veloso PUC-MINAS
Agrupamento (clustering)
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Adaptive Resonance Theory Carpenter & Grossberg
Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE
Análise de Clusters – Introdução Método K-means
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
GRASP Greedy Randomized Adaptative Search Procedure
Dárlinton B. Feres Carvalho
Reconhecimento de Padrões Tipos de Aprendizagem
Reconhecimento de Padrões Segmentação
Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Árvore Geradora de Peso Mínimo
Apresentação: Léia Michelle de Souza
Agrupamento de padrões Métodos hierárquicos
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Algoritmos Genéticos - Capítulo 10 Representação Numérica
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Buscas em Grafos Prof. André Renato 1º Semestre/2012
Alexandre Xavier Falcão & David Menotti
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS
Aprendizagem de Máquina - Agrupamento
D ETECÇÃO DE C OMUNIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Clustering de Documentos
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Otimização por Colônia de Formigas (ACO)
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
Caracterização de consumos
K-Means / Clustering.
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Clustering Estudo de métodos computacionais para encontrar os grupos naturais existentes nos dados. Processo também conhecido por Segmentação ou por Aprendizagem.
INF 1771 – Inteligência Artificial
Mineração da Web Recuperação de Informação
Recuperação de Informação Clássica
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Algoritmos de Busca Local
Aprendizagem de Máquina - Agrupamento Prof. Sérgio Queiroz Slides inicialmente preparados pelo Prof. Ricardo Prudêncio, aos quais foram feitas modificações.
Ademir Rafael Marques Guedes
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas Programa de Pós-graduação em Biociências Área de Concentração.
Construção e Análise de Algoritmos
Análise de padrões de uso em grades computacionais oportunistas
Sistema de Previsão Financeira Tendências e medidas de probabilidade.
Busca Combinatorial e Métodos de Heurística
Sistemas de Recomendação – Filtragem Colaborativa
Análise de Agrupamentos Marcílio Souto DIMAp/UFRN.
Algoritmos de Agrupamento (Clustering): Métodos Hierárquicos e k-médias Marcílio C. P. de Souto DIMAp/UFRN.
Aprendizado não-supervisionado
Revisão 2° Bimestre Inteligência Artificial. Redes Neurais.
Locus Localização Eudes Cavalcanti.
Recuperação Inteligente de Informação
Prof. Anne Magály de Paula Canuto
Validação de Agrupamentos
Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2015 Análise de Agrupamento Camilo Daleles Rennó
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento.
Mecanismo de sugestão e processo de caracterização de redes sociais
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Marcos Corrêa Neves Gilberto Câmara Renato M. Assunção
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Análise.
Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida.
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 12 Aprendizado não Supervisionado Mapas auto-organizáveis Max Pereira.
Transcrição da apresentação:

Robson de Carvalho Soares Clusterização Robson de Carvalho Soares

Clusterização Clusterização de Documentos Algoritmos de Clusterização Motivações Representação dos Documentos Algoritmos de Clusterização Particional Hierárquico Divisório (top down) Aglomerativo (bottom up)

Ch. 16 O que é Clusterização? Clusterização: o processo de agrupar um conjunto de objetos em classes de objetos similares. Documentos dentro de uma classe (cluster) DEVEM ser semelhantes. Documentos de diferentes classes (clusters) DEVEM ser diferentes. A forma mais comum de aprendizado é não-supervisionado. Uma tarefa comum e importante, que encontra muitas aplicações em RI entre outras.

Um conjunto de dados onde se verifica uma clara estrutura de cluster Ch. 16 Um conjunto de dados onde se verifica uma clara estrutura de cluster Como projetar um algoritmo para encontrar os três clusters, neste caso?

Aplicações de Clusterização em RI Sec. 16.1 Aplicações de Clusterização em RI Análise/Navegação do todo Melhor interface com o usuário: busca sem digitar Melhoramento do retorno das aplicações de busca Melhores resultados da pesquisa (assim como RF) Melhor navegação nos resultados “Retorno do usuário” será melhor Acelera a recuperação no espaço vetorial Recuperação baseada em clusters promove buscas mais rápidas

Yahoo! Hierarquia, um tipo de saída obtida da Clusterização. www.yahoo.com/Science … (30) agriculture biology physics CS space ... ... ... ... ... dairy Final data set: Yahoo Science hierarchy, consisting of text of web pages pointed to by Yahoo, gathered summer of 1997. 264 classes, only sample shown here. botany cell AI courses crops craft magnetism agronomy HCI missions forestry evolution relativity

Google News: Clusterização automática que promove uma apresentação eficaz das notícias.

Google News: Clusterização automática que promove uma apresentação eficaz das notícias.

Google News: Clusterização automática que promove uma apresentação eficaz das notícias.

Scatter/Gather: Busca sem digitar Sec. 16.1 Scatter/Gather: Busca sem digitar New York Times

Visualização de uma coleção de documentos e sua importância ThemeScapes, Cartia

Visualização de uma coleção de documentos e sua importância PNNL – Visualizando o que não é visual

Para melhorar o retorno da busca Sec. 16.1 Para melhorar o retorno da busca Hipótese – Documentos no mesmo cluster se comportam similarmente com relação a relevância para a busca. Portanto, para melhorar o retorno da busca: Quando a consulta corresponde a um doc D, também pode ser retornado outros docs relevantes no cluster que contém D. Resultado se isso ocorrer: A consulta “carro” poderá também retornar documentos contendo “automóveis”. Porque a clusterização agrupa os documentos contendo o termo “carro” junto aos documentos contendo os termos “automóveis” Porque isso acontece?

Para melhorar a navegação dos resultados Sec. 16.1 Para melhorar a navegação dos resultados Agrupando os resultados tematicamente clusty.com / Vivisimo

Questões da Clusterização Sec. 16.2 Questões da Clusterização Representação da Clusterização Representação do Documento Espaço Vetorial? Normalização? Precisamos de um conceito de similaridade/distância Quantos Clusters? Fixar inicialmente? Completamente orientado aos dados? Evitar clusters triviais – muito grande ou pequeno Se um cluster é muito grande, então para fins de navegação foi desperdiçado um clique extra do usuário deixando de reduzir gradualmente o conjunto de muitos documentos.

Noções de similaridade/distância Ideal: similaridade semântica Prática: similaridade pela estatística do termo Será utilizado a distância cosseno. Os documentos serão representados como vetores. Para muitos algoritmos, é mais fácil pensar no conceito de distância (ao invés de similaridade) entre os documentos. A distância euclidiana também é muito utilizada, porém em implementações reais, utiliza-se similaridade cosseno.

Algoritmos de Clusterização Algoritmos Flat Normalmente inicia com um particionamento randômico. Este particionamento é refinado a cada iteração. Clusterização k-means Clusterização baseada em Modelo (EM – Expectation Maximization) Algoritmos Hierárquicos Bottom-up, aglomerativo Top-down, divisório

Clusterização Hard vs. Soft Clusterização Hard: Cada documento pertence a exatamente um cluster. Mais comum e fácil de fazer Clusterização Soft: Um documento pode pertencer a mais de um cluster. Faz mais sentido para aplicações com a criação de hierarquias navegáveis. Você pode querer colocar um par de tênis em dois grupos: (i) vestuário esportivo e (ii) calçados. Isso somente pode ser feito na abordagem Soft. Não será apresentado Clusterização Soft.

Algoritmos de Particionamento Método de Particionamento: Construa uma partição de n documentos em um conjunto de K clusters Dado de Entrada: um conj. de docs e o número K Resposta: a partição de K clusters que otimiza a escolha do critério de particionamento Características: Intratável para muitas funções objetivo Enumera exaustivamente todas as partições Métodos efetivos de heurística: algoritmos K-means e K-medoids

K-Means Assume que os documentos são vetores de valores. Sec. 16.4 K-Means Assume que os documentos são vetores de valores. Clusters baseados em centroids (o centro de gravidade ou média) dos pontos em um cluster, c: A mudança de docs. de clusters é baseada na distância entre o centróide corrente do clustuer e o doc. analisado

Sec. 16.4 Algoritmo K-Means Selecione K docs {s1, s2,… sK} aleatoriamente como sementes. Até a clusterização convergir (ou outro critério de parada): Para cada doc di: Atribui di ao cluster cj tal que dist(di, sj) é mínima. (Em seguida, atualize as sementes para o centróide de cada cluster) Para cada cluster cj sj = (cj)

Exemplo K-Means (K=2) Selecione as sementes Reatribuir clusters Sec. 16.4 Exemplo K-Means (K=2) Selecione as sementes Reatribuir clusters Calcular centróides x Reatribuir clusters x Calcular centróides Reatribuir clusters Convergiu!

Isso quer dizer que os documentos em um cluster mantêm-se inalterados? Sec. 16.4 Condições de parada Várias possibilidades, por exemplo: Um número fixo de iterações. Partição inalterada. Posição dos centróides inalterada. Isso quer dizer que os documentos em um cluster mantêm-se inalterados?

Sec. 16.4 Convergência Por que o K-means deve sempre alcançar um ponto fixo? Um estado no qual o cluster não muda. O K-means é um caso especial de um processo geral conhecido como algoritmo Expectation Maximization (EM) EM sabe-se que converge. O número de iterações pode ser grande, mas na prática geralmente não é.

Convergência do K-Means Sec. 16.4 Convergência do K-Means Definimos uma boa medida do cluster k como a soma das distâncias quadradas do centróide do cluster: Gk = Σi (di – ck)2 (soma de todos os di no cluster k) G = Σk Gk (soma das distâncias quadradas) “Reassignment monotonically decreases G since each vector is assigned to the closest centroid.”

Convergência do K-Means Sec. 16.4 Convergência do K-Means Recomputation monotonically decreases each Gk since (mk is number of members in cluster k): Σ (di – a)2 atinge mínimos para: Σ –2(di – a) = 0 Σ di = Σ a mK a = Σ di a = (1/ mk) Σ di = ck K-means normalmente converge rapidamente.

Exemplo mostrando a sensibilidade das sementes Sec. 16.4 Escolha da Semente Os resultados podem variar de acordo com a seleção das sementes aleatórias. Algumas sementes podem resultar em taxas de convergências pobres, ou de convergências de agrupamentos sub-óptima. Selecionar boas sementes usando uma heurística (por exemplo, doc pelo menos semelhante aos de qualquer média existente) Experimentar vários pontos de saída Inicializar com os resultados de outro método. Exemplo mostrando a sensibilidade das sementes No exemplo acima, se começar com B e E como centróides, converge para (A, B, C) e (D, E, F) Se começar com D e F como centróides, converge para (A, B, D, E) (C, F)

K-means: quetões, variações, etc. Sec. 16.4 K-means: quetões, variações, etc. Recalcular o centróide depois de cada atribuição (e não depois que todos os pontos são reatribuídos) pode melhorar a velocidade de convergência do K-means. Assumir que clusters são esféricos no espaço vetorial Disjuntos e Exaustivos Por padrão, não se tem noção de ruídos, mas pode adicionar filtragem dos mesmos

Quantos Clusters? O número clusters K é dado Particionar n docs em um número de clusters pré-determinado. Encontrar o número "certo" de clusters é parte do problema: Dado os docs, particioná-los em um número apropriado de subconjuntos.

Vídeo

Ch. 17 Nova Abordagem

Clusterização Hierárquica Ch. 17 Clusterização Hierárquica Construir uma taxonomia baseada em uma árvore hierárquica (dendrograma) de um conjunto de documentos. Uma abordagem: aplicação recursiva de um algoritmo de agrupamento por partição. animal vertebrate fish reptile amphib. mammal worm insect crustacean invertebrate

Dendrograma: Clusterização Hierárquica Clusterização obtida do corte do dendrograma em um determinado nível: cada componente conectado forma um cluster. Agrupamentos mais internos ou mais específicos possuem objetos mais similares.

Clusterização Hierárquica Aglomerativa (HAC) Sec. 17.1 Clusterização Hierárquica Aglomerativa (HAC) Começa com cada documento em um cluster separado. repetidamente se junta os pares de clusters mais próximos, até que haja apenas um cluster. Essa fusão forma uma árvore binária ou uma hierarquia.

Pares de clusters mais próximos Sec. 17.2 Pares de clusters mais próximos Formas diferentes de se definir os clusters mais próximos: Single-link A menor distância entre os elementos. Complete-link A maior distância entre os elementos. Centroid A menor distância média entre os elementos de cada cluster. Não considera a distância entre os elementos do cluster. Distância entre os centróides. Average-link A menor distância média entre os elementos de cada cluster. Considera a distância entre os elementos do cluster.

Clusterização Aglomerativa Single Link Sec. 17.2 Clusterização Aglomerativa Single Link Usa a similaridade máxima de pares: Pode resultar em clusters “longos e finos” devido ao efeito de encadeamento. Após a fusão ci e cj, à similaridade do conjunto resultante para outro cluster, ck, é:

Sec. 17.2 Exemplo Single Link

Clusterização Aglomerativa Complete Link Sec. 17.2 Clusterização Aglomerativa Complete Link Usa a similaridade mínima de pares: Pode resultar em cluster mais “compactos e esféricos” que são normalmente preferíveis. Após a fusão ci e cj, à similaridade do conjunto resultante para outro cluster, ck, é: Ci Cj Ck

Sec. 17.2 Exemplo Complete Link

Sec. 17.3 Group Average Similaridade de 2 clusters = similaridade média de todos os pares no grupo resultante da fusão. Ajuste entre o single e o complete link.

Agrupamento Hierárquivco Aglomerativo: Cada item começa em seu próprio cluster e são fundidos em clusters maiores até que todos os objetos estejam em um mesmo cluster. Usando Single Linkage (vizinho mais próximo) para medir a similaridade entre clusters.

O que é uma boa Clusterização? (Critério Interno) Sec. 16.3 O que é uma boa Clusterização? (Critério Interno) Um bom agrupamento irá produzir clusters de alta qualidade em que: a similaridade intra-classe (intra-cluster) é alta a similaridade inter-classe (inter-cluster) é baixa A medida de qualidade de um agrupamento depende da representação e da medida de similaridade utilizada.

O que é uma boa Clusterização? (Critério Externo) Sec. 16.3 O que é uma boa Clusterização? (Critério Externo) Qualidade medida pela capacidade de descobrir alguns dos padrões econdidos ou classes latentes em padrões de dados. Para avaliar o agrupamento quanto a sua validade requer dados rotulados. Considere documentos com C clasess padrões, enquanto nosso algoritmo de agrupamento produz K clusters ω1, ω2, …, ωK com ni elementos.

Avaliação Externa da Qualidade do Cluster Sec. 16.3 Avaliação Externa da Qualidade do Cluster Medida simples: Pureza, a relação entre a classe dominante no cluster πi e o tamanho do cluster ωi : A pureza varia de 0 a 1, sendo que próximo de 0 indica clusterização ruim e próximo de 1 boa.

Exemplo do cálculo de Pureza Sec. 16.3 Exemplo do cálculo de Pureza                  Cluster I Cluster II Cluster III Cluster I: Purity = 1/6 (max(5, 1, 0)) = 5/6 Cluster II: Purity = 1/6 (max(1, 4, 1)) = 4/6 Cluster III: Purity = 1/5 (max(2, 0, 3)) = 3/5

Conclusões Na clusterização, clusters são inferidos a partir de dados sem a intervenção humana (aprendizado não-supervisionado) No entanto, na prática, não é tão simples: há muitas maneiras de influenciar o resultado do agrupamento: número de clusters, medida de similaridade, representação dos documentos...

Sec. 17.2

Sec. 17.2 Exemplo Single Link

Sec. 17.2 Exemplo Complete Link