A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.

Apresentações semelhantes


Apresentação em tema: "CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto."— Transcrição da apresentação:

1 CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto

2 CIn-UFPE 2 Roteiro da Aula Definição Geral Clustering de texto Cluster não-hierárquico Cluster hierárquico

3 CIn-UFPE 3 Agrupamento de Objetos Clustering Objetivos Particionar exemplos não classificados em subconjuntos disjuntos (clusters), de modo que  Exemplos em um mesmo cluster são muito similares  Exemplos em clusters diferentes são muito diferentes Descobrir novas categorias de maneira não- supervisionada  i.e., sem conhecer as de categorias previamente

4 CIn-UFPE 4. Exemplo de Clustering...............................

5 CIn-UFPE 5 Clustering de Texto Técnicas convencionais de Clustering têm sido diretamente aplicadas a texto, tipicamente representando os textos como vetores de pesos com TF/IDF usando a medida de similaridade do co-seno. Algumas aplicações: Durante a recuperação, adicionar outros documentos no mesmo cluster para melhorar a cobertura Organizar os resultados da busca em clusters, para melhorar a organização da apresentação dos resultados ao usuário  E.g., folders do Vivisimo Criação automática de taxonomias hierarquizadas de documentos para browsing  e.g., Yahoo & DMOZ

6 CIn-UFPE 6

7 7

8 8

9 9 Clustering Não-Hierárquico O número de clusters desejados deve ser informado Parâmetro = K Algoritmo Geral: Escolhe aleatoriamente k instancias (documentos) como sementes, uma para cada cluster Constrói os clusters iniciais com base nessas sementes  Medindo a similaridade entre vetores Iterações  realoca instancias em clusters diferentes, a fim de melhorar o clustering geral  Para quando nenhum cluster é mais modificado, ou quando atinge um número fixo de iterações

10 CIn-UFPE 10 Algoritmo K-Means Assume que instâncias são vetores de valores reais (não-binários) Cria clusters baseado em centróides (centros de gravidade), ou média dos pontos em um cluster, c: A Realocação de instâncias a outros clusters é baseada na distância entre o vetor que representante a instância e o centróide atual do cluster

11 CIn-UFPE 11 Algoritmo K-Means Medidas de Distância Distância Euclidiana (L 2 norma): L 1 norma: Similaridade com co-seno (transformada em uma distancia subtraindo-a de 1):

12 CIn-UFPE 12 Algoritmo K-Means Seja d a distância medida entre instâncias Selecione aleatoriamente k instâncias {s 1, s 2,… s k } como sementes Até o processo convergir (ou outro critério de parada for satisfeito), faça: Para cada instância xi  Aloque xi no cluster cj tal que d (xi, sj) é mínima.  Atualize as sementes como sendo os centróides de cada cluster Para cada cluster cj sj =  (cj)

13 CIn-UFPE 13 Exemplo do K Means (K=2) Pegue as semenstes Realoque clusters Compute centróides x x Realoque clusters x x x x Compute centróides Realoque clusters Convergiu!

14 CIn-UFPE 14 Algoritmo K-Means Escolha das Sementes Resultados podem variar com a escolha aleatória das sementes Algumas sementes podem resultar em taxas baixas de convergência Ou convergência para clusters sub-optimais Devemos selecionar sementes com base em uma heurística ou usando resultados de outro método

15 CIn-UFPE15 Clustering Hierárquico

16 CIn-UFPE 16 Clustering Hierárquico Constrói uma árvore (taxonomia hierárquica - dendograma) a partir de um conjunto de exemplos não etiquetados Aplicações recursivas de um algoritmo de clustering padrão podem produzir um clustering hierárquico animal vertebrado peixe reptil anfíbio mamífero helmito inseto crustáceo invertebrado

17 CIn-UFPE 17 Clustering Hierárquico Aglomerativo vs. Divisivo Métodos Aglomerativos (bottom-up) Iniciam com cada exemplo sendo um cluster e Iterativamente combinam os clusters para formar cluster maiores Métodos Divisivos (particionais, top-down) Inicialmente, separam todos os exemplos em clusters.

18 CIn-UFPE 18 Clustering Hierárquico Aglomerativo Algoritmo: Inicia com cada instância em um clusters separado Até restar apenas um cluster  Repetidamente, une os dois clusters ci and cj que são mais semelhantes, criando um cluster ci  cj  Utiliza uma função para determinar a similaridade entre duas instâncias/clusters E.g., Co-seno entre vetores de documentos O histórico das junções forma uma árvore binária (ou hierarquia).

19 CIn-UFPE 19 Clustering Hierárquico Aglomerativo Similaridade entre Clusters Como computar a similaridade entre dois clusters (sim(x,y)) que podem conter mais de uma instância? Três possibilidades: Single Link: Similaridade entre os dois membros mais similares Complete Link: Similaridade entre os dois membros menos similares Group Average: Similaridade média entre todos os membros do cluster

20 CIn-UFPE 20 Clustering Hierárquico Aglomerativo Single Link Similaridade entre os dois membros mais similares: Pode resultar em clusters longos e finos, devido ao efeito “cadeia” Isso é apropriado em alguns casos, como por exemplo clustering islands.

21 CIn-UFPE 21 Clustering Hierárquico Aglomerativo Exemplo de Single Link

22 CIn-UFPE 22 Clustering Hierárquico Aglomerativo Complete Link Similaridade entre os dois membros menos similares: Cria clusters mais more densos e esféricos, que são, em geral, preferíveis

23 CIn-UFPE 23 Clustering Hierárquico Aglomerativo Exemplo de Complete Link

24 CIn-UFPE 24 Clustering Hierárquico Aglomerativo Similaridade entre Clusters Depois de unir c i e c j, a similaridade entre o cluster resultante e outro cluster qualquer c k pode ser dada por: Single Link: Complete Link:

25 CIn-UFPE 25 Clustering Hierárquico Aglomerativo Similaridade Group Average entre Clusters Mede a similaridade entre dois clusters com base na similaridade média entre todos os pares com o cluster que foi unido “Compromisso” entre single e complete link.

26 CIn-UFPE 26 Clustering Hierárquico Aglomerativo Similaridade Group Average entre Clusters Assume co-seno como função de similaridade e vetores normalizados Sempre mantém a soma dos vetores em cada cluster Compute similaridade entre clusters em tempo constante:

27 CIn-UFPE 27 Clustering Hierárquico Divisivo Aplicação de k-Means de forma interativa Inicialmente, divida todos os objetos em dois clusters usando k-Means Aplique k-Means nos clusters formados para gerar subclusters Repita até atingir critério de parada

28 CIn-UFPE 28 Próxima aula Lucene


Carregar ppt "CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto."

Apresentações semelhantes


Anúncios Google