A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.

Apresentações semelhantes


Apresentação em tema: "CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto."— Transcrição da apresentação:

1 CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto

2 CIn-UFPE 2 Roteiro da Aula Definição Geral Clustering de texto Redução da dimensionalidade Cluster não-hierárquico Cluster hierárquico Avaliação do agrupamento Ensemble de agrupamentos

3 CIn-UFPE 3 Agrupamento de Objetos Clustering Objetivos Particionar exemplos não classificados em subconjuntos disjuntos (clusters), de modo que  Exemplos em um mesmo cluster são muito similares  Exemplos em clusters diferentes são muito diferentes Descobrir novas categorias de maneira não- supervisionada  i.e., sem conhecer as de categorias previamente

4 CIn-UFPE 4. Exemplo de Clustering

5 CIn-UFPE 5 Clustering de Texto Técnicas convencionais de Clustering têm sido diretamente aplicadas a texto, tipicamente representando os textos como vetores de pesos com TF/IDF usando a medida de similaridade do co-seno. Algumas aplicações: Durante a recuperação, adicionar outros documentos no mesmo cluster para melhorar a cobertura Organizar os resultados da busca em clusters, para melhorar a organização da apresentação dos resultados ao usuário  E.g., folders do Vivisimo Criação automática de taxonomias hierarquizadas de documentos para browsing  e.g., Yahoo & DMOZ

6 CIn-UFPE 6

7 7

8 8

9 9 Representação dos documentos (e.g. lista de termos) Redução da dimensionalidade Seleção ou extração de características Clustering Textos Corpus Textos Cluster A Textos Cluster B Textos Cluster C Etiquetagem Agrupamento de textos

10 CIn-UFPE 10 Redução da dimensionalidade

11 CIn-UFPE 11 O objetivo é manter as características relevantes e eliminar características irrelevantes e redundantes. Seleção de características

12 CIn-UFPE 12 Document Frequency: seleciona termos mais frequentes da base Term Frequency Variance: seleciona termos onde valor de TF apresenta maior variação Seleção de características

13 CIn-UFPE 13 Term Strength: probabilidade de um termo ocorrer em um documento dado que ocorre em um documento similar Seleção supervisionada:  (1) Aplica algoritmo de clustering e considera clusters como labels de classes;  (2) Usa Information Gain, Chi-Square, etc... para selecionar atributos Seleção de características

14 CIn-UFPE 14 Seleção de características

15 CIn-UFPE 15 Seleção de características com wrappers

16 CIn-UFPE 16 Clustering Não-Hierárquico O número de clusters desejados deve ser informado Parâmetro = K Algoritmo Geral: Escolhe aleatoriamente k instancias (documentos) como sementes, uma para cada cluster Constrói os clusters iniciais com base nessas sementes  Medindo a similaridade entre vetores Iterações  realoca instancias em clusters diferentes, a fim de melhorar o clustering geral  Para quando nenhum cluster é mais modificado, ou quando atinge um número fixo de iterações

17 CIn-UFPE 17 Algoritmo K-Means Assume que instâncias são vetores de valores reais (não-binários) Cria clusters baseado em centróides (centros de gravidade), ou média dos pontos em um cluster, c: A Realocação de instâncias a outros clusters é baseada na distância entre o vetor que representante a instância e o centróide atual do cluster

18 CIn-UFPE 18 Algoritmo K-Means Medidas de Distância Distância Euclidiana (L 2 norma): L 1 norma: Similaridade com co-seno (transformada em uma distancia subtraindo-a de 1):

19 CIn-UFPE 19 Algoritmo K-Means Seja d a distância medida entre instâncias Selecione aleatoriamente k instâncias {s 1, s 2,… s k } como sementes Até o processo convergir (ou outro critério de parada for satisfeito), faça: Para cada instância xi  Aloque xi no cluster cj tal que d (xi, sj) é mínima.  Atualize as sementes como sendo os centróides de cada cluster Para cada cluster cj sj =  (cj)

20 CIn-UFPE 20 Exemplo do K Means (K=2) Pegue as semenstes Realoque clusters Compute centróides x x Realoque clusters x x x x Compute centróides Realoque clusters Convergiu!

21 CIn-UFPE 21 Algoritmo K-Means Escolha das Sementes Resultados podem variar com a escolha aleatória das sementes Algumas sementes podem resultar em taxas baixas de convergência Ou convergência para clusters sub-optimais Devemos selecionar sementes com base em uma heurística ou usando resultados de outro método

22 CIn-UFPE22 Clustering Hierárquico

23 CIn-UFPE 23 Clustering Hierárquico Constrói uma árvore (taxonomia hierárquica - dendograma) a partir de um conjunto de exemplos não etiquetados Aplicações recursivas de um algoritmo de clustering padrão podem produzir um clustering hierárquico animal vertebrado peixe reptil anfíbio mamífero helmito inseto crustáceo invertebrado

24 CIn-UFPE 24 Clustering Hierárquico Aglomerativo vs. Divisivo Métodos Aglomerativos (bottom-up) Iniciam com cada exemplo sendo um cluster e Iterativamente combinam os clusters para formar cluster maiores Métodos Divisivos (particionais, top-down) Inicialmente, separam todos os exemplos em clusters.

25 CIn-UFPE 25 Clustering Hierárquico Aglomerativo Algoritmo: Inicia com cada instância em um clusters separado Até restar apenas um cluster  Repetidamente, une os dois clusters ci and cj que são mais semelhantes, criando um cluster ci  cj  Utiliza uma função para determinar a similaridade entre duas instâncias/clusters E.g., Co-seno entre vetores de documentos O histórico das junções forma uma árvore binária (ou hierarquia).

26 CIn-UFPE 26 Clustering Hierárquico Aglomerativo Similaridade entre Clusters Como computar a similaridade entre dois clusters (sim(x,y)) que podem conter mais de uma instância? Três possibilidades: Single Link: Similaridade entre os dois membros mais similares Complete Link: Similaridade entre os dois membros menos similares Group Average: Similaridade média entre todos os membros do cluster

27 CIn-UFPE 27 Clustering Hierárquico Aglomerativo Single Link Similaridade entre os dois membros mais similares: Pode resultar em clusters longos e finos, devido ao efeito “cadeia” Isso é apropriado em alguns casos, como por exemplo clustering islands.

28 CIn-UFPE 28 Clustering Hierárquico Aglomerativo Exemplo de Single Link

29 CIn-UFPE 29 Clustering Hierárquico Aglomerativo Complete Link Similaridade entre os dois membros menos similares: Cria clusters mais densos e esféricos, que são, em geral, preferíveis

30 CIn-UFPE 30 Clustering Hierárquico Aglomerativo Exemplo de Complete Link

31 CIn-UFPE 31 Clustering Hierárquico Aglomerativo Similaridade entre Clusters Depois de unir c i e c j, a similaridade entre o cluster resultante e outro cluster qualquer c k pode ser dada por: Single Link: Complete Link:

32 CIn-UFPE 32 Clustering Hierárquico Aglomerativo Similaridade Group Average entre Clusters Mede a similaridade entre dois clusters com base na similaridade média entre todos os pares com o cluster que foi unido “Compromisso” entre single e complete link.

33 CIn-UFPE 33 Clustering Hierárquico Aglomerativo Similaridade Group Average entre Clusters Assume co-seno como função de similaridade e vetores normalizados Sempre mantém a soma dos vetores em cada cluster Compute similaridade entre clusters em tempo constante:

34 CIn-UFPE 34 Clustering Hierárquico Divisivo Aplicação de k-Means de forma interativa Inicialmente, divida todos os objetos em dois clusters usando k-Means Aplique k-Means nos clusters formados para gerar subclusters Repita até atingir critério de parada

35 CIn-UFPE 35 Algoritmos Incrementais  A cada novo objeto, atualiza a estrutura de grupos sem precisar reiniciar o processo de clustering  Ideal em contextos onde os documentos são recebidos de forma constante e a uma taxa alta  Exemplos de algoritmos: Single-Pass, COBWEB, Redes ART,...

36 CIn-UFPE 36 Critérios de avaliação

37 CIn-UFPE 37 Critério de similaridade geral

38 CIn-UFPE 38 Matrizes de dispersão

39 CIn-UFPE 39 Matrizes de dispersão

40 CIn-UFPE 40 Traços das matrizes de dispersão

41 CIn-UFPE 41 Critérios externos

42 CIn-UFPE 42 Critérios externos

43 CIn-UFPE 43 Critérios externos

44 CIn-UFPE 44 Ensemble de agrupamentos

45 CIn-UFPE 45 Ensemble de agrupamentos

46 CIn-UFPE 46 Ensemble de agrupamentos

47 CIn-UFPE 47 Tendências Características linguísticas para representação de textos. Seleção de agrupamentos para realização de ensemble. Algoritmos incrementais. Melhora da precisão e custo computacional dos algoritmos. Construção de critérios para seleção de parâmetros no algoritmo. Etiquetagem de agrupamentos.


Carregar ppt "CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto."

Apresentações semelhantes


Anúncios Google