A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida.

Apresentações semelhantes


Apresentação em tema: "Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida."— Transcrição da apresentação:

1 Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida

2 Roteiro O que é Clustering? Motivação para web Clustering para textos Avaliação Exemplos de aplicação Conclusão

3 Clustering? Qualquer agrupamento, segmentação

4 Motivação para web 80% da informação na Web está em forma de texto! Dados caóticos não geram informação.

5 Motivação para web Clustering é uma das ferramentas utilizadas para gerar contexto(reconhecimento de padrões) Como recuperar informações de forma mais precisa? “Tiger”: animal? jogador de golf? Apple iOS?

6 Motivação para empresas Redes sociais são utilizadas para identificar interesses de usuários. – Identificação de trending topics por região – Identificação de redes -de contatos(LinkedIn) -de influência(Facebook)

7 Conceito É a divisão de um conjunto de objetos em grupos, tais que objetos em um mesmo grupo sejam similares entre si e diferentes de objetos em outros grupos.

8 Clustering x Classificação Classificação – Classes definidas previamente – Determinar a qual classe pertence o documento

9 Clustering x Classificação Clustering – Criar grupos de documentos – Classes definidas pelo algoritmo

10 Modelos de Cluster – Strict partitioning cluster (booleano) – Strict partitioning cluster with outlier (booleano) – Overlapping clustering (Fuzzy) – Hierarchical clustering (Fuzzy)

11 Etapas Representação dos documentos (e.g. lista de termos) Redução da dimensionalidade Seleção ou extração de características Clustering Textos Corpus Textos Cluster A Textos Cluster B Textos Cluster C Avaliação/ Etiquetagem

12 Etapas Representação dos documentos (e.g. lista de termos) Redução da dimensionalidade Seleção ou extração de características Clustering Textos Corpus Textos Cluster A Textos Cluster B Textos Cluster C Avaliação/ Etiquetagem

13 Observação importante Nesse pontos inicia-se o agrupamento propriamente dito dos documentos. Aqui os documentos d em D serão representados pelo peso que cada termo t possui em relação a d. Conjunto de documentos da base: Termos restantes após a redução da dimensão: Representação de um documento:

14 Clustering Objetivo: – Documentos dentro de um cluster são similares – Documentos de clusters diferentes são diferentes Tipos – Flat X Hierárquicos – Hard X Soft – Incremental X Não-Incremental

15 Algoritmos para Clustering k-means clássico – Flat, Hard e incremental Hierarchical clustering – Hierárquico, Hard e Não-incremental Density-based clustering

16 K-means K-means é baseado no diagrama de Voronoi Algoritmo: 1.Escolher os centros iniciais dos k clusters desejados randomicamente(de preferencia mais distantes possíveis). 2.Repetir enquanto não houver alteração nos clusters: 1. Associar cada vetor ao cluster de centro mais próximo. 2.Calcular o novo centro de cada cluster como a média aritmética de seus vetores.

17 K = 3 1.Escolher os centros iniciais. 2.Associar cada vetor ao cluster mais próximo. 3.Determinar os novos centros como baricentros dos clusters formados 4.A etapa 2 e 3 é repetida até 5.Fim do Algoritmo. t2t2 t1t1 K-means 4.A etapa 2 e 3 é repetida até não haver mais novos elementos nos clusters.

18 K-means Vantagens – Bastante utilizado na literatura Desempenho costuma ser satisfatório Desvantagens – Precisa que o usuário especifique o número de clusters. – Não é possibilidade de examinar o resultado em diferentes níveis de granularidade.

19 K-means http://l.facebook.com/l.php?u=http%3A%2F% 2Fwww.youtube.com%2Fwatch%3Fv%3DBVFG 7fd1H30&h=PAQGKepmH&s=1

20 C-Means Varaiação do K-Means. Soft classification. Utiliza logica fuzzy onde um elemento pode pertencer a vários clusters de acordo com uma determinada taxa.

21 Algoritmos para Clustering k-means clássico – Flat, Hard e incremental Hierarchical clustering – Hierárquico, Hard e Não-incremental Density-based clustering

22 Hierarchical Clustering Traz como resultado uma árvore de categorias Tipos: – Top-down – Botton-up

23 Hierarchical Clustering Top-down (1)Inicia com todos os documentos pertencendo ao mesmo cluster;

24 (1)Inicia com todos os documentos pertencendo ao mesmo cluster; (2) Selecione um cluster para particionar ( maior, menos homogêneo); Hierarchical Clustering Top-down

25 (1)Inicia com todos os documentos pertencendo ao mesmo cluster; (2) Selecione um cluster para particionar ( maior, menos homogêneo); (3) Particiona o cluster em dois ou mais subgrupos; Hierarchical Clustering Top-down

26 (1)Inicia com todos os documentos pertencendo ao mesmo cluster; (2) Selecione um cluster para particionar ( maior, menos homogêneo); (3) Particiona o cluster em dois ou mais subgrupos; (4) Repete os passos 2 e 3 até se atingir o critério de parada (Exemplo: |C| = 4). Hierarchical Clustering Top-down

27 (1)Inicia com todos os documentos pertencendo ao mesmo cluster; (2) Selecione um cluster para particionar ( maior, menos homogêneo); (3) Particiona o cluster em dois ou mais subgrupos; (4) Repete os passos 2 e 3 até se atingir o critério de parada (Exemplo: |C| = 4). Hierarchical Clustering Top-down

28 (1)Inicia com todos os documentos pertencendo ao mesmo cluster; (2) Selecione um cluster para particionar ( maior, menos homogêneo); (3) Particiona o cluster em dois ou mais subgrupos; (4) Repete os passos 2 e 3 até se atingir o critério de parada (Exemplo: |C| = 4). Hierarchical Clustering Top-down

29 Bi-Secting K-Means Uso do algoritmo de k-means na etapa de divisão dos clusters Clusters são sempre divididos em dois outros clusters. Hierarchical Clustering Top-down

30 Bottom-up (1) Inicia alocando cada documento como um cluster distinto; Hierarchical Clustering

31 Bottom-up (1) Inicia alocando cada documento como um cluster distinto; (2) Seleciona o par de clusters mais similares entre si e os agrupa em um cluster mais geral;

32 (1) Inicia alocando cada documento como um cluster distinto; (2) Seleciona o par de clusters mais similares entre si e os agrupa em um cluster mais geral; Hierarchical Clustering Bottom-up

33 (1) Inicia alocando cada documento como um cluster distinto; (2) Seleciona o par de clusters mais similares entre si e os agrupa em um cluster mais geral; (3) Repete o passo 2 até se atingir o critério de parada (Exemplo, |C| = 2).... Hierarchical Clustering Bottom-up

34 (1) Inicia alocando cada documento como um cluster distinto; (2) Seleciona o par de clusters mais similares entre si e os agrupa em um cluster mais geral; (3) Repete o passo 2 até se atingir o critério de parada (Exemplo, |C| = 2). Hierarchical Clustering Bottom-up

35 (1) Inicia alocando cada documento como um cluster distinto; (2) Seleciona o par de clusters mais similares entre si e os agrupa em um cluster mais geral; (3) Repete o passo 2 até se atingir o critério de parada (Exemplo, |C| = 2). Hierarchical Clustering Bottom-up

36 Hierarchical Clustering Vantagens – Possibilidade de examinar o resultado em diferentes níveis de granularidade. – Resultado mais flexível. Desvantagens – Dificuldade na escolha do critério de parada do algoritmo. – Dificuldade na escolha do melhor critério para avaliar a similaridade entre clusters.

37 Hierarchical Clustering Algoritmos variam conforme a maneira de medir similaridade entre dois clusters: – Single-Link: definida como a máxima similaridade entre os membros dos clusters – Complete-Link: definida como a mínima similaridade entre os membros dos clusters – Average-Link: definida como a média da similaridade entre os membros dos clusters

38 Hierarchical Clustering Algoritmos variam conforme a maneira de medir similaridade entre dois clusters: – Single-Link: – Complete-Link: – Average-Link:

39 Hierarchical Clustering Single-Link

40 Hierarchical Clustering Complete-Link

41 Algoritmos para Clustering k-means clássico – Flat, Hard e incremental Hierarchical clustering – Hierárquico, Hard e Não-incremental Density-based clustering

42 Density-based Clustering Definição baseada em centros – Região densa é uma região onde cada pontos tem muitos pontos em sua vizinhança. Parâmetros de Ajuste – EPS: Raio que delimita os vizinhos. – MinPts: Quantidade mínima de pontos para uma região ser considerada densa. EPS

43 Density-based Clustering Tipos de Objeto – Core – Fronteiriço – Outliers

44 Density-based Clustering Alcançabilidade de objetos por densidade – Um objeto p é diretamente alcançável pela densidade a partir de um objeto q, se: p ɛ Veps (q) Veps(q) : {q’ ɛ BD | d(q, q’) ≤ EPS } |Veps(q)| ≥ MinPts

45 Density-based Clustering Algoritmo – Entrada Eps, MinPts, um banco de dados BD. – Saída Um conjunto K de clusters tais que:  Objeto dentro de um mesmo cluster são conectados por densidade  Objeto em clusters distintos NÃO são conectados por densidade

46 Density-based Clustering Passo 1 – Calcula a vizinhança EPS de cada objeto do BD. – Detecta os que são objeto core. – Cada objeto core q será representante de um cluster formado por sua vizinhança. – Enumera-se os clusters obtidos, sendo: Os clusters: C1, C2,..., Ck. Os representantes: p1, p2,..., pk.

47 Density-based Clustering Passo 2 – Para i = 1, procura-se o primeiro j, tal que o representante Pj é diretamente alcançável a partir de P1 – Repete-se o processo para Ci e o primeiro Cj’, tais que pj’seja diretamente alcançável a partir de pi.

48 Density-based Clustering Exemplo Passo 2 Pi Pj Une-se os clusters C1 e Cj Os representantes do novo cluster, serão p1 e pj

49 Density-based Clustering Passo 3 – Para cada Ci do passo 2, procura-se um cluster Cki tal que um de seus representantes é alcançável a partir de um dos representantes de Ci. – Junta-se os clusters Ci e Cki.

50 Density-based Clustering Condição de parada – O algoritmo para na etapa N quando não há mais possibilidade de juntar clusters formados na etapa N-1.

51 Density-based Clustering Vantagens – Eficiente em tratar grade base de dados – Menos sensível a ruídos – Forma cluster de formato arbitrário – Não é necessário especificar quantidade de clusters Desvantagens – Sensível aos parâmetros de entrada – Resultados não confiáveis se os clusters tem densidades muito diferentes

52 Etapas Representação dos documentos (e.g. lista de termos) Redução da dimensionalidade Seleção ou extração de características Clustering Textos Corpus Textos Cluster A Textos Cluster B Textos Cluster C Avaliação/ Etiquetagem

53 Avaliação Avaliação Interna – Mede homogeneidade e separação entre os clusters gerados. Avaliação Externa – Mede a similaridade entre os clusters criados e classes de documentos conhecidas a priori – Taxas de acerto, matriz de confusão, etc.

54 Etapas Representação dos documentos (e.g. lista de termos) Redução da dimensionalidade Seleção ou extração de características Clustering Textos Corpus Textos Cluster A Textos Cluster B Textos Cluster C Avaliação/ Etiquetagem

55 Aplicações

56 Medicina Categorizar informações de tecidos cancerígenos. Utiliza K-means, Fuzzy C-Means, hierarquia.

57 Academia Classificação de estudantes por ranking. Avaliação de desempenho. Utiliza K-means, Fuzzy C- Means.

58 Forças Armadas Localização de minas terrestres. Algoritmo de clustering utilizado para identificar áreas de grande densidade de minas.

59 Exemplos

60 Navegação Hierárquica, Yppy

61 Exemplos Produto: http://www.cluster-text.com/

62 Conclusão Text Clustering é uma subárea de Text Mining que procura aplicar e desenvolver técnicas de clustering com o objetivo de agrupar textos. Existem diversas aplicações decorrentes do uso de Text Clustering, principalmente devido ao grande volume de textos produzidos na Web. A área possui diversos desafios, como o volume de textos, exclusão de termos pouco relevantes, complexidade do problema, custo computacional, etc.

63 Principais Referências Aggarwal, CharuC. and Zhai, ChengXiang, A Survey of Text Clustering Algorithms, Springer, 2012. Vincenzo Russo, Clustering and classification in Information Retrieval: from standard techniques towards the state of the art, 2008. Fasheng Liu; Lu Xiong, Survey on text clustering algorithm, Software Engineering and Service Science (ICSESS), 2011. Huang, A., Similarity measures for text document clustering, 2008. Apresentação do grupo de 2013


Carregar ppt "Text Clustering Anaury Norran Italo Lima Robertson Novelino Tomás Almeida."

Apresentações semelhantes


Anúncios Google