A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Clustering de Documentos. Equipe Diogo Philippini Pontual Branco Flavio de Holanda Cavalcanti Junior José Paulo Henrique de Melo Fernandes Luana Martins.

Apresentações semelhantes


Apresentação em tema: "Clustering de Documentos. Equipe Diogo Philippini Pontual Branco Flavio de Holanda Cavalcanti Junior José Paulo Henrique de Melo Fernandes Luana Martins."— Transcrição da apresentação:

1 Clustering de Documentos

2 Equipe Diogo Philippini Pontual Branco Flavio de Holanda Cavalcanti Junior José Paulo Henrique de Melo Fernandes Luana Martins dos Santos

3 Roteiro Motivação Clustering x Classificação Métodos K-means Arquitetura de Mozer Adaptive Information Retrival (AIR) Adaptive Resonance Theory (ART) Aplicações Conclusão

4 Motivação

5 Agrupar documentos semelhantes em classes não- conhecidas a priori.

6 Motivação

7 LojaChocolateMorango A126 B2016 C1817 D108 E87 F96 G129 H2018

8 Motivação

9

10

11 O que é Clustering? Antropologia (Driver e Kroeber, 1932) "Encontrar grupos de objetos tais que objetos em um mesmo grupo sejam similares entre si e diferentes de objetos em outros grupos." Não é um algoritmo!

12 Como pode me ajudar? Identificação de grupos Identificação de relacionamentos Simplificação de informação

13 E na RI? Cluster Hypothesis (Van Rijsbergen ): Dois documentos similares têm maior probabilidade de serem relevantes para uma mesma pesquisa. Relevância! Organização de resultados

14 E na RI? Documentos similares são adicionados ao mesmo cluster Aumentar a cobertura

15 Motivação Problema de natureza não-supervisionada Agrupar um conjunto de documentos em clusters

16 Classificação X Clustering

17 Relembrando Classificação "A classificação de textos é a tarefa de associar textos em linguagem natural a rótulos pré-definidos, a m de agrupar documentos semanticamente relacionados"

18 E as diferenças? Clustering Criar grupos de documentos Classes definidas pelo algoritmo Classificação Classes definidas previamente Determinar a qual classe pertence o documento

19 Métodos de Clustering

20 Associatividade dos membros: Hard Clustering: Clusters isolados Soft Clustering (Fuzzy Clustering): Função de pertinência Modelos de clustering: Connectivity models: Definido pela distância. Centroid models: Definido por centróides. Density models: Definido por regiões densas.

21 Modelos Incompatíveis Modelo Centróide (K-means) Modelo Densidade (DBSCAN)

22 Modelo Hierárquico:: Connectivity Model Permite agrupamento hierárquico dos vetores de entrada, baseando-se em um cálculo de dissimilaridade específico. Abordagem aglomerativa (bottom-up), e divisiva (top-down).

23 Escolha da Referência Formas diferentes de tomar a distância euclidiana como discriminante para formação de agrupamentos: Single linkage Complete linkage Average linkage d m = ( d(1,3) + d(1,4) + (d1,5) + d(2,3) + d(2,4) + d(2,5) ) / 6

24 Single Linkage vs. Complete Linkage

25 Desvantagens Conjunto de clusters relevantes não definidos Não leva em conta outliers (ruído/discrepâncias) Chaining phenomenon Data Mining reconhece o método como um fundamento teórico inspirador, porém obsoleto.

26 K-means:: Centroid Model Algoritmo simples com muitas variações. Define uma classe de algoritmos. Algoritmo: 1. Escolher os centros iniciais dos k clusters desejados randomicamente. 2. Repetir enquanto não houver alteração nos clusters: 1. Associar cada vetor ao cluster de centro mais próximo. 2. Calcular o novo centro de cada cluster como a média aritmética de seus vetores.

27 Exemplo Exemplo K = 3 1.Escolher os centros iniciais. 2.Associar cada vetor ao cluster mais próximo. 3.Determinar os novos centros. 4.Associar cada vetor ao cluster mais próximo. 5.Determinar os novos centros. 6.Associar cada vetor ao cluster mais próximo. 7.Não houve alterações. c2c2 c1c1

28 Intenção do K-means Minimiza Variância intra-grupos Maximiza Variância inter-grupos

29 Desvantagens K especificado previamente Clusters de tamanho similar Roda diversas vezes, com inicializações aleatórias diferentes (Otimizações podem sugerir as melhores configurações iniciais a serem testadas. Ex: K-means++)

30 K-means:: Otimização do K-Means 1. Escolha aleatoriamente um ponto do conjunto de dados como um centro de cluster. 2. Para cada ponto x, compute a distância D(x) entre ele e o centro de cluster mais próximo. 3. Escolha aleatoriamente um novo ponto como centro de cluster, tal que a probabilidade de um ponto x ser escolhido como centro é proporcional à distância D(x) Repita os passos 2 e 3, até que k centros tenham sido escolhidos. 5. Agora execute o procedimento K-means para os centros escolhidos.

31 DBSCAN:: Density Model Número mínimo de pontos vizinhos para formar um cluster Raio da vizinhança de um membro do cluster

32 DBSCAN:: Density Model

33 Arquitetura de Mozer

34 Rede Neural

35

36 Arquitetura de Mozer Conexões Excitatórias ligações entre termos de indexação e documentos; Conexões Inibitórias ligações entre pares de documentos.

37 Arquitetura de Mozer

38 Consulta: "programação linguística"

39 Arquitetura de Mozer

40

41 Bein e Smolensky (1988) implementaram e testaram esse modelo de rede neural proposta por Mozer utilizando documentos e termos de indexação. Eles avaliaram os resultados apresentados como satisfatórios e sugeriram novos testes utilizando bases de dados maiores e com características diversas. Redes neurais e sua aplicação em sistemas de recuperação de informação – Edberto Ferneda (USP)

42 Arquitetura de Mozer Vantagens Implementação simples Habilidade de produzir resultados não esperados Desvantagens Não aprende

43 AIR Adaptive Information Retrieval

44 Adaptive Information Retrival Criado por Belew em 1989 Aprendizado não-supervisionado Redes "flexíveis Feedback do usuário influencia a resposta da rede Implantável só em ambientes nos quais os usuários possuam interesses comuns

45 Adaptive Information Retrival Fonte: [1]

46 Adaptive Information Retrieval Vantagens É capaz de aprender, como toda RN A arquitetura da rede é flexível Desvantagens Só funciona em ambientes onde os usuários possuem interesses em comum

47 ART Adaptive Ressonance Theory

48 Adaptive Resonance Theory Proposto por Grossberg e Gail Carpenter Tenta agrupar os dados a partir deles próprios Dilema da Plasticidade-Estabilidade Sensível ao contexto Descrimina dados irrelevantes ou repetidos Rede é implementada em três versões ART1, ART2 e ART3

49 ART1 Características Aprendizado não-supervisionado Só aceita entradas binárias Deve-se definir a priori o limiar de vigilância O tamanho dos clusters

50 ART1 Arquitetura Fonte: [2]

51 ART1 Arquitetura Fonte: [2]

52 ART1 Funcionamento Inicialização Reconhecimento Comparação Limiar de vigilância Busca

53 ART1 Inicialização Fonte: [2]

54 ART1 Reconhecimento Fonte: [2]

55 ART1 Comparação Fonte: [2]

56 ART1 Comparação Fonte: [2]

57 ART1 Limiar de vigilância Fonte: [2]

58 ART1 Busca Fonte: [2]

59 ART1 Para visualizar melhor:

60 ART1 Para visualizar melhor:

61 ART1 Para visualizar melhor:

62 ART2 Estende as capacidades do ART1 Permite o uso de entradas contínuas Possui todas as características da ART1 É preciso definir mais parâmetros Introduz o conceito de STM e LTM STM - Short-term memory LTM - Long-term memory

63 ART2 - Arquitetura Fonte: [3]

64 ART Na verdade, ART possui diversas variações: ART2-A ART3 Fuzzy ART ARTMAP Fuzzy ARTMAP

65 Aplicações

66 Nuvem de tags

67 Resultados de busca agrupados

68 Sistemas de Recomendação

69 Análise de Redes Sociais

70 Navegação Hierárquica

71 Bioinformática

72 Conclusões

73 Redução do espaço de busca As técnicas utilizadas são consolidadas na área de IA Computacionalmente mais caro Pode incluir documentos irrelevantes no resultado da busca

74 Referências

75 1. F. Edberto, Neural networks and its application in information retrival systems, jan./abr R.Beale and T.Jackson, Neural Computing: An Introduction, Department of Computer Science, University of York Gail A. Carpenter and Stephen Grossberg, ART2: Self- organization of stable category recognition codes for analog input patterns, Center for Adptive Systems, Boston University, 11/06/ access on 13/07/ Apresentação do grupo de

76 Dúvidas


Carregar ppt "Clustering de Documentos. Equipe Diogo Philippini Pontual Branco Flavio de Holanda Cavalcanti Junior José Paulo Henrique de Melo Fernandes Luana Martins."

Apresentações semelhantes


Anúncios Google