A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Categorização de Documentos Mariana Lara Neves CIn/UFPE.

Apresentações semelhantes


Apresentação em tema: "Categorização de Documentos Mariana Lara Neves CIn/UFPE."— Transcrição da apresentação:

1 Categorização de Documentos Mariana Lara Neves (mln@cin.ufpe.br) CIn/UFPE

2 Roteiro Introdução Categorização de Documentos Construção Manual do Classificador Construção Automática do Classificador Comparação das Abordagens Referências

3 Introdução Definição: –atribuição de uma ou mais classes pré- definidas aos documentos Objetivos: –Organizar os documentos –Facilitar a sua busca automática

4 Introdução documentos Classe 1 Classe 2 Classe 3

5 Categorização de Documentos Classificação Manual: –leitura dos documentos por um especialista Construção Manual: –sistemas baseados em conhecimento –base de regras escritas manualmente Construção Automática: –algoritmos de aprendizagem

6 Construção do Classificador Conjunto de treinamento: –aquisição do conhecimento ou treinamento do algoritmo –ajuste do sistema Conjunto de teste: –diferente do conjunto de treinamento –avaliação do desempenho do sistema

7 Construção Manual do Classificador Sistema baseado em Conhecimento: –Base de conhecimento –Máquina de Inferência (ex.: JEOPS) Testes e Validação Nível de Conhecimento Aquisição do Conhecimento Nível Lógico Formulação da Base de Conhecimento Nível de Implementação Construção da Base de Conhecimento

8 Base de Conhecimento: –Regras de Produção Exemplo: Regras para o reconhecimento de um bloco de citação em uma página de publicação (CitationFinder) Construção Manual do Classificador SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

9 Construção Automática de Classificadores Criados automaticamente através da apresentação dos exemplos ao algoritmo de treinamento. Ajuste dos resultados pelo desenvolvedor Dados classificados Dados de treinamento ClassificadorComparador

10 Categorização de Documentos documento Representação Inicial Redução da Dimensão ou Seleção de Termos Representação Final Indução Conhecimento Adicional Categorização

11 Redução da Dimensão Diminuir o risco de super- especialização (overfitting) Tipos de Redução: –Global (um conjunto de termos para todas as categorias) –ou Local (um conjunto de termos para cada categoria)

12 Seleção dos Termos Freqüência de Palavras: –ranking de freqüência de ocorrência dos termos Entropia (mutual information): (incerteza inicial) (incerteza final) (qtd. de incerteza removida)

13 Seleção dos Termos Coeficiente de Correlação: χ 2 : Nr+ = documentos relevantes que contém w Nr- = documentos relevantes que não contém w Nn- = documentos não relevantes que não contém w Nn+ = documentos não relevantes que contém w

14 Abordagem Simbólica: –Árvores de Decisão –Indução de Regras Abordagem Numérica: –Aprendizagem Bayesiana –Redes Neurais Artificiais –Aprendizagem Baseada em Instâncias Construção Automática de Classificadores

15 Comparação das Abordagens

16

17 Referências Categorização de Documentos: –Sebastiani, F. A Tutorial on Automated Text Categorization. Analia Amandi and Alejandro Zunino (eds.), Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, pp. 7- 35. 1999. –Moulinier, I. A Framework for Comparing Text Categorization Approaches. AAAI Spring Symposium on Machine Learning and Information Access, Stanford University, March 1996. Sistemas Baseados em Conhecimento: –Hayes, P. J. & Weinstein, S. P. Construe-TIS: A System for Content-Based Indexing of a Database of News Stories. Second Annual Conference on Innovative Applications of Artificial Intelligence, pp. 48-64. 1990. –Neves, M. L. CitationFinder: Um Sistema de Meta-busca e Classificação de Páginas de Publicações na Web. Tese de Mestrado, Centro de Informática, UFPE, Fevereiro de 2001. http://www.cin.ufpe.br/~mln/

18 Referências Aprendizagem de Máquina: –Aprendizagem Bayesiana (Naive Bayes): McCallum, A. K.; Nigam, K.; Rennie, J. & Seymore, K. Automating the Construction of Internet Portals with Machine Learning. Information Retrieval Journal, volume 3, pages 127-163. 2000. –Redes Neurais: Wiener, E.; Pedersen, J. O. & Weigend, A. S. A Neural Network Approach to Topic Spotting. In Proceedings of the 4th Symposium on Document Analysis and Information Retrieval (SDAIR 95), pages 317-332, Las Vegas, NV, USA, April 24-26. 1995. –Aprendizagem Baseada em Instâncias: Masand, B; Linoff, G. & Waltz, D. Classifying News Stories using Memory Based Reasoning. Proceedings of SIGIR-92, 15 th ACM International Conference on Research and Development in Information Retrieval, pp. 59-65, Denmark. 1992.

19 Referências Aprendizagem de Máquina (cont.): –Árvores de Decisão: Lewis, D. D. & Ringuette, M. A Comparison of Two Learning Algorithms for Text Categorization. In Third Annual Symposium on Document Analysis and Information Retrieval, pp. 81-93. 1994. –Indução de Regras: Apté, C.; Damerau, F. & Weiss, S. Automated Learning of Decision Rules for Text Categorization. ACM Transactions on Information Systems, Vol. 12, No. 3, July 1994, pages 233-151. 1994. Seleção de Termos: –Ng, H. T.; Goh, W. B. & Low, K. L. Feature Selection, Perceptron learning and a Usability Case Study for Text Categorization. Proceedings of SIGIR-97, 20 th ACM International Conference on Research and Development in Information Retrieval, pp. 67-73, Philadelphia, PA, USA. 1997. –Maron, M. E. Automatic Indexing: An Experimental Inquiry. Journal of ACM, 8: 404-417. 1961.


Carregar ppt "Categorização de Documentos Mariana Lara Neves CIn/UFPE."

Apresentações semelhantes


Anúncios Google