A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.

Apresentações semelhantes


Apresentação em tema: "CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE."— Transcrição da apresentação:

1 CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE

2 2 Roteiro Introdução Categorização de Documentos Construção Manual do Classificador Construção Automática do Classificador Comparação das Abordagens Referências

3 CIn/UFPE3 Categorização de Documentos Definição: atribuição de uma ou mais classes pré- definidas aos documentos Objetivos: Organizar os documentos Facilitar a sua busca automática

4 CIn/UFPE4 Categorização de Documentos Documentos Classe 1 Classe 2 Classe 3

5 CIn/UFPE5 Categorização de Documentos Classificação Manual: Leitura dos documentos por um especialista Construção Manual do Classificador: Sistemas baseados em conhecimento  Base de Regras escrita manualmente Construção Automática do Classificador: Algoritmos de aprendizagem automática

6 CIn/UFPE6 Construção do Classificador Conjunto de treinamento: Aquisição do conhecimento ou Treinamento do algoritmo Ajuste do sistema Conjunto de teste: Diferente do conjunto de treinamento Avaliação do desempenho do sistema

7 CIn/UFPE7 Construção Manual do Classificador Sistema baseado em Conhecimento: Base de conhecimento Máquina de Inferência (ex.: JEOPS) Testes e Validação Nível de Conhecimento Aquisição do Conhecimento Nível Lógico Formulação da Base de Conhecimento Nível de Implementação Construção da Base de Conhecimento

8 CIn/UFPE8 Base de Conhecimento: Regras de Produção Exemplo: Regras para o reconhecimento de um bloco de citação em uma página de publicação (CitationFinder) Construção Manual do Classificador SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

9 CIn/UFPE9 Construção Automática do Classificador Criados automaticamente através da apresentação dos exemplos ao algoritmo de treinamento. Ajuste dos resultados pelo desenvolvedor Dados classificados Dados de treinamento ClassificadorComparador

10 CIn/UFPE10 Construção Automática do Classificador Documentos Representação Inicial Redução da Dimensão ou Seleção de Termos Representação Final Indução Conhecimento Adicional Categorização

11 CIn/UFPE11 Representação Inicial dos Documentos Pré-processamento Selecionar termos que vão representar o documento  Stoplist, stemming, thesaurus, termos compostos,... Associar pesos aos termos  Pesos booleanos, pesos com freqüência de ocorrência, TF-IDF, TF-IDF normalizado, considerar formatação do texto,...

12 CIn/UFPE12 Representação Inicial dos Documentos Montar uma tabela (matriz) onde: linhas indicam os termos que ocorrem no conjunto de documentos colunas indicam o número dos documentos do conjunto O elemento t ij indica o peso do termo i para o documento j O centróide do documento j é facilmente extraído dessa matriz Coluna j !!!

13 CIn/UFPE13 Redução da Dimensão da Representação Inicial Objetivo: Reduzir o tamanho dos centróides para diminuir o risco de super-especialização do classificador gerado (overfitting) Abordagens: Seleção de um subconjunto de termos Indução Construtiva Tipos de Redução: Global: considera um conjunto de termos para todas as classes Local: considera um conjunto de termos para cada classes

14 CIn/UFPE14 Seleção dos Termos Cada termo recebe uma “relevância”, que é usada para ordenar a lista de termos Os “n” primeiros termos mais relevantes são utilizados para treinar o algoritmo Várias técnicas: Freqüência de ocorrência nos documentos  Redução global  A relevância do termo é dada pela sua freqüência de ocorrência no conjunto de documentos Outras (redução local)  Entropia, Coeficiente de Correlação, χ 2,...

15 CIn/UFPE15 Seleção dos Termos: Entropia (mutual information) A relevância do termo W i para a classe C j é medida pela diferença de entropia dessa classe antes e depois do uso desse termo na sua predição (incerteza inicial) (incerteza final) (qtd. de incerteza removida)

16 CIn/UFPE16 Seleção dos Termos: Coeficiente de Correlação Coeficiente de Correlação entre o termo t e a classe C j : Nr+ = documentos relevantes para C j que contêm o termo t Nr- = documentos relevantes para C j que não contêm t Nn- = documentos não relevantes para C j que não contêm t Nn+ = documentos não relevantes para C j que contêm t χ 2 : mede a dependência entre um termo t e a classe C j

17 CIn/UFPE17 Indução Construtiva Objetivo: Obter novos termos (pela combinação dos termos originais) que maximizem a precisão dos resultados Clustering: Técnica usada para agrupar termos originais de acordo com o grau de relacionamento semântico entre eles  O relacionamento pode ser dado, por exemplo, pela co- ocorrência dos termos no conjunto de treinamento Cada cluster gerado passa a ser usado como um novo “termo” Assim, termos redundantes são removidos

18 CIn/UFPE18 Abordagem Simbólica: Árvores de Decisão Indução de Regras Abordagem Numérica: Aprendizagem Bayesiana Redes Neurais Artificiais Aprendizagem Baseada em Instâncias Construção Automática de Classificadores

19 CIn/UFPE19 Comparação das Abordagens

20 CIn/UFPE20 Comparação das Abordagens

21 CIn/UFPE21 Referências Categorização de Documentos: Sebastiani, F. A Tutorial on Automated Text Categorization. Analia Amandi and Alejandro Zunino (eds.), Proceedings of ASAI- 99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, pp. 7-35. 1999. Moulinier, I. A Framework for Comparing Text Categorization Approaches. AAAI Spring Symposium on Machine Learning and Information Access, Stanford University, March 1996. Sistemas Baseados em Conhecimento: Hayes, P. J. & Weinstein, S. P. Construe-TIS: A System for Content-Based Indexing of a Database of News Stories. Second Annual Conference on Innovative Applications of Artificial Intelligence, pp. 48-64. 1990. Neves, M. L. CitationFinder: Um Sistema de Meta-busca e Classificação de Páginas de Publicações na Web. Tese de Mestrado, Centro de Informática, UFPE, Fevereiro de 2001.

22 CIn/UFPE22 Referências Aprendizagem de Máquina: Aprendizagem Bayesiana (Naive Bayes): McCallum, A. K.; Nigam, K.; Rennie, J. & Seymore, K. Automating the Construction of Internet Portals with Machine Learning. Information Retrieval Journal, volume 3, pages 127-163. 2000. Redes Neurais: Wiener, E.; Pedersen, J. O. & Weigend, A. S. A Neural Network Approach to Topic Spotting. In Proceedings of the 4th Symposium on Document Analysis and Information Retrieval (SDAIR 95), pages 317- 332, Las Vegas, NV, USA, April 24-26. 1995. Aprendizagem Baseada em Instâncias: Masand, B; Linoff, G. & Waltz, D. Classifying News Stories using Memory Based Reasoning. Proceedings of SIGIR-92, 15 th ACM International Conference on Research and Development in Information Retrieval, pp. 59-65, Denmark. 1992.

23 CIn/UFPE23 Referências Aprendizagem de Máquina (cont.): Árvores de Decisão: Lewis, D. D. & Ringuette, M. A Comparison of Two Learning Algorithms for Text Categorization. In Third Annual Symposium on Document Analysis and Information Retrieval, pp. 81-93. 1994. Indução de Regras: Apté, C.; Damerau, F. & Weiss, S. Automated Learning of Decision Rules for Text Categorization. ACM Transactions on Information Systems, Vol. 12, No. 3, July 1994, pages 233-151. 1994. Seleção de Termos: Ng, H. T.; Goh, W. B. & Low, K. L. Feature Selection, Perceptron learning and a Usability Case Study for Text Categorization. Proceedings of SIGIR-97, 20 th ACM International Conference on Research and Development in Information Retrieval, pp. 67-73, Philadelphia, PA, USA. 1997. Maron, M. E. Automatic Indexing: An Experimental Inquiry. Journal of ACM, 8: 404-417. 1961.


Carregar ppt "CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE."

Apresentações semelhantes


Anúncios Google