A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn/UFPE1 Categorização de Textos (modificada) Mariana Lara Neves Flávia Barros CIn/UFPE.

Apresentações semelhantes


Apresentação em tema: "CIn/UFPE1 Categorização de Textos (modificada) Mariana Lara Neves Flávia Barros CIn/UFPE."— Transcrição da apresentação:

1 CIn/UFPE1 Categorização de Textos (modificada) Mariana Lara Neves Flávia Barros CIn/UFPE

2 2 Roteiro Introdução Categorização de Documentos Preparação de Dados Construção Manual do Classificador Construção Automática do Classificador Comparação das Abordagens Referências

3 CIn/UFPE3 Categorização de Documentos Definição: atribuição de uma ou mais classes pré- definidas aos documentos Objetivos: Organizar os documentos Facilitar a sua busca automática

4 CIn/UFPE4 Categorização de Documentos Documentos Classe 1 Classe 2 Classe 3

5 CIn/UFPE5 Categorização de Documentos Classificação Manual: Leitura dos documentos por um especialista Construção Manual do Classificador: Sistemas baseados em conhecimento Base de Regras escrita manualmente Construção Automática do Classificador: Algoritmos de aprendizagem automática

6 CIn/UFPE6 Construção do Classificador Conjunto de treinamento: Aquisição do conhecimento ou Treinamento do algoritmo Ajuste do sistema Conjunto de teste: Diferente do conjunto de treinamento Avaliação do desempenho do sistema

7 CIn/UFPE7 Construção Manual do Classificador Sistema baseado em Conhecimento: Base de conhecimento Máquina de Inferência (ex.: JEOPS) Testes e Validação Nível de Conhecimento Aquisição do Conhecimento Nível Lógico Formulação da Base de Conhecimento Nível de Implementação Construção da Base de Conhecimento

8 CIn/UFPE8 Base de Conhecimento: Regras de Produção Exemplo: Regras para o reconhecimento de um bloco de citação em uma página de publicação (CitationFinder) Construção Manual do Classificador SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

9 CIn/UFPE9 Montar regras com fator de certeza associado Montar regras com fator de certeza (F.C.) associado Objetivo: melhorar a precisão do sistema Se evidência1 Então ex.positivo com F.C.% de chance O F.C. é calculado pelo do Teorema de Bayes P(ex.pos | evidência1) = P(ex.pos & evidência1) / P(evidência1) Onde: P(ex.pos | evidência1) é a probabilidade de um exemplo ser positivo dado que a evidência1 ocorreu P(ex.pos & evidência1) é a quantidade de ocorrência simultânea P(evidência1) quantidade de ocorrências de evidência1 no corpus

10 CIn/UFPE10 Montar regras com fator de certeza associado Contar se quiser estimar com precisão!!! Exemplo P(spam | promoção no subject ) = P(número de s que são spam e têm a palavra promoção no subject) / P(número de s que têm a palavra promoção no subject)

11 CIn/UFPE11 Utilizar as regras com fator de certeza associado Quando a máquina de inferência dispara regras com a mesma conclusão, ela deve combinar os F.C. associados O objetivo é calcular a probabilidade final de uma dada página ser positiva P-atual = P-anterior + P-nova * (1 - P-anterior) Por exemplo: Se evidência1 Então ex.positivo com 90% Se evidência2 Então ex.positivo com 85% P-atual = 0,9 + 0,85 * (1 - 0,90) Quando a máquina de inferência pára, teremos a probabilidade final de um exemplo ser positivo Em JEOPS, pode-se implementar a probabilidade acumulada no objeto

12 CIn/UFPE12 Utilizar as regras com fator de certeza associado A probabilidade final é comparada a um limiar Se P-final >= limiar Então exemplo positivo Cada classificador poderá usar um limiar diferente O limiar é calculado iterativamente com base na F-measure para o corpus de treinamento 1. Escolher um limiar inicial (p. ex. = 60%) 2. Calcular erro (ex. F-measure) 3. Aumentar o limiar em 0.5 e recalcular erro 4. Repetir passo 3 até o erro começar a piorar 5. Escolher para o sistema o limiar que apresentou menor erro

13 CIn/UFPE13 Construção Automática do Classificador Criados automaticamente através da apresentação dos exemplos ao algoritmo de treinamento. Ajuste dos resultados pelo desenvolvedor Dados classificados Dados de treinamento ClassificadorComparador

14 CIn/UFPE14 Construção Automática do Classificador Documentos Representação Inicial Redução da Dimensão ou Seleção de Termos Representação Final Indução Conhecimento Adicional Categorização

15 CIn/UFPE15 Construção Automática do Classificador Representação Inicial dos Documentos Utiliza pré-processamento com as mesmas técnicas de recuperação de informação!!

16 CIn/UFPE16 Pré-Processamento dos Documentos Objetivo Criar uma representação computacional do documento seguindo algum modelo Fases Operações sobre o texto Criação da representação Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade. Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Operações de Texto Representação Doc : Pré-Processamento

17 CIn/UFPE17 Pré-Processamento: Operações sobre o texto Análise léxica Converte uma cadeia de caracteres em uma cadeia de palavras/termos Eliminação de stopwords Palavras consideradas irrelevantes Ex.: artigos, pronomes, alguns verbos, list Pré-Processamento -

18 CIn/UFPE18 Pré-Processamento: Operações sobre o texto Stemming Redução de uma palavra ao seu radical Geralmente, apenas eliminação de sufixos Possibilita casamento entre variações de uma mesma palavra engineer engineer engineer engineering engineered engineer TermStem Regras de redução: ed -> 0 ing -> 0

19 CIn/UFPE19 Pré-Processamento: Representação do Documento Texto Completo Difícil (caro) de manipular computacionalmente Dado um documento, identificar os conceitos que melhor descrevem o seu conteúdo Representar o documento como um Centróide Lista de termos com pesos associados ou não Problema: perda da semântica Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade. Sócrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade 1 socrates1 Centróide

20 CIn/UFPE20 Modelos de Representação de Documentos Modelo Booleano Centróide sem pesos associados A representação indica apenas se o termo está ou não presente no documento Modelo Espaço Vetorial Centróide com pesos associados (ex. número de vezes que a palavra aparece no texto) Outros modelos: Booleano Estendido, Difuso, Semântica Latente, Probabilístico, etc…

21 CIn/UFPE21 Modelo Booleano: sem pesos associados Simples de implementar e usar, porém de baixo desempenho Documentos e consultas representados como vetores binários de tamanho n (e.g., D = {1,0,1,1,1}) Cada posiçao corresponde a um termo usado na indexação dos documentos sendo considerados Consulta: termos conectados por AND, OR e NOT Relevância binária: O documento é considerado relevante sse seu casamento com a consulta é verdadeiro Não é possível ordenar os documentos recuperados k 1 k 2 k 3 Consulta: Documentos apresentados ao usuário k1k2k1k2 k3k3 Base de Documentos

22 CIn/UFPE22 Olimpíadas Brasil Sidney d q Brasil Olimpíadas Sidney Consulta q : Documento d : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney Brasil 0.4 Olimpíadas 0.3 Sidney 0.3 Brasil 0.5 Olimpíadas 0.3 Sidney 0.2 Representação de q Representação de d Modelo Espaço Vetorial: com pesos associados Consultas (q) e Documentos (d) são representados como vetores em um espaço n-dimensional Onde n é o número total de termos usados para indexar os documentos sendo considerados Relevância: co-seno do ângulo entre q e d Quanto maior o co-seno, maior é a relevância de d para q Ordenação: dada pelo co-seno do ângulo entre q e d

23 CIn/UFPE23 Representação do Documento com Pesos Centróide Pesos associadas aos termos como indicação de relevância: Freqüência de ocorrência do termo no documento TF-IDF = Term Frequency x Inverse Document Frequency TF-IDF também considera palavras com baixa ocorrência na base de documentos como melhores discriminantes TF(w): freqüência da palavra w no doc. DF(w): freqüência de w em D D = total de documentos

24 CIn/UFPE24 Representação do Documento com Pesos Centróide Limitar tamanho do centróide em 50 mantendo apenas termos com maior peso Aumenta a eficiência do sistema Estudos mostram que isso não altera muito o seu poder de representação do centróide

25 CIn/UFPE25 Representação do Documento com Pesos Enriquecendo a representação: Considerar formatação do texto como indicação da importância dos termos título, início, negrito,... Adicionar informação sobre a localização do termo no documento Representação de documentos usada pelo Google word : z - hit hit hit hit word : y - hit hit hit... word : w - hit Doc :xxx 1bit capitalization; 3bit font size; 12 bit position hit:

26 CIn/UFPE26 Redução da Dimensão da Representação Inicial Objetivo: Reduzir o tamanho dos centróides para diminuir o risco de super-especialização do classificador gerado (overfitting) Abordagens: Seleção de um subconjunto de termos Indução Construtiva Tipos de Redução: Global: considera um conjunto de termos para todas as classes Local: considera um conjunto de termos para cada classes

27 CIn/UFPE27 Seleção dos Termos Cada termo recebe uma relevância, que é usada para ordenar a lista de termos Os n primeiros termos mais relevantes são utilizados para treinar o algoritmo Várias técnicas: Freqüência de ocorrência nos documentos (redução global) Outras (redução local) Entropia, Coeficiente de Correlação, 2,...

28 CIn/UFPE28 Seleção dos Termos: Entropia (mutual information) A relevância do termo W i para a classe C j é medida pela diferença de entropia dessa classe antes e depois do uso desse termo na sua predição (incerteza inicial) (incerteza final) (qtd. de incerteza removida)

29 CIn/UFPE29 Seleção dos Termos: Coeficiente de Correlação Coeficiente de Correlação entre o termo t e a classe C j : Nr+ = documentos relevantes para C j que contêm o termo t Nr- = documentos relevantes para C j que não contêm t Nn- = documentos não relevantes para C j que não contêm t Nn+ = documentos não relevantes para C j que contêm t χ 2 : mede a dependência entre um termo t e a classe C j

30 CIn/UFPE30 Indução Construtiva Objetivo: Obter novos termos (pela combinação dos termos originais) que maximizem a precisão dos resultados Clustering: Técnica usada para agrupar termos originais de acordo com o grau de relacionamento semântico entre eles O relacionamento pode ser dado, por exemplo, pela co- ocorrência dos termos no conjunto de treinamento Cada cluster gerado passa a ser usado como um novo termo Assim, termos redundantes são removidos

31 CIn/UFPE31 Abordagem Simbólica: Árvores de Decisão Indução de Regras Abordagem Numérica: Aprendizagem Bayesiana Redes Neurais Artificiais Aprendizagem Baseada em Instâncias Construção Automática de Classificadores

32 CIn/UFPE32 Comparação das Abordagens

33 CIn/UFPE33 Avaliação A avaliação baseia-se na noção de matriz de confusão

34 CIn/UFPE34 Avaliação Cobertura: total de documentos relevantes retornados sobre o número total dos relevantes existentes Precisão: documentos relevantes retornados sobre o número total de retornados Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados

35 CIn/UFPE35 Avaliação F-measure: média gemétrica das medidas anteriores F = 2 * cobertura * precisão cobertura + precisão É a mais usada em recuperação de informação e pode ser usada em categorização quando há duas classes

36 CIn/UFPE36 Avaliaçã: exemplo Exemplo: total de páginas do corpus = 200 total de páginas positivas do corpus = 170 total de páginas negativas do corpus = 30 total de páginas positivas classificadas corretamente como positivas = 130 total de páginas negativas classificadas como positivas = 20 total geral de páginas classificadas como positivas = 150 Precisão = 130 / 150 = 0,87 Cobertura = 130 / 170 = 0,76 F-measure = (2 * 0,87 * 0,76) / (0,87 + 0,76) = 1,32 / 1,63 = 0,81

37 CIn/UFPE37 Validação Teste do sistema num corpus conhecido e etiquetado manualmente Sabe-se a relevância de um documento em relação a uma Consulta TREC, Reuters,...

38 CIn/UFPE38 Referências Categorização de Documentos: Sebastiani, F. A Tutorial on Automated Text Categorization. Analia Amandi and Alejandro Zunino (eds.), Proceedings of ASAI- 99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, pp Moulinier, I. A Framework for Comparing Text Categorization Approaches. AAAI Spring Symposium on Machine Learning and Information Access, Stanford University, March Sistemas Baseados em Conhecimento: Hayes, P. J. & Weinstein, S. P. Construe-TIS: A System for Content-Based Indexing of a Database of News Stories. Second Annual Conference on Innovative Applications of Artificial Intelligence, pp Neves, M. L. CitationFinder: Um Sistema de Meta-busca e Classificação de Páginas de Publicações na Web. Tese de Mestrado, Centro de Informática, UFPE, Fevereiro de 2001.

39 CIn/UFPE39 Referências Aprendizagem de Máquina: Aprendizagem Bayesiana (Naive Bayes): McCallum, A. K.; Nigam, K.; Rennie, J. & Seymore, K. Automating the Construction of Internet Portals with Machine Learning. Information Retrieval Journal, volume 3, pages Redes Neurais: Wiener, E.; Pedersen, J. O. & Weigend, A. S. A Neural Network Approach to Topic Spotting. In Proceedings of the 4th Symposium on Document Analysis and Information Retrieval (SDAIR 95), pages , Las Vegas, NV, USA, April Aprendizagem Baseada em Instâncias: Masand, B; Linoff, G. & Waltz, D. Classifying News Stories using Memory Based Reasoning. Proceedings of SIGIR-92, 15 th ACM International Conference on Research and Development in Information Retrieval, pp , Denmark

40 CIn/UFPE40 Referências Aprendizagem de Máquina (cont.): Árvores de Decisão: Lewis, D. D. & Ringuette, M. A Comparison of Two Learning Algorithms for Text Categorization. In Third Annual Symposium on Document Analysis and Information Retrieval, pp Indução de Regras: Apté, C.; Damerau, F. & Weiss, S. Automated Learning of Decision Rules for Text Categorization. ACM Transactions on Information Systems, Vol. 12, No. 3, July 1994, pages Seleção de Termos: Ng, H. T.; Goh, W. B. & Low, K. L. Feature Selection, Perceptron learning and a Usability Case Study for Text Categorization. Proceedings of SIGIR-97, 20 th ACM International Conference on Research and Development in Information Retrieval, pp , Philadelphia, PA, USA Maron, M. E. Automatic Indexing: An Experimental Inquiry. Journal of ACM, 8:


Carregar ppt "CIn/UFPE1 Categorização de Textos (modificada) Mariana Lara Neves Flávia Barros CIn/UFPE."

Apresentações semelhantes


Anúncios Google