CIn/UFPE1 Categorização de Documentos Mariana Lara Neves Flávia Barros Fred Freitas CIn/UFPE.

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Operações sobre o Texto
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Recuperação de Informação
Agenda Introdução Justificativa Objetivo Detecção de Spam
Categorização de Textos (modificada)
Indexação Automática de Documentos
Propriedades de Documentos
Eveline Alonso Veloso PUC-MINAS
Reconhecimento de Padrões Dissimilaridade
Introdução a Teoria da Classificação
Jacques Robin, Francisco Carvalho, Flávia Barros
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
Recuperação de Informações
FACENS – Engenharia da Computação Inteligência Artificial
FACENS – Engenharia da Computação Inteligência Artificial
Descoberta de Conhecimento:
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Aprendizado de Máquina
Aprendizado de Máquina
Inteligência Artificial
Aprendizagem de Máquina - Agrupamento
Classificação/Clusterização
Aprendizado Baseado em Instâncias – Algoritmo k-NN
II Workshop de Dissertação Pós-Graduação em Ciência da Computação Faculdade de Computação – FACOM Universidade Federal de Uberlândia – UFU Dezembro/2008.
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Introdução à Classificação de Texto
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Aprendizado de Máquina - Introdução
Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
Título do projeto Equipe Local Data.
Recuperação de Informação Clássica
Recuperação de Informação
Recuperação de Informação
Seleção de Atributos Ricardo Prudêncio.
Técnicas de Representação de Conhecimento Diversas.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Classificacao de Texto Projeto Spam Filter
Filtragem Colaborativa
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Recuperação Inteligente de Informação
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Classificação de Texto
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
1 Projeto X-Finder Agents Recuperação e Indexação de páginas especializadas na Web Disciplina: Inteligência Artificial Simbólica Professora: Flávia Barros.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
CIn/UFPE1 Categorização de Documentos (modificada) Mariana Lara Neves Flávia Barros CIn/UFPE.
Classificação de Textos
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW
Nº Aluno: Nome: António Paulo Santos Sessão Controlo Tese 2º Semestre 2007/2008.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Conselhos para a aplicação de aprendizagem de máquinas
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Transcrição da apresentação:

CIn/UFPE1 Categorização de Documentos Mariana Lara Neves Flávia Barros Fred Freitas CIn/UFPE

2 Roteiro Introdução Categorização de Documentos Preparação de Dados Construção Manual do Classificador Construção Automática do Classificador Comparação das Abordagens Referências

CIn/UFPE3 Categorização de Documentos Definição: atribuição de uma ou mais classes pré- definidas aos documentos Objetivos: Organizar os documentos Facilitar a sua busca automática

CIn/UFPE4 Aplicações Recomendação Classificação Hierarquias Pastas Filtragem Jornal personalizado Roteamento …

CIn/UFPE5 Categorização de Documentos Documentos Classe 1 Classe 2 Classe 3

CIn/UFPE6 Categorização de Documentos Classificação Manual: Leitura dos documentos por um especialista Construção Manual do Classificador: Sistemas baseados em conhecimento  Base de Regras escrita manualmente Construção Automática do Classificador: Algoritmos de aprendizagem automática

CIn/UFPE7 Construção do Classificador Conjunto de treinamento: Aquisição do conhecimento ou Treinamento do algoritmo Ajuste do sistema Conjunto de teste: Diferente do conjunto de treinamento Avaliação do desempenho do sistema

CIn/UFPE8 Construção Manual do Classificador Sistema baseado em Conhecimento: Base de conhecimento Máquina de Inferência (ex.: JEOPS) Testes e Validação Nível de Conhecimento Aquisição do Conhecimento Nível Lógico Formulação da Base de Conhecimento Nível de Implementação Construção da Base de Conhecimento

CIn/UFPE9 Base de Conhecimento: Regras de Produção Exemplo: Regras para o reconhecimento de um bloco de citação em uma página de publicação (CitationFinder) Construção Manual do Classificador SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

CIn/UFPE10 Bases de Conhecimento em Linguagens Específicas Podem ser usadas linguagens mais específicas, baseadas em presença de palavras-chave e/ou n-gramas (gold (&n (reserv ! medal ! jewlry)) significa detectar a palavra ‘gold’, mas ignorar as sentenças ‘gold reserv’, ‘gold medal’ e ‘gold jewlry’.

CIn/UFPE11 Prós e Contras de Classificadores Baseados em Conhecimento PRÓS: Melhor desempenho Em especial, em sistemas integrados a extratores Vantagens de soluções declarativas Melhor legibilidade Conhecimento pode ser comunicado entre agentes Extensibildade CONTRAS: Requerem um extensivo esforço para criar bases de conhecimentos Processo custoso e lento Pouco reuso Exceto em ontologias Normalmente, todo o processo de engenharia de conhecimento é repetido a cada novo domínio

CIn/UFPE12 Construção Automática do Classificador Criados automaticamente através da apresentação dos exemplos ao algoritmo de treinamento. Ajuste dos resultados pelo desenvolvedor Dados classificados Dados de treinamento ClassificadorComparador

CIn/UFPE13 Construção Automática do Classificador Documentos Representação Inicial Redução da Dimensão ou Seleção de Termos Representação Final Indução Conhecimento Adicional Categorização

CIn/UFPE14 Categorização por Aprendizado Dados: Uma descrição de instância, x  X, Uma linguagem de instância ou espaço de instância X. Um conjunto fixo de categorias: C={c 1, c 2,…c n } Determinar: A categoria de x: c(x)  C, c(x) é uma função de categorização  domínio X  imagem C.

CIn/UFPE15 Aprendizado para Categorização Um exemplo de treinamento é um par x  X, uma instância c(x) sua categoria para uma função de categorização, c. Dado um conjunto de exemplos de treinamento, D Achar uma hipotética função de categorização, h(x), such that: Consistência

CIn/UFPE16 Construção Automática do Classificador Representação Inicial dos Documentos Utiliza pré-processamento com as mesmas técnicas de recuperação de informação!!

CIn/UFPE17 Pré-Processamento dos Documentos Objetivo Criar uma representação computacional do documento seguindo algum modelo Fases Operações sobre o texto Criação da representação “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Operações de Texto Representação Doc : Pré-Processamento

CIn/UFPE18 Pré-Processamento: Operações sobre o texto Análise léxica Converte uma cadeia de caracteres em uma cadeia de palavras/termos Eliminação de stopwords Palavras consideradas irrelevantes  Ex.: artigos, pronomes, alguns verbos, “WWW”... Pré-Processamento -

CIn/UFPE19 Pré-Processamento: Operações sobre o texto Stemming Redução de uma palavra ao seu radical  Geralmente, apenas eliminação de sufixos Possibilita casamento entre variações de uma mesma palavra engineer engineer engineer engineering engineered engineer TermStem Regras de redução: ed -> 0 ing -> 0

CIn/UFPE20 Pré-Processamento: Representação do Documento Texto Completo Difícil (caro) de manipular computacionalmente Dado um documento, identificar os conceitos que melhor descrevem o seu conteúdo Representar o documento como um Centróide Lista de termos com pesos associados ou não Problema: perda da semântica “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade 1 socrates1 Centróide

CIn/UFPE21 Modelos de Representação de Documentos Modelo Booleano Centróide sem pesos associados A representação indica apenas se o termo está ou não presente no documento Modelo Espaço Vetorial Centróide com pesos associados Outros modelos: Booleano Estendido, Difuso, Semântica Latente, Probabilístico, etc…

CIn/UFPE22 Modelo Booleano: sem pesos associados Simples de implementar e usar, porém de baixo desempenho Documentos e consultas representados como vetores binários de tamanho n (e.g., D = {1,0,1,1,1}) Cada posiçao corresponde a um termo usado na indexação dos documentos sendo considerados Consulta: termos conectados por AND, OR e NOT Relevância “binária”: O documento é considerado relevante sse seu “casamento” com a consulta é verdadeiro Não é possível ordenar os documentos recuperados k 1  k 2  k 3 Consulta: Documentos apresentados ao usuário k1k2k1k2 k3k3 Base de Documentos

CIn/UFPE23 Olimpíadas Brasil Sidney d q Brasil Olimpíadas Sidney Consulta q : Documento d : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney Brasil 0.4 Olimpíadas 0.3 Sidney 0.3 Brasil 0.5 Olimpíadas 0.3 Sidney 0.2 Representação de q Representação de d Modelo Espaço Vetorial: com pesos associados Consultas (q) e Documentos (d) são representados como vetores em um espaço n-dimensional Onde n é o número total de termos usados para indexar os documentos sendo considerados Relevância: co-seno do ângulo entre q e d Quanto maior o co-seno, maior é a relevância de d para q Ordenação: dada pelo co-seno do ângulo entre q e d

CIn/UFPE24 Representação do Documento com Pesos Centróide Pesos associadas aos termos como indicação de relevância:  Freqüência de ocorrência do termo no documento  TF-IDF = Term Frequency x Inverse Document Frequency  TF-IDF também considera palavras com baixa ocorrência na base de documentos como melhores discriminantes TF(w): freqüência da palavra w no doc. DF(w): freqüência de w em D D = total de documentos

CIn/UFPE25 Representação do Documento com Pesos Centróide Limitar tamanho do centróide em 50 mantendo apenas termos com maior peso  Aumenta a eficiência do sistema  Estudos mostram que isso não altera muito o seu poder de representação do centróide

CIn/UFPE26 Representação do Documento com Pesos Enriquecendo a representação: Considerar formatação do texto como indicação da importância dos termos  título, início, negrito,... Adicionar informação sobre a localização do termo no documento Representação de documentos usada pelo Google word : z - hit hit hit hit word : y - hit hit hit... word : w - hit Doc :xxx 1bit capitalization; 3bit font size; 12 bit position hit:

CIn/UFPE27 Redução da Dimensão da Representação Inicial Objetivo: Reduzir o tamanho dos centróides para diminuir o risco de super-especialização do classificador gerado (overfitting) Abordagens: Seleção de um subconjunto de termos Indução Construtiva Tipos de Redução: Global: considera um conjunto de termos para todas as classes Local: considera um conjunto de termos para cada classes

CIn/UFPE28 Seleção dos Termos Cada termo recebe uma “relevância”, que é usada para ordenar a lista de termos Os “n” primeiros termos mais relevantes são utilizados para treinar o algoritmo Várias técnicas: Freqüência de ocorrência nos documentos (redução global) Outras (redução local)  Entropia, Coeficiente de Correlação,  2,...

CIn/UFPE29 Seleção dos Termos: Coeficiente de Correlação Coeficiente de Correlação entre o termo t e a classe C j : Nr+ = documentos relevantes para C j que contêm o termo t Nr- = documentos relevantes para C j que não contêm t Nn- = documentos não relevantes para C j que não contêm t Nn+ = documentos não relevantes para C j que contêm t χ 2 : mede a dependência entre um termo t e a classe C j

CIn/UFPE30 Indução Construtiva Objetivo: Obter novos termos (pela combinação dos termos originais) que maximizem a precisão dos resultados Clustering (ou Agrupamento): Técnica usada para agrupar termos originais de acordo com o grau de relacionamento semântico entre eles  O relacionamento pode ser dado, por exemplo, pela co- ocorrência dos termos no conjunto de treinamento Cada cluster gerado passa a ser usado como um novo “termo” Assim, termos redundantes são removidos

CIn/UFPE31 Abordagem Simbólica: Árvores de Decisão Indução de Regras Abordagem Numérica: Aprendizagem Bayesiana Redes Neurais Artificiais Aprendizagem Baseada em Instâncias Construção Automática de Classificadores

CIn/UFPE32 Comparação das Abordagens

CIn/UFPE33 Prós e Contras de Classificadores Baseados em Aprendizado PRÓS: Facilidade Economia da engenharia de conhecimento Melhor desempenho Em especial, em sistemas integrados a extratores Vantagens de soluções declarativas Melhor legibilidade Conhecimento pode ser comunicado entre agentes CONTRAS: Requerem um esforço para anotar os corpi de treinamento Dificuldades de incluir conhecimento a priori nos algoritmos de aprendizado Não-extensível Difícil de estabelecer uma boa tendência (bias) para o algoritmo Qualquer critério usada para selecionar hipóteses geradas pelo algoritmo

CIn/UFPE34 Referências Categorização de Documentos: Sebastiani, F. A Tutorial on Automated Text Categorization. Analia Amandi and Alejandro Zunino (eds.), Proceedings of ASAI- 99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, pp Moulinier, I. A Framework for Comparing Text Categorization Approaches. AAAI Spring Symposium on Machine Learning and Information Access, Stanford University, March Sistemas Baseados em Conhecimento: Hayes, P. J. & Weinstein, S. P. Construe-TIS: A System for Content-Based Indexing of a Database of News Stories. Second Annual Conference on Innovative Applications of Artificial Intelligence, pp Neves, M. L. CitationFinder: Um Sistema de Meta-busca e Classificação de Páginas de Publicações na Web. Tese de Mestrado, Centro de Informática, UFPE, Fevereiro de 2001.

CIn/UFPE35 Referências Aprendizagem de Máquina: Aprendizagem Bayesiana (Naive Bayes): McCallum, A. K.; Nigam, K.; Rennie, J. & Seymore, K. Automating the Construction of Internet Portals with Machine Learning. Information Retrieval Journal, volume 3, pages Redes Neurais: Wiener, E.; Pedersen, J. O. & Weigend, A. S. A Neural Network Approach to Topic Spotting. In Proceedings of the 4th Symposium on Document Analysis and Information Retrieval (SDAIR 95), pages , Las Vegas, NV, USA, April Aprendizagem Baseada em Instâncias: Masand, B; Linoff, G. & Waltz, D. Classifying News Stories using Memory Based Reasoning. Proceedings of SIGIR-92, 15 th ACM International Conference on Research and Development in Information Retrieval, pp , Denmark

CIn/UFPE36 Referências Aprendizagem de Máquina (cont.): Árvores de Decisão: Lewis, D. D. & Ringuette, M. A Comparison of Two Learning Algorithms for Text Categorization. In Third Annual Symposium on Document Analysis and Information Retrieval, pp Indução de Regras: Apté, C.; Damerau, F. & Weiss, S. Automated Learning of Decision Rules for Text Categorization. ACM Transactions on Information Systems, Vol. 12, No. 3, July 1994, pages Seleção de Termos: Ng, H. T.; Goh, W. B. & Low, K. L. Feature Selection, Perceptron learning and a Usability Case Study for Text Categorization. Proceedings of SIGIR-97, 20 th ACM International Conference on Research and Development in Information Retrieval, pp , Philadelphia, PA, USA Maron, M. E. Automatic Indexing: An Experimental Inquiry. Journal of ACM, 8: