A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Classificação de Texto

Apresentações semelhantes


Apresentação em tema: "Classificação de Texto"— Transcrição da apresentação:

1 Classificação de Texto
Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

2 Roteiro Definição e conceitos básicos
Técnicas de construção de classificadores Manual Automática Aplicações Avaliação/Comparação de classificadores Conclusão

3 Classificação de Texto
Objetivo Classificar documentos de acordo com classes pré-definidas E.g., a ser classificado como SPAM ou NÃO-SPAM A classificação de documentos visa: Melhorar a organização da base de documentos Facilitar a busca e a visualização de documentos E.g., Hierarquias do Yahoo Evitar retornar documentos irrelevantes e/ou indesejáveis para o usuário Entre outras...

4 Classificação de Texto Algumas aplicações...
Classificação e indexação de documentos Ex.: Categorização de páginas Web Sistemas de recomendação e filtragem Ex.: Filtros de spam Sistemas de extração de informação Ex.: Extração em referências bibliográficas etc…

5 Classificação de Texto
Documentos Classe 2 Classe 3 Classe 1

6 Classificação x RI O problema de RI pode ser visto como um problema de classificação RI = Classificação “binária” entre documentos relevantes ou não relevantes Contudo, as duas áreas apresentam particularidades que merecem a divisão

7 Classificação de Texto
A tarefa de classificar documentos pode ser realizada de forma Manual Realizada por um especialista Automática Realizada por um sistema automático de classificação Problema! Como construir o classificador?

8 Classificação manual Realizada por um especialista Vantagens
Alta precisão na classificação Desvantagens Tarefa demorada e trabalhosa

9 Classificação automática
É necessário construir um sistema que fará a classificação automática dos documentos automaticamente Vantagens Rapidez na classificação Desvantagens Dificuldades na construção do sistema Perda de precisão na classificação

10 Classificação Automática
Abordagens para construção do classificador Construção manual Engenharia do Conhecimento Construção automática Aprendizagem de máquina

11 Construção manual do classificador
Engenharia do conhecimento Um especialista no domínio da aplicação propõe regras para classificar os documentos O sistema é implementado pelo engenheiro do conhecimento Dependendo do sistema, meta-informações podem ser consideradas como localização das palavras no texo (título, autor, ...) Abordagem dominante até a década de 80 Sistemas Especialistas

12 Construção manual do classificador
Componentes básicos: Base de Conhecimento com regras de classificação Máquina de Inferência Testes e Validação Nível de Conhecimento Aquisição do Nível Lógico Formulação da Base de Conhecimento Implementação Construção

13 Construção manual do classificador
Preparação de Documentos Como em RI, podemos excluir stopwords usar stemming e redução de dimensionalidade Normalmente esses procedimentos melhoram a precisão e facilitam a criação de regras de classificação

14 Construção manual do classificador
Base de Conhecimento: Regras de Produção Exemplo: Regras para o reconhecimento de um bloco de citação em uma página de publicação (CitationFinder) SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

15 Construção manual do classificador
Vantagens Execução rápida do classificador  Desvantagens Necessário um especialista para codificar as regras Muito trabalho para criar, atualizar e manter a base de regras

16 Construção automática do classificador
Abordagem dominante a partir da década de 90 Baseada em Aprendizagem de Máquina

17 Construção automática do classificador
Classes são mais simples de serem definidas através de exemplos Exemplos são facilmente obtidos Especialista: "Essas 20 s são Spam, essas 50 não." Necessidade de atualizar ou modificar freqüentemente o classificador Usuário: "Agora eu quero trabalhar no domínio de produtos eletrônicos." Solução: Aprendizagem de Máquina

18 Construção automática do classificador
Aprendizagem de Máquina Um processo indutivo e geral que automaticamente constrói um classificador por aprendizagem usando um conjunto predefinido de categorias e suas características. Ou seja o algoritmo "analisa" um conjunto de treinamento e "aprende" o que diferencia uma categoria das outras

19 Passos da construção automática
Textos Etiquetados Representação Redução da dimensionalidade Corpus de treinamento Representação dos documentos (e.g. lista de termos) Seleção ou extração de características Classificador Validação Treinamento Ajuste de parâmetros Indução do classificador

20 Passos da construção automática
Textos devem ser representados através de características apropriadas Representação de Textos Listas de termos que ocorrem no texto Pode-se excluir stopwords, usar stemming... Abordagens Bag of Words (com TF-IDF) Características relevantes do domínio Características lingüísticas CIn/UFPE

21 Passos da construção automática
Quando o vocabulário da base é muito grande, o algoritmo de aprendizagem poderá perder em desempenho. Redução de dimensionalidade Seleção ou Extração das características mais relevantes  Isso melhora significativamente a eficácia e a eficiência do aprendizado

22 Passos da construção automática
Fase de Treinamento Usa-se uma técnica/algoritmo de Aprendizagem de Máquina KNN Classificador Linear (Rocchio, etc) Naive Bayes Árvores de Decisão Redes Neurais Sopport Vector Machine (SVM)

23 Passos da construção automática
Validação e Ajuste de Parâmetros Alguns classificadores precisam de parâmetros de entrada escolhidos empiricamente: Um inteiro (K) para KNN Número de nós numa Rede Neural Parte dos documentos são separados para o algoritmo automaticamente ajustar seus parâmetros, testando a precisão, por exemplo

24 Passos da construção automática
Testes Por fim, os classificadores são avaliados se necessário, ajustes são realizados, reiniciando o ciclo

25 Passos da construção automática
Exemplo usando KNN Durante o treinamento, o classificador simplesmente armazena todos os exemplos Num formato apropriado para facilitar a comparação entre documentos Cada documento é um vetor

26 Construção automática do classificador
Exemplo usando KNN Na classificação, escolher os K documentos do conjunto de treinamento mais similares a entrada Medidas de distância: cosseno, distância euclidiana, entre outras Atribuir à entrada uma classe baseada nas classes dos documentos recuperados Exemplos a seguir

27 KNN - Maioria Com k=1 : Classe + Com k=5 :  Classe -

28 KNN - Ponderada

29 Avaliação de Classificadores
Eficiência de treinamento/classificação e eficácia do classificador Existe um trade-off entre essas medidas Eficácia é geralmente mais importante

30 Eficácia dos classificadores
Como em RI, as avaliações são feitas experimentalmente Medidas (para uma classe): Taxa de erro Precisão e cobertura Uma média dá a efetividade geral do classificador Vale para as abordagens de engenharia do conhecimento e aprendizagem de máquina

31 Avaliação de Classificadores
Corpus de documentos são geralmente divididos em: Conjunto de Treinamento Para o algoritmo aprender Conjunto de Validação Para permitir ajuste de parâmetros do sistema Conjunto de Teste Para avaliar a eficácia

32 Avaliação de Classificadores
Precisão: Porcentagem de decisões de classificação positivas que estão corretas  Cobertura: Porcentagem de classificações corretas que foram realmente tomadas

33 Avaliação de Classificadores
Micromédia Somam-se as decisões individuais para calcular precisão e cobertura para uma classe (média local)  Pode não ser uma boa medida quando há classes majoritárias (muitas instâncias positivas)  

34 Avaliação de Classificadores
Macromédia Precisão e cobertura são calculadas em relação a todas as classes (média global) É melhor quando as classes são desbalanceadas

35 Dúvidas?

36 Aprendizagem de Ontologias

37 Definição rápida de Ontologia
Uma ontologia num dado domínio é composta de: Terminologia (vocabulário específico) Classes Taxonomia Relações (hierarquias e restrições) Axiomas (verificações de propriedade)

38 Exemplo de Ontologia

39 Ontologias pra quê? Formalizar um domínio de interesse para inferência
Reuso de conhecimento Interoperabilidade (para comunicação) Muitas aplicações! Busca inteligente na Web Web Semântica Vocabulário para agentes Computação científica

40 Aprendizagem de Ontologias
Abrange métodos e técnicas para: Construir uma ontologia do zero ou a partir de dados coletados Melhorar ou adaptar uma ontologia existente Outros nomes: extração, geração, aquisição e emergência Considerada uma sub-área de Extração de Informação

41 O que isso tem a ver com RI e CT?
Técnicas de aprendizagem e população de ontologias usam: Recuperação de Informação Classificação de Texto E áreas correlatas

42 Fontes de dados Texto relevante XML, DTD Bancos de dados
Dicionários na Web Ontologias existentes (de topo e de núcleo)

43 Método usando texto, estatística e PLN
Técnicas de RI para extrair relevância de termos Termos estatisticamente relevantes são termos candidatos à classe Técnicas de PLN são usadas para extrair relações

44 festival (verbo) culture
Exemplo The festival attracts culture vultures from all over Australia to see live drama, dance and music festival (verbo) culture Termos candidatos

45 Exemplo de ontologia gerada

46 Ferramenta OntoLT

47 Outros métodos Agupamento e Classificação de Texto
Métodos de Extração de Informação Extração a partir de Folksonomias Análise de Redes Sociais

48 Aplicações Engenharia de Ontologias Web Semântica
Representação do Conhecimento Agentes Inteligentes E todas as áreas que podem fazer uso de ontologias!

49 Dúvidas?


Carregar ppt "Classificação de Texto"

Apresentações semelhantes


Anúncios Google