Classificação de Textos

Slides:



Advertisements
Apresentações semelhantes
Construção de listas de decisão Os tópicos anteriores tratam de indução de conceitos que podem ser descritos usando uma única região de decisão Neste tópico.
Advertisements

Agenda Introdução Justificativa Objetivo Detecção de Spam
1 Seleção de Atributos Marcílio Souto DIMAp/UFRN.
Redes Neurais Artificiais (RNA): Aprendizado
Projeto conceitual Mostra ao cliente exatamente o que o sistema fará
Projeto 1.
Mineração de Dados Avaliação de Classificadores
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendizado de Máquina
Analise e Seleção de Variáveis
Reconhecimento de Padrões Seleção de Características
Jacques Robin, Francisco Carvalho, Flávia Barros
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
FACENS – Engenharia da Computação Inteligência Artificial
Descoberta de Conhecimento:
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizado de Máquina
Aprendizado de Máquina
Aprendizado de Árvores de Decisão
Aprendizagem de Máquina - Agrupamento
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Recuperação Inteligente de Informação Tarefa 1 Equipe.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Introdução à Classificação de Texto
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Aprendizagem de Máquina
Aprendizado de Máquina - Introdução
Título do projeto Equipe Local Data.
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Recuperação de Informação
Seleção de Atributos Ricardo Prudêncio.
Técnicas de Representação de Conhecimento Diversas.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Classificacao de Texto Projeto Spam Filter
SVMSharp – Uma implementação didática de uma SVM
Experimentação Algorítmica
Sistemas Baseados em Aprendizado (Aprendizado de Máquina)
C LASSIFICAÇÃO DE N ÓS Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Recuperação Inteligente de Informação
Universidade Federal de Lavras Departamento de Ciência da Computação
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
Classificação de Texto
CIn/UFPE1 Categorização de Documentos Mariana Lara Neves Flávia Barros Fred Freitas CIn/UFPE.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Engenharia de Software
Categorização de Documentos Mariana Lara Neves CIn/UFPE.
CIn/UFPE1 Categorização de Documentos e Preparação de Dados Mariana Lara Neves Flávia Barros (participação mínima) CIn/UFPE.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
CIn/UFPE1 Categorização de Documentos (modificada) Mariana Lara Neves Flávia Barros CIn/UFPE.
Reconhecimento Facial usando SVM
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Projeto de Arquitetura de Software
1 Projeto Híbrido de Redes Neurais Ricardo Bastos C. Prudêncio Orientação: Teresa B. Ludermir CIn - UFPE Jan
Métodos Probabilísticos
Transcrição da apresentação:

Classificação de Textos CIn/UFPE

Roteiro Introdução Abordagem Manual Abordagem de Aprendizado de Máquina Preparação dos Textos Redução de Dimensionalidade Algoritmos Avaliação Referências

Classificação de Texto Definição: atribuição de uma ou mais classes pré-definidas aos documentos de texto Exemplos: E-mail a ser classificado como SPAM ou NÃO-SPAM Objetivos: Organizar os documentos Facilitar a sua busca automática

Aplicações Classificação e indexação de documentos Ex.: Categorização de páginas Web Sistemas de recomendação e filtragem Ex.: Filtros de spam Sistemas de extração de informação Ex.: Extração em referências bibliográficas etc…

Abordagens Classificação Manual: Construção Manual do Classificador: Leitura dos documentos por um especialista Construção Manual do Classificador: Sistemas baseados em conhecimento Base de Regras escrita manualmente Construção Automática do Classificador: Algoritmos de Aprendizagem de Máquina

Sistemas Baseados em Conhecimento Componentes básicos: Base de conhecimento Máquina de Inferência (ex.: JEOPS) Testes e Validação Nível de Conhecimento Aquisição do Nível Lógico Formulação da Base de Conhecimento Implementação Construção

Sistemas Baseados em Conhecimento Base de Conhecimento: Regras de Produção Exemplo: Regras para o reconhecimento de um bloco de citação em uma página de publicação (CitationFinder) SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

Prós e Contras de Classificadores Baseados em Conhecimento Melhor desempenho Em especial, em sistemas integrados a extratores Vantagens de soluções declarativas Melhor legibilidade Conhecimento pode ser comunicado entre agentes Extensibildade CONTRAS: Requerem um extensivo esforço para criar bases de conhecimentos Processo custoso e lento Pouco reuso Exceto em ontologias Normalmente, todo o processo de engenharia de conhecimento é repetido a cada novo domínio

Abordagem de Aprendizado de Máquina Classificador gerado automaticamente através da apresentação de textos previamente classificados ao algoritmo de aprendizado Refinamento do processo de aprendizado pelo desenvolvedor Classificador (ex.: conjunto de regras) Textos classificados (etiquetados) - Dados de treinamento Algoritmo Avaliação

Abordagem de Aprendizado de Máquina Textos Etiquetados Representação Redução da dimensionalidade Corpus de treinamento Representação dos documentos (e.g. lista de termos) Seleção ou extração de características Classificador Aprendizado Indução do classificador

Representação de Textos Exemplo de treinamento corresponde a um texto etiquetado (previamente classificado) Textos devem ser representados através de características apropriadas Abordagens para representação Bag of Words (com TF-IDF) Características do domínio Características linguísticas

Representação de Textos Bag of Words (com TF-IDF) Lista de termos presentes no corpus de treinamento associados a pesos Pesos definidos comumente com TF-IDF IDF estimado através da freqüência dos termos no corpus de treinamento Alguns trabalhos usam somente TF Recomenda-se eliminação de stopwords e aplicação de stemming

Representação de Textos Características do domínio Ex.: termos de um vocabulário controlado, padrões de formatação, expressões regulares,... Características lingüísticas Ex.: substantivos, sintagmas nominais, nomes próprios,...

Redução de Dimensionalidade Observações importantes: Mesmo para uma base pequena de documentos, o número de características distintas pode ser muito alto Alta dimensão de atributos prejudicar desempenho de certos algoritmos e torna aprendizado menos eficiente Abordagens Seleção de Atributos Extração de Atributos

Redução de Dimensionalidade Seleção de Atributos Seleção de subconjunto de termos relevantes dentre os termos existentes Wrappers e Filtros Vantagem: preserva as dimensões originais Extração de Atributos Criação de atributos através de combinações numéricas dos atributos existentes Ex.: LSI, PCA, ICA,.... Vantagem: bom desempenho com número pequeno de dimensões

Redução de Dimensionalidade Seleção de Atributos Abordagem de Filtros Ordenam atributos através de critérios de relevância Ex.: Information Gain, Correlação, Chi-Quadrado, Mutual Information Abordagem de Wrappers Buscam subconjuntos de atributos que maximizam precisão do classificador Ex.: Forward-selection e Backward-elimination Bom desempenho, porém com custo alto

Aprendizado de Máquina Algoritmos Grande número de algoritmos pode ser aplicado ao problema de classificação de texto Algoritmos freqüentemente usados na literatura Naive Bayes kNN Árvores de Decisão Redes Neurais Artificiais

Aprendizado de Máquina Naive Bayes Estima probabilidades das classes dados os valores de atributos E combina essas probabilidades para gerar classificações de novos exemplos Vantagens: Treinamento rápido e pouca sensibilidade a atributos irrelevantes Desvantagens: Sensibilidade a atributos redundantes Assume independência dos atributos

Aprendizado de Máquina kNN Gera classificações para novos exemplos a partir das classes definidas em exemplos similares Vantagens: Treinamento muito rápido Podem ter bom desempenho mesmo com um número pequeno de exemplos Desvantagens: Sensibilidade a atributos irrelevantes Classificação de novos exemplos pode ser lenta

Aprendizado de Máquina Árvores de Decisão Nós de decisão que recorrentemente maximizam a separação de exemplos de classes diferentes Vantagens: Têm mecanismo interno de seleção de atributos Conhecimento fácil de interpretar Desvantagens: Treinamento lento comparado, por exemplo, a kNN e Naive Bayes

Aprendizado de Máquina Redes Neurais Artificiais Conjunto de unidades conectadas entre si através de pesos numéricos Camada de entrada recebe valores dos atributos e Camada de saída estima valores das classes Vantagens: Bom desempenho comparados a outros algoritmos Desvantagens: Treinamento lento Necessidade de estimação de parâmetros como tamanho da arquitetura e taxas de aprendizado

Avaliação de Classificadores Hold-Out Defina uma amostra de textos para treinamento dos algoritmos e outra amostra para teste do classificador gerado Em alguns casos, definir um conjunto de validação para estimar parâmetros dos algoritmos durante treinamento

Avaliação de Classificadores Validação Cruzada K-Fold O conjunto de exemplos é dividido em K partes 1 é utilizada para testes K – 1 é utilizada para treinamento e validação Iterativo A parte selecionada para testes é trocada até que todas tenham sido escolhidas

Avaliação de Classificadores Validação Cruzada K-Fold Conjunto de exemplos

Conclusões - Tendências Representação de Textos e Redução de Dimensionalidade Algoritmos Support Vector Machines Aprendizagem Ativa para Classificação de Texto Combinação de Classificadores

Referências Sebastiani, F. Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002.