Descoberta de Conhecimento:

Slides:

Advertisements

Apresentações semelhantes

Modelo Probabilístico

Advertisements

Operações sobre o Texto

Sistemas de Localização baseados em

Eveline Alonso Veloso PUC-MINAS

2 de Junho de 2005Conclusão1 Pedro Barahona DI/FCT/UNL Junho 2005.

1 Conclusão DI/FCT/UNL 1º Semestre 2004/ Ciclos de Simulação A técnica usada no exemplo da queda livre pode ser utilizada para trajectórias a duas.

1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.

Reconhecimento de Padrões Dissimilaridade

Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros

Estrutura de indexação Modelos de RI

Jacques Robin, Francisco Carvalho, Flávia Barros

1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.

Recuperação de Informações

Rejane Sobrino Pinheiro Tania Guillén de Torres

Noções de Estrutura de Dados Logica de Programação

Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

Verossimilhança.

Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.

Aprendizado de Máquina

Aprendizado de Máquina

Aprendizado de Máquina Aula 8

Inteligência Artificial

Alexandre Xavier Falcão & David Menotti

Finding and Evaluating Community Structure in Networks

Aprendizado Baseado em Instâncias – Algoritmo k-NN

Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.

K-Means / Clustering.

CS276: Information Retrieval and Web Search

Introdução à Classificação de Texto

INF 1771 – Inteligência Artificial

Mineração da Web Recuperação de Informação

Preparação dos documentos Flávia Barros

Recuperação de Informação

Mineração da Web Recuperação de Informação

Recuperação de Informação Clássica

Recuperação de Informação Clássica

CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.

Recuperação de Informação

O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD

Classificacao de Texto Projeto Spam Filter

Filtragem Colaborativa

1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.

Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos.

Locus Localização Eudes Cavalcanti.

Recuperação Inteligente de Informação

7. Mineração de Texto ("Text Mining")

Geradores de Texto Ruy Luiz Milidiú.

Prof. Anne Magály de Paula Canuto

Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.

Regressão e Previsão Numérica.

Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.

CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.

Classificação de Texto

Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.

Otimização de Processos

Complexidade de Computação Katia Guimarães. Avaliando a Qualidade de um Algoritmo É preciso ter bem definido –O que é dado de entrada e –O que é esperado.

CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.

Aluno: Jorge Machado RI Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado.

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.

Um Sistema de recomendação de consultas baseados em query log Diogo Mendonça.

Classificação de Textos

Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW

Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.

Mineração de Dados Classificação Felipe Carvalho – UFES 2009/2.

Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.

Transcrição da apresentação:

Descoberta de Conhecimento: Centroid-Based Document Classification: Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000 Edimar Manica Fahad Kalil 2009

Roteiro Objetivo Pré-processamento Remoção de Stopwords Stemming Conceitos Poderação de Termos (TF-IDF) Cosine Function Centroid Vector Modelo Vetorial (Vector-Space Model) Funcionamento Experimentos e Comparativo Conclusões

Objetivo Dado um conjunto de treinamento Doc1 {termo1, termo2, ..., termon} -> Classe 1 Doc2 {termo1, termo2, ..., termon} -> Classe 2 Doc3 {termo1, termo2, ..., termon} -> Classe 2 Doc4 {termo1, termo2, ..., termon} -> Classe 1 Classificar um novo documento com base em seus termos Doc5 {termo1, termo2, ..., termon} -> Classe ? Considerando que um documento pertence a apenas uma classe

Pré-processamento do documento Objetivo Limpeza dos dados Remoção de stopwords Remover palavras que não são significantes para representar o documento (palavras comuns) Remoção realizada através de uma stop-list Ex: A Varig Log pediu a impugnação dos votos das empresas ... Stemming O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra Consulta: como comer com saúde Documento: comendo com saúde

Pré-processamento do documento Stemming (continuação) Stem = radical Palavra Radical comendo com comer com Algoritmo utilizado: Porter's suffix-stripping Remoção de sufixos Baseia-se em regras que são aplicadas se determinadas condições são satisfeitas Ex: Regra de Redução de plural sses -> ss stresses -> stress ies -> i ponies -> poni s -> nada cats -> cat

Conceitos Poderação de Termos Em um documento alguns termos são mais importantes que outros (tem um peso maior) TF-IDF (Term Frequency Times Inverse Document Frequency) Objetivo: Beneficiar termos que ocorrem bastante no documento e em poucos documentos Atribui ao termo t uma importância no documento d que é: Alta se t ocorrer muitas vezes em um número pequeno de documentos Menor se t ocorrer poucas vezes no documento OU muitas vezes na coleção Muito baixa se t ocorrer em quase todos os documentos

Conceitos Poderação de Termos (continuação) TF-IDF (Term Frequency Times Inverse Document Frequency) TF IDF TF: freqt,d = número de ocorrências do termo t no documento. maxt = número de ocorrência do termo mais frequente em d. (Isso para não beneficiar documentos longos) IDF: N = número de documentos na coleção nt = número de ocorrências do termo t na coleção

TF-IDF Wt,doc1 = (14/27) * log2 3/31 = -1,75 Exemplo Termo (t): best Freq. de t no Doc1: 14 Freq. de t na coleção: 14+0+17=31 Freq. do termo que mais ocorre no Doc1: 27 (car) Nº docs na coleção: 3 Wt,doc1 = (14/27) * log2 3/31 = -1,75

Centróides Um centróide representa uma classe É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.

Centróides Classe A Classe B Classe B Classe A

Centróides – Calculando o centróide da classe A Classe A Classe B

Centróides – Calculando o centróide da classe B Classe A Classe B

Cosine Function - Idéia Documentos que estão próximos no espaço vetorial tem conteúdo similar Similaridade computada usando o co-seno do ângulo entre os documentos

Cosine Function - Idéia O comprimento dos valores não é levado em consideração, apenas suas direções. Consultas e centróides são considerados pseudo-documentos.

Cosine Function - Cálculo

Cosine Function - Cálculo O vetor de um documento j é definido por: O vetor de um centróide k é definido por:

Cosine Function - Cálculo

Modelo proposto Centroid-Based Document Classifier Baseado no modelo espaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele. O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d. colocar figura com os vetores no espaço (Slide 'Idéia Basica' de RI) (1) Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.

Funcionamento Passos necessários: Treinamento: - Cálculo do TF-IDF; Treinamento: - Cálculo do TF-IDF; - Cálculo dos centróides; Novos documentos: - Similaridade entre o novo documento e todos os centróides gerados no treinamento, usando Cosine Function.

Funcionamento Exemplo didático! - 4 documentos de treino; 1 novo documento; 2 classes

Experimentos Comparativo entre outros algoritmos classificadores 17 de 23 documentos classificados corretamente comentar sobre SVM!! - Foram usados 80% dos documentos para treino e 20% como conjunto de teste.

Comparativo Centroid-based X Naive Bayes -Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe. -Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente. -Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.

Considerações Finais VANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores). - A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe. - É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe. DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.