Descoberta de Conhecimento:

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Operações sobre o Texto
Sistemas de Localização baseados em
Eveline Alonso Veloso PUC-MINAS
2 de Junho de 2005Conclusão1 Pedro Barahona DI/FCT/UNL Junho 2005.
1 Conclusão DI/FCT/UNL 1º Semestre 2004/ Ciclos de Simulação A técnica usada no exemplo da queda livre pode ser utilizada para trajectórias a duas.
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Reconhecimento de Padrões Dissimilaridade
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Estrutura de indexação Modelos de RI
Jacques Robin, Francisco Carvalho, Flávia Barros
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
Recuperação de Informações
Rejane Sobrino Pinheiro Tania Guillén de Torres
Noções de Estrutura de Dados Logica de Programação
Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Verossimilhança.
Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.
Aprendizado de Máquina
Aprendizado de Máquina
Aprendizado de Máquina Aula 8
Inteligência Artificial
Alexandre Xavier Falcão & David Menotti
Finding and Evaluating Community Structure in Networks
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
K-Means / Clustering.
CS276: Information Retrieval and Web Search
Introdução à Classificação de Texto
INF 1771 – Inteligência Artificial
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Recuperação de Informação
Mineração da Web Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação Clássica
CIn-UFPE1 Recuperação Inteligente de Informação Agrupamento de Texto.
Recuperação de Informação
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Classificacao de Texto Projeto Spam Filter
Filtragem Colaborativa
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos.
Locus Localização Eudes Cavalcanti.
Recuperação Inteligente de Informação
7. Mineração de Texto ("Text Mining")
Geradores de Texto Ruy Luiz Milidiú.
Prof. Anne Magály de Paula Canuto
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Regressão e Previsão Numérica.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Classificação de Texto
Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.
Otimização de Processos
Complexidade de Computação Katia Guimarães. Avaliando a Qualidade de um Algoritmo É preciso ter bem definido –O que é dado de entrada e –O que é esperado.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Aluno: Jorge Machado RI Automatic Thesaurus Generation for an Electronic Community System Jorge Machado Recuperação de Informação Prof. Pável Calado.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
Um Sistema de recomendação de consultas baseados em query log Diogo Mendonça.
Classificação de Textos
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Mineração de Dados Classificação Felipe Carvalho – UFES 2009/2.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Transcrição da apresentação:

Descoberta de Conhecimento: Centroid-Based Document Classification:  Analysis & Experimental Results   Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000 Edimar Manica Fahad Kalil 2009

Roteiro Objetivo Pré-processamento Remoção de Stopwords Stemming  Conceitos Poderação de Termos (TF-IDF) Cosine Function Centroid Vector Modelo Vetorial (Vector-Space Model)  Funcionamento  Experimentos e Comparativo  Conclusões

Objetivo Dado um conjunto de treinamento Doc1 {termo1, termo2, ..., termon} -> Classe 1 Doc2 {termo1, termo2, ..., termon} -> Classe 2 Doc3 {termo1, termo2, ..., termon} -> Classe 2 Doc4 {termo1, termo2, ..., termon} -> Classe 1   Classificar um novo documento com base em seus termos Doc5 {termo1, termo2, ..., termon} -> Classe ?     Considerando que um documento pertence a apenas uma classe

Pré-processamento do documento  Objetivo Limpeza dos dados  Remoção de stopwords Remover palavras que não são significantes para  representar o documento (palavras comuns) Remoção realizada através de uma stop-list Ex: A Varig Log pediu a impugnação dos votos das empresas ...  Stemming O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra Consulta: como comer com saúde Documento: comendo com saúde

Pré-processamento do documento  Stemming (continuação) Stem = radical Palavra                 Radical           comendo                 com           comer                     com Algoritmo utilizado: Porter's suffix-stripping Remoção de sufixos Baseia-se em regras que são aplicadas se determinadas condições são satisfeitas Ex: Regra de Redução de plural sses -> ss              stresses -> stress ies    -> i                 ponies -> poni s       -> nada         cats -> cat

Conceitos Poderação de Termos Em um documento alguns termos são mais importantes que outros (tem um peso maior) TF-IDF (Term Frequency Times Inverse Document Frequency) Objetivo: Beneficiar termos que ocorrem bastante no documento e em poucos documentos Atribui ao termo t uma importância no documento d que é: Alta se t ocorrer muitas vezes em um número pequeno de documentos Menor se t ocorrer poucas vezes no documento OU muitas vezes na coleção Muito baixa se t ocorrer em quase todos os documentos

Conceitos  Poderação de Termos (continuação) TF-IDF (Term Frequency Times Inverse Document Frequency)                                                                                                        TF IDF TF: freqt,d  = número de ocorrências do termo t no documento. maxt =  número de ocorrência do termo mais frequente em d.  (Isso para não beneficiar documentos longos) IDF: N = número de documentos na coleção nt = número de ocorrências do termo t na coleção

TF-IDF Wt,doc1 = (14/27) * log2 3/31 = -1,75 Exemplo Termo (t): best Freq. de t no Doc1: 14 Freq. de t na coleção: 14+0+17=31 Freq. do termo que mais ocorre no Doc1: 27 (car) Nº docs na coleção: 3 Wt,doc1 = (14/27) * log2 3/31 = -1,75

Centróides Um centróide representa uma classe É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.

Centróides Classe A Classe B Classe B Classe A

Centróides – Calculando o centróide da classe A Classe A Classe B

Centróides – Calculando o centróide da classe B Classe A Classe B

Cosine Function - Idéia Documentos que estão próximos no espaço vetorial tem conteúdo similar Similaridade computada usando o co-seno do ângulo entre os documentos

Cosine Function - Idéia O comprimento dos valores não é levado em consideração, apenas suas direções. Consultas e centróides são considerados pseudo-documentos.

Cosine Function - Cálculo

Cosine Function - Cálculo O vetor de um documento j é definido por: O vetor de um centróide k é definido por:

Cosine Function - Cálculo

Modelo proposto Centroid-Based Document Classifier Baseado no modelo espaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele. O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d. colocar figura com os vetores no espaço (Slide 'Idéia Basica' de RI) (1) Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.

Funcionamento Passos necessários: Treinamento: - Cálculo do TF-IDF;       Treinamento: - Cálculo do TF-IDF; - Cálculo dos centróides; Novos documentos: - Similaridade entre o novo documento e todos os centróides gerados no treinamento, usando Cosine Function.

Funcionamento Exemplo didático! - 4 documentos de treino; 1 novo documento; 2 classes

Experimentos Comparativo entre outros algoritmos classificadores 17 de 23 documentos classificados corretamente comentar sobre SVM!! - Foram usados 80% dos documentos para treino e 20% como conjunto de teste.

Comparativo Centroid-based X Naive Bayes -Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe. -Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente. -Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.

Considerações Finais VANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores). - A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe. - É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe. DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.