Descoberta de Conhecimento:

Descoberta de Conhecimento:
Centroid-Based Document Classification: Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000 Edimar Manica Fahad Kalil 2009

Roteiro Objetivo Pré-processamento Remoção de Stopwords Stemming
Conceitos Poderação de Termos (TF-IDF) Cosine Function Centroid Vector Modelo Vetorial (Vector-Space Model) Funcionamento Experimentos e Comparativo Conclusões

Objetivo Dado um conjunto de treinamento
Doc1 {termo1, termo2, ..., termon} -> Classe 1 Doc2 {termo1, termo2, ..., termon} -> Classe 2 Doc3 {termo1, termo2, ..., termon} -> Classe 2 Doc4 {termo1, termo2, ..., termon} -> Classe 1 Classificar um novo documento com base em seus termos Doc5 {termo1, termo2, ..., termon} -> Classe ? Considerando que um documento pertence a apenas uma classe

Pré-processamento do documento
Objetivo Limpeza dos dados Remoção de stopwords Remover palavras que não são significantes para representar o documento (palavras comuns) Remoção realizada através de uma stop-list Ex: A Varig Log pediu a impugnação dos votos das empresas ... Stemming O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra Consulta: como comer com saúde Documento: comendo com saúde

Pré-processamento do documento
Stemming (continuação) Stem = radical Palavra Radical comendo com comer com Algoritmo utilizado: Porter's suffix-stripping Remoção de sufixos Baseia-se em regras que são aplicadas se determinadas condições são satisfeitas Ex: Regra de Redução de plural sses -> ss stresses -> stress ies -> i ponies -> poni s -> nada cats > cat

Conceitos Poderação de Termos
Em um documento alguns termos são mais importantes que outros (tem um peso maior) TF-IDF (Term Frequency Times Inverse Document Frequency) Objetivo: Beneficiar termos que ocorrem bastante no documento e em poucos documentos Atribui ao termo t uma importância no documento d que é: Alta se t ocorrer muitas vezes em um número pequeno de documentos Menor se t ocorrer poucas vezes no documento OU muitas vezes na coleção Muito baixa se t ocorrer em quase todos os documentos

Conceitos Poderação de Termos (continuação) TF-IDF (Term Frequency Times Inverse Document Frequency) TF IDF TF: freqt,d = número de ocorrências do termo t no documento. maxt = número de ocorrência do termo mais frequente em d. (Isso para não beneficiar documentos longos) IDF: N = número de documentos na coleção nt = número de ocorrências do termo t na coleção

TF-IDF Wt,doc1 = (14/27) * log2 3/31 = -1,75 Exemplo
Termo (t): best Freq. de t no Doc1: 14 Freq. de t na coleção: =31 Freq. do termo que mais ocorre no Doc1: 27 (car) Nº docs na coleção: 3 Wt,doc1 = (14/27) * log2 3/31 = -1,75

Centróides Um centróide representa uma classe
É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.

Centróides Classe A Classe B Classe B Classe A

Centróides – Calculando o centróide da classe A Classe A Classe B

Centróides – Calculando o centróide da classe B Classe A Classe B

Cosine Function - Idéia
Documentos que estão próximos no espaço vetorial tem conteúdo similar Similaridade computada usando o co-seno do ângulo entre os documentos

Cosine Function - Idéia
O comprimento dos valores não é levado em consideração, apenas suas direções. Consultas e centróides são considerados pseudo-documentos.

Cosine Function - Cálculo

O vetor de um documento j é definido por: O vetor de um centróide k é definido por:

Modelo proposto Centroid-Based Document Classifier
Baseado no modelo espaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele. O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d. colocar figura com os vetores no espaço (Slide 'Idéia Basica' de RI) (1) Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.

Funcionamento Passos necessários: Treinamento: - Cálculo do TF-IDF;
Treinamento: - Cálculo do TF-IDF; - Cálculo dos centróides; Novos documentos: - Similaridade entre o novo documento e todos os centróides gerados no treinamento, usando Cosine Function.

Funcionamento Exemplo didático! - 4 documentos de treino;
1 novo documento; 2 classes

Experimentos Comparativo entre outros algoritmos classificadores
17 de 23 documentos classificados corretamente comentar sobre SVM!! - Foram usados 80% dos documentos para treino e 20% como conjunto de teste.

Comparativo Centroid-based X Naive Bayes
-Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe. -Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente. -Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.

Considerações Finais VANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores). - A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe. - É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe. DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.

Descoberta de Conhecimento:

Apresentações semelhantes

Apresentação em tema: "Descoberta de Conhecimento:"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Descoberta de Conhecimento:

Apresentações semelhantes

Apresentação em tema: "Descoberta de Conhecimento:"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback