A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Descoberta de Conhecimento:

Apresentações semelhantes


Apresentação em tema: "Descoberta de Conhecimento:"— Transcrição da apresentação:

1 Descoberta de Conhecimento:
Centroid-Based Document Classification:  Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000 Edimar Manica Fahad Kalil 2009

2 Roteiro Objetivo Pré-processamento Remoção de Stopwords Stemming
 Conceitos Poderação de Termos (TF-IDF) Cosine Function Centroid Vector Modelo Vetorial (Vector-Space Model)  Funcionamento  Experimentos e Comparativo  Conclusões

3 Objetivo Dado um conjunto de treinamento
Doc1 {termo1, termo2, ..., termon} -> Classe 1 Doc2 {termo1, termo2, ..., termon} -> Classe 2 Doc3 {termo1, termo2, ..., termon} -> Classe 2 Doc4 {termo1, termo2, ..., termon} -> Classe 1   Classificar um novo documento com base em seus termos Doc5 {termo1, termo2, ..., termon} -> Classe ?   Considerando que um documento pertence a apenas uma classe

4 Pré-processamento do documento
 Objetivo Limpeza dos dados  Remoção de stopwords Remover palavras que não são significantes para  representar o documento (palavras comuns) Remoção realizada através de uma stop-list Ex: A Varig Log pediu a impugnação dos votos das empresas ...  Stemming O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra Consulta: como comer com saúde Documento: comendo com saúde

5 Pré-processamento do documento
 Stemming (continuação) Stem = radical Palavra                 Radical           comendo                 com           comer                     com Algoritmo utilizado: Porter's suffix-stripping Remoção de sufixos Baseia-se em regras que são aplicadas se determinadas condições são satisfeitas Ex: Regra de Redução de plural sses -> ss              stresses -> stress ies    -> i                 ponies -> poni s       -> nada         cats > cat

6 Conceitos Poderação de Termos
Em um documento alguns termos são mais importantes que outros (tem um peso maior) TF-IDF (Term Frequency Times Inverse Document Frequency) Objetivo: Beneficiar termos que ocorrem bastante no documento e em poucos documentos Atribui ao termo t uma importância no documento d que é: Alta se t ocorrer muitas vezes em um número pequeno de documentos Menor se t ocorrer poucas vezes no documento OU muitas vezes na coleção Muito baixa se t ocorrer em quase todos os documentos

7 Conceitos  Poderação de Termos (continuação) TF-IDF (Term Frequency Times Inverse Document Frequency)                                                                                                      TF IDF TF: freqt,d  = número de ocorrências do termo t no documento. maxt =  número de ocorrência do termo mais frequente em d.  (Isso para não beneficiar documentos longos) IDF: N = número de documentos na coleção nt = número de ocorrências do termo t na coleção

8 TF-IDF Wt,doc1 = (14/27) * log2 3/31 = -1,75 Exemplo
Termo (t): best Freq. de t no Doc1: 14 Freq. de t na coleção: =31 Freq. do termo que mais ocorre no Doc1: 27 (car) Nº docs na coleção: 3 Wt,doc1 = (14/27) * log2 3/31 = -1,75

9 Centróides Um centróide representa uma classe
É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.

10 Centróides Classe A Classe B Classe B Classe A

11 Centróides – Calculando o centróide da classe A Classe A Classe B

12 Centróides – Calculando o centróide da classe B Classe A Classe B

13 Cosine Function - Idéia
Documentos que estão próximos no espaço vetorial tem conteúdo similar Similaridade computada usando o co-seno do ângulo entre os documentos

14 Cosine Function - Idéia
O comprimento dos valores não é levado em consideração, apenas suas direções. Consultas e centróides são considerados pseudo-documentos.

15 Cosine Function - Cálculo

16 Cosine Function - Cálculo
O vetor de um documento j é definido por: O vetor de um centróide k é definido por:

17 Cosine Function - Cálculo

18 Modelo proposto Centroid-Based Document Classifier
Baseado no modelo espaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele. O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d. colocar figura com os vetores no espaço (Slide 'Idéia Basica' de RI) (1) Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.

19 Funcionamento Passos necessários: Treinamento: - Cálculo do TF-IDF;
    Treinamento: - Cálculo do TF-IDF; - Cálculo dos centróides; Novos documentos: - Similaridade entre o novo documento e todos os centróides gerados no treinamento, usando Cosine Function.

20 Funcionamento Exemplo didático! - 4 documentos de treino;
1 novo documento; 2 classes

21 Experimentos Comparativo entre outros algoritmos classificadores
17 de 23 documentos classificados corretamente comentar sobre SVM!! - Foram usados 80% dos documentos para treino e 20% como conjunto de teste.

22 Comparativo Centroid-based X Naive Bayes
-Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe. -Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente. -Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.

23 Considerações Finais VANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores). - A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe. - É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe. DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.


Carregar ppt "Descoberta de Conhecimento:"

Apresentações semelhantes


Anúncios Google