A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Descoberta de Conhecimento Descoberta de Conhecimento: Edimar Manica Fahad Kalil Centroid-Based Document Classification: Analysis & Experimental Results.

Apresentações semelhantes


Apresentação em tema: "Descoberta de Conhecimento Descoberta de Conhecimento: Edimar Manica Fahad Kalil Centroid-Based Document Classification: Analysis & Experimental Results."— Transcrição da apresentação:

1 Descoberta de Conhecimento Descoberta de Conhecimento: Edimar Manica Fahad Kalil Centroid-Based Document Classification: Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação:

2 Roteiro Objetivo Pré-processamento o Remoção de Stopwords o Stemming Conceitos o Poderação de Termos (TF-IDF) o Cosine Function o Centroid Vector o Modelo Vetorial (Vector-Space Model) Funcionamento Experimentos e Comparativo Conclusões

3 Objetivo Dado um conjunto de treinamento o Doc 1 {termo 1, termo 2,..., termo n } -> Classe 1 o Doc 2 {termo 1, termo 2,..., termo n } -> Classe 2 o Doc 3 {termo 1, termo 2,..., termo n } -> Classe 2 o Doc 4 {termo 1, termo 2,..., termo n } -> Classe 1 Classificar um novo documento com base em seus termos o Doc 5 {termo 1, termo 2,..., termo n } -> Classe ? Considerando que um documento pertence a apenas uma classe

4 Pré-processamento do documento Objetivo o Limpeza dos dados Remoção de stopwords o Remover palavras que não são significantes para representar o documento (palavras comuns) o Remoção realizada através de uma stop-list o Ex: A Varig Log pediu a impugnação dos votos das empresas... Stemming o O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra o Consulta: como comer com saúde o Documento: comendo com saúde

5 Pré-processamento do documento Stemming (continuação) o Stem = radical o Palavra Radical comendo com comer com o Algoritmo utilizado: Porter's suffix-stripping Remoção de sufixos Baseia-se em regras que são aplicadas se determinadas condições são satisfeitas Ex: Regra de Redução de plural sses -> ss stresses -> stress ies -> i ponies -> poni s -> nada cats -> cat

6 Conceitos Poderação de Termos o Em um documento alguns termos são mais importantes que outros (tem um peso maior) o TF-IDF ( Term Frequency Times Inverse Document Frequency ) Objetivo: Beneficiar termos que ocorrem bastante no documento e em poucos documentos Atribui ao termo t uma importância no documento d que é: Alta se t ocorrer muitas vezes em um número pequeno de documentos Menor se t ocorrer poucas vezes no documento OU muitas vezes na coleção Muito baixa se t ocorrer em quase todos os documentos

7 Conceitos Poderação de Termos (continuação) o TF-IDF ( Term Frequency Times Inverse Document Frequency ) TF: freq t,d = número de ocorrências do termo t no documento. max t = número de ocorrência do termo mais frequente em d. (Isso para não beneficiar documentos longos) IDF: N = número de documentos na coleção n t = número de ocorrências do termo t na coleção TFIDF

8 TF-IDF Exemplo Termo (t): best Freq. de t no Doc1: 14 Freq. de t na coleção: =31 Freq. do termo que mais ocorre no Doc1: 27 (car) Nº docs na coleção: 3 W t,doc1 = (14/27) * log 2 3/31 = -1,75

9 Centróides Um centróide representa uma classe É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.

10 Classe A Classe B Classe A Centróides

11 Classe A Classe B Classe A – Calculando o centróide da classe A

12 Classe A Classe B Classe A Centróides – Calculando o centróide da classe B

13 Cosine Function - Idéia Documentos que estão próximos no espaço vetorial tem conteúdo similar Similaridade computada usando o co-seno do ângulo entre os documentos

14 O comprimento dos valores não é levado em consideração, apenas suas direções. Consultas e centróides são considerados pseudo- documentos. Cosine Function - Idéia

15 Cosine Function - Cálculo

16 O vetor de um documento j é definido por: O vetor de um centróide k é definido por:

17 Cosine Function - Cálculo

18 Modelo proposto Centroid-Based Document Classifier Baseado no modelo espaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele. O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d. (1) Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.

19 Funcionamento Passos necessários: Treinamento: - Cálculo do TF-IDF; - Cálculo dos centróides; Novos documentos: - Cálculo do TF-IDF; - Similaridade entre o novo documento e todos os centróides gerados no treinamento, usando Cosine Function.

20 Funcionamento Exemplo didático! - 4 documentos de treino; - 1 novo documento; - 2 classes

21 Experimentos - Comparativo entre outros algoritmos classificadores 17 de 23 documentos classificados corretamente - Foram usados 80% dos documentos para treino e 20% como conjunto de teste.

22 Comparativo Centroid-based X Naive Bayes -Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe. -Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente. -Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.

23 Considerações Finais VANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores). - A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe. - É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe. DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.


Carregar ppt "Descoberta de Conhecimento Descoberta de Conhecimento: Edimar Manica Fahad Kalil Centroid-Based Document Classification: Analysis & Experimental Results."

Apresentações semelhantes


Anúncios Google