Carregar apresentação
A apresentação está carregando. Por favor, espere
1
7. Mineração de Texto ("Text Mining")
2
O Que É Mineração de Texto?
É a expressão que se dá para o problema de classificar documentos Por exemplo: classificação por tópico esporte, economia, “spam ”, etc ‘esporte’, ‘economia’, ‘spam’ são classes No mundo de documentos, usa-se mais rótulo (“label”) Documento: texto não-estruturado, em oposição a texto estruturado Mineração de Texto Classificação de Documentos
3
O Que É Mineração de Texto? (2)
Processos de classificação ‘clássicos’ Classificação de Documentos Estruturados Cada documento é representado por uma linha (ou registro, ou instância) de uma tabela não-normalizada Tipos de processo Classificação Supervisionada Classificação Não-Supervisionada
4
O Que É Mineração de Texto? (3)
Documento transformado em uma representação numérica estruturada f : w L w é um vetor de atributos (palavras) Dicionário L é um rótulo (“label”) O problema é transformado, aproximadamente, em um processo de classificação ‘clássico’
5
Transformação de Documentos em Vetores Numéricos
word1 word2 word3 word4 word5 ... wordN label 1
6
Transformação de Documentos em Vetores Numéricos (2)
Dicionário (“dictionary”, “feature”) Palavras relevantes que podem estar presentes em um documento word1, word3, word6, ..., wordN Dado um dicionário e um documento, o documento é transformado num vetor de números Na forma mais simples, vetor de 1s e 0s, representando a presença ou ausência de de palavras individuais Na tabela do slide anterior (“spreadsheet”), cada linha é um vetor em que um documento por exemplo, um artigo foi transformado
7
Transformação de Documentos em Vetores Numéricos (3)
“Label” Representa um atributo de classificação Binário 1 (positivo), Financeiro 0 (negativo), ñ Financeiro O problema de classificar artigos pode ser agora resolvido com um algoritmo ‘clássico’ de mineração de dados Mais de um “label”? Dicionários temáticos, ou locais n “spreadsheets”, um para cada “label”
8
Geração de Vetores Padronização de formato dos documentos
O software TMSK adota o padrão XML “Tokenizaton” Cada palavra relevante para o dicionário é um “token” Para vetores binários, é assinalada a presença ou não de um “token” (palavra) Para vetores não-binários, a freqüência do “token” é a métrica Há vários modelos de freqüência (ver o livro “Text Mining”, na Bibliografia) “Stemming” ou “Lemmatization” “Tokens” sinônimos “Token” Note que, se o dicionário for grande, os vetores tendem a ser esparsos Necessidade de técnicas de compressão de vetores
9
Vetores Esparsos 15 3 12 8 5 2 (2,15) (4,3) (1,12) (1,8) (3,5) (4,2
10
Classificação de Documentos
Similaridade Modelagem Estatística Regras de Decisão
11
Similaridade
12
Similaridade (2) Compute the similarity of newDoc to all documents in collection C Select the k documents that are most similar to newDoc The answer is the label that occurs most frequently in the k selected documents
13
Similaridade (3) Métodos Lineares de Escore (“Linear Scoring Methods”)
Cada atributo (palavra) do vetor tem um peso O peso de um atributo indica quão distinguível é o atributo para rotular o documento Se um atributo é muito freqüente em todos os documentos do conjunto-treinamento, então não é significativo, e seu peso deve ser comparativamente pequeno Os pesos são induzidos do conjunto-treinamento
14
Similaridade (4) Linear Model New Document Word Weight Words Score
Um Exemplo Word Weight dividend 0.8741 earnings 0.4988 eight extraordinary months payout 0.6141 rose split 0.9050 york ... New Document Words Score dividend, payout, rose 1.4629
15
Similaridade (5) O problema é distinguir entre duas classes
Escore positivo prediz a classe positiva (rótulo = ‘sim’) Escore negativo prediz a classe negativa (rótulo = ‘não’) D é o documento wj é o peso para a j-ésima palavra do dicionário b é uma constante xj é 1 ou 0, dependendo da presença ou não da j-ésima palavra
16
Similaridade (6) Família “k-Nearest-Neighbor” O método básico
Mede a distância entre dois vetores, representando respectivamente dois documentos Distância(x,y)=(x1-y1) (xm-ym)2 Quanto maior a distância, mais fraca a conexão entre os documentos
17
Similaridade (7) Contagem de palavras, com bonificação
D(i) de uma coleção é comparado com o novo documento No. de documentos em que a palavra j ocorre na coleção
18
Similaridade (8) “Cosine Similarity”
O método clássico de comparar documentos no campo de “Information Retrieval” Freqüência da palavra j em um documento
19
Similaridade (9) Desempenho do algoritmo do slide 12 Listas invertidas
Documents List of Words
20
Modelagem Estatística
Naïve Bayes
21
Modelagem Estatística (2)
Considere um novo documento D P(Class=1D)=((1-.75)x.25x.5x.5)x.4=.00625 P(Class=0D)=((1-.5)x.67x.33x.5)x.6=.03333 P(Class=1D)=.00625/( )=16% P(Class=0D)=.03333/( )=84% 1 1 1
22
Regras de Decisão Regras induzidas de relatórios de ganhos em bolsas de valores, fornecidos pela agência Reuters shr earn div earn dividend earn payout earn qtr earn earnings & sees earn quarter & cts earn split earn profit earn OTHERWISE ~earn
23
Regras de Decisão (2) Cada regra é uma frase, simplesmente uma conjunção de palavras Dado um novo documento D Se qualquer das frases ... earn é encontrada, D é classificado como um relatório de ganho na Bolsa Diz-se também que o rótulo (“label”) do documento é positivo (em relação a ganhos na Bolsa) Se nenhuma das frases é encontrada no documento, então D não é um relatório de ganho na Bolsa TRUE ~earn Diz-se também que o rótulo do documento é negativo
24
Regras de Decisão (3) Algoritmos WEKA Necessidade de novos algoritmos
ID3, J48, Prism, ... Problemas Não trabalham com vetores esparsos Inferem ... Wordi = ‘0’ ..., o que não queremos Necessidade de novos algoritmos
25
Regras de Decisão (4) Avaliação da qualidade de modelos de regras de decisão RSet Rules Words TraiErr TstErr TstSD AvgW 1 9 10 .0000 .1236 .0349 9.9 2* 6 7 .0337 .1011 .0320 7.0 3 5 .0787 5.0 4 .0899 4.0 5** .1124 .0335 3.0 2 .1910 .0417 2.0 .3820 .0515 1.0
26
Regras de Decisão (5) Os melhores modelos -- conjuntos de regras (“RSet”) – são aqueles assinalados com ‘*’ e ‘**’, respectivamente Têm as melhores acurácias de teste Melhores estimativas de acerto em classificar novos documentos Comparativo dos modelos ‘*’ e ‘**’ As acurácias de teste são próximas, ‘*’ é um pouco melhor Os desvios padrão (“Standard Deviation” – SD) são próximos, ‘*’ é um pouco melhor O modelo ‘**’ é bem mais acionável (média de 3 palavras, contra média de 7 palavras) Note a importância, também, da métrica desvio padrão
27
Sobre Métricas de Qualidade de Classificação de Documentos
As mesmas para documentos estruturados Acurácia de teste Precisão “Recall” Média Harmônica (“F-Measure”) O exemplo de “spam ” visto é na verdade mineração de texto
28
Sobre o Software de Mineração de Texto
TMSK: Text-Miner Software Kit Manual do Usuário: Instalador:
29
Sobre o Software de Mineração de Texto (2)
TMSK: Text-Miner Software Kit Classificadores Naïve Bayes (nbayes, testnbayes) Método Linear de Score (linear, testline) Parâmetros para testnbayes Limiar de probabilidade (“Probability-threshold”) Deve ser excedido para uma classificação positiva Default: 0.5 Limiar de rejeição (“Reject-threshold”) Deve ser excedido para qualquer classificação (positiva ou negativa) Parâmetros para linear Feature-type: binary, tf, tf*df Default: tf Parâmetros para testline Decision-threshold
30
Sobre o Software de Mineração de Texto (3)
TMSK: Text-Miner Software Kit testnbayes Probability-threshold: 70% Se classificação positiva > 70% OK senão classificação negativa Reject-threshold: 60% Classificação positiva: 45% Classificação negativa: 55% Decisão: documento não-classificado
31
Sobre o Software de Mineração de Texto (4)
TMSK: Text-Miner Software Kit Recuperando documentos similares: matcher Casa um documento com um conjunto de documentos e recupera os mais similares ao primeiro
32
Sobre o Software de Mineração de Texto (5)
RIKTEXT: Rule Induction Kit for Text Manual do Usuário: Instalador:
33
Sobre o Software de Mineração de Texto (6)
Induz Regras de Classificação de documentos em Positivos e Negativos O modelo é uma lista ordenada de regras <conjunçao-de-palavras-do-dicionário> positivo A última regra da lista ordenada é TRUE negativo O algoritmo de predição pára na primeira regra casada Entradas para TMSK e RIKTEXT Dicionário de Dados Documentos XML Representações vetoriais de documentos
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.