A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros.

Apresentações semelhantes


Apresentação em tema: "CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros."— Transcrição da apresentação:

1 CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros

2 CIn-UFPE 2 Roteiro Revisão Etapas dos Sistemas de Recuperação de Informação Preparação dos documentos Operações sobre o texto Criação da representação do documento

3 CIn-UFPE 3 Sistemas de Recuperação de Informação Etapas principais: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados

4 CIn-UFPE 4 Preparação dos documentos Duas Fases Operações sobre o texto objetivo: criar a visão lógica do documento Criação da representação do documento Utilizando algum modelo de RI “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Visão Lógica Representação Doc :

5 CIn-UFPE 5 Visão lógica do documento Conjunto de termos usados para representar (indexar) o documento Vamos tratar aqui apenas documentos textuais A seleção desses termos pode ser Manual  Realizada por um especialista  Ex., um bibliotecário (em sistemas de bibliotecas) Automática  Termos são automaticamente extraídos do texto  Ex., a maioria dos sistemas automáticos de RI

6 CIn-UFPE 6 Visão lógica do documento Seleção automática de termos Duas opções: Usar o texto completo ou selecionar os termos mais representativos Texto completo Visão lógica mais completa do documento Porém tem alto custo computacional Adotada por sistemas com bases de documentos pequenas & por alguns engenhos de busca na Web

7 CIn-UFPE 7 Visão lógica do documento Seleção automática de termos Conjunto reduzido de termos Obtido através de Operações sobre o texto O objetivo é selecionar os termos que melhor descrevem o documento  Reduzindo assim a complexidade da representação do documento Representação mais comum: Centróide  Lista de termos com pesos associados ou não  Problema: perda do “contexto”

8 CIn-UFPE 8 Seleção automática de termos Operações sobre o texto Fases Análise léxica  Elimina dígitos, pontuação, etc Eliminação de stopwords  Artigos, pronomes, etc Operação de stemming  Redução da palavra ao seu radical Identificação de grupos nominais  Ex., Recuperação de Informação

9 CIn-UFPE 9 Seleção automática de termos Operações sobre o texto Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação Cada sistema de RI implementa uma ou mais dessas fases A escolha depende do tipo de sistema desejado

10 Operações sobre o texto: Fases Documento Acentos, espaços,... stopwords Grupos nominais stemming Indexação manual ou automática Texto completo Lista reduzida de termos Operações sobre o texto reduzem progressivamente a visão lógica do documento

11 CIn-UFPE 11 Operações sobre o texto Análise léxica Entrada O texto original  uma cadeia de caracteres Objetivo Converter o texto original em uma lista de palavras Identificando as palavras que ocorrem no texto Procedimento padrão Utilizar espaços como sendo separadores de palavras Tratar pontuação, hífens, dígitos, e letras maiúsculas e minúsculas  Cada caso pode requerer tratamentos diferenciados

12 CIn-UFPE 12 Análise léxica Tratamento de pontuação e hífens Geralmente, todos os caracteres de pontuação são removidos., ! ? : ; - Porém, há casos em que eles são mantidos por serem necessários Código de programa dentro do texto  Variável “x.id”  xid URLs de Sites na Web Caso do hífen Palavras compostas e prefixos  Guarda-chuva, pré-processamento Alguns termos compostos  state-of-the-art

13 CIn-UFPE 13 Análise léxica Eliminação de dígitos Geralmente, dígitos são removidos por serem vagos Por não terem uma semântica associada quando aparecem isolados  Ex (ano, peso, tamanho???) Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes 510dC  dC não significa nada em isolamento Windows95, X3PO,...

14 CIn-UFPE 14 Análise léxica Substituição de letras maiúsculas Objetivo principal Tornar a representação homogênea Facilitar a recuperação do documento a partir de consultas Exceções Carneiro  Animal ou nome próprio? Banco – instituição financeira banco - assento

15 CIn-UFPE 15 Operações sobre o texto Análise léxica Como visto, existem diversas exceções a tratar Isso depende da aplicação, do domínio do sistema, etc... Sugestão Preparar lista de exceções e tratar caso a caso Engenhos de busca Geralmente, não eliminam nada  Funcionam em todos os domínios... Indexam o texto completo com sua pontuação, dígitos, etc...

16 CIn-UFPE 16 Operações sobre o texto Eliminação de stopwords Algumas palavras não são bons discriminadores Palavras muito freqüentas na base de documentos Palavras sem semântica associada  artigos, preposições, conjunções, alguns advérbios e adjetivos Aqui também há exceções a considerar Em domínios específicos, podemos precisar manter algumas dessas palavras  Redes de computadores

17 CIn-UFPE 17 Operações sobre o texto Eliminação de stopwords Vantagens Diminui a representação do texto Melhora a ordenação na recuperação  TF-IDF Desvantagens Diminui a precisão na recuperação  Ex., “ser ou não ser”  Somente o termo “ser” será usado na indexação documento Mais uma razão para os engenhos de busca utilizarem representação do texto completo

18 CIn-UFPE 18 Operações sobre o texto Stemming Problema Freqüentemente, o usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes  Ex., plural, gerúndio, verbos flexionados, aumentativo... Objetivo dessa operação: Substituir a palavra por seu radical (stem)  Porção da palavra que resta após a remoção de prefixos e sufixos Possibilitar casamento parcial entre variações de uma mesma palavra  Ex.: engenheiro, engenharia,...

19 CIn-UFPE 19 Operações sobre o texto Técnicas de stemming Table look-up Mantém uma tabela de radicais de palavras Procedimento simples, porém necessita de dados sobre os todos os radicais da língua Successor variety Considera os morfemas da língua  menin+o+s Procedimento complexo e muito dependente da língua

20 CIn-UFPE 20 Operações sobre o texto Técnicas de stemming Remoção de afixos (prefixos e sufixos) Algoritmo de Porter: Considera que a remoção de sufixos é mais importante que a de prefixos  A maioria das variações de palavras é gerada por sufixos Usa uma regra de redução para cada sufixo  O livro texto traz o algoritmo completo para a língua inglesa Procura pela maior seqüência de letras que casa com alguma regra  Plural: “sses  ss”, “ies  i”, “ss  ss”, “s   ”

21 CIn-UFPE 21 Operações sobre o texto Técnicas de stemming engineer engineer engineer engineering engineered engineer TermoStem Algoritmo de Porter: Outras regras de redução  ed -> 0  ing -> 0

22 CIn-UFPE 22 Operações sobre o texto Técnicas de stemming Para o Português, o problema é mais complexo Plural  existe um número muito maior de formas de fazer plural em português Para substantivos, artigos e alguns adjetivos  Precisamos de regras para tratar aumentativo, diminutivo, feminino, masculino,... Número de regras para flexões verbais também aumenta consideravelmente

23 CIn-UFPE 23 Operações sobre o texto Stemming Snowball Uma linguagem para processamento de strings específica para criar algoritmos de stemming para RI Veja algoritmo disponível para Português em  ese/stemmer.html ese/stemmer.html  O site também traz exemplo de stoplist para Português

24 CIn-UFPE 24 Stemming Exemplo do Snowball para Português word stem quilo quilométricas quilométricos quilômetro quilômetros quilos química químicas químico químicos quimioterapia quimioterápicos => quil quilométr quilométr quilômetr quilômetr quil químic químic químic químic quimioterap quimioteráp

25 Operações sobre o texto n-grams Uma alternativa ao uso de stemmers... Uma n-gram é uma subsequência de n itens de uma dada sequência Os items podem ser fonemas, letras, palavras... Uma n-gram de tamanho 1 é chamada de "unigram"; de tamanho 2 é "bigram“, etc, e de tamanho 5 ou mais é apenas chamada de "n-gram". O objetivo é o mesmo da operação de stemming “Cortar” a palavra para possibilitar casamento parcial entre variações de uma mesma palavra CIn-UFPE 25

26 CIn-UFPE 26 Operações sobre o texto Thesaurus Dicionário de sinônimos de uma língua Eg., WordNet Thesaurus podem ser também definidos para domínios específicos Entradas contêm palavras isoladas ou termos compostos Para cada entrada, o thesaurus pode trazer Sinônimos, antônimos, kind-of, part-of,... Classe gramatical E, às vezes, uma definição do termo

27 CIn-UFPE 27 Operações sobre o texto Thesaurus Uso de thesaurus em sistemas de RI Auxilia na seleção de termos relevantes para indexar o documento Auxilia no processamento da consulta  Expansão de termos Objetivo principal de usar thesaurus de um domínio específico em sistemas de RI Restringir o sistema a um vocabulário controlado para indexação e busca de documentos

28 CIn-UFPE 28 Operações sobre o texto Thesaurus Para sistemas na Web em inglês, usa-se o WordNet com freqüência

29 CIn-UFPE 29 Operações sobre o texto Identificação de Grupos Nominais Objetivo: identificar grupos nominais (termos compostos) para indexar o documento Ex., Recuperação de Informação, Inteligência Artificial Procedimentos Selecionar substantivos do texto, eliminando sistematicamente palavras de outras classes gramaticais  Usando uma stoplist ou  usando um etiquetador automático (parts-of- speech tagger) para determinar a classe das palavras e/ou  usando um thesaurus da língua ou do domínio Agrupar substantivos para formar termos compostos

30 CIn-UFPE 30 Identificação de Grupos Nominais Como agrupar substantivos para formar termos compostos Considerando os grupos nominais identificados pelo tagger Considerando a distância entre os termos no texto  Número de palavras entre os dois substantivos Ex., Recuperação de Informação Apenas uma palavra (de) Extraindo esses termos de um thesaurus do domínio  Pode conter um vocabulário controlado de termos em vez de palavras isoladas

31 CIn-UFPE 31 Preparação dos documentos Criação da Representação do Documento Entrada Visão lógica do documento  Lista de termos representativos do documento Saída Representação final do documento  Termos representativos da base + peso associados a cada termo  Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas

32 CIn-UFPE 32 Operações sobre a Consulta Em geral... Quando possível, devem ser usadas aqui as mesmas operações utilizadas para criar a visão lógica do documento, e.g.,  limpeza das stopwords, uso de stemming, thesaurus... Porém, existem mais operações a serem realizadas na consulta Assunto da próxima aula...

33 CIn-UFPE 33 Criação da Representação da Consulta Entrada Visão lógica da consulta Saída Representação final da consulta  Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas

34 CIn-UFPE 34 Próxima aula Consultas - queries Como tratar as Consultas a um sistema de RI Linguagens e Operações


Carregar ppt "CIn-UFPE1 Mineração na Web Preparação dos documentos Flávia Barros."

Apresentações semelhantes


Anúncios Google