A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros.

Apresentações semelhantes


Apresentação em tema: "CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros."— Transcrição da apresentação:

1 CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros

2 CIn-UFPE 2 Roteiro Sistemas de Recuperação de Informação Preparação do documentos Operações sobre o texto Criação da representação do documento

3 CIn-UFPE 3 Relembrando… Sistemas de Recuperação de Informação Um sistema automático para RI pode ser visto como a parte do sistema de informação responsável pelo armazenamento ordenado dos documentos em um BD, e sua posterior recuperação para responder a consulta do usuário Etapas principais: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados

4 Sistemas de RI: Criação da base de índices Base de docs. ou Web Gerenciador do BD Indexação Preparação dos documentos Base de indices Representação do documento (visão lógica) Arquivo de índices invertido Documentos

5 Sistemas de RI: arquitetura básica Busca e recuperação Ordenação Preparação da consulta Interface do usuário Base de indices Indices-docs recuperados consulta Indices-docs ordenados Necessidade do usuário

6 CIn-UFPE 6 Preparação dos documentos Definições Visão lógica do documento Conjunto de termos usados para representar (indexar) o documento A seleção desses termos pode ser Manual  Realizado por um especialista  Ex., um bibliotecário (em sistemas de bibliotecas) Automática  Os termos são automaticamente extraídos do texto do documento  Ex., a maioria dos sistemas automáticos de RI Vamos tratar aqui apenas documentos textuais

7 CIn-UFPE 7 Preparação dos documentos Seleção automática de termos Texto completo Visão lógica mais completa do documento Porém tem alto custo computacional Adotada pelos engenhos de busca na Web Redução do conjunto de termos que ocorrem no documento O objetivo é selecionar os termos que melhor descrevem o seu conteúdo Reduzindo a complexidade da representação do documento Representar o documento como um Centróide  Lista de termos com pesos associados ou não  Problema: perda da semântica

8 CIn-UFPE 8 Preparação dos documentos Duas Fases Operações sobre o texto objetivo: criar a visão lógica do documento Criação da representação do documento Utilizando algum modelo de RI “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Operações de Texto Representação Doc :

9 CIn-UFPE 9 Preparação dos documentos Operações sobre o texto Lista de termos do documento pode ser reduzida através do uso de operadores de texto Análise léxica  Elimina dígitos, pontuação, etc Eliminação de stopwords  Artigos, pronomes, etc Operação de stemming  Redução da palavra ao seu radical Identificação de grupos nominais  Ex., Recuperação de Informação

10 CIn-UFPE 10 Preparação dos documentos Operações sobre o texto Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação Cada sistema de RI implementa uma ou mais dessas fases A escolha depende do tipo de sistema desejado

11 CIn-UFPE 11 Preparação dos documentos Operações sobre o texto documento Acentos, espaços,... stopwords Grupos nominais stemming Indexação manual ou automática Texto completo Termos reduzidos Operadores reduzem progressivamente a visão lógica do documento

12 CIn-UFPE 12 Operações sobre o texto Análise léxica Entrada O texto original  uma cadeia de caracteres Objetivo Converter o texto original em uma lista de palavras Identificando as palavras que ocorrem no texto Procedimento padrão Utilizar espaços como sendo separadores de palavras Tratar pontuação, hífens, dígitos, e letras maiúsculas e minúsculas  Cada caso pode requerer tratamentos diferenciados

13 CIn-UFPE 13 Operações sobre o texto Análise léxica Eliminação de pontuação e hífens., ! ? : ; - Geralmente, todos os caracteres de pontuação são removidos Porém, há casos onde eles são mantidos, por serem necessários Código de programa dentro do texto  Variável “x.id”  xid URLs de Sites na Web Caso do hífen  Palavras compostas e prefixos Guarda-chuva, pré-processamento  Alguns termos state-of-the-art

14 CIn-UFPE 14 Operações sobre o texto Análise léxica Eliminação de dígitos Geralmente, dígitos são removidos por serem vagos  Não terem uma semântica associada quando aparecem isolados Ex (ano, peso, tamanho???) Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes 510dC  dC não significa nada em isolamento Windows95, X3PO,...

15 CIn-UFPE 15 Operações sobre o texto Análise léxica Substituição de letras maiúsculas Objetivo principal  Tornar a representação homogênea  Facilitar a recuperação do documento a partir de consultas Exceções Carneiro  Animal ou nome próprio? Banco – instituição financeira banco - assento

16 CIn-UFPE 16 Operações sobre o texto Análise léxica Como visto, existem diversas exceções a tratar Isso depende da aplicação, do domínio do sistema, etc... Sugestão Preparar lista de exceções e tratar caso a caso Engenhos de busca Geralmente, não eliminam nada  Funcionam em todos os domínios... Indexam o texto completo com sua pontuação, dígitos, etc...

17 CIn-UFPE 17 Operações sobre o texto Eliminação de stopwords Algumas palavras não são bons discriminadores Palavras muito freqüentas na base de documentos Palavras sem semântica associada  artigos, preposições, conjunções, alguns advérbios e adjetivos Aqui também há exceções a considerar Em domínios específicos, podemos precisar manter algumas dessas palavras  Redes de computadores

18 CIn-UFPE 18 Operações sobre o texto Eliminação de stopwords Vantagens Diminuir a representação do texto Melhorar a ordenação na recuperação  Tf-idf Desvantagens Diminuição da cobertura na recuperação Ex., “ser ou não ser”  Somente o termo “ser” será usado na indexação documento Mais uma razão para os engenhos de busca utilizarem representação do texto completo

19 CIn-UFPE 19 Operações sobre o texto Stemming Problema Freqüentemente, o usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes Ex., plural, gerúndio, verbos flexionados, aumentativo... Objetivo dessa operação: Substituir a palavra por seu radical (stem)  Porção da palavra que resta após a remoção de prefixos e sufixos Possibilitar casamento entre variações de uma mesma palavra  Ex.: engenheiro, engenharia,...

20 CIn-UFPE 20 Operações sobre o texto Técnicas de stemming Técnicas de stemming Table look-up  Mantém uma tabela de radicais de palavras  Procedimento simples, porém necessita de dados sobre os todos os radicais da língua Successor variety  Considera os morfemas da língua menin+o+s  Procedimento complexo e muito dependente da língua

21 CIn-UFPE 21 Operações sobre o texto Técnicas de stemming Remoção de afixos (prefixos e sufixos) Algoritmo de Porter: Considera que a remoção de sufixos é mais importante que a de prefixos  A maioria das variações de palavras é gerada por sufixos Usa uma regra de redução para cada sufixo  O livro texto traz o algoritmo completo para a língua inglesa Procura pela maior seqüência de letras que casa com alguma regra  Plural: “sses  ss”, “ies  i”, “ss  ss”, “s   ”

22 CIn-UFPE 22 Operações sobre o texto Técnicas de stemming engineer engineer engineer engineering engineered engineer TermoStem Algoritmo de Porter: Outras regras de redução  ed -> 0  ing -> 0

23 CIn-UFPE 23 Operações sobre o texto Técnicas de stemming Para o português, o problema é mais complexo Plural  existe um número muito maior de formas de fazer plural em português Para substantivos, artigos e alguns adjetivos  temos que ter regras para tratar aumentativo, diminutivo, feminino, masculino,... Número de regras para flexões verbais também aumenta consideravelmente

24 CIn-UFPE 24 Operações sobre o texto Stemming Snowball Uma linguagem para processamento de strings especifica para criar algoritmos de stemming para RI Veja algoritmo disponível para Português em  er.html er.html  O site também traz exemplo de stoplist para Português

25 CIn-UFPE 25 Stemming Exemplo do Snowball para Português word stem quilo quilométricas quilométricos quilômetro quilômetros quilos química químicas químico químicos quimioterapia quimioterápicos => quil quilométr quilométr quilômetr quilômetr quil químic químic químic químic quimioterap quimioteráp

26 CIn-UFPE 26 Operações sobre o texto Thesaurus Dicionário de sinônimos de uma língua Eg., WordNet Thesaurus podem ser também definidos para domínios específicos Entradas contêm palavras isoladas ou termos compostos Para cada entrada, o thesaurus pode trazer Sinônimos, antônimos, kind-of, part-of,... Classe gramatical E as vezes, uma definição do termo

27 CIn-UFPE 27 Operações sobre o texto Thesaurus Uso de thesaurus em sistemas de RI Auxiliar na seleção de termos relevantes para indexar o documento Auxiliar no processamento da consulta  Expansão de termos Objetivo principal de usar thesaurus de um domínio específico em sistemas de RI Restringir o sistema a um vocabulário controlado para indexação e busca de documentos

28 CIn-UFPE 28 Operações sobre o texto Thesaurus Para sistemas na Web em inglês, usa-se o WordNet com freqüência

29 CIn-UFPE 29 Operações sobre o texto Identificação de Grupos Nominais Objetivo Identificar grupos nominais (termos compostos) para indexar o documento  Ex., Recuperação de Informação, Inteligência Artificial Procedimentos Selecionar substantivos do texto, eliminando sistematicamente palavras de outras classes gramaticais  Usando uma stoplist ou  usando um etiquetador automático (parts-of- speech tagger) para determinar a classe das palavras e/ou  usando um thesaurus da língua ou do domínio Agrupar substantivos para formar termos compostos

30 CIn-UFPE 30 Operações sobre o texto Identificação de Grupos Nominais Como agrupar substantivos para formar termos compostos Considerando os grupos nominais identificados pelo tagger Considerando a distância entre os termos no texto  Número de palavras entre os dois substantivos Ex., Recuperação de Informação Apenas uma palavra (de) Extraindo esses termos de um thesaurus do domínio  Pode conter um vocabulário controlado de termos em vez de palavras isoladas

31 CIn-UFPE 31 Preparação dos documentos Criação da representação do Documento Entrada Visão lógica do documento Lista de termos representativos do documento Saída Representação final do documento  Termos representativos da base + peso associados a cada termo  Dependente do modelo de RI escolhido Booleano, vetorial, probabilista...


Carregar ppt "CIn-UFPE1 Recuperação de Informação Preparação do documentos Flávia Barros."

Apresentações semelhantes


Anúncios Google