Preparação dos documentos Flávia Barros

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

Programação em Java Prof. Maurício Braga
Experiments with Clustering as a Software Remodularization Method Nicolas Anquetil and Timothy C. Lethbridge University of Ottawa, Canada WCRE 1999:
Operações envolvendo imagens
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Indexação Automática de Documentos
Propriedades de Documentos
Software Básico Silvio Fernandes Universidade Federal Rural do Semi-Árido Departamento de Ciências Exatas e Naturais Ciência da Computação Aula.
Software Básico Silvio Fernandes
Modelos no Domínio do Tempo de Sistemas LTI Contínuos
Interfaces Conversacionais
Análise de Requisitos Use Case Renata Araujo Ricardo Storino
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Estatística Básica Utilizando o Excel
Introdução a Computação
Introdução a Teoria da Classificação
Descoberta de Conhecimento:
Estudo de Caso 1: UNIX e LINUX
Linguagem PHP Prof.: Sergio Pacheco Prof.: Sergio Pacheco 1 1.
Estruturas de Dados II Prof.: Sergio Pacheco Prof.: Sergio Pacheco 1 1.
Auditoria de Segurança da Informação
Gerenciamento do Escopo
Introdução a Programação JAVA
MetaLib - Visão Geral 1º Encontro de Usuários ALEPH 30 Nov. e 1º Dez. de 2006 Caio Pellegatti.
Como aplicar leis da lógica
Impressão de etiquetas
Engenharia de Requisitos
Inteligência Artificial
PROGRAMAÇÃO I UNIDADE 1.
Recuperação Inteligente de Informação Tarefa 1 Equipe.
Compressão de Textos Juliano Palmieri Lage.
Estrutura de dados, pseudocódigo
Taxonomia Profa. Lillian Alvares,
Principais operações em Listas TPA Listas Simples Inserção no Final 1.void insereNofinalDaLista(Lista *l, Elemento e){ 2.Lista paux,p; 3. p.
Aula 17 1 Análise Sintáctica Compiladores, Aula Nº 17 João M. P. Cardoso.
Extranet GRD – Guia de Remessa de Documentos
EXERCÍCIOS PARA GUARDA-REDES
Mineração da Web Recuperação de Informação
Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
Título do projeto Equipe Local Data.
Recuperação de Informação Clássica
Técnicas de Modelagem para Aplicações em Computação Gráfica
Projeto de Banco de Dados
ENGA78 – Síntese de Circuitos Digitais
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Técnicas e Projeto de Sistemas
Recuperação de Informação
Recuperação de Informação
Vocabulários Controlados
Banco de Dados Parte 04 Ceça. Ceça Moraes 2 Conteúdo  Os três níveis da arquitetura  Mapeamentos  Arquitetura cliente-servidor.
Análise Léxica.
EBSCOhost Pesquisa avançada.
FORMATANDO O TRABALHO NO WORD 2007
Classificacao de Texto Projeto Spam Filter
Ceça Moraes – Introdução à Programação SI1
Planilha Eletrônica - Excel
Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação
Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília Recuperação 1.
Lógica para Computação Prof. Celso Antônio Alves Kaestner, Dr. Eng. celsokaestner (at) utfpr (dot) edu (dot) br.
Recuperação Inteligente de Informação
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Classificação de Textos
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
COMPILADORES 03 Prof. Marcos.
Transcrição da apresentação:

Preparação dos documentos Flávia Barros Mineração na Web Preparação dos documentos Flávia Barros CIn-UFPE

Roteiro Revisão Preparação dos documentos Etapas dos Sistemas de Recuperação de Informação Preparação dos documentos Operações sobre o texto Criação da representação do documento CIn-UFPE

Sistemas de Recuperação de Informação Etapas principais: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados CIn-UFPE

Preparação dos documentos Duas Fases Operações sobre o texto objetivo: criar a visão lógica do documento Criação da representação do documento Utilizando algum modelo de RI “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1 Visão Lógica Representação Doc : www.filosofia.com CIn-UFPE

Visão lógica do documento Conjunto de termos usados para representar (indexar) o documento Vamos tratar aqui apenas documentos textuais A seleção desses termos pode ser Manual Realizada por um especialista Ex., um bibliotecário (em sistemas de bibliotecas) Automática Termos são automaticamente extraídos do texto Ex., a maioria dos sistemas automáticos de RI CIn-UFPE

Visão lógica do documento Seleção automática de termos Duas opções: Usar o texto completo ou selecionar os termos mais representativos Texto completo Visão lógica mais completa do documento Porém tem alto custo computacional Adotada por sistemas com bases de documentos pequenas & por alguns engenhos de busca na Web CIn-UFPE

Visão lógica do documento Seleção automática de termos Conjunto reduzido de termos Obtido através de Operações sobre o texto O objetivo é selecionar os termos que melhor descrevem o documento Reduzindo assim a complexidade da representação do documento Representação mais comum: Centróide Lista de termos com pesos associados ou não Problema: perda do “contexto” CIn-UFPE

Seleção automática de termos Operações sobre o texto Fases Análise léxica Elimina dígitos, pontuação, etc Eliminação de stopwords Artigos, pronomes, etc Operação de stemming Redução da palavra ao seu radical Identificação de grupos nominais Ex., Recuperação de Informação CIn-UFPE

Seleção automática de termos Operações sobre o texto Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação Cada sistema de RI implementa uma ou mais dessas fases A escolha depende do tipo de sistema desejado CIn-UFPE

Operações sobre o texto: Fases Documento Operações sobre o texto reduzem progressivamente a visão lógica do documento Texto completo Acentos, espaços,... stopwords Grupos nominais stemming Indexação manual ou automática Lista reduzida de termos

Operações sobre o texto Análise léxica Entrada O texto original uma cadeia de caracteres Objetivo Converter o texto original em uma lista de palavras Identificando as palavras que ocorrem no texto Procedimento padrão Utilizar espaços como sendo separadores de palavras Tratar pontuação, hífens, dígitos, e letras maiúsculas e minúsculas Cada caso pode requerer tratamentos diferenciados CIn-UFPE

Análise léxica Tratamento de pontuação e hífens Geralmente, todos os caracteres de pontuação são removidos . , ! ? : ; - Porém, há casos em que eles são mantidos por serem necessários Código de programa dentro do texto Variável “x.id”  xid URLs de Sites na Web Caso do hífen Palavras compostas e prefixos Guarda-chuva, pré-processamento Alguns termos compostos state-of-the-art CIn-UFPE

Análise léxica Eliminação de dígitos Geralmente, dígitos são removidos por serem vagos Por não terem uma semântica associada quando aparecem isolados Ex. 1910 (ano, peso, tamanho???) Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes 510dC dC não significa nada em isolamento Windows95, X3PO,... CIn-UFPE

Análise léxica Substituição de letras maiúsculas Objetivo principal Tornar a representação homogênea Facilitar a recuperação do documento a partir de consultas Exceções Carneiro Animal ou nome próprio? Banco – instituição financeira banco - assento CIn-UFPE

Operações sobre o texto Análise léxica Como visto, existem diversas exceções a tratar Isso depende da aplicação, do domínio do sistema, etc... Sugestão Preparar lista de exceções e tratar caso a caso Engenhos de busca Geralmente, não eliminam nada Funcionam em todos os domínios... Indexam o texto completo com sua pontuação, dígitos, etc... CIn-UFPE

Operações sobre o texto Eliminação de stopwords Algumas palavras não são bons discriminadores Palavras muito freqüentas na base de documentos Palavras sem semântica associada artigos, preposições, conjunções, alguns advérbios e adjetivos Aqui também há exceções a considerar Em domínios específicos, podemos precisar manter algumas dessas palavras Redes de computadores CIn-UFPE

Operações sobre o texto Eliminação de stopwords Vantagens Diminui a representação do texto Melhora a ordenação na recuperação TF-IDF Desvantagens Diminui a precisão na recuperação Ex., “ser ou não ser” Somente o termo “ser” será usado na indexação documento Mais uma razão para os engenhos de busca utilizarem representação do texto completo CIn-UFPE

Operações sobre o texto Stemming Problema Freqüentemente, o usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes Ex., plural, gerúndio, verbos flexionados, aumentativo... Objetivo dessa operação: Substituir a palavra por seu radical (stem) Porção da palavra que resta após a remoção de prefixos e sufixos Possibilitar casamento parcial entre variações de uma mesma palavra Ex.: engenheiro, engenharia,... CIn-UFPE

Operações sobre o texto Técnicas de stemming Table look-up Mantém uma tabela de radicais de palavras Procedimento simples, porém necessita de dados sobre os todos os radicais da língua Successor variety Considera os morfemas da língua menin+o+s Procedimento complexo e muito dependente da língua CIn-UFPE

Operações sobre o texto Técnicas de stemming Remoção de afixos (prefixos e sufixos) Algoritmo de Porter: Considera que a remoção de sufixos é mais importante que a de prefixos A maioria das variações de palavras é gerada por sufixos Usa uma regra de redução para cada sufixo O livro texto traz o algoritmo completo para a língua inglesa Procura pela maior seqüência de letras que casa com alguma regra Plural: “sses  ss”, “ies  i” , “ss  ss”, “s  ” CIn-UFPE

Operações sobre o texto Técnicas de stemming Algoritmo de Porter: Outras regras de redução ed -> 0 ing -> 0 engineer engineer engineer engineering engineered engineer Termo Stem CIn-UFPE

Operações sobre o texto Técnicas de stemming Para o Português, o problema é mais complexo Plural existe um número muito maior de formas de fazer plural em português Para substantivos, artigos e alguns adjetivos Precisamos de regras para tratar aumentativo, diminutivo, feminino, masculino,... Número de regras para flexões verbais também aumenta consideravelmente CIn-UFPE

Operações sobre o texto Stemming Snowball Uma linguagem para processamento de strings específica para criar algoritmos de stemming para RI http://snowball.tartarus.org/ Veja algoritmo disponível para Português em http://snowball.tartarus.org/algorithms/portuguese/stemmer.html O site também traz exemplo de stoplist para Português CIn-UFPE

Stemming Exemplo do Snowball para Português word stem       quilo quilométricas quilométricos quilômetro quilômetros quilos química químicas químico químicos quimioterapia quimioterápicos     =>     quil quilométr quilométr quilômetr quilômetr quil químic químic químic químic quimioterap quimioteráp CIn-UFPE

Operações sobre o texto n-grams Uma alternativa ao uso de stemmers... Uma n-gram é uma subsequência de n itens de uma dada sequência Os items podem ser fonemas, letras, palavras... Uma n-gram de tamanho 1 é chamada de "unigram"; de tamanho 2 é "bigram“, etc, e de tamanho 5 ou mais é apenas chamada de "n-gram". O objetivo é o mesmo da operação de stemming “Cortar” a palavra para possibilitar casamento parcial entre variações de uma mesma palavra CIn-UFPE

Operações sobre o texto Thesaurus Dicionário de sinônimos de uma língua Eg., WordNet Thesaurus podem ser também definidos para domínios específicos Entradas contêm palavras isoladas ou termos compostos Para cada entrada, o thesaurus pode trazer Sinônimos, antônimos, kind-of, part-of,... Classe gramatical E, às vezes, uma definição do termo CIn-UFPE

Operações sobre o texto Thesaurus Uso de thesaurus em sistemas de RI Auxilia na seleção de termos relevantes para indexar o documento Auxilia no processamento da consulta Expansão de termos Objetivo principal de usar thesaurus de um domínio específico em sistemas de RI Restringir o sistema a um vocabulário controlado para indexação e busca de documentos CIn-UFPE

Operações sobre o texto Thesaurus Para sistemas na Web em inglês, usa-se o WordNet com freqüência http://wordnet.princeton.edu/ CIn-UFPE

Operações sobre o texto Identificação de Grupos Nominais Objetivo: identificar grupos nominais (termos compostos) para indexar o documento Ex., Recuperação de Informação, Inteligência Artificial Procedimentos Selecionar substantivos do texto, eliminando sistematicamente palavras de outras classes gramaticais Usando uma stoplist ou usando um etiquetador automático (parts-of- speech tagger) para determinar a classe das palavras e/ou usando um thesaurus da língua ou do domínio Agrupar substantivos para formar termos compostos CIn-UFPE

Identificação de Grupos Nominais Como agrupar substantivos para formar termos compostos Considerando os grupos nominais identificados pelo tagger Considerando a distância entre os termos no texto Número de palavras entre os dois substantivos Ex., Recuperação de Informação Apenas uma palavra (de) Extraindo esses termos de um thesaurus do domínio Pode conter um vocabulário controlado de termos em vez de palavras isoladas CIn-UFPE

Preparação dos documentos Criação da Representação do Documento Entrada Visão lógica do documento Lista de termos representativos do documento Saída Representação final do documento Termos representativos da base + peso associados a cada termo Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas CIn-UFPE

Operações sobre a Consulta Em geral... Quando possível, devem ser usadas aqui as mesmas operações utilizadas para criar a visão lógica do documento, e.g., limpeza das stopwords, uso de stemming, thesaurus... Porém, existem mais operações a serem realizadas na consulta Assunto da próxima aula... CIn-UFPE

Criação da Representação da Consulta Entrada Visão lógica da consulta Saída Representação final da consulta Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas CIn-UFPE

Próxima aula Consultas - queries Como tratar as Consultas a um sistema de RI Linguagens e Operações CIn-UFPE