Recuperação de Informação Clássica

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Operações sobre o Texto
Software Básico Silvio Fernandes Universidade Federal Rural do Semi-Árido Departamento de Ciências Ambientais Ciência da Computação Aula 06: Funções.
Amintas engenharia.
Operações envolvendo imagens
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Indexação Automática de Documentos
Propriedades de Documentos
Eveline Alonso Veloso PUC-MINAS
Ludwig Krippahl, 2007 Programação para as Ciências Experimentais 2006/7 Teórica 3.
Software Básico Silvio Fernandes
Interfaces Conversacionais
1 MODELAGEM COM A UML (UNIFIED MODELING LANGUAGE) BREVE HISTÓRICO CARACTERÍSTICAS CONCEITOS DE PROGRAMAÇÃO ORIENTADA A OBJETOS MODELAGEM DE ANÁLISE E DE.
Estatística Básica Utilizando o Excel
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Estrutura de indexação Modelos de RI
Introdução a Teoria da Classificação
Descoberta de Conhecimento:
Estudo de Caso 1: UNIX e LINUX
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Linguagem PHP Prof.: Sergio Pacheco Prof.: Sergio Pacheco 1 1.
Linguagens de Programação
Dissertações e Teses-PROPAD
Listas Encadeadas.
Classes e objetos Modelagem
Introdução a Programação JAVA
MetaLib - Visão Geral 1º Encontro de Usuários ALEPH 30 Nov. e 1º Dez. de 2006 Caio Pellegatti.
Timken Store Brasil Denis Guimarães.
Instalação e Configuração
EBSCOhost Acesso móvel.
TUTORIAL. Acervo digital de obras de referência (dicionários e enciclopédias) com acesso ao texto completo e busca textual. Contempla diversas áreas do.
Inteligência Artificial
Recuperação Inteligente de Informação Tarefa 1 Equipe.
Compressão de Textos Juliano Palmieri Lage.
1 António Arnaut Duarte. 2 Sumário: primeiros passos;primeiros passos formatar fundo;formatar fundo configurar apresentação;configurar apresentação animação.
Taxonomia Profa. Lillian Alvares,
Coordenação Geral de Ensino da Faculdade
Extranet GRD – Guia de Remessa de Documentos
Semana 03 Comandos de desvio de fluxo. Expressões lógicas.
EXERCÍCIOS PARA GUARDA-REDES
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
Título do projeto Equipe Local Data.
Técnicas de Modelagem para Aplicações em Computação Gráfica
Projeto de Banco de Dados
1 2 Observa ilustração. Cria um texto. Observa ilustração.
ELETRÔNICA DIGITAL Circuitos Aritméticos
Técnicas e Projeto de Sistemas
Recuperação de Informação
Recuperação de Informação
1. Aprenda o básico sobre o Google
Banco de Dados Parte 04 Ceça. Ceça Moraes 2 Conteúdo  Os três níveis da arquitetura  Mapeamentos  Arquitetura cliente-servidor.
EBSCOhost Pesquisa avançada.
FORMATANDO O TRABALHO NO WORD 2007
Classificacao de Texto Projeto Spam Filter
Módulo Compras Relatórios e Relações 1. Objetivo 2 Conhecer os relatórios e as relações do sistema disponibilizadas no módulo Compras.
Ceça Moraes – Introdução à Programação SI1
Planilha Eletrônica - Excel
Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação
Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília Recuperação 1.
Lógica para Computação Prof. Celso Antônio Alves Kaestner, Dr. Eng. celsokaestner (at) utfpr (dot) edu (dot) br.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Classificação de Textos
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
COMPILADORES 03 Prof. Marcos.
Transcrição da apresentação:

Recuperação de Informação Clássica Preparação dos documentos Cap. 7 do livro [Baeza-Yates & Ribeiro-Neto 1999] Flávia Barros CIn-UFPE

Roteiro Fases e Etapas dos Sistemas de RI Preparação dos documentos Criação da Visão Lógica do documento Criação da Representação dos documentos CIn-UFPE

Fases e Etapas de um Sistemas de RI Etapas da Fase 1 - Criação da Base de índices Aquisição (seleção) dos documentos Preparação dos documentos Criação da representação dos documentos Indexação dos documentos Criação da base de índices invertidos Etapas da Fase 2 - Consulta à Base de índices Construção da consulta (query) Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados Apresentação dos resultados Feedback de relevância CIn-UFPE

1. Aquisição de Documentos Manual para sistemas gerais de RI E.g., sistemas de bibliotecas Note que estamos interessados em arquivos em formato digital Que são passíveis de indexação automática Automática para sistemas na Web Uso de crawlers (spiders) Programas que navegam pela Web e fazem download das páginas para um servidor Partem de um conjunto inicial de links Executam busca em largura ou em profundidade CIn-UFPE

2. Preparação dos documentos 1) Criação da Visão Lógica do documento Lista de termos representativos do documento 2) Definição do Vocabulário da Base Lista de termos representativos da base de documentos em questão K = {k1, k2, ... K n} 3) Criação da Representação do documento Vetor de pesos De acordo com o Modelo de RI escolhido CIn-UFPE

Preparação dos documentos Criação da Visão Lógica do documento Conjunto de termos usados para representar (indexar) o documento Vamos tratar aqui apenas documentos textuais “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1 Visão Lógica Representação Doc : www.filosofia.com CIn-UFPE

Criação da visão lógica do documento A seleção dos termos pode ser Manual Realizada por um especialista Ex., um bibliotecário (em sistemas de bibliotecas) Automática Termos são automaticamente extraídos do texto Ex., a maioria dos sistemas automáticos de RI CIn-UFPE

Criação da visão lógica do documento Duas opções: Usar o texto completo ou selecionar os termos mais representativos Texto completo Visão lógica mais completa do documento Porém tem alto custo computacional Adotada por sistemas com bases de documentos pequenas & por alguns engenhos de busca na Web CIn-UFPE

Criação da visão lógica do documento Seleção automática de termos Conjunto reduzido de termos Obtido através de Operações sobre o texto O objetivo é selecionar os termos que melhor descrevem o documento Reduzindo assim a complexidade da representação do documento Representação mais comum: Lista de termos com pesos associados ou não Problema: perda do “contexto” CIn-UFPE

Seleção automática de termos Operações sobre o texto (fases): Análise léxica Elimina dígitos, pontuação, etc Eliminação de stopwords Artigos, pronomes, etc Operação de stemming Redução da palavra ao seu radical Uso de n-grams Uso de tesauros Identificação de grupos nominais CIn-UFPE

Seleção automática de termos Operações sobre o texto Cada fase de operação sobre o texto pode utilizar diferentes técnicas na sua implementação Cada sistema de RI implementa uma ou mais dessas fases A escolha depende do tipo de sistema desejado CIn-UFPE

Operações sobre o texto Documento Operações sobre o texto reduzem progressivamente a visão lógica do documento Texto completo Análise léxica Eliminação de stopwords Grupos nominais Stemming n-grams Indexação manual ou automática Lista reduzida de termos

Operações sobre o texto Análise léxica Entrada O texto original uma cadeia de caracteres Objetivo Converter o texto original em uma lista de palavras Identificando as palavras que ocorrem no texto Procedimento padrão Utilizar espaços como sendo separadores de palavras Tratar pontuação, hífens, dígitos, e letras maiúsculas e minúsculas Cada caso pode requerer tratamentos diferenciados CIn-UFPE

Análise léxica Tratamento de pontuação e hífens Geralmente, todos os caracteres de pontuação são removidos . , ! ? : ; - Porém, há casos em que eles são mantidos por serem necessários Código de programa dentro do texto Variável “x.id”  xid URLs de Sites na Web Caso do hífen Palavras compostas e prefixos Guarda-chuva, pré-processamento CIn-UFPE

Análise léxica Eliminação de dígitos Geralmente, dígitos são removidos por serem vagos Por não terem uma semântica associada quando aparecem isolados Ex. 1910 (ano, peso, tamanho???) Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes 510dC dC não significa nada em isolamento Windows95, X3PO,... CIn-UFPE

Análise léxica Substituição de letras maiúsculas Objetivo principal Tornar a representação homogênea Facilitar a recuperação do documento a partir de consultas Problemas... Carneiro Animal ou nome próprio? Banco – instituição financeira banco - assento CIn-UFPE

Operações sobre o texto Análise léxica Como visto, existem diversas exceções a tratar Isso depende da aplicação, do domínio do sistema, etc... Sugestão Preparar lista de exceções e tratar caso a caso CIn-UFPE

Operações sobre o texto Eliminação de stopwords Alguns termos não são bons discriminadores i.e., não discriminam bem um documento em relação à coleção de documentos considerada Stopwords Palavras muito freqüentas na base de documentos Palavras sem semântica associada artigos, preposições, conjunções, alguns advérbios e adjetivos Vantagens de eliminar esses termos Diminuir a representação do texto na indexação Melhorar a ordenação dos documentos na recuperação TF-IDF CIn-UFPE

Operações sobre o texto Eliminação de stopwords Desvantagens de eliminar stopwords Diminui a precisão na recuperação Redes de computadores ≠ redes computadores Assim, em domínios específicos, podemos precisar manter algumas dessas palavras Mais uma razão para os engenhos de busca utilizarem a representação do texto completo CIn-UFPE

Operações sobre o texto Stemming Problema frequente: O usuário especifica uma palavra na consulta, mas apenas uma variação dessa palavra aparece nos documentos disponíveis Ex., plural, gerúndio, verbos flexionados, aumentativo... Objetivo dessa operação: Substituir a palavra por seu radical (stem) Porção da palavra que resta após a remoção de prefixos e sufixos Possibilitar casamento parcial entre variações de uma mesma palavra Ex.: engenheiro, engenharia,... CIn-UFPE

Operações sobre o texto Técnicas de stemming Table look-up Mantém uma tabela de radicais de palavras Procedimento simples, porém necessita de dados sobre os todos os radicais da língua Successor variety Considera os morfemas da língua menin+o+s Procedimento complexo e muito dependente da língua CIn-UFPE

Operações sobre o texto Técnicas de stemming Remoção de afixos (prefixos e sufixos) Algoritmo de Porter: Considera que a remoção de sufixos é mais importante que a de prefixos A maioria das variações de palavras é gerada por sufixos Usa uma regra de redução para cada sufixo O livro texto traz o algoritmo completo para a língua inglesa Procura pela maior seqüência de letras que casa com alguma regra Plural: “sses  ss”, “ies  i” , “ss  ss”, “s  ” CIn-UFPE

Operações sobre o texto Técnicas de stemming Algoritmo de Porter: Outras regras de redução ed -> 0 ing -> 0 engineer engineer engineer engineering engineered engineer Termo Stem CIn-UFPE

Operações sobre o texto Técnicas de stemming Para o Português, o problema é mais complexo Plural existe um número muito maior de formas de plural em português Para substantivos, artigos e alguns adjetivos Precisamos de regras para tratar aumentativo, diminutivo, feminino, masculino,... Número de regras para flexões verbais também aumenta consideravelmente CIn-UFPE

Operações sobre o texto Stemmers Snowball Uma linguagem para processamento de strings específica para criar algoritmos de stemming para RI http://snowball.tartarus.org/ Veja algoritmo disponível para Português em http://snowball.tartarus.org/algorithms/portuguese/stemmer.html O site também traz exemplo de stoplist para Português CIn-UFPE

Stemming Exemplo do Snowball para Português word stem       quilo quilométricas quilométricos quilômetro quilômetros quilos química químicas químico químicos quimioterapia quimioterápicos     =>     quil quilométr quilométr quilômetr quilômetr quil químic químic químic químic quimioterap quimioteráp CIn-UFPE

Operações sobre o texto n-grams Uma alternativa ao uso de stemmers... Uma n-gram é uma subsequência de n itens de uma dada sequência Os items podem ser fonemas, letras, palavras... Nomenclatura: unigram = n-gram de tamanho 1 bigram = 2, trigram = 3, tetragram = 4 n-grams de tamanho 5 ou mais são chamadas de "n-gram" O objetivo é o mesmo da operação de stemming “Reduzir” a palavra para possibilitar casamento parcial entre variações de uma mesma palavra CIn-UFPE

Operações sobre o texto Uso de Tesauros Dicionário de sinônimos de uma língua Para cada entrada, o tesauro pode trazer Sinônimos, antônimos, kind-of, part-of,... Classe gramatical da palavra E, às vezes, uma definição do termo Exemplos de tesauros na Web: WordNet para a língua inglesa WordNet.PT para a língua portuguesa CIn-UFPE

Operações sobre o texto Uso de Tesauros Tesauros podem ser gerais ou de domínio específico Objetivo principal de tesauros específicos: Restringir o sistema a um vocabulário controlado para indexação de documentos e consulta à base. Uso de tesauros em sistemas de RI Auxiliam na seleção de termos relevantes para indexar o documento Podendo restringir ou expandir os termos originalmente encontrados no documento Auxiliam no processamento da consulta Restringindo ou expandindo os termos originais da query - próxima aula CIn-UFPE

Operações sobre o texto Tesauros Para sistemas na Web em inglês, usa-se o WordNet http://wordnet.princeton.edu/ CIn-UFPE

Operações sobre o texto Tesauros WordNet O mais elaborado banco de dados de relacionamentos semânticos de palavras em inglês Desenvolvido pelo famoso psicólogo cognitivo George Miller e um grupo da universidade de Princeton Contém cerca de 144,000 palavras em inglês Substantivos, adjetivos, verbos, e advérbios agrupados em cerca de 109,000 sinônimos chamados de synsets.

Operações sobre o texto Tesauros Já existe o multi Wordnet http://multiwordnet.fbk.eu/english/home.php Vejam a versão do Wordnet para o Português em http://www.clul.ul.pt/clg/wordnetpt/index.html CIn-UFPE

Operações sobre o texto Identificação de Grupos Nominais Objetivo: indexar documentos usando grupos nominais (termos compostos) Ex., Recuperação de Informação, Inteligência Artificial Grupos nominais são compostos por substantivos CIn-UFPE

Operações sobre o texto Identificação de Grupos Nominais Considerar os substantivos adjacentes ou próximos no texto E.g., Redes de computadores identificados por um etiquetador automático de classes gramaticais POS-tagger = Parts-of-speech tagger Extrair esses termos de um tesauro do domínio Contém um vocabulário controlado de termos, em vez de palavras isoladas CIn-UFPE

2. Preparação dos documentos relembrando... 1) Criação da Visão Lógica do documento Lista de termos representativos do documento E.g., Doc1 = (k1, k4, k5, k20, ...) 2) Definição do Vocabulário da Base Lista de termos representativos da base em questão Obtida pela união das visões lógicas dos documentos K = {k1, k2, ... K n} 3) Criação da Representação final do documento Vetor de pesos com n elementos Definição dos pesos depende do modelo de RI escolhido E.g., Doc1 = [(k1 w1), (k2 w2), (k3 w3), ... (kn wn)]. CIn-UFPE

3. Indexação dos documentos Entrada Vocabulário da Base Vetores de pesos que representam os documentos Saída Base de Índices Invertidos Aulas futuras... CIn-UFPE

E as Consultas? Criação da Visão Lógica da Consulta Em geral... Quando possível, devem ser usadas as mesmas operações utilizadas para criar a visão lógica do documento e.g., limpeza das stopwords, uso de stemming, tesauro... Porém, existem mais operações a serem realizadas na consulta Assunto da próxima aula... CIn-UFPE

E as Consultas? Criação da Representação da Consulta Entrada Visão lógica da consulta Saída Representação final da consulta Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas CIn-UFPE

Próxima aula Tipos de Consultas & Operações sobre Consultas Linguagens e Operações Caps. 4 e 5 do livro texto CIn-UFPE