Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.

Slides:



Advertisements
Apresentações semelhantes
Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte
Advertisements

Modelo Probabilístico
Operações sobre o Texto
Categorização de Textos (modificada)
Indexação Automática de Documentos
Especificação de Consultas
Propriedades de Documentos
Recuperação de Imagens
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Estrutura de indexação Modelos de RI
Introdução a Teoria da Classificação
Recuperação de Informações
Descoberta de Conhecimento:
A FAST APRIORI implementation
Divisão de Biblioteca e Documentação FMUSP
Web of Science.
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Bruno Augusto Vivas e Pôssas
Arquivos Invertidos André Ferreira da Silva Jimy Marques Madeiro
Inteligência Artificial
Recuperação Inteligente de Informação Tarefa 1 Equipe.
ORKURIOSO Equipe Arthur Gonçalves - agc Fábio Rocha - frp
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Rodrigo Cristiano Silva
TUTORIAL. Acervo de 47 jornais especialmente selecionados pela British Library para melhor representar o século XIX. Inclui jornais nacionais e regionais.
Bruno Florencio Pinheiro Orientador: Renato Fernandes Corrêa
Introdução à Classificação de Texto
Mineração da Web Recuperação de Informação
Preparação dos documentos Flávia Barros
Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
Título do projeto Equipe Local Data.
Recuperação de Informação Clássica
Navegação na WWW (Web):
Recuperação de Informação
Recuperação de Informação
Classificacao de Texto Projeto Spam Filter
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
1 Efficient Phrase Querying with an Auxiliary Index (SIGIR) 2002 Trabalho realizado por: Trabalho realizado por: João Casteleiro Alves João Casteleiro.
Recuperação Inteligente de Informação
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Classificação de Texto
CIn/UFPE1 Categorização de Documentos Mariana Lara Neves Flávia Barros Fred Freitas CIn/UFPE.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
1 Projeto X-Finder Agents Recuperação e Indexação de páginas especializadas na Web Disciplina: Inteligência Artificial Simbólica Professora: Flávia Barros.
The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page Adriano Kaminski Sanches Prof. Dr. Pável Calado Universidade.
CIn/UFPE1 Categorização de Documentos (modificada) Mariana Lara Neves Flávia Barros CIn/UFPE.
1 Busca na Web Equipe: Arlei Moraes Fabio Hedayioglu Luís Ricardo Recuperação Inteligente de Informação Nov/2004.
Engenhos de Busca Renato Marcelino de Oliveira. World Wide Web Existem centenas de milhões de paginas na web tratando de variados assuntos.
Classificação de Textos
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW
TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.
Text Clustering Tarcísio Pontes Rafael Anchieta. Roteiro Motivação Introdução Representação de documentos Redução da dimensão Clustering para textos Avaliação.
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
Transcrição da apresentação:

Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab

Roteiro Introdução Aquisição Pré-Processamento Indexação Recuperação Ordenação Avaliação e Validação Categorização

“Morrendo ignorante num mar de informações ” - Dificuldade de localizar documentos relevantes !! Como funciona? Web Pages 1870 found. AquisiçãoRepresentação Indexação RecuperaçãoOrdenação Avaliação e Validação Usuário Necessidade de Informação Casamento Documento s indexação Consulta Caracterização formulação Motivação Itrodução - Motivação - Definição - Histórico - Arquitetura

Recuperação de Informação: Definição Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação Objetivo principal: facilitar o acesso a documentos (itens de informação) relevantes à necessidade de informação do usuário AquisiçãoRepresentaçãoIndexaçãoRecuperaçãoOrdenação Avaliação e Validação Introdução - Motivação - Definição - Histórico - Arquitetura

1ª Fase: Décadas de 50 e 60 (cartões perfurados)  Indexação manual - documentos descritos por termos do tesaurus.  Sistemas DIALOG e MEDLARS (60’s)  Início da indexação automática: título e abstract  Muita Teoria... 2ª Fase: Décadas de 70 e 80  Noções de estatística e probabilidade estabelecidas  SMART: 1º sistema de RI automático para o conteúdo usando Modelo de Espaço Vetorial (Salton 71)  Aumento do poder computacional 3ª Fase: WEB  Explosão de Serviços + agentes (90’s)  Internet (www): gigabytes de dados não estruturados  TREC (Text REtrieval Conference) AquisiçãoRepresentaçãoIndexaçãoRecuperaçãoOrdenação Histórico Avaliação e Validação Introdução - Motivação - Definição - Histórico - Arquitetura

Sistemas de RI - Arquitetura Consulta Resposta Base de Índices Engenho de Busca Usuário Web Spider Indexador Representação dos Docs Servidor de Consultas Aquisição Pré-Processador Docs Recuperador Ordenador Motor de Indexação Browser AquisiçãoRepresentaçãoIndexaçãoRecuperaçãoOrdenação Introdução - Motivação - Definição - Histórico - Arquitetura Avaliação e Validação

Base de Índices Usuário Servidor de Consultas Recuperador Ordenador Browser desonesto -> doc1 peso 1; socrates -> doc1 peso 1; doc 3 peso 2 futebol -> doc3 peso 3; doc 2 peso 5 honesto -> doc1 peso 2; doc 3 peso 1 Servidor de consultas 2 resultados 1 - doc1 2 - doc3 Resposta 4 honesto 2 socrates 1 doc1 honesto 1 socrates 1 doc3 3 Relevancia (Consulta, doc3) = 2 Relevancia (Consulta, doc1) = 3 Consulta 1 (socrates AND honesto)

Base de Índices Indexador Motor de Indexação Pré-Processador Motor de Indexação Operações de Texto Representação desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates Doc : honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Doc : Centróide Doc: Peso : 2 Word : honesto Doc: Peso : 1 Word : desonesto Doc: Peso : 1 Word : socrates... Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original Doc : Representação Invertida

Aquisição Uso de crawlers (spiders)  Programas que navegam pela web e fazem download das páginas para um servidor Conjunto inicial de links Busca (largura ou profundidade) Crawler do Google Roda em várias máquinas em paralelo Indexou 26 Milhões de páginas em 8 dias Aquisição Pré-ProcessamentoIndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

Pré-Processamento Objetivo Criar uma representação computacional do documento Fases Operações sobre o texto Criação da representação Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Operações de Texto Representação Doc : Avaliação e Validação

Operações sobre o texto Análise léxica Converter uma cadeia de caracteres em uma cadeia de palavras/tokens. Eliminação de stopwords Palavras consideradas irrelevantes. Ex : artigos, pronomes,alguns verbos, “WWW”. Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

Operações sobre o texto Stemming Redução de uma palavra ao seu radical  Geralmente apenas redução de sufixos. Ex: Algoritmo de Porter. Permite casamento entre variações de uma mesma palavra engineer engineer engineer engineering engineered engineer TermStem Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Regras de redução: ed -> 0 ing -> 0 Avaliação e Validação

Representação do Documento Texto Completo Difícil (caro) de manipular computacionalmente Dado um documento, identificar os conceitos que melhor descrevem o seu conteúdo Representar como um Centróide Conjunto de termos com pesos associados ou não Perda da semântica “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade 1 socrates1 Centróide Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

Representação do Documento Centróide Pesos das Palavras como indicação de relevância:  Freqüência de ocorrência no documento  Term Frequency x Inverse Document Frequency(TFIDF)  TF-IDF também considera palavras com baixa ocorrência na base de documentos como melhores discriminantes TF(w): freqüência da palavra w no doc. DF(w): freqüência de w em D D = total de documentos Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

Representação do Documento Centróide Limitar tamanho do centróide em 50 deixando apenas palavras com maior peso  Estudos mostram que isso não diminui muito o seu poder de representação Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

Representação do Documento Enriquecendo a representação Usar formatação do texto como indicação da importância das palavras (título, início, negrito,...) Adicionar informação sobre a localização da palavra no documento Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Representação de documento do Google word : z - hit hit hit hit word : y - hit hit hit... word : w - hit Doc :xxx 1bit capitalization; 3bit font size; 12 bit position hit: Avaliação e Validação

Indexação Opção imediata: texto plano Textos pequenos ou muito voláteis Objetivo: agilizar busca Para bases maiores: estrutura de índices Índices invertidos Vetores e árvores de sufixos Arquivos de assinatura Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

Índices Invertidos: Estrutura Composição: vocabulário e ocorrências letters made many text words Vocabulário , 19 33, 40 Ocorrências This is a text. A text has many words. Words are made from letters Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

Índices Invertidos: Estrutura Espaço requerido Pouco para vocabulário Grande parte para ocorrências Técnicas para redução de espaço Stemming (vocabulário) Endereçamento de blocos (ocorrências)  Poucos ponteiros, ponteiros menores e menos ocorrências Google: Endereçamento “hierárquico” de blocos Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

Índices Invertidos: Estrutura * - com StopList ** - sem StopList Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

Índices Invertidos: Construção Baixo custo: O (número de caracteres) Palavras inseridas num trie letters: 60 many: 28 made: 50 text: 11, 19 words: 33, 40 l m t w a d n Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

Índices Invertidos: Construção Trie: muito espaço requerido Para bases grandes:  Índices parciais persistidos  Merge dos índices... Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

Índices Invertidos: Construção Ao final do processo: Um arquivo de ocorrências Outro do vocabulário com ponteiro para ocorrências  Pode ser mantido na memória Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

Outras Estruturas de Índices Arquivos de assinatura Baseados em hashing Pouco espaço requerido (10 a 20% do original) Busca seqüencial  aceitável para bases pequenas Árvores e vetores de sufixos... Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

Recuperação Obtenção dos documentos que satisfazem uma consulta (query) Índices Invertidos Custos de busca e armazenamento sublinear  O (n 0.85 ) Aquisição Pré-Processamento Indexação Recuperação Ordenação Introdução Avaliação e Validação

Recuperação Procurar termos da Consulta no vocabulário Tabelas hash, tries,... O(tamanho da palavra) Lista em ordem alfabética O(log (tamanho do texto)) Mais barato em espaço Aquisição Pré-Processamento Indexação Recuperação Ordenação Introdução Avaliação e Validação

Recuperação Consultas simples Lista de ocorrências da palavra Recupera documentos onde a palavra ocorre pelo menos uma vez Consultas compostas (booleanas) Listas de cada termo Recupera documentos onde cada palavra da Consulta ocorre pelo menos uma vez Merge de listas Combina as listas de documentos recuperados de acordo com o operador booleano da consulta Aquisição Pré-Processamento Indexação Recuperação Ordenação Introdução Avaliação e Validação

Ordenação Ordenar os documentos de acordo com a relevância em relação à Consulta Relevância: difícil de medir Mede-se a similaridade entre cada documento e a consulta Modelo “Espaço Vetorial” Consulta e documento são representados como um vetor Similaridade é proporcional ao co-seno do ângulo formado Tende a retornar documentos pequenos Aquisição Pré-Processamento IndexaçãoRecuperação Ordenação Introdução Avaliação e Validação

Ordenação Google Proximidade das palavras da Consulta no documento Tamanho da fonte, texto de links,... PageRank Aquisição Pré-Processamento IndexaçãoRecuperação Ordenação Introdução Avaliação e Validação

Avaliação Cobertura: total de documentos relevantes retornados sobre o número total dos relevantes existentes Precisão: documentos relevantes retornados sobre o número total de retornados Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados Aquisição Pré-Processamento IndexaçãoRecuperação Ordenação Introdução Avaliação e Validação

Validação Teste do sistema num corpus conhecido e etiquetado manualmente Sabe-se a relevância de um documento em relação a uma Consulta TREC, Reuters,... Aquisição Pré-Processamento IndexaçãoRecuperação Ordenação Introdução Avaliação e Validação

 Consultas (Q) e Documentos (D) representados como vetores  Similaridade: cosseno do ângulo formado entre Q e D  Ex: Dados uma consulta q e um documento d Sim = = = 0.29  Ordenação: encontrar quais os documentos são mais similares a consulta Olimpíadas Brasil Sidney d q d q |d| · |q| 0.5 · · · 0.3 ( ) ½ · ( ) ½ Brasil Olimpíadas Sidney Consulta q : Documento d : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney Brasil 0.4 Olimpíadas 0.3 Sidney 0.3 Brasil 0.5 Olimpíadas 0.3 Sidney 0.2 Representação de q Representação de d Espaço Vetorial

Comparação

Bibliografia Baeza-Yates & Ribeiro-Neto - Modern Information Retrielval Sparck Jones & Petter Willett - Reading in Information Retrieval Brin, Sergey & Page, Lawrence - Anatomy of a large Scale Search Engine Ray Denenberg - Structuring and indexing the Web Heydon and Najork - Mercator : A Scalable, Extensible Web Crawler