A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.

Apresentações semelhantes


Apresentação em tema: "Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab."— Transcrição da apresentação:

1 Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab

2 Roteiro Introdução Aquisição Pré-Processamento Indexação Recuperação Ordenação Avaliação e Validação Categorização

3 “Morrendo ignorante num mar de informações ” - Dificuldade de localizar documentos relevantes !! Como funciona? Web Pages 1870 found. AquisiçãoRepresentação Indexação RecuperaçãoOrdenação Avaliação e Validação Usuário Necessidade de Informação Casamento Documento s indexação Consulta Caracterização formulação Motivação Itrodução - Motivação - Definição - Histórico - Arquitetura

4 Recuperação de Informação: Definição Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação Objetivo principal: facilitar o acesso a documentos (itens de informação) relevantes à necessidade de informação do usuário AquisiçãoRepresentaçãoIndexaçãoRecuperaçãoOrdenação Avaliação e Validação Introdução - Motivação - Definição - Histórico - Arquitetura

5 1ª Fase: Décadas de 50 e 60 (cartões perfurados)  Indexação manual - documentos descritos por termos do tesaurus.  Sistemas DIALOG e MEDLARS (60’s)  Início da indexação automática: título e abstract  Muita Teoria... 2ª Fase: Décadas de 70 e 80  Noções de estatística e probabilidade estabelecidas  SMART: 1º sistema de RI automático para o conteúdo usando Modelo de Espaço Vetorial (Salton 71)  Aumento do poder computacional 3ª Fase: WEB  Explosão de Serviços + agentes (90’s)  Internet (www): gigabytes de dados não estruturados  TREC (Text REtrieval Conference) AquisiçãoRepresentaçãoIndexaçãoRecuperaçãoOrdenação Histórico Avaliação e Validação Introdução - Motivação - Definição - Histórico - Arquitetura

6 Sistemas de RI - Arquitetura Consulta Resposta Base de Índices Engenho de Busca Usuário Web Spider Indexador Representação dos Docs Servidor de Consultas Aquisição Pré-Processador Docs Recuperador Ordenador 2 1 3 4 Motor de Indexação Browser AquisiçãoRepresentaçãoIndexaçãoRecuperaçãoOrdenação Introdução - Motivação - Definição - Histórico - Arquitetura Avaliação e Validação

7 Base de Índices Usuário Servidor de Consultas Recuperador Ordenador Browser desonesto -> doc1 peso 1; socrates -> doc1 peso 1; doc 3 peso 2 futebol -> doc3 peso 3; doc 2 peso 5 honesto -> doc1 peso 2; doc 3 peso 1 Servidor de consultas 2 resultados 1 - doc1 2 - doc3 Resposta 4 honesto 2 socrates 1 doc1 honesto 1 socrates 1 doc3 3 Relevancia (Consulta, doc3) = 2 Relevancia (Consulta, doc1) = 3 Consulta 1 (socrates AND honesto)

8 Base de Índices Indexador Motor de Indexação Pré-Processador Motor de Indexação Operações de Texto Representação desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates Doc : www.filosofia.com honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Doc : www.filosofia.com Centróide Doc: www.filosofia.com Peso : 2 Word : honesto Doc: www.filosofia.com Peso : 1 Word : desonesto Doc: www.filosofia.com Peso : 1 Word : socrates... Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original Doc : www.filosofia.com Representação Invertida

9 Aquisição Uso de crawlers (spiders)  Programas que navegam pela web e fazem download das páginas para um servidor Conjunto inicial de links Busca (largura ou profundidade) Crawler do Google Roda em várias máquinas em paralelo Indexou 26 Milhões de páginas em 8 dias Aquisição Pré-ProcessamentoIndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

10 Pré-Processamento Objetivo Criar uma representação computacional do documento Fases Operações sobre o texto Criação da representação Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates Doc original desonesto / soubesse / vantagem / honesto / seria / honesto / menos/desonestidade/ socrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade1 socrates 1 Operações de Texto Representação Doc : www.filosofia.com Avaliação e Validação

11 Operações sobre o texto Análise léxica Converter uma cadeia de caracteres em uma cadeia de palavras/tokens. Eliminação de stopwords Palavras consideradas irrelevantes. Ex : artigos, pronomes,alguns verbos, “WWW”. Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

12 Operações sobre o texto Stemming Redução de uma palavra ao seu radical  Geralmente apenas redução de sufixos. Ex: Algoritmo de Porter. Permite casamento entre variações de uma mesma palavra engineer engineer engineer engineering engineered engineer TermStem Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Regras de redução: ed -> 0 ing -> 0 Avaliação e Validação

13 Representação do Documento Texto Completo Difícil (caro) de manipular computacionalmente Dado um documento, identificar os conceitos que melhor descrevem o seu conteúdo Representar como um Centróide Conjunto de termos com pesos associados ou não Perda da semântica “Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.” Sócrates honesto 2 desonesto 1 soubesse 1 vantagem1 seria 1 menos 1 desonestidade 1 socrates1 Centróide Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

14 Representação do Documento Centróide Pesos das Palavras como indicação de relevância:  Freqüência de ocorrência no documento  Term Frequency x Inverse Document Frequency(TFIDF)  TF-IDF também considera palavras com baixa ocorrência na base de documentos como melhores discriminantes TF(w): freqüência da palavra w no doc. DF(w): freqüência de w em D D = total de documentos Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

15 Representação do Documento Centróide Limitar tamanho do centróide em 50 deixando apenas palavras com maior peso  Estudos mostram que isso não diminui muito o seu poder de representação Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Avaliação e Validação

16 Representação do Documento Enriquecendo a representação Usar formatação do texto como indicação da importância das palavras (título, início, negrito,...) Adicionar informação sobre a localização da palavra no documento Aquisição Pré-Processamento - Fases - Operações sobre o texto - Representação do documento IndexaçãoRecuperaçãoOrdenação Introdução Representação de documento do Google word : z - hit hit hit hit word : y - hit hit hit... word : w - hit Doc :xxx 1bit capitalization; 3bit font size; 12 bit position hit: Avaliação e Validação

17 Indexação Opção imediata: texto plano Textos pequenos ou muito voláteis Objetivo: agilizar busca Para bases maiores: estrutura de índices Índices invertidos Vetores e árvores de sufixos Arquivos de assinatura Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

18 Índices Invertidos: Estrutura Composição: vocabulário e ocorrências letters made many text words Vocabulário 60 50 28 11, 19 33, 40 Ocorrências This is a text. A text has many words. Words are made from letters. 1 6 9 11 17 19 24 28 33 40 46 50 55 60 Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

19 Índices Invertidos: Estrutura Espaço requerido Pouco para vocabulário Grande parte para ocorrências Técnicas para redução de espaço Stemming (vocabulário) Endereçamento de blocos (ocorrências)  Poucos ponteiros, ponteiros menores e menos ocorrências Google: Endereçamento “hierárquico” de blocos Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

20 Índices Invertidos: Estrutura * - com StopList ** - sem StopList Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

21 Índices Invertidos: Construção Baixo custo: O (número de caracteres) Palavras inseridas num trie letters: 60 many: 28 made: 50 text: 11, 19 words: 33, 40 l m t w a d n Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

22 Índices Invertidos: Construção Trie: muito espaço requerido Para bases grandes:  Índices parciais persistidos  Merge dos índices... Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

23 Índices Invertidos: Construção Ao final do processo: Um arquivo de ocorrências Outro do vocabulário com ponteiro para ocorrências  Pode ser mantido na memória Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

24 Outras Estruturas de Índices Arquivos de assinatura Baseados em hashing Pouco espaço requerido (10 a 20% do original) Busca seqüencial  aceitável para bases pequenas Árvores e vetores de sufixos... Aquisição Pré-Processamento Indexação RecuperaçãoOrdenação Introdução Avaliação e Validação

25 Recuperação Obtenção dos documentos que satisfazem uma consulta (query) Índices Invertidos Custos de busca e armazenamento sublinear  O (n 0.85 ) Aquisição Pré-Processamento Indexação Recuperação Ordenação Introdução Avaliação e Validação

26 Recuperação Procurar termos da Consulta no vocabulário Tabelas hash, tries,... O(tamanho da palavra) Lista em ordem alfabética O(log (tamanho do texto)) Mais barato em espaço Aquisição Pré-Processamento Indexação Recuperação Ordenação Introdução Avaliação e Validação

27 Recuperação Consultas simples Lista de ocorrências da palavra Recupera documentos onde a palavra ocorre pelo menos uma vez Consultas compostas (booleanas) Listas de cada termo Recupera documentos onde cada palavra da Consulta ocorre pelo menos uma vez Merge de listas Combina as listas de documentos recuperados de acordo com o operador booleano da consulta Aquisição Pré-Processamento Indexação Recuperação Ordenação Introdução Avaliação e Validação

28 Ordenação Ordenar os documentos de acordo com a relevância em relação à Consulta Relevância: difícil de medir Mede-se a similaridade entre cada documento e a consulta Modelo “Espaço Vetorial” Consulta e documento são representados como um vetor Similaridade é proporcional ao co-seno do ângulo formado Tende a retornar documentos pequenos Aquisição Pré-Processamento IndexaçãoRecuperação Ordenação Introdução Avaliação e Validação

29 Ordenação Google Proximidade das palavras da Consulta no documento Tamanho da fonte, texto de links,... PageRank Aquisição Pré-Processamento IndexaçãoRecuperação Ordenação Introdução Avaliação e Validação

30 Avaliação Cobertura: total de documentos relevantes retornados sobre o número total dos relevantes existentes Precisão: documentos relevantes retornados sobre o número total de retornados Todos os Documentos Documentos Relevantes Documentos Retornados Relevantes Retornados Aquisição Pré-Processamento IndexaçãoRecuperação Ordenação Introdução Avaliação e Validação

31 Validação Teste do sistema num corpus conhecido e etiquetado manualmente Sabe-se a relevância de um documento em relação a uma Consulta TREC, Reuters,... Aquisição Pré-Processamento IndexaçãoRecuperação Ordenação Introdução Avaliação e Validação

32  Consultas (Q) e Documentos (D) representados como vetores  Similaridade: cosseno do ângulo formado entre Q e D  Ex: Dados uma consulta q e um documento d Sim = = = 0.29  Ordenação: encontrar quais os documentos são mais similares a consulta Olimpíadas Brasil Sidney d 0.4 0.5 0.3 q d q |d| · |q| 0.5 · 0.4 + 0.3 · 0.3 + 0.2 · 0.3 ( 0.25 + 0.09 + 0.04 ) ½ · ( 0.16 + 0.09 + 0.09 ) ½ Brasil Olimpíadas Sidney Consulta q : Documento d : Brasil em Sidney 2000 O Brasil não foi bem no quadra das medalhas da Olimpíada de Sidney 2000... Brasil 0.4 Olimpíadas 0.3 Sidney 0.3 Brasil 0.5 Olimpíadas 0.3 Sidney 0.2 Representação de q Representação de d Espaço Vetorial

33 Comparação

34 Bibliografia Baeza-Yates & Ribeiro-Neto - Modern Information Retrielval Sparck Jones & Petter Willett - Reading in Information Retrieval Brin, Sergey & Page, Lawrence - Anatomy of a large Scale Search Engine Ray Denenberg - Structuring and indexing the Web Heydon and Najork - Mercator : A Scalable, Extensible Web Crawler


Carregar ppt "Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab."

Apresentações semelhantes


Anúncios Google