Estrutura de indexação Modelos de RI

Slides:



Advertisements
Apresentações semelhantes
Modelo de Redes de Crenças
Advertisements

Modelo Probabilístico
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Sistemas Distribuídos
Sistemas Periciais com Conhecimento Incerto 1 Sistemas Periciais Tradicionais Funcionam assumindo que tudo é Verdadeiro ou Falso Qualquer regra cujas condições.
Construção de Algoritmos Professor: Aquiles Burlamaqui Construção de Algoritmos AULA 07 Aquiles Burlamaqui UERN
Indexação Automática de Documentos
Especificação de Consultas
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
Lógica Fuzzy Aplicada a Sistemas de Diagnóstico
Introdução a Banco de Dados Prof.: Bruno Rafael de Oliveira Rodrigues.
SISTEMAS DE INFORMAÇÃO
Excel Profa. Cristina M. Nunes.
PORTAS LÓGICAS Prof. Wanderley.
Sistema Gerenciador de Banco de Dados SGBD
Orientação a Objetos: Encapsulamento e Classificação
Sumário 1 SQL Embutida 2 Processamento de Consultas

Medida do Tempo de Execução de um Programa
Medida do Tempo de Execução de um Programa
Introdução a Teoria da Classificação
Descoberta de Conhecimento:
Indexação e Hashing Muitas consultas referenciam apenas uma pequena porção dos registros em uma tabela. Portanto necessitamos ser capaz de localizar estes.
Abordagem Estratégica ao Teste de Software
Arquivos Invertidos André Ferreira da Silva Jimy Marques Madeiro
MATRIZES REAIS ( 2ª AULA ).
Sistemas Operacionais I
Marco Antonio Montebello Júnior
Simplificação de Expressões Booleanas e Circuitos Lógicos
Algoritmos de Ordenação
Aprendizado de Máquina
Algoritmos em Grafos.
SQL Server 2012 Introdução a Modelagem de Dados
Inteligência Artificial
Representação de Algoritmos
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
Aula 03 – BCC202 Análise de Algoritmos (Parte 1) Túlio Toffolo www
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Universidade Católica de Pelotas Mestrado em Ciência da Computação
Mineração da Web Recuperação de Informação
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Mineração da Web Recuperação de Informação
Sistemas Inteligentes
Recuperação de Informação
Classificacao de Texto Projeto Spam Filter
A abordagem de banco de dados para gerenciamento de dados
Banco de Dados Aplicado ao Desenvolvimento de Software
Sarajane Marques Peres
Introdução a Banco de Dados Aula 04
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos.
Recuperação Inteligente de Informação
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
1 24/4/ :29 FMU – 1. Semestre – Tecnologia – Analise e Desenvolvimento de Sistemas Professor: Eduardo Silvestri Aluno:Clóvis de Oliveira- RA
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Uma Proposta de Melhoria no Processo de Recuperação de Imagens com Base na Distribuição de Características de Baixo Nível em seus Segmentos Utilizando.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
Classificação de Textos
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
Projeto de Banco de Dados
Arquitetura de computadores
UCSal – Bacharelado em Informática
B ANCO DE DADOS Introdução ABTécnico. C ONCEITO É uma coleção de dados interrelacionados, representando informações sobre um domínio específico. Exemplos:
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Banco de Dados Distribuídos Sílvia Cristina de Matos Soares
Transcrição da apresentação:

Estrutura de indexação Modelos de RI Suzana Dantas Internet e RI – aula 3

Estrutura de Indexação Lista invertida Índice local (LI) Índice Global (GI) Arquivo de assinaturas Internet e RI – aula 3

Descritores Descrevem parcialmente o conteúdo do texto Descrevem de forma incompleta Descrevem de forma ambígua Significa: Dificuldades na consulta!! Conhecidos como palavras-chaves (keywords), índices (index term) Descreve o conteúdo do texto de alguma forma Internet e RI – aula 3

Representação dos Documentos Os documentos armazenados são representados por um conjunto de índices de termos ou vetores de termos Usualmente os termos não possuem pesos, mas é possível desenvolver sistemas utilizando pesos tanto para índices quanto para consultas Internet e RI – aula 3

Requisitos para recuperação Acesso aos arquivos deve ser feito de forma instantânea, enquanto os usuários estão na frente do computador Eliminando a busca sequencial ou com ponteiros O sistema deve acomodar um grande número de palavras-chaves Internet e RI – aula 3

Algoritmo de indexação Um índice para cada termo Para cada termo (palavra-chave) é construído um índice indicando todos os documentos onde aquele termo é encontrado Lista invertida = índice invertido = arquivo invertido Internet e RI – aula 3

Lista invertida Algoritmo de indexação Gerar uma matriz onde as linhas indicam os documentos e as colunas indicam os termos, com a indicação falso/verdadeiro caso o termo seja uma indicação do documento A matriz é transposta As linhas da nova matriz são manipuladas para encontrar o documento desejado Internet e RI – aula 3

Lista invertida Matriz de documentos Internet e RI – aula 3

Lista invertida Matriz de termos Internet e RI – aula 3

Lista invertida Termos podem ser vistos como vetores Construção de arquivos invertidos: Manual Automática (métodos estatísticos, métodos lingüísticos) Semi-automática (técnicas de inteligência artificial) Mesclagem de thesaurus existentes Thesaurus = procura expressões genéricas para termos muito específicos Internet e RI – aula 3

Lista invertida Na matriz de documentos: Termos com colunas semelhantes são considerados termos associados Documentos com linhas semelhantes são classificados como documentos semelhantes e podem ser agrupados A lista invertida pode ainda conter pesos (como por exemplo, o numero de vezes que o termo aparece no documento) Internet e RI – aula 3

Lista invertida Extensões Centralizada Distribuída Restrições de Distância Pesos dos Termos Especificação de Sinônimos Truncagem dos Termos Centralizada Distribuída Com particionamento do índice local (LI) Com particionamento do índice global (GI) Internet e RI – aula 3

Lista invertida - centralizada b a c e d f g d1, f1,a d2 ,f2,a d3, f3,a d4 ,f4,a d5, f5,a d6, f6,a d1, f1,d d5, f5,d d3, f3,e d4, f4,e d2, f2,f d5, f5,f d1, f1,g d6, f6,g d7, f7,d d7, f7,e d8, f8,a d8, f8,g d2, f2,b d3,f3,b d4, f4,c d6 ,f6,c d7, f7,c d8, f8,c Internet e RI – aula 3

Lista invertida LI p1 b a d f g d1, f1,a d2 ,f2,a d1, f1,d d2, f2,f d2, f2,b d5, f5,a d6, f6,a d5, f5,d d5, f5,f d6, f6,g d6 ,f6,c a c d f g p3 p2 b a c e d3, f3,a d4 ,f4,a d3, f3,e d4, f4,e d4, f4,c d3, f3,b Internet e RI – aula 3

Lista invertida GI p1 a d1, f1,a d2 ,f2,a d3, f3,a d4 ,f4,a d5, f5,a b c d2, f2,b d3,f3,b d4, f4,c d6 ,f6,c d7, f7,c d8, f8,c p3 e d d1, f1,d d5, f5,d d3, f3,e d4, f4,e d7, f7,d d7, f7,f Internet e RI – aula 3

Paradigma Cliente-Servidor Internet e RI – aula 3

LI a, b, c d1, d3, d7, d5, d8, d2 P5 Broker a, b, c a, b, c a, b, c Server Server Server Server Server P2 P3 P1 Internet e RI – aula 3

GI d, f a, b, c d1, d3, d7, d5, d8, d2 d5, d2 P5 Broker a b, c d d5 Server Server Server Server Server P2 P3 P1 Internet e RI – aula 3

Comparação entre os Modelos LI e GI LI GI Alto Paralelismo Alta Concorrência Mais busca em disco Menos busca em disco Melhor Balanço da carga Balanço da carga ruim Listas Invertidas pequenas Listas invertidas grandes Somente os documentos Vários documentos são principais são enviados enviados para o Broker para o Broker Internet e RI – aula 3

Arquivos de assinaturas Contém as “assinaturas”dos registros armazenados no arquivo principal Requerem menos espaço de armazenamento Atributos de pessoas: Internet e RI – aula 3

Modelos de RI Clássicos: Booleano Vetorial Probabilístico Internet e RI – aula 3

Recuperação Lista invertida Dada uma consulta com um conjunto de termos, fazemos uma operação de merge das duas listas A estratégia básica de recuperação é criar uma merged-list com uma indicação para cada aparecimento do documento em cada lista T1 = {R1, R3} T2 = {R1,R2} T3 = {R1,R2,R3} MERGE(T1,T2) = {R1,R1,R2,R3} Internet e RI – aula 3

Modelo Booleano Consultas são expressões lógicas com as características dos documentos como operandos. Documentos recuperados geralmente não são ordenados. Formulação das consultas é difícil para os usuários inexperientes. Internet e RI – aula 3

Modelo Booleano Usa os conectivos: AND OR NOT Documento pode ser: relevante/ não-relevante (não existe resultado parcial) Não há ordenação dos resultados Mais usado para recuperação de dados do que para recuperação de informação Internet e RI – aula 3

Modelo Booleano Numa consulta com 3 termos t1, t2 e t3, as possibilidades de ocorrência destes termos em documentos, pertence a uma das seguintes opções: m1 = t1 t2 t3 m5 = t1’t2’t3 m2 = t1’t2t3 m6 = t1t2’t3’ m3 = t1t2’t3 m7 = t1’t2t3’ m4 = t1t2t3’ m8 = t1’t2’t3’ Mini-termos: K = 2n , onde n = no. de termos Possíveis consultas: 2k Internet e RI – aula 3

Modelo Booleano Vantagens Consultas simples são fáceis de entender Consultas estruturadas É facilmente programável e exato Desvantagens Difícil especificar o que se quer Muito ou pouco retorno (precisão aceitável geralmente indica revocação inaceitável) Sem ordenação na saída Saída pode ser nula ou haver overload A consulta pode se difícil de ser formulada para usuários inexperientes Internet e RI – aula 3

Modelo Vetorial Cada documento é representado como um vetor de termos (espaço vetorial) Cada termo possui um valor associado que indica o grau de importância (peso) do documento Ex: {(palavra1, peso1), (palavra2, peso2), ... (palavra n, peso n)} Internet e RI – aula 3

Modelo Vetorial Arquivos invertidos formados por listas invertidas Internet e RI – aula 3

Modelo Vetorial As consultas são representadas como documentos O peso da consulta e do documento são calculados baseado no peso e direção dos respectivos vetores Os pesos são usados para calcular a similaridade A medida da distância de um vetor entre a consulta e o documento é usada para ordenar os documentos recuperados Internet e RI – aula 3

Modelo Vetorial - similaridade Similaridade entre cada documento armazenado e uma consulta feita freq(k, S) -> TF log (N/nK) -> IDF frequência do termo k no documento/ consulta S) Inverse document frequency. N é o nº de termos da coleção e nk é o nº de vezes que o termo ocorre na coleção Internet e RI – aula 3

Modelo Vetorial Internet e RI – aula 3

Modelo Vetorial Cálculo do peso: Abordagem tf-idf freq(k, S) x log (N/nK) Cálculo da similaridade: Abordagem Cosine vetor similarity Internet e RI – aula 3

Internet e RI – aula 3

Modelo Vetorial Vantagens Desvantagens Atribui pesos aos termos melhorando o desempenho É uma estratégia de encontro parcial (função de similaridade) – melhor que o modelo booleano Saída ordenada pelos graus de similaridade com a consulta Desvantagens Ausência de ortogonalidade entre os termos Modelo generalizado Um documento relevante pode não conter termos da consulta Internet e RI – aula 3

Modelo probabilístico Os termos indexados dos documentos e das consultas não possuem pesos pré-fixados. A ordenação é calculada pesando dinamicamente os termos da consulta relativamente aos documentos. Baseado no princípio da ordenação probabilística Busca-se saber qual a probabilidade de um documento D ser ou não relevante para uma consulta Qa. Internet e RI – aula 3

Modelo probabilístico Vantagens Princípio da ordenação probabilística (os documentos são ordenados de forma decrescente por suas probabilidade de serem relevantes) Evidências que é melhor que o modelo vetorial Desvantagens Assume independência entre os termos O modelo não faz uso da frequência de termos no documento Internet e RI – aula 3