Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.

Slides:



Advertisements
Apresentações semelhantes
Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte
Advertisements

Modelo Probabilístico
Recuperação de Informação
UNICEUMA – CENTRO UNIVERSITÁRIO DO MARANHÃO
TUTORIAL BASE DE DADOS SCIENCE DIRECT Elaborado por:
Solved Exercises 1. Finding the Peak. Let A= a1,…,an be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
Indexação Automática de Documentos
Especificação de Consultas
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
Verbo to be.
ArcToolbox Carlos Ruberto Fragoso Júnior www. ctec. ufal
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Estrutura de indexação Modelos de RI
Introdução a Teoria da Classificação
Recuperação de Informações
Divisão de Biblioteca e Documentação FMUSP
Web of Science.
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Lógica de Programação Módulo II
Arquivos Invertidos André Ferreira da Silva Jimy Marques Madeiro
Listas e algoritmos (em Scratch)
Query Tuning Lílian Simão Oliveira.
Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.
Fontes eletrônicas para a Pesquisa bibliográfica construção de conhecimentos.
Inteligência Artificial
Aula prática 6 Vetores e Matrizes
Prof. Natalia Castro Fernandes Engenharia de Telecomunicações – UFF 2º semestre/2012.
Linguagem de Programação II Parte IX
CS276: Information Retrieval and Web Search
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
RepositóriUM. O objetivo do RepositóriUM é armazenar, preservar, divulgar e dar acesso à produção intelectual da Universidade do Minho (Portugal) em formato.
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
TUTORIAL. Acervo de 47 jornais especialmente selecionados pela British Library para melhor representar o século XIX. Inclui jornais nacionais e regionais.
Bruno Florencio Pinheiro Orientador: Renato Fernandes Corrêa
BASES DE DADOS EBSCO. Disponível em:
Mineração da Web Recuperação de Informação
Mineração na Web Introdução a Recuperação de Informação
Recuperação de Informação Clássica
Recuperação de Informação
Título do projeto Equipe Local Data.
i-Jus Busca em Diário Oficial
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
Vetores Imagine que você tem que receber o nome e a nota de 50 alunos de uma escola, e depois listar o nome de cada um e a média final de cada aluno e.
Recuperação de Informação
Recuperação de Informação
VIEW - VISÕES Professor Esp. Diego André Sant’Ana
Linguagem de Programação JAVA Técnico em Informática Professora Michelle Nery.
Introduction to Information Retrieval Introduction to Information Retrieval CS276: Information Retrieval and Web Search Christopher Manning and Prabhakar.
22/4/20151 / Query By Humming. Ana Alves (apba) Bruno Ribeiro (brcr) Francisco Neto (ffsn) Garsielle Valença (gval) Query by Humming (QBH)
TUTORIAL BASE DE DADOS REFERENCIAIS
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page Adriano Kaminski Sanches Prof. Dr. Pável Calado Universidade.
Linguagem de Programação II Parte VI Professora: Flávia Balbino da Costa.
Um Classificador Baysesiano para a Análise das Relações Sociais em Blogs Allan Lima –
CBD-0279 Introdução ao Uso dos Metadados no Ambiente das Unidades de Informação Prof. Dr. Ivan Siqueira USP – ECA – CBD 2015.
Daniel Paulo Introdução Informações de uma tabela ou view podem ser encontradas de maneira mais rápida através da utilização.
 A linguagem Java tem diversas classes para a manipulação dos conjuntos de dados. Esses dados podem ser organizados de duas maneiras diferentes: ◦ Vetores.
Recuperação de Dados Banco de Dados Carina Farias
TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.
Recuperação de Informação Eduardo Amaral - efas Frederico Fernandes - fbf2 Juliano Rabelo - jcbr Flávia Barros - fab.
Arrays Outline 7.1 Introdução 7.2 Arrays 7.3 Declarando e Criando Arrays 7.4 Exemplos usando arrays 7.5 Ordenando arrays 7.6 Procurando em.
USP – ICMC – SSC SSC0300 2º Semestre 2015
Medidas de Avaliação. Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum.
Tutorial para pesquisas na base de dados JSTOR. JSTOR é uma base de dados internacional, multidisciplinar, que contém textos completos de material bibliográfico.
José Antônio da Cunha 2/6/2016 José Antônio - CEFET-RN 1 Disciplina: Banco de Dados.
Transcrição da apresentação:

Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar Raghavan Lecture 1: Boolean retrieval

Introduction to Information Retrieval Definições  Técnicas para encontrar documentos de natureza não estruturada(texto em geral) que satisfaça uma necessidade de informação de um usuário a partir de grande quantidade de documentos.  Coleção: Conjunto de documentos  Objetivo: Recuperar os documentos com informações que são relevantes para a necessidade do usuário. 2

Introduction to Information Retrieval Desestruturado (texto) vs. Estruturado (banco de dados) em Empresa de dados estatísticos

Introduction to Information Retrieval 4 Desestruturado (texto) vs. Estruturado (banco de dados) em 2009

Introduction to Information Retrieval Técnicas RI  Recuperação Booleana;  Modelo Clássico;  Matriz de Incidência;  Índice Invertido;  Otimização de consultas.

Introduction to Information Retrieval The classic search model Corpus TASK Info Need Query Verbal form Results SEARCH ENGINE Query Refinement

Introduction to Information Retrieval Matriz Incidência (Termos x Documentos) 1 se documento contem termo, 0 caso contrario Brutus AND Caesar BUT NOT Calpurnia Sec. 1.1

Introduction to Information Retrieval Matriz de Incidência  Cada linha representa um termo.  Cada coluna representa um documento.  Cada posição do vetor pode assumir 0/1.  Onde: 0  Ausencia no texto e 1  aparece no texto.  Exemplo consulta: Brutus, Caesar and not Calpurnia (complemento);  Fazer uma operacao AND nas linhas Brutus, Caesar e Calpurnia.  Exemplo:  AND AND = (Brutus) (Caesar) (Calpurnia) (Resposta) 8 Sec. 1.1

Introduction to Information Retrieval Índice Invertido  Para cada termo t, nos devemos criar uma lista com os números onde o termo t aparece;  Onde: docID, representa um número de documento; 9 Brutus Calpurnia Caesar Sec

Introduction to Information Retrieval Índice Invertido  Em memória, podemos usar listas ligadas ou arrays de tamanhos variáveis; 10 Dicionário Listas Ordenado pelo by docID Listas Sec. 1.2 Brutus Calpurnia Caesar

Introduction to Information Retrieval Tokenizer Token stream. Friends RomansCountrymen Construção Índice Invertido Linguistic modules Tokens modificados. friend romancountryman Indexer Índice Invertido friend roman countryman More on these later. Documentos para indexar. Friends, Romans, countrymen. Sec. 1.2

Introduction to Information Retrieval Passos Indexador: Token  Dividir os documentos em pares (termos, Document ID). I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Doc 1 So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious Doc 2 Sec. 1.2

Introduction to Information Retrieval Passos Indexador: Ordenação  Ordenar termos.  Ordem alfabética Sec. 1.2

Introduction to Information Retrieval Passos Indexador: Dicionário & Listas  Criar dicionário de termos;  Adicionar na lista os documentos que o termos aparecem;  Adicionar a freqüência do termo; Sec. 1.2

Introduction to Information Retrieval Custo de Armazenamento 15 Ponteiros Termos e freqüên cias Sec. 1.2 Listas dos docIDs

Introduction to Information Retrieval Consulta com operador: AND  Considere a consulta: Brutus AND Caesar  Recuperar a lista do termo Brutus;  Recuperar a lista do termo Caesar;  Interseção (“Merge”) das duas listas: Brutus Caesar Sec. 1.3

Introduction to Information Retrieval Interseção de duas listas (“merge” algorithm) 17

Introduction to Information Retrieval Exemplo: merge algorithm Brutus Caesar 2 8 Obs: As listas devem estar ordenadas pelo docID. Sec. 1.3

Introduction to Information Retrieval Conclusões Modelo Booleano  Ainda e utilizado em sistemas:  , catalogo de Bibliotecas;  Modelo de RI utilizado por 3 décadas.  Processamento lento para consultar grande volume de termos e documentos  Exemplo: Um milhão de documentos, cada documento aproximadamente com 1000 termos.  Exatidão nas consultas  Exemplo:  a) Procurar palavra Brutus;  b) Procurar palavras iniciadas com a letra B. (impossível) 19 Sec. 1.1

Introduction to Information Retrieval Otimização de consultas  Qual a melhor maneira de realizar a consulta abaixo? Brutus Caesar Calpurnia Query: Brutus AND Calpurnia AND Caesar 20 Sec. 1.3

Introduction to Information Retrieval Exemplo de otimização de consultas  Inicie com os termos com as menores freqüências, ou seja, que possuem as menores listas. 21 Por isso e importante armazenar a freqüência dos termos Execute a consulta como (Calpurnia AND Brutus) AND Caesar. Sec. 1.3 Brutus Caesar Calpurnia

Introduction to Information Retrieval Otimização mais geral  e.g., (madding OR crowd) AND (ignoble OR strife)  Pegue freqüência dos documentos para todos os termos.  Estime o tamanho de cada OR pela soma das freqüências dos documentos.  Processar em ordem crescente pelo tamanho das listas (OR). 22 Sec. 1.3

Introduction to Information Retrieval Course staff  Professor: Christopher Manning Office: Gates 158  Professor: Prabhakar Raghavan inc.comPrabhakar Raghavan inc.com  TAs: Andrey Guev, Shakti Sinha, Roshan Sumbaly  In general, don’t use the above addresses, but:  Newsgroup: su.class.cs276[preferred]  23