CIn-UFPE1 Recuperação Inteligente de Informação O Apache Lucene João dos Prazeres Flávia Barros (revisora)

Slides:



Advertisements
Apresentações semelhantes
Operações sobre o Texto
Advertisements

Programação orientada a objetos
Python: Dicionários Claudio Esperança.
I/O Carlos Bazilio Depto de Ciência e Tecnologia
Avaliador de Expressões
Paulo Marques Hernâni Pedroso
Especificação de Consultas
Padrão de Projeto Interpreter
Persistência de objetos em arquivo texto usando Java
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Introdução a Teoria da Classificação
Divisão de Biblioteca e Documentação FMUSP
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
Linguagem PHP Prof.: Sergio Pacheco Prof.: Sergio Pacheco 1 1.
PROGRAMAÇÃO ou LINGUAGEM C?
Introdução ao JavaScript
Ponteiros.
Tópicos Tipos de Dados Variáveis por Valor Variáveis por Referência
Tecnologias para Internet
EL e JSTL Prof. Danton Cavalcanti Franco Junior
Capítulo 10 Strings & File I/O. Strings Strings são um conjunto de Caracteres ASCII. No Controle de Instrumentação pode-se converter valores numéricos.
O.NET introduziu um forma orientada a objetos de trabalhar com arquivos. O namespace System.IO fornece diversas classes para trabalhar com arquivos textos,
Prof. Natalia Castro Fernandes Mestrado em Telecomunicações – UFF 2º semestre/2012.
João Lucas de Oliveira Torres
Linguagem de Expressão (EL)
Gerenciamento de conteúdo na ALESP
Tipos Agregados Homogêneos e Listas
Criando páginas para o WWW Liane Tarouco. Páginas WWW São armazenadas num servidor WWW ou no disco local Tem um endereço URL - Universal Resource Locator.
Aula prática 7 Strings Monitoria de Introdução à Programação
Open Source Projects for Information Retrieval
Recuperação de Informação usando o Apache Lucene
Recuperação Inteligente de Informação Tarefa 1 Equipe.
Busca Rápida Baseada em Similaridade para Redes Par-a-Par Fast Similarity Search in Peer-to-Peer Networks NOMS 2008 Autores: Thomas Bocek Ela Hunt David.
Prof. Natalia Castro Fernandes Engenharia de Telecomunicações – UFF 2º semestre/2012.
Nazareno Andrade (baseado no material de Hyggo Almeida)
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Computação e Estatística Servidor de Documentos XML Usando.
Rodrigo Cristiano Silva
Técnico em Informática - Senac
Introdução a aplicativos Java
Mineração da Web Recuperação de Informação
Recuperação de Informação Clássica
i-Jus Busca em Diário Oficial
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
JavaScript Promoção: PET-SI Mini-curso de introdução a JavaScript
Linguagem de Programação JAVA
TITLE. Title Text Title Text Title Text.
Linguagem de Programação JAVA Técnico em Informática Professora Michelle Nery.
Aulas 2 e 3 – Java – Prof. Marcelo Heitor # O método main e argumentos na linha de comando; # Fluxo padrão de entrada e saída; # A classe JOptionPane;
Paradigmas de Linguagens de Programação Aula 2
Linguagem de Programação C#
Smalltalk Grupo Anderson Bistafa Hugo Carlos
BC Processamento da Informação Teoria Bacharelado em Ciência e Tecnologia String Prof. Edson Pinheiro Pimentel 1° Quadrimestre.
William Ivanski Curso de Programação C#. Sumário  Exercícios para Fixação  Utilizando uma IDE  Elementos da Linguagem C#  Valores  Variáveis  Tipos.
Programação Funcional
Módulo 9 Strings , Coleções e I/O
Programação I Aula 4 (Expressões Booleanas e Expressões de Seleção) Prof. Gilberto Irajá Müller Última atualização 17/3/2009.
Fundamentos da Linguagem C#
Aula 4©João M. P. Cardoso 1 Anatomia de um Compilador Compiladores, Aula Nº 4 João M. P. Cardoso.
Copyright 2000, Departamento de Informática, UFPE. Todos os direitos reservados sob a legislação em vigor. Orientação a Objetos e Java.
CIn-UFPE1 Recuperação de Informação Modelos de Recuperação de Documentos Flávia Barros.
OO com Java Luiz Carlos d´Oleron Roteiro de aula.
De 19 1 Linguagens de Programação Orientadas a Objetos Pós-Gradução(Lato-Sensu) em Sistemas de Banco de Dados - UFPa Marco Fagundes
Aula prática 7 Strings Monitoria de Introdução à Programação.
TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.
Maraca² RFP Reply. Introdução Reuso dentro da organização Busca e recuperação.
Aula prática 7 Strings Monitoria de Introdução à Programação.
Linguagem Java Programação II.
Strings e Arrays Prof. Gustavo Wagner (Alterações) Prof. Tiago Massoni (Slides Originais) Desenvolvimento de Sistemas FATEC-PB  Centro de Informática,
CLASSES EM JAVA Dilvan Moreira (baseado no livro Big Java)
Title. Text Title Text Title Text Title Text.
Transcrição da apresentação:

CIn-UFPE1 Recuperação Inteligente de Informação O Apache Lucene João dos Prazeres Flávia Barros (revisora)

CIn-UFPE 2 Roteiro da Aula O que é o Lucene Indexação Busca Consultas Um exemplo prático

CIn-UFPE 3 O que é o Lucene É um software de código livre da Apache Biblioteca para recuperação de informação Adiciona funcionalidades de indexação e busca de “texto” para uma aplicação Java Não é uma aplicação em si Requer uma compreensão mínima sobre indexação e busca

CIn-UFPE 4 O que é o Lucene Libera a aplicação para lidar apenas com regras de negócio do seu domínio principal

CIn-UFPE 5 Indexação A base de índices contém um conjunto de documentos: Um Document é uma coleção de Fields Um Field é uma seqüência de Terms Um Term é uma string

CIn-UFPE 6 Classes de Indexação IndexWriter classe principal para criar a base de índices Document objeto que representa o conteúdo a ser adicionado IndexWriter.addDocument(Document) StandardAnalyzer converte todos as strings para minúsculo e extrai as stopwords

CIn-UFPE 7 Indexação IndexWriter writer = new IndexWriter(file, new standardAnalyzer(), true); Document doc = new Document(); doc.add(new Field("contents", )); writer.addDocument(doc); writer.close;

CIn-UFPE 8 Classes de Busca IndexSearcher classe principal para buscar na base de índices StandardAnalyzer o mesmo usado na indexação Query contém o resultado de QueryParser QueryParser Usa o analisador para processar o texto da query. Hits Contém uma coleção de Documents de resposta.

CIn-UFPE 9 Busca IndexReader reader = IndexReader.open(index); //várias formas Searcher searcher = new IndexSearcher(reader); Analyzer analyzer = new StandardAnalyzer(); QueryParser parser = new QueryParser(, analyzer); Query query = parser.parse(line); Hits hits = searcher.search(query); for (int i = 0; i < hits.length(); i++) { Document doc = hits.doc(i); System.out.println(" Title: " + doc.get("title")); }

CIn-UFPE 10 Tipos de Queries Termos simples e frases title:"The Right Way" AND text:go Com caracteres “curinga” em termos simples te?t ou ainda test* Fuzzy usando “~” para termos simples baseado na distância de Levenshtein roam~ ou ainda roam~0.8

CIn-UFPE 11 Tipos de Queries Com operador NOT "jakarta apache" NOT "Apache Lucene" Combinando operadores (jakarta OR apache) AND website

CIn-UFPE 12 Referências 1/18/using-lucene-to-search-java-source.html