A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Recuperação de Informação usando o Apache Lucene

Apresentações semelhantes


Apresentação em tema: "Recuperação de Informação usando o Apache Lucene"— Transcrição da apresentação:

1 Recuperação de Informação usando o Apache Lucene
Henrique Borges – Mestrando em Inteligência Artificial

2 Quem sou eu? Henrique Borges Formado pelo Cin
Mestrando com Flávia Barros em IA Sócio da FAST Aplicativos e Soluções Tecnológicas Já construí diversos crawlers e aplicações de busca, recuperação de informação e processamento de linguagem natural Tanto academicamente quanto profissionalmente Estágio docência Estarei dando algumas aulas e fazendo acompanhamentos Dúvidas no projeto da cadeira, vocês também vão poder falar comigo!

3 Hoje, iremos aprender a fazer o:
B ...e aplicações similares

4 Como? Fácil Brincadeira... Mas nem tanto!
Incluir um “.jar” que eu vou passar Buscador boogle = new Buscador(); Pronto! Brincadeira... Mas nem tanto! A API que vamos usar faz quase tudo: Indexação e criação da base de dados Busca Ordenamento dos resultados E de graça!

5 Apache Lucene E mais de 274 sites, softwares e aplicações
Uma das mais conhecidas engines para busca de texto Eficiente Em Java Open-source (Apache Software License) Engine por trás da busca de: E mais de 274 sites, softwares e aplicações Fonte:

6 Lucene: Conceitos básicos
As classes Document e Term

7 Lucene – Conceitos básicos
Index dir Diretório onde ficam armazenados os arquivos que vão compor a base de documentos Incluem tanto os dados quanto os índices invertidos Document Entidade básica a ser indexada No caso do Boogle, um site O conjunto de documentos formam a base de dados

8 Lucene – Conceitos básicos
Field “Atributo” de um documento No caso do Boogle, um exemplo é o HTML do site Podem ser: Analysed (ex: o conteúdo do site) Not_analysed (ex: URL) Not indexed (ex: DownloadDate) E também: Stored: Recuperados a partir do documento, podem ser lidos depois Not stored: Usados apenas na hora de criar o índice

9 Lucene – Conceitos básicos
Base de documentos (Index) Ex: C:\Boogle\IndexDir Document Ex: site do Lucene Field Ex 1: Conteúdo=“Apache Lucene is a ...“ Ex 2: URL=

10 Lucene: Criando um novo índice
As classes IndexWriter e Analyser

11 Criando um índice

12 Lucene: Fazendo uma busca
As classes IndexSearcher, QueryParser e TopDocs

13 Fazendo uma busca

14 Passo-a-passo da criação de uma aplicação de RI
Usando o Lucene Passo-a-passo da criação de uma aplicação de RI

15 Criando uma aplicação de RI
Obter dados Crawlers, arquivos texto, bases da internet, etc. Criar e salvar a base Usar IndexWriter e Document

16 Criando uma aplicação de RI
Receber a busca do usuário Formulários, botões, listas Gerar e executar query Usar QueryParser ou criar instancias da classe Query TermQuery BooleanQuery Usar IndexSearcher Mostrar resultados Ler os atributos dos documentos retornados Escrever/desenhar na tela

17 Resumindo a apresentação
Conclusões Resumindo a apresentação

18 Conclusões Vimos o Lucene e sua API: Para que serve Conceitos básicos
Como criar um índice Como fazer uma busca

19 Conclusões Criar aplicações de RI com o Lucene é muito simples:
Obter dados Criar base Receber busca do usuário Gerar query Mostrar resultados Dúvidas?

20 Abrir demonstração no Eclipse...
para contato: Obrigado!


Carregar ppt "Recuperação de Informação usando o Apache Lucene"

Apresentações semelhantes


Anúncios Google