i-Jus Busca em Diário Oficial

Slides:



Advertisements
Apresentações semelhantes
Como pesquisar na internet
Advertisements

Agenda Apresentar modelo de funcionamento do Cadastro Nacional de Gestores Prestar esclarecimentos quanto às orientações encaminhadas pelo TCU para publicação.
Modelo de Redes de Crenças
Modelo Probabilístico
Operações sobre o Texto
Operações sobre as Consultas
Internet Introdução à Internet Navegação na WWW (Web)
Pesquisar na Web e Avaliar a informação encontrada
TUTORIAL BASE DE DADOS SCIENCE DIRECT Elaborado por:
Conhecendo o VS2008: Windows Forms X Web Forms X Web Services
Indexação Automática de Documentos
Especificação de Consultas
Propriedades de Documentos
Recuperação de Imagens
Modelos de Recuperação de Informação
Eveline Alonso Veloso PUC-MINAS
Eveline Alonso Veloso PUC-MINAS
Conceitos Gerais relacionados a Recuperação de Informação
Iniciando na plataforma Eclipse
BRASÍLIA, 25 de julho de 2008 A Imprensa Nacional foi criada em 1808 por D. João VI. Completou 200 anos no dia 13 de maio de Cabe à Imprensa Nacional.
Encontro Linguagem HTML; 13. Hospedagem na WWW.
Eduardo Silva, Frederico Fernandes, Juliano Rabelo e Flávia Barros
Divisão de Biblioteca e Documentação FMUSP
Base SCOPUS 2011 Divisão de Biblioteca e Documentação FMUSP.
UNIVERSIDADE FEDERAL DE SANTA CATARINA - UFSC PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA E GESTÃO DO CONHECIMENTO EGC – GESTÃO DO CONHECIMENTO E FERRAMENTAS.
Universidade do Vale do Paraíba Colégio Técnico Antônio Teixeira Fernandes Disciplina Ferramenta de Desenvolvimento Material I-Bimestre Introdução Programação.
Hibernate Apresentação
WebWork e JSP Keven andrade
A Internet, também conhecida como web, é uma rede de comunicação de milhões de computadores conectados, que oferece inúmeros serviços. São bilhões de.
Instrumentos de pesquisa
PEAV – PROGRAMAÇÃO EM AMBIENTE VISUAL
EL e JSTL Prof. Danton Cavalcanti Franco Junior
Capítulo 10 Strings & File I/O. Strings Strings são um conjunto de Caracteres ASCII. No Controle de Instrumentação pode-se converter valores numéricos.
SOA - Arquitetura Orientada a Serviços
Programação II Prof.: Bruno Rafael de Oliveira Rodrigues.
EBSCO workshop Portal Capes – www. periodicos. capes. gov. br www
Recuperação de Informação usando o Apache Lucene
Introdução ao Desenvolvimento Web
Sistema de Bibliotecas da UFU Atualizado em fevereiro de 2009.
ORKURIOSO Equipe Arthur Gonçalves - agc Fábio Rocha - frp
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
Técnicas de pesquisa avançada na Internet
Portal Capeswww.periodicos.capes.gov.br Universidade do Vale do Rio dos Sinos – Unisinos Apresentação do Portal.periodicos.CAPES São Leopoldo (RS), 24.
Histórico e conceitos básicos.
Mineração na Web Introdução a Recuperação de Informação
Mayerber Carvalho Neto
Redes Bayesianas - Aplicação em Recuperação de Informação Rudini Sampaio DCC / UFLA.
Internet e Informação Electrónica PESQUISA DA INFORMAÇÃO.
Recuperação de Informação
PROGRAMAÇÃO PARA INTERNET Prof.: Jean Carlo Mendes
Luiz Antonio Torres, Maio/2014
QUEM SOMOS E O QUE FAZEMOS
METODOLOGIA CIENTÍFICA
Aulas 2 e 3 – Java – Prof. Marcelo Heitor # O método main e argumentos na linha de comando; # Fluxo padrão de entrada e saída; # A classe JOptionPane;
Equipe NTM/Santos. SITES DE BUSCA São sites que atuam como robôs na busca de páginas que contém as informações que você procura a partir de palavras chave.
Classificacao de Texto Projeto Spam Filter
METODOLOGIA DA PESQUISA
IIS Web Server.
Mapeamento em Memória Cache
Análise Léxica Prof. Alexandre Monteiro
BC Processamento da Informação Teoria Bacharelado em Ciência e Tecnologia String Prof. Edson Pinheiro Pimentel 1° Quadrimestre.
+ Java Básico Aula 1 por Flávio Juvenal. + Histórico Green Project (1991) Desenvolver plataforma para eletrodomésticos inteligentes Tentaram usar C++
Financeiro – Boleto: Remessa e Retorno
Fundamentos da Linguagem C#
Introduction to Information Retrieval Introduction to Information Retrieval CS276 Information Retrieval and Web Search Christopher Manning and Prabhakar.
ENIA 2001/SBC Fortaleza, CE 30/07 a 03/ ActiveSearch Um Agente Pró-ativo para Recuperação de Documentos Similares em Repositórios Digitais.
Elaboração: Telma Telemberg da Silva – CRB 14/544 Editoração: Claudia Bittencourt Berlim – CRB 14/964 BIBLIOTECA VIRTUAL.
CIn-UFPE1 Recuperação Inteligente de Informação O Apache Lucene João dos Prazeres Flávia Barros (revisora)
TUTORIAL. SABIN AMERICANA Esta base é formulada conforme a bibliografia de Joseph Sabin, bibliófilo americano que viveu entre 1821 e Com.
NAVEGAÇÃO, PESQUISA NA INTERNET E SEGURANÇA NA REDE OBJETIVOS -NAVEGAR PELA INTERNET COM O SOFTWARE LIVRE DE NAVEGAÇÃO, ICEWEASEL, PREVENINDO-SE DE RISCOS.
Transcrição da apresentação:

i-Jus Busca em Diário Oficial Bruno Edson Filho Daniel Marques Oliveira José de Anchieta Caraciolo Netto Max José Lins Tímoteo

Roteiro Motivação Arquitetura Básica do Lucene Componentes do sistema Estrutura do Arquivo Consultas Resultados

Motivação Anchieta

Contexto Necessidade de buscar informações nos Diários Oficiais do país (advogados autônomos, escritórios, empresas terceirizadas pelos escritórios, etc.) Os sites existentes são muito confusos e apresentam muita dificuldade quando se procura informações, pois são publicados como um documento inteiro ou são publicados em partes menores.

Exemplos Diário Oficial de Pernambuco http://www.fisepe.pe.gov.br/cepe/diario.htm Diário Oficial da União (http://www.in.gov.br/) Diários Oficiais Eletrônicos http://ediarios.in.gov.br/ediarios/pages/seguranca/login.jsp Privados Ledj (Sistema de Leitura Eletrônica dos Diários Oficiais e da Justiça) http://www.ledj.com.br/ DOINET (Diário Oficial na Internet) http://www.doi.com.br/

Solução Um sistema com interface simples e agradável, semelhante aos sistemas de busca conhecidos (Ex: Google, Yahoo!, Radix) Busca nos Diários Oficiais Termos (frase exata e expressões boleanas) Critérios de ordenação (data de publicação ou relevância) Resultados Data de publicação Documento em cache com salientador Local do Diário Oficial Endereço da versão Oficial

Arquitetura Básica do Lucene Bruno Edson

Arquitetura Básica do Lucene

Arquitetura Básica - Lucene Objetos de acesso à dados (acessíveis) Camada de negócios acesso aos arquivos de índices (sistema) Camada de pesquisa (parser) / Indexação 7 pacotes (org.apache.lucene.*): analisys, document, index, queryparser, search, store, util

Pacotes - Lucene analysys: converter texto -> índices document: relacionada a arquivos index: relacionada aos índices queryparser: QueryParser, parser consulta search: busca pelos índices store: abstração dados (BD, arq., RAM) util: utilizado pelos outros (vetor, tabela)

Tipos de Campos - Lucene Field.Keyword Field.UnIndexed Field.UnStored Field.Text

Fluxo de Execução - Lucene Consulta: QueryParser: Traduzir a consulta Realiza a consulta Obtém acesso aos índices Obtém acesso aos arquivos (BD, arq., RAM) Indexação: Aquisição do documento (processamento) Análise (gera índices) Grava nos índices Grava nos arquivos (BD, arq., RAM)

Componentes do Sistema Daniel

Componentes do Sistema

Componentes do Sistema Analisador Léxico Converte todas as letras para minúsculas Retira pontos, barras e hífen de números de identificação concatenando as suas partes CPF, CNPJ, RG, OAB etc Retira pontos, barras, hífen e espaços presentes no meio de frases Retira acentos e cedilhas Retira stopwords

Campos Existentes Título (Field.Text) Publicação (Field.Keyword) Site (Field.Keyword) Cache (Field.UnIndexed) Arquivo (Field.UnIndexed) Conteudo (Field.Text)

Estrutura do Arquivo Bruno Edson

Estrutura do Arquivo Estrutura de Índices Conteúdo: Multi-índice Composto Conteúdo: Segmentos Documentos Campos Termos

Escolha de estrutura de índices Cálculo do nº. de arquivos abertos Multi = 15300 (índices e campos) Composto = 900 (índices) Performance Composto é 5-10% mais lenta que o multi Composto é default.

Arquivos de Índices Compostos Diferença visível Multi = 10 arq’s. Composto = 2 arq’s. Poucos recursos Redução do número de arquivos Exceto: segmentos, documentos, campos e termos. Único .csf por segmento

Arquivos de Índices Compostos Exemplo: Multi: Composto:

Criando um índice composto Opção default Explicitar no código Método: setUseCompound(boolean) IndexWriter writer = new IndexWriter(indexDir, new StandardAnalyzer(), true); writer.setUseCompoundFile(true); Possibilidade de troca

Conversão entre estruturas Suporte durante indexação IndexWriter setUseCompoundFiles(boolean) Código: IndexWriter writer = new IndexWriter(indexDir, new StandardAnalyzer(), false); writer.setUseCompoundFile(true); writer.optimize(); writer.close();

Consultas Max

Consulta Biblioteca Lucene IndexSearcher Query (e subclasses) QueryParser Hits IndexSearcher: faz a busca Query: armazena uma consulta QueryParser: transforma uma consulta digitada por alguém em um objeto Query Hits: é o resultado da busca já ordenado. Referências para os documentos recuperados

Consulta Idéia básica de uma consulta QueryParser Query IndexSearcher Hits Document

Consulta Tipos de consulta Or (padrão): And: Parênteses: ... termo1 termo2 Termo1 OR termo2 And: +termo1 +termo2 termo1 AND termo2 Parênteses: (termo1 OR termo2) AND termo3 ...

Consulta Tipos de consulta Expressão(retirando stopwords): *: “termo1 termo2” *: termo1* Palavras semelhantes: termo1~

Score Tipos Publicação Relevância

Score Biblioteca Lucene Métodos da classe Hits: length() doc(n) id(n) score(n) Score(n) maior que 0 e menor ou igual a 1 baseado no maior score 20 documentos por página

Resultados Daniel

Resultados Quantidade de termos Quantidade de documentos 200.000 Quantidade de documentos 1800 Muitos nomes frequentes Sistema http://ijuz.no-ip.info/juri Ou http://201.8.211.225/juri Obs: o sistema está rodando no computador de Daniel (dmo), quando quiser acessar programar um horário para que ele ative o sistema

Referências Gospodnetic, Otis & Hatcher, Erik. Lucene in action. Manning Publications Co, 2005. CyberNeko Tools for XNI. http://www.apache.org/~andyc/neko/doc. Jakarta Lucene. http://jakarta.apache.org/lucene. JLex: A Lexical Analyzer Generator for Java(TM). http://www.cs.princeton.edu/~appel/modern/java/JLex/. Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier. Modern Information Retrieval. ACM Press, 1999. CEPE - Diário Oficial do Estado de Pernambuco. http://www.fisepe.pe.gov.br/cepe/diario.htm.