A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Arquivo Invertido Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte.

Apresentações semelhantes


Apresentação em tema: "Arquivo Invertido Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte."— Transcrição da apresentação:

1 Arquivo Invertido Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte

2 Roteiro Motivação Introdução Arquivo Invertido Tipos de Consultas Métodos Tecnologia

3 Motivação Como recuperar informação? Aumento do volume de dados armazenados na forma de textos. Ex.:bibliotecas digitais Buscas seqüenciais atenderiam ao propósito?

4 Motivação A construção de uma estrutura de dados(índices) diminuiria o tempo de resposta na busca. De que modo poderia se recuperar esses textos?

5 Introdução O que é Índice? - Mecanismo utilizado para localizar um dado termo em um texto(custo < linear). Tipo de Índices - Arquivos Invertidos ( inverted files ) - Arquivos de Assinatura ( singature files ) - Mapas de Bits ( bitmaps )

6 Arquivo Invertido Composição: - Vocabulário : Arranjo contendo todas as palavras do texto. - Ocorrências: Lista de todos os documentos (identificados por números) nos quais uma palavra ocorre.

7 Exemplo DocumentoTexto 1 Pease porridge hot,pease porridge cold. 2 Pease porridge in the post. 3 Nine days old. 4 Some like it hot, some like it cold 5 Some like it in the pot. 6 Nine days old.

8 Exemplo NúmeroTermoOcorrênciasDocumento 1 Cold21,4 2 Days23,6 3 Hot21,4 4 In22,5 5 It24,5 6 Like24,5 7 Nine23,6 8 Old23,6 9 Pease21,2 10 Porridge21,2 11 Pot22,5 12 Some24,5 13 the22,5

9 Consultas Termo único: Busca no vocabulário e recupera a lista de ocorrências. Conjunção: termo AND termo Disjunção: termo OR termo Negação: NOT

10 Métodos para construção de Índices Matriz de Freqüência - Cada linha corresponde a um documento e cada coluna corresponde a um termo do vocabulário

11 Exemplo colddayshotinitlikenineoldpeaseporridgepotsomethe

12 Construção É necessário a leitura do documento da coleção, ao final escrever a matriz, linha por linha no disco. Construção é bastante simples. Entretanto a solução é cara. -Ex.:Bíblia contém termos e documento. Tamanho da matriz (8.965 X X 4 bytes = 1GB

13 Inversão em Memória - O índice é todo construído em memória principal. - Estrutura usada para armazenamento será a tabela hash. Métodos para construção de Índices

14 ... continuação - Listas encadeadas em memória para armazenar as listas invertidas dos termos. - O método leva cerca de 6 horas para indexar uma coleção de 5GB e consome 4GB de memória principal e nenhum espaço extra em disco.

15 Algoritmo 1. /*Inicialização*/ Crie uma estrutura de dicionário vazia S. 2. /* Fase um: coleta das características dos termos */ Para cada documento D d na coleção, 1 d N, (a) Leia D d realizando o parser para obter termos indexáveis. (b) Para cada termo indexável t Є D d, i. Faça f d,t receber a freqüência do termo t em D d ii.Busque por t em S iii.Se t não estiver em S, insira-o. iv.Adicione um nó armazenado (d, f d,t ) na lista

16 ... continuação 3. /*Fase dois: saída do arquivo invertido*/ Para cada termo 1 d n, (a) Inicialize uma nova entrada do arquivo invertido (b) Para cada (d, f d,t ) na lista correspondente a t, Adicione (d, f d,t ) a essa entrada do arquivo invertido. (c) Se requerido, comprima a entrada do arquivo invertido. (d) Adicione essa entrada do arquivo invertido ao arquivo invertido.

17 Exemplo

18 Inversão baseada em Ordenação( sorted- based ) - O principal problema dos métodos descritos anteriormente é o alto consumo de memória principal. - O uso de disco é inevitável quando grandes quantidades de texto precisam ser indexadas. Métodos para construção de Índices

19 ... continuação - Triplas são armazenadas em arquivos temporários. - O índice é obtido ordenando-se estas triplas em ordem ascendente do termo e depois do documento.

20 Resultados A inversão para um coleção de 5GB leva cerca de 20 horas usando 40 MB de memória principal e 8 GB de espaço extra em disco. Devido a quantidade de espaço em disco consumida, este método é considerado melhor para coleções de tamanho moderado (10 a 100MB)

21 Redução de custos Utilizar técnicas de compressão e estratégias mais sofisticadas de intercalação - Compressão dos arquivos temporários - Intercalação de múltiplos caminhos - Intercalação in-place

22 Tecnologia Nenhuma maquina de busca comercial usa todas as técnicas (compressão + indexação). Seguem o hard way – hardware way – muito disco e muita memoria principal

23 Referências com187.mbooleano.pdf com187.mbooleano.pdf 002/Geracao_de_arquivo_invertido_utilizan do_Programacao_Paralela_MPI.pdf 002/Geracao_de_arquivo_invertido_utilizan do_Programacao_Paralela_MPI.pdf os/pa02/seminarios/seminario3/seminario3.html


Carregar ppt "Arquivo Invertido Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte."

Apresentações semelhantes


Anúncios Google