A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte

Apresentações semelhantes


Apresentação em tema: "Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte"— Transcrição da apresentação:

1 Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte
Arquivo Invertido Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte

2 Roteiro Motivação Introdução Arquivo Invertido Tipos de Consultas
Métodos Tecnologia

3 Motivação Como recuperar informação?
Aumento do volume de dados armazenados na forma de textos. Ex.:bibliotecas digitais Buscas seqüenciais atenderiam ao propósito?

4 Motivação De que modo poderia se recuperar esses textos?
A construção de uma estrutura de dados(índices) diminuiria o tempo de resposta na busca.

5 Introdução O que é Índice?
- Mecanismo utilizado para localizar um dado termo em um texto(custo < linear). Tipo de Índices - Arquivos Invertidos (inverted files) - Arquivos de Assinatura (singature files) - Mapas de Bits (bitmaps)

6 Arquivo Invertido Composição:
- Vocabulário : Arranjo contendo todas as palavras do texto. - Ocorrências: Lista de todos os documentos (identificados por números) nos quais uma palavra ocorre.

7 Exemplo Documento Texto 1 Pease porridge hot,pease porridge cold. 2
Pease porridge in the post. 3 Nine days old. 4 Some like it hot, some like it cold 5 Some like it in the pot. 6

8 Exemplo Número Termo Ocorrências Documento Cold 2 1,4 Days 3,6 Hot In
2,5 5 It 4,5 6 Like 7 Nine 8 Old 9 Pease 1,2 10 Porridge 11 Pot 12 Some 13 the

9 Consultas Termo único: Busca no vocabulário e recupera a lista de ocorrências. Conjunção: “termo AND termo” Disjunção: “termo OR termo” Negação: “NOT “

10 Métodos para construção de Índices
Matriz de Freqüência - Cada linha corresponde a um documento e cada coluna corresponde a um termo do vocabulário

11 Exemplo 1 3 4 5 6 - 2 cold days hot in it like nine old pease porridge
pot some the 1 - 2 3 4 5 6

12 Construção É necessário a leitura do documento da coleção, ao final escrever a matriz, linha por linha no disco. Construção é bastante simples. Entretanto a solução é cara. -Ex.:Bíblia contém termos e documento. Tamanho da matriz (8.965 X X 4 bytes = 1GB

13 Métodos para construção de Índices
Inversão em Memória - O índice é todo construído em memória principal. - Estrutura usada para armazenamento será a tabela hash.

14 ... continuação - Listas encadeadas em memória para armazenar as listas invertidas dos termos. - O método leva cerca de 6 horas para indexar uma coleção de 5GB e consome 4GB de memória principal e nenhum espaço extra em disco.

15 Algoritmo 1. /*Inicialização*/
Crie uma estrutura de dicionário vazia S. 2. /* Fase um: coleta das características dos termos */ Para cada documento Dd na coleção, 1 ≤ d ≥ N, (a) Leia Dd realizando o parser para obter termos indexáveis. (b) Para cada termo indexável t Є Dd, i. Faça fd,t receber a freqüência do termo t em Dd ii.Busque por t em S iii.Se t não estiver em S, insira-o. iv.Adicione um nó armazenado (d, fd,t) na lista

16 ... continuação 3. /*Fase dois: saída do arquivo invertido*/
Para cada termo 1 ≤ d ≥ n, (a) Inicialize uma nova entrada do arquivo invertido (b) Para cada (d, fd,t) na lista correspondente a t, Adicione (d, fd,t) a essa entrada do arquivo invertido. (c) Se requerido, comprima a entrada do arquivo invertido. (d) Adicione essa entrada do arquivo invertido ao arquivo invertido.

17 Exemplo

18 Métodos para construção de Índices
Inversão baseada em Ordenação( sorted-based ) - O principal problema dos métodos descritos anteriormente é o alto consumo de memória principal. - O uso de disco é inevitável quando grandes quantidades de texto precisam ser indexadas.

19 ... continuação - Triplas <termo,doc,freq> são armazenadas em arquivos temporários. - O índice é obtido ordenando-se estas triplas em ordem ascendente do termo e depois do documento.

20 Resultados A inversão para um coleção de 5GB leva cerca de 20 horas usando 40 MB de memória principal e 8 GB de espaço extra em disco. Devido a quantidade de espaço em disco consumida, este método é considerado melhor para coleções de tamanho moderado (10 a 100MB)

21 Redução de custos Utilizar técnicas de compressão e estratégias mais sofisticadas de intercalação - Compressão dos arquivos temporários - Intercalação de múltiplos caminhos - Intercalação in-place

22 Tecnologia Nenhuma maquina de busca comercial usa todas as técnicas (compressão + indexação). Seguem o “hard way” – hardware way – muito disco e muita memoria principal

23 Referências


Carregar ppt "Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte"

Apresentações semelhantes


Anúncios Google