Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouThomas Fiel Alterado mais de 10 anos atrás
1
Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte
Arquivo Invertido Grupo:Danilo de Carvalho Gleimar B. Baleeiro Rodrigo Duarte
2
Roteiro Motivação Introdução Arquivo Invertido Tipos de Consultas
Métodos Tecnologia
3
Motivação Como recuperar informação?
Aumento do volume de dados armazenados na forma de textos. Ex.:bibliotecas digitais Buscas seqüenciais atenderiam ao propósito?
4
Motivação De que modo poderia se recuperar esses textos?
A construção de uma estrutura de dados(índices) diminuiria o tempo de resposta na busca.
5
Introdução O que é Índice?
- Mecanismo utilizado para localizar um dado termo em um texto(custo < linear). Tipo de Índices - Arquivos Invertidos (inverted files) - Arquivos de Assinatura (singature files) - Mapas de Bits (bitmaps)
6
Arquivo Invertido Composição:
- Vocabulário : Arranjo contendo todas as palavras do texto. - Ocorrências: Lista de todos os documentos (identificados por números) nos quais uma palavra ocorre.
7
Exemplo Documento Texto 1 Pease porridge hot,pease porridge cold. 2
Pease porridge in the post. 3 Nine days old. 4 Some like it hot, some like it cold 5 Some like it in the pot. 6
8
Exemplo Número Termo Ocorrências Documento Cold 2 1,4 Days 3,6 Hot In
2,5 5 It 4,5 6 Like 7 Nine 8 Old 9 Pease 1,2 10 Porridge 11 Pot 12 Some 13 the
9
Consultas Termo único: Busca no vocabulário e recupera a lista de ocorrências. Conjunção: “termo AND termo” Disjunção: “termo OR termo” Negação: “NOT “
10
Métodos para construção de Índices
Matriz de Freqüência - Cada linha corresponde a um documento e cada coluna corresponde a um termo do vocabulário
11
Exemplo 1 3 4 5 6 - 2 cold days hot in it like nine old pease porridge
pot some the 1 - 2 3 4 5 6
12
Construção É necessário a leitura do documento da coleção, ao final escrever a matriz, linha por linha no disco. Construção é bastante simples. Entretanto a solução é cara. -Ex.:Bíblia contém termos e documento. Tamanho da matriz (8.965 X X 4 bytes = 1GB
13
Métodos para construção de Índices
Inversão em Memória - O índice é todo construído em memória principal. - Estrutura usada para armazenamento será a tabela hash.
14
... continuação - Listas encadeadas em memória para armazenar as listas invertidas dos termos. - O método leva cerca de 6 horas para indexar uma coleção de 5GB e consome 4GB de memória principal e nenhum espaço extra em disco.
15
Algoritmo 1. /*Inicialização*/
Crie uma estrutura de dicionário vazia S. 2. /* Fase um: coleta das características dos termos */ Para cada documento Dd na coleção, 1 ≤ d ≥ N, (a) Leia Dd realizando o parser para obter termos indexáveis. (b) Para cada termo indexável t Є Dd, i. Faça fd,t receber a freqüência do termo t em Dd ii.Busque por t em S iii.Se t não estiver em S, insira-o. iv.Adicione um nó armazenado (d, fd,t) na lista
16
... continuação 3. /*Fase dois: saída do arquivo invertido*/
Para cada termo 1 ≤ d ≥ n, (a) Inicialize uma nova entrada do arquivo invertido (b) Para cada (d, fd,t) na lista correspondente a t, Adicione (d, fd,t) a essa entrada do arquivo invertido. (c) Se requerido, comprima a entrada do arquivo invertido. (d) Adicione essa entrada do arquivo invertido ao arquivo invertido.
17
Exemplo
18
Métodos para construção de Índices
Inversão baseada em Ordenação( sorted-based ) - O principal problema dos métodos descritos anteriormente é o alto consumo de memória principal. - O uso de disco é inevitável quando grandes quantidades de texto precisam ser indexadas.
19
... continuação - Triplas <termo,doc,freq> são armazenadas em arquivos temporários. - O índice é obtido ordenando-se estas triplas em ordem ascendente do termo e depois do documento.
20
Resultados A inversão para um coleção de 5GB leva cerca de 20 horas usando 40 MB de memória principal e 8 GB de espaço extra em disco. Devido a quantidade de espaço em disco consumida, este método é considerado melhor para coleções de tamanho moderado (10 a 100MB)
21
Redução de custos Utilizar técnicas de compressão e estratégias mais sofisticadas de intercalação - Compressão dos arquivos temporários - Intercalação de múltiplos caminhos - Intercalação in-place
22
Tecnologia Nenhuma maquina de busca comercial usa todas as técnicas (compressão + indexação). Seguem o “hard way” – hardware way – muito disco e muita memoria principal
23
Referências
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.