Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouPaulo Fagundes Barateiro Alterado mais de 9 anos atrás
1
Sistemas de Recuperação da Informação Parte IV Multimídia
2
MIDIAS Principais estruturas: Textos – linguagem natural Hipertextos - caminhamento Textos estruturados - esquema textos marcados – esquema multimidia (dados digitais de diferentes midias): texto som (linguagem falada, música, ruídos) imagens (fotos, pinturas, mapas, diagramas, tabelas) vídeo – sequência síncrona dos anteriores (filmes, animações de imagens)
3
MULTIMIDIA Hipertextos: Um grafo dirigido de textos e sub-textos. Cada aresta aponta ou par um texto ou para um subtext. EXEMPLO: Um Índice Remissivo (a fonte é uma página) Fonte pode ser um documento, parágrafo, palavra bloco de n caracteres
4
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : EXEMPLO: Texto 1 (t1): Integridade declarativa ou implícita: são condições inseridas no próprio esquema conceitual da aplicação desenvolvida. Isto é um dos objetivos de um modelo semântico de dados, de captar o máximo possível de condições de consistência na própria estrutura do esquema conceitual. Existem várias formas de expressar estas condições: 1) Esquema, tipos, subtipos: os próprios conceitos de classes e subclasses, atributos e domínios, impõem restrições ao tipo e formato dos dados a serem armazenados no banco de dados; 2) Outras hierarquias: também as hierarquias de agregação e agrupamento, assim como outras que porventura poderão ser desenvolvidas, permitem descrever um comportamento especial dos elementos envolvidos.
5
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade declarativa implícita condições esquema conceitual aplicação objetivos modelo semântico de dados condições de consistência estrutura esquema conceitual condições Esquema tipos Subtipos Classes Subclasses Atributos Domínios Restrições Tipo Formato Dados Armazenados banco de dados; Hierarquias Agregação Agrupamento Comportamento.
6
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade declarativa Integridade implícita condições (3) esquema conceitual (2) aplicação objetivos modelo semântico de dados condições de consistência estrutura Esquema (3) Tipos (2) Subtipos Dados (3) Classes Subclasses Atributos Domínios Restrições Formato Armazenados banco de dados Hierarquias (2) Agregação Agrupamento Comportamento.
7
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Texto 2 (t2): Integridade não-declarativa: nenhum modelo de dados é suficientemente rico para poder captar todas as restrições de integridade de uma aplicação complexa. Certas restrições não podem ser dadas de forma declarativa nas estruturas de dados e precisam ser expressas explicitamente de alguma forma. Isto pode acontecer de quatro maneiras distintas: 1) Por meio de invariantes ou asserções, que permitem descrever as restrições de integridade como fórmulas ou expressões em uma linguagem específica, que serão verificadas sempre que necessário. 2) Por meio de pré- e pós-condições associadas às operações (vide parágrafo seguinte);
8
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade não-declarativa modelo de dados restrições de integridade aplicação complexa Restrições forma declarativa estruturas de dados Expressas explicitamente Invariantes asserções restrições de integridade Fórmulas Expressões linguagem específica pré-condições pós-condições operações
9
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade não-declarativa Integridade (3) modelo de dados restrições de integridade (2) aplicação complexa Restrições (3) forma declarativa estruturas de dados Dados (2) Expressas explicitamente Invariantes asserções Fórmulas Expressões linguagem específica pré-condições pós-condições Condições (2) operações
10
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Condições (2) Dados (2) Integridade (3) restrições de integridade (2) Restrições (3) condições (3) Dados (3) Esquema (3) esquema conceitual (2) Hierarquia (2) Tipos (2) T1: T2:
11
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos T1,3CondiçõesT2,2 T1,3DadosT2,2 T1,2Esquema conceitual T1,3esquema T1,2hierarquia T2,2Restrições de integridade T1,2tipos
12
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos considerando a posição T1,3 (1-6;2-18; 3-7)CondiçõesT2,2 (5-4;5-7) T1,3 (2-11; 4-21; 4-28)DadosT2,2 T1,2Esquema conceitual T1,3 (1-10; 2-26; 4-1)esquema T1,2hierarquia T2,2Restrições de integridade T1,2tipos
13
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos considerando a posição T1,3 (1-6;2-18; 3-7)1.CondiçõesT2,2 (5-4;5-7) T1,3 (2-11; 4-21; 4-28)2.DadosT2,2 T1,24.Esquema conceitual(+3) T1,3 (1-10; 2-26; 4-1)3.Esquema (-4, -2, ~7) T1,25.hierarquia T2,26.Restrições de integridade (~1) T1,27.tipos(~3)
14
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Trie dos índices: T1,3CT2,2 T1,3DT2,2 T1,2c T1,3 esquema T1,2h T2,2R T1,2t
15
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Incremento dos índices: 1. Termo `condições`: T1,3CT2,2 2. Acréscimo de `consistência` em T1: ond sT2,1
16
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Árvore de sufixos: T1,3CT2,2 ond sT2,1 T1,3 1 T2,2 T2,1 3 c s d
17
ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Vantagens cada termo só aparece uma vez busca por proximidade facilidade de associar pesos, posições Desvantagens muita redundância nas referências aos documentos
18
ESTRUTURAS DE ARQUIVOS EXERCÍCIO A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. Nesse contexto a cada dia aumenta a necessidade por sistemas capazes de recuperar informação sem levar em consideração o idioma no qual a informação esteja expressa. Além da Web, vários outros sistemas de informação que lidam com documentos, tal como bibliotecas digitais e convencionais, jornais, documentos jurídicos, entre outros, vem tendo um significativo aumento na quantidade de informação que pode estar expressa em uma grande variedade de idiomas diferentes. A recuperação de informação multilíngüe vem sendo tema de pesquisas já há bastante tempo e ao longo desse tempo ótimos resultados vêm sendo obtidos pelos pesquisadores da área. Muitos pesquisadores, inclusive, acreditam que o problema de recuperação de informação multilíngüe já está resolvido [15].
19
ESTRUTURAS DE ARQUIVOS - Textos integrais N-Gramas Divide o texto em pedaços de tamanho fixo (n): Bigramas: Di iv vi id de o te ex xt to em pe ed da aç ço os … Trigramas: Div ivi vid ide o tex ext xto em ped eda daç ços … Com marcadores de palavras: #Div ivi vid ide# #o# #tex ext xto# …
20
ESTRUTURAS DE ARQUIVOS N-Gramas Aplicaçoes Criptografia Correção de erros de grafia Compressão de textos Manipulação de índices Recuperação de textos integral
21
ESTRUTURAS DE ARQUIVOS N-Gramas erros de grafia: Erros típicos: Commputer (letra a mais) Cmputer (letra a menos) Comptuer (letras trocadas) Cumputer (letra errada) Regras de substituição: omm mmu ~ omu cmp ~ com omp mpt ptu ~ mpu put Cum ump ~ com omp
22
ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) (Practical Algorithm To Retrieve Information Coded In Alphanumerics) Um texto é considerado como uma longa cadeia de caracteres. Cada posição desta cadeia é o começo de um sufixo (semi-infinito) do texto Também chamado de árvore ou array de sufixos.
23
ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) “Um texto é considerado como uma longa cadeia de caracteres.” Um texto é considerado como uma longa cadeia de caracteres. m texto é considerado como uma longa cadeia de caracteres texto é considerado como uma longa cadeia de caracteres exto é considerado como uma longa cadeia de caracteres
24
ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres. 1 2 3 4 5 texto é considerado como uma longa cadeia de caracteres. considerado como uma longa cadeia de caracteres longa cadeia de caracteres cadeia de caracteres caracteres Sufixos significativos = pontos de indexação:
25
ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres. 1 4 10 34 40 50 d Representação 4 10 c l a t o 40 34 50 r Trie
26
ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres. 1 4 10 34 40 50 Representação Array ordenado 40 | 50 | 10 | 34 | 4 | Com supra índice-2 ca | co | lo | te |
27
ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Aplicações Índice remissivo (supra –indice-n) Pesquisa por prefixos Pesquisa de proximidade entre dois strings Pesquisa por abrangências léxicas p.ex. “abc”... “acc” inclui “abra”, “acacia” mas não “acrimonioso” Frequências de textos Pesquisa por expressões regulares Consultas: p.ex. os trigrams mais frequentes ~ a maior sub-árvore a partir do nível 3 da raíz
28
ESTRUTURAS DE ARQUIVOS Arquivos Assinatura É uma forma extremamente compacta de caracterizar um texto por meio de uma “assinatura”. Assinatura = um bitstring que caracteriza uma palavra-chave um bloco um documento X uma consulta
29
ESTRUTURAS DE ARQUIVOS Arquivos Assinatura PalavraAssinatura Computer0001 0110 0000 0110 Science1001 0000 1110 0000 Graduate1000 0101 0100 0010 Students 0000 0110 0110 0100 Study0000 0110 0110 0100 Assinatura do bloco1001 0111 1110 0110 Constante: número de bits 1 por termo (=5)
30
ESTRUTURAS DE ARQUIVOS Arquivos Assinatura – Blocos de 5 palavras A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. PalavraAssinatura Informação0001 0110 0000 0110 Web 1001 0000 1110 0000 Recuperação1000 0101 0100 0010 Inglês 0000 0110 0110 0100 Idioma(s)0010 0110 0010 0100 Assinatura do documento 1001 0111 1110 0110 0001 0110 0000 0110 1001 0000 1110 0000 1001 0111 0100 0110 0000 0000 0010 0110 0010 0100 0000 0110 0110 0100 0000 0000 0001 0110 0000 0110 1001 0000 1110 0000 0010 0110 0110 0100 1011 0111 1110 0110
31
ESTRUTURAS DE ARQUIVOS Arquivos Assinatura - Consultas A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. Consulta: “Recuperação na web” Web 1001 0000 1110 0000 Recuperação1000 0101 0100 0010 Assinatura da consulta1001 0101 1110 0010 0001 0110 0000 0110 1001 0000 1110 0000 1001 0111 0100 0110 0000 0000 0010 0110 0010 0100 0000 0110 0110 0100 0000 0000 0001 0110 0000 0110 1001 0000 1110 0000 0010 0110 0110 0100 1011 0111 1110 0110 1001 0101 1110 0010
32
ESTRUTURAS DE ARQUIVOS Hipertextos Um Hypertexto é um grafo dirigido de textos e pontos no texto. Cada nó é um texto e cada aresta aponta de um ponto em um texto a outro ponto em um texto. Na Internet o padrão é HTML Um hiperlink é dado por ”>texto
33
ESTRUTURAS DE ARQUIVOS Hipertextos EXEMPLO: HTML
34
ESTRUTURAS DE ARQUIVOS Hipertextos Sistema que combina Pesquisa com browsing: WebGlimpse Questões: desprezar hiperlinks como considerar hiperlinks locais em que profundidade considerar hiperlinks externos (ciclos, cadeias ‘infinitas’)
35
ESTRUTURAS DE ARQUIVOS EXERCÍCIO Para as palavras chave do exercício anterior criar assinaturas para as palavras chave e usar os parágrafos como unidades e criar uma assinatura para cada parágrafo. Considere as consultas: “Web multilingue” “idiomas na Web” Quais textos serão retornados?
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.