A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Sistemas de Recuperação da Informação Parte IV Multimídia.

Apresentações semelhantes


Apresentação em tema: "Sistemas de Recuperação da Informação Parte IV Multimídia."— Transcrição da apresentação:

1 Sistemas de Recuperação da Informação Parte IV Multimídia

2 MIDIAS Principais estruturas: Textos – linguagem natural Hipertextos - caminhamento Textos estruturados - esquema textos marcados – esquema multimidia (dados digitais de diferentes midias): texto som (linguagem falada, música, ruídos) imagens (fotos, pinturas, mapas, diagramas, tabelas) vídeo – sequência síncrona dos anteriores (filmes, animações de imagens)

3 MULTIMIDIA Hipertextos: Um grafo dirigido de textos e sub-textos. Cada aresta aponta ou par um texto ou para um subtext. EXEMPLO: Um Índice Remissivo (a fonte é uma página) Fonte pode ser um documento, parágrafo, palavra bloco de n caracteres

4 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : EXEMPLO: Texto 1 (t1): Integridade declarativa ou implícita: são condições inseridas no próprio esquema conceitual da aplicação desenvolvida. Isto é um dos objetivos de um modelo semântico de dados, de captar o máximo possível de condições de consistência na própria estrutura do esquema conceitual. Existem várias formas de expressar estas condições: 1) Esquema, tipos, subtipos: os próprios conceitos de classes e subclasses, atributos e domínios, impõem restrições ao tipo e formato dos dados a serem armazenados no banco de dados; 2) Outras hierarquias: também as hierarquias de agregação e agrupamento, assim como outras que porventura poderão ser desenvolvidas, permitem descrever um comportamento especial dos elementos envolvidos.

5 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade declarativa implícita condições esquema conceitual aplicação objetivos modelo semântico de dados condições de consistência estrutura esquema conceitual condições Esquema tipos Subtipos Classes Subclasses Atributos Domínios Restrições Tipo Formato Dados Armazenados banco de dados; Hierarquias Agregação Agrupamento Comportamento.

6 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade declarativa Integridade implícita condições (3) esquema conceitual (2) aplicação objetivos modelo semântico de dados condições de consistência estrutura Esquema (3) Tipos (2) Subtipos Dados (3) Classes Subclasses Atributos Domínios Restrições Formato Armazenados banco de dados Hierarquias (2) Agregação Agrupamento Comportamento.

7 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Texto 2 (t2): Integridade não-declarativa: nenhum modelo de dados é suficientemente rico para poder captar todas as restrições de integridade de uma aplicação complexa. Certas restrições não podem ser dadas de forma declarativa nas estruturas de dados e precisam ser expressas explicitamente de alguma forma. Isto pode acontecer de quatro maneiras distintas: 1) Por meio de invariantes ou asserções, que permitem descrever as restrições de integridade como fórmulas ou expressões em uma linguagem específica, que serão verificadas sempre que necessário. 2) Por meio de pré- e pós-condições associadas às operações (vide parágrafo seguinte);

8 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade não-declarativa modelo de dados restrições de integridade aplicação complexa Restrições forma declarativa estruturas de dados Expressas explicitamente Invariantes asserções restrições de integridade Fórmulas Expressões linguagem específica pré-condições pós-condições operações

9 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade não-declarativa Integridade (3) modelo de dados restrições de integridade (2) aplicação complexa Restrições (3) forma declarativa estruturas de dados Dados (2) Expressas explicitamente Invariantes asserções Fórmulas Expressões linguagem específica pré-condições pós-condições Condições (2) operações

10 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Condições (2) Dados (2) Integridade (3) restrições de integridade (2) Restrições (3) condições (3) Dados (3) Esquema (3) esquema conceitual (2) Hierarquia (2) Tipos (2) T1: T2:

11 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos T1,3CondiçõesT2,2 T1,3DadosT2,2 T1,2Esquema conceitual T1,3esquema T1,2hierarquia T2,2Restrições de integridade T1,2tipos

12 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos considerando a posição T1,3 (1-6;2-18; 3-7)CondiçõesT2,2 (5-4;5-7) T1,3 (2-11; 4-21; 4-28)DadosT2,2 T1,2Esquema conceitual T1,3 (1-10; 2-26; 4-1)esquema T1,2hierarquia T2,2Restrições de integridade T1,2tipos

13 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos considerando a posição T1,3 (1-6;2-18; 3-7)1.CondiçõesT2,2 (5-4;5-7) T1,3 (2-11; 4-21; 4-28)2.DadosT2,2 T1,24.Esquema conceitual(+3) T1,3 (1-10; 2-26; 4-1)3.Esquema (-4, -2, ~7) T1,25.hierarquia T2,26.Restrições de integridade (~1) T1,27.tipos(~3)

14 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Trie dos índices: T1,3CT2,2 T1,3DT2,2 T1,2c T1,3 esquema T1,2h T2,2R T1,2t

15 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Incremento dos índices: 1. Termo `condições`: T1,3CT2,2 2. Acréscimo de `consistência` em T1: ond sT2,1

16 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Árvore de sufixos: T1,3CT2,2 ond sT2,1 T1,3 1 T2,2 T2,1 3 c s d

17 ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Vantagens cada termo só aparece uma vez busca por proximidade facilidade de associar pesos, posições Desvantagens muita redundância nas referências aos documentos

18 ESTRUTURAS DE ARQUIVOS EXERCÍCIO A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. Nesse contexto a cada dia aumenta a necessidade por sistemas capazes de recuperar informação sem levar em consideração o idioma no qual a informação esteja expressa. Além da Web, vários outros sistemas de informação que lidam com documentos, tal como bibliotecas digitais e convencionais, jornais, documentos jurídicos, entre outros, vem tendo um significativo aumento na quantidade de informação que pode estar expressa em uma grande variedade de idiomas diferentes. A recuperação de informação multilíngüe vem sendo tema de pesquisas já há bastante tempo e ao longo desse tempo ótimos resultados vêm sendo obtidos pelos pesquisadores da área. Muitos pesquisadores, inclusive, acreditam que o problema de recuperação de informação multilíngüe já está resolvido [15].

19 ESTRUTURAS DE ARQUIVOS - Textos integrais N-Gramas Divide o texto em pedaços de tamanho fixo (n): Bigramas: Di iv vi id de o te ex xt to em pe ed da aç ço os … Trigramas: Div ivi vid ide o tex ext xto em ped eda daç ços … Com marcadores de palavras: #Div ivi vid ide# #o# #tex ext xto# …

20 ESTRUTURAS DE ARQUIVOS N-Gramas Aplicaçoes Criptografia Correção de erros de grafia Compressão de textos Manipulação de índices Recuperação de textos integral

21 ESTRUTURAS DE ARQUIVOS N-Gramas erros de grafia: Erros típicos: Commputer (letra a mais) Cmputer (letra a menos) Comptuer (letras trocadas) Cumputer (letra errada) Regras de substituição: omm mmu ~ omu cmp ~ com omp mpt ptu ~ mpu put Cum ump ~ com omp

22 ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) (Practical Algorithm To Retrieve Information Coded In Alphanumerics) Um texto é considerado como uma longa cadeia de caracteres. Cada posição desta cadeia é o começo de um sufixo (semi-infinito) do texto Também chamado de árvore ou array de sufixos.

23 ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) “Um texto é considerado como uma longa cadeia de caracteres.” Um texto é considerado como uma longa cadeia de caracteres. m texto é considerado como uma longa cadeia de caracteres texto é considerado como uma longa cadeia de caracteres exto é considerado como uma longa cadeia de caracteres

24 ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres. 1 2 3 4 5 texto é considerado como uma longa cadeia de caracteres. considerado como uma longa cadeia de caracteres longa cadeia de caracteres cadeia de caracteres caracteres Sufixos significativos = pontos de indexação:

25 ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres. 1 4 10 34 40 50 d Representação 4 10 c l a t o 40 34 50 r Trie

26 ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres. 1 4 10 34 40 50 Representação Array ordenado 40 | 50 | 10 | 34 | 4 | Com supra índice-2 ca | co | lo | te |

27 ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Aplicações Índice remissivo (supra –indice-n) Pesquisa por prefixos Pesquisa de proximidade entre dois strings Pesquisa por abrangências léxicas p.ex. “abc”... “acc” inclui “abra”, “acacia” mas não “acrimonioso” Frequências de textos Pesquisa por expressões regulares Consultas: p.ex. os trigrams mais frequentes ~ a maior sub-árvore a partir do nível 3 da raíz

28 ESTRUTURAS DE ARQUIVOS Arquivos Assinatura É uma forma extremamente compacta de caracterizar um texto por meio de uma “assinatura”. Assinatura = um bitstring que caracteriza uma palavra-chave  um bloco  um documento X uma consulta

29 ESTRUTURAS DE ARQUIVOS Arquivos Assinatura PalavraAssinatura Computer0001 0110 0000 0110 Science1001 0000 1110 0000 Graduate1000 0101 0100 0010 Students 0000 0110 0110 0100 Study0000 0110 0110 0100 Assinatura do bloco1001 0111 1110 0110 Constante: número de bits 1 por termo (=5)

30 ESTRUTURAS DE ARQUIVOS Arquivos Assinatura – Blocos de 5 palavras A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. PalavraAssinatura Informação0001 0110 0000 0110 Web 1001 0000 1110 0000 Recuperação1000 0101 0100 0010 Inglês 0000 0110 0110 0100 Idioma(s)0010 0110 0010 0100 Assinatura do documento 1001 0111 1110 0110 0001 0110 0000 0110 1001 0000 1110 0000 1001 0111 0100 0110 0000 0000 0010 0110 0010 0100 0000 0110 0110 0100 0000 0000 0001 0110 0000 0110 1001 0000 1110 0000 0010 0110 0110 0100 1011 0111 1110 0110

31 ESTRUTURAS DE ARQUIVOS Arquivos Assinatura - Consultas A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. Consulta: “Recuperação na web” Web 1001 0000 1110 0000 Recuperação1000 0101 0100 0010 Assinatura da consulta1001 0101 1110 0010 0001 0110 0000 0110 1001 0000 1110 0000 1001 0111 0100 0110 0000 0000 0010 0110 0010 0100 0000 0110 0110 0100 0000 0000 0001 0110 0000 0110 1001 0000 1110 0000 0010 0110 0110 0100 1011 0111 1110 0110 1001 0101 1110 0010

32 ESTRUTURAS DE ARQUIVOS Hipertextos Um Hypertexto é um grafo dirigido de textos e pontos no texto. Cada nó é um texto e cada aresta aponta de um ponto em um texto a outro ponto em um texto. Na Internet o padrão é HTML Um hiperlink é dado por ”>texto

33 ESTRUTURAS DE ARQUIVOS Hipertextos EXEMPLO: HTML

34 ESTRUTURAS DE ARQUIVOS Hipertextos Sistema que combina Pesquisa com browsing: WebGlimpse Questões: desprezar hiperlinks como considerar hiperlinks locais em que profundidade considerar hiperlinks externos (ciclos, cadeias ‘infinitas’)

35 ESTRUTURAS DE ARQUIVOS EXERCÍCIO Para as palavras chave do exercício anterior criar assinaturas para as palavras chave e usar os parágrafos como unidades e criar uma assinatura para cada parágrafo. Considere as consultas: “Web multilingue” “idiomas na Web” Quais textos serão retornados?


Carregar ppt "Sistemas de Recuperação da Informação Parte IV Multimídia."

Apresentações semelhantes


Anúncios Google