Sistemas de Recuperação da Informação Parte IV Multimídia.

Slides:



Advertisements
Apresentações semelhantes
Modelo Probabilístico
Advertisements

Operações sobre o Texto
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
I- Introdução A Evolução dos Modelos de Dados e dos Sistemas de Gerência de Banco de Dados.
Hipermídia Aula 3.
Tecnologia Hipermídia e Multimídia
Sistemas automatizados de recuperação e disseminação da informação
Indexação Automática de Documentos
Resumo 1.1) Introdução 1.2) Abordagem Convencional de Arquivos
Métodos para representação de estruturas hierárquicas
Especificação de Consultas
Propriedades de Documentos
Modelos de Recuperação de Informação
LINGUAGEM DE PROGRAMAÇÃO ORIENTADA A OBJETOS INTRODUÇÃO AOS APLICATIVOS JAVA Prof. Thiago Pereira Rique
SISTEMAS DE INFORMAÇÃO
Árvores Equilibradas Sumário Splay Vermelho-Preto AA e BB
Hash Extensivel Rápido acesso a dados com um custo mínimo de processamento (overhead cost).
Introdução a Programação Renata Freire
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
Hashing (Espalhamento)
Análise Léxica Supondo o trecho de programa abaixo:
Tecnologia para Web JavaScript
Robson Godoi / Sandra Siebra
A Linguagem HTML.
Tesauros José Antonio M. Nascimento.
I- Introdução A Evolução dos Modelos de Dados e dos Sistemas de Gerência de Banco de Dados.
XML Extended Markup Language
Sistemas Operacionais
Sistemas Operacionais
CADEIA DE CARACTERES (Strings)
Usando Microsoft Access 2010
Rodrigo Cristiano Silva
1ª Aula de Html Íria Albuquerque.
BD.
INTRODUÇÃO ÁS BASES DE DADOS
Mineração da Web Recuperação de Informação
Estudo de Caso: um editor de documentos
Professor: Márcio Amador
Análise Léxica.
SISTEMAS OPERACIONAIS I Gerenciamento de Arquivos
Analise Semântica aula-10-analise-semântica.pdf.
Banco de Dados Aplicado ao Desenvolvimento de Software
Conceito de Árvores – Árvores Binárias
Tradução Dirigida por Sintaxe
Introdução a Banco de Dados Aula 04
Introdução a Banco de Dados Aula 01
Requisitos de Software
INE Fundamentos de Matemática Discreta para a Computação
Faculdade Pernambucana - FAPE Setembro/2007
1 24/4/ :29 FMU – 1. Semestre – Tecnologia – Analise e Desenvolvimento de Sistemas Professor: Eduardo Silvestri Aluno:Clóvis de Oliveira- RA
PROFª Leila de Souza Ganem
Objetivos Ao concluir esta Disciplina espera-se que os alunos sejam capazes de: Distinguir os conceitos de Estrutura e Dados; Compreender o que são, como.
Sistemas de Arquivos Sistemas Operacionais Profa. Priscila Facciolli
Karine Alessandra Córdova
PROFª. Leila de Souza Ganem
Estruturas de Dados Murilo Salgado Razoli.
Prof. Wolley Profa. Érika
Sistemas de Arquivos. Alocação em memória – Problemas Quantidade Limitada de Informações Perda de informações quando o processo é terminado Vários processos.
Faculdade Pernambuca - FAPE Compiladores Abril/2007 Compiladores Abril/2007.
Linguagem de Programação
Sistemas Multimídia Distribuídos
Sistemas para Internet Algoritmos e Lógica de Programação
Árvore PATRICIA Pratical Algorithm To Retrieve Information Coded In Alphanumeric Disciplina de Estrutura de Dados Aluna: Mônica Lorea Matzenauer.
Lógica de Programação Germano Marcos. Tipos de dados Na manipulação de computadores o usuário depara-se com inúmeras funcionalidades como mensagens, equações,
Texto e Linguagens Multimédia e Propriedades Bibliotecas Digitais Engenharia Biomédica Universidade do Minho Instructor: Joaquim Macedo Baseada em apresentações.
Análise e Design de Software Site:
Capítulo 14 Camada 6 A Camada de Apresentação. Sumário A Camada de Apresentação.
Apresentação TI Alunos: Isadora Bernardo, Lucas Medeiros, Marcela Muniz e Renata Coutinho.
Design para Web 3 XHTML.
Transcrição da apresentação:

Sistemas de Recuperação da Informação Parte IV Multimídia

MIDIAS Principais estruturas: Textos – linguagem natural Hipertextos - caminhamento Textos estruturados - esquema textos marcados – esquema multimidia (dados digitais de diferentes midias): texto som (linguagem falada, música, ruídos) imagens (fotos, pinturas, mapas, diagramas, tabelas) vídeo – sequência síncrona dos anteriores (filmes, animações de imagens)

MULTIMIDIA Hipertextos: Um grafo dirigido de textos e sub-textos. Cada aresta aponta ou par um texto ou para um subtext. EXEMPLO: Um Índice Remissivo (a fonte é uma página) Fonte pode ser um documento, parágrafo, palavra bloco de n caracteres

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : EXEMPLO: Texto 1 (t1): Integridade declarativa ou implícita: são condições inseridas no próprio esquema conceitual da aplicação desenvolvida. Isto é um dos objetivos de um modelo semântico de dados, de captar o máximo possível de condições de consistência na própria estrutura do esquema conceitual. Existem várias formas de expressar estas condições: 1) Esquema, tipos, subtipos: os próprios conceitos de classes e subclasses, atributos e domínios, impõem restrições ao tipo e formato dos dados a serem armazenados no banco de dados; 2) Outras hierarquias: também as hierarquias de agregação e agrupamento, assim como outras que porventura poderão ser desenvolvidas, permitem descrever um comportamento especial dos elementos envolvidos.

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade declarativa implícita condições esquema conceitual aplicação objetivos modelo semântico de dados condições de consistência estrutura esquema conceitual condições Esquema tipos Subtipos Classes Subclasses Atributos Domínios Restrições Tipo Formato Dados Armazenados banco de dados; Hierarquias Agregação Agrupamento Comportamento.

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade declarativa Integridade implícita condições (3) esquema conceitual (2) aplicação objetivos modelo semântico de dados condições de consistência estrutura Esquema (3) Tipos (2) Subtipos Dados (3) Classes Subclasses Atributos Domínios Restrições Formato Armazenados banco de dados Hierarquias (2) Agregação Agrupamento Comportamento.

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Texto 2 (t2): Integridade não-declarativa: nenhum modelo de dados é suficientemente rico para poder captar todas as restrições de integridade de uma aplicação complexa. Certas restrições não podem ser dadas de forma declarativa nas estruturas de dados e precisam ser expressas explicitamente de alguma forma. Isto pode acontecer de quatro maneiras distintas: 1) Por meio de invariantes ou asserções, que permitem descrever as restrições de integridade como fórmulas ou expressões em uma linguagem específica, que serão verificadas sempre que necessário. 2) Por meio de pré- e pós-condições associadas às operações (vide parágrafo seguinte);

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade não-declarativa modelo de dados restrições de integridade aplicação complexa Restrições forma declarativa estruturas de dados Expressas explicitamente Invariantes asserções restrições de integridade Fórmulas Expressões linguagem específica pré-condições pós-condições operações

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Integridade não-declarativa Integridade (3) modelo de dados restrições de integridade (2) aplicação complexa Restrições (3) forma declarativa estruturas de dados Dados (2) Expressas explicitamente Invariantes asserções Fórmulas Expressões linguagem específica pré-condições pós-condições Condições (2) operações

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos com lista de documentos Condições (2) Dados (2) Integridade (3) restrições de integridade (2) Restrições (3) condições (3) Dados (3) Esquema (3) esquema conceitual (2) Hierarquia (2) Tipos (2) T1: T2:

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos T1,3CondiçõesT2,2 T1,3DadosT2,2 T1,2Esquema conceitual T1,3esquema T1,2hierarquia T2,2Restrições de integridade T1,2tipos

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos considerando a posição T1,3 (1-6;2-18; 3-7)CondiçõesT2,2 (5-4;5-7) T1,3 (2-11; 4-21; 4-28)DadosT2,2 T1,2Esquema conceitual T1,3 (1-10; 2-26; 4-1)esquema T1,2hierarquia T2,2Restrições de integridade T1,2tipos

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Dicionário de termos ponderados com lista de documentos considerando a posição T1,3 (1-6;2-18; 3-7)1.CondiçõesT2,2 (5-4;5-7) T1,3 (2-11; 4-21; 4-28)2.DadosT2,2 T1,24.Esquema conceitual(+3) T1,3 (1-10; 2-26; 4-1)3.Esquema (-4, -2, ~7) T1,25.hierarquia T2,26.Restrições de integridade (~1) T1,27.tipos(~3)

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Trie dos índices: T1,3CT2,2 T1,3DT2,2 T1,2c T1,3 esquema T1,2h T2,2R T1,2t

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Incremento dos índices: 1. Termo `condições`: T1,3CT2,2 2. Acréscimo de `consistência` em T1: ond sT2,1

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Árvore de sufixos: T1,3CT2,2 ond sT2,1 T1,3 1 T2,2 T2,1 3 c s d

ESTRUTURAS DE ARQUIVOS Arquivos invertidos : Vantagens cada termo só aparece uma vez busca por proximidade facilidade de associar pesos, posições Desvantagens muita redundância nas referências aos documentos

ESTRUTURAS DE ARQUIVOS EXERCÍCIO A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. Nesse contexto a cada dia aumenta a necessidade por sistemas capazes de recuperar informação sem levar em consideração o idioma no qual a informação esteja expressa. Além da Web, vários outros sistemas de informação que lidam com documentos, tal como bibliotecas digitais e convencionais, jornais, documentos jurídicos, entre outros, vem tendo um significativo aumento na quantidade de informação que pode estar expressa em uma grande variedade de idiomas diferentes. A recuperação de informação multilíngüe vem sendo tema de pesquisas já há bastante tempo e ao longo desse tempo ótimos resultados vêm sendo obtidos pelos pesquisadores da área. Muitos pesquisadores, inclusive, acreditam que o problema de recuperação de informação multilíngüe já está resolvido [15].

ESTRUTURAS DE ARQUIVOS - Textos integrais N-Gramas Divide o texto em pedaços de tamanho fixo (n): Bigramas: Di iv vi id de o te ex xt to em pe ed da aç ço os … Trigramas: Div ivi vid ide o tex ext xto em ped eda daç ços … Com marcadores de palavras: #Div ivi vid ide# #o# #tex ext xto# …

ESTRUTURAS DE ARQUIVOS N-Gramas Aplicaçoes Criptografia Correção de erros de grafia Compressão de textos Manipulação de índices Recuperação de textos integral

ESTRUTURAS DE ARQUIVOS N-Gramas erros de grafia: Erros típicos: Commputer (letra a mais) Cmputer (letra a menos) Comptuer (letras trocadas) Cumputer (letra errada) Regras de substituição: omm mmu ~ omu cmp ~ com omp mpt ptu ~ mpu put Cum ump ~ com omp

ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) (Practical Algorithm To Retrieve Information Coded In Alphanumerics) Um texto é considerado como uma longa cadeia de caracteres. Cada posição desta cadeia é o começo de um sufixo (semi-infinito) do texto Também chamado de árvore ou array de sufixos.

ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) “Um texto é considerado como uma longa cadeia de caracteres.” Um texto é considerado como uma longa cadeia de caracteres. m texto é considerado como uma longa cadeia de caracteres texto é considerado como uma longa cadeia de caracteres exto é considerado como uma longa cadeia de caracteres

ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres texto é considerado como uma longa cadeia de caracteres. considerado como uma longa cadeia de caracteres longa cadeia de caracteres cadeia de caracteres caracteres Sufixos significativos = pontos de indexação:

ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres d Representação 4 10 c l a t o r Trie

ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Um texto é considerado como uma longa cadeia de caracteres Representação Array ordenado 40 | 50 | 10 | 34 | 4 | Com supra índice-2 ca | co | lo | te |

ESTRUTURAS DE ARQUIVOS Árvores PATRICIA (PAT trees e PAT arrays) Aplicações Índice remissivo (supra –indice-n) Pesquisa por prefixos Pesquisa de proximidade entre dois strings Pesquisa por abrangências léxicas p.ex. “abc”... “acc” inclui “abra”, “acacia” mas não “acrimonioso” Frequências de textos Pesquisa por expressões regulares Consultas: p.ex. os trigrams mais frequentes ~ a maior sub-árvore a partir do nível 3 da raíz

ESTRUTURAS DE ARQUIVOS Arquivos Assinatura É uma forma extremamente compacta de caracterizar um texto por meio de uma “assinatura”. Assinatura = um bitstring que caracteriza uma palavra-chave  um bloco  um documento X uma consulta

ESTRUTURAS DE ARQUIVOS Arquivos Assinatura PalavraAssinatura Computer Science Graduate Students Study Assinatura do bloco Constante: número de bits 1 por termo (=5)

ESTRUTURAS DE ARQUIVOS Arquivos Assinatura – Blocos de 5 palavras A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. PalavraAssinatura Informação Web Recuperação Inglês Idioma(s) Assinatura do documento

ESTRUTURAS DE ARQUIVOS Arquivos Assinatura - Consultas A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. Consulta: “Recuperação na web” Web Recuperação Assinatura da consulta

ESTRUTURAS DE ARQUIVOS Hipertextos Um Hypertexto é um grafo dirigido de textos e pontos no texto. Cada nó é um texto e cada aresta aponta de um ponto em um texto a outro ponto em um texto. Na Internet o padrão é HTML Um hiperlink é dado por ”>texto

ESTRUTURAS DE ARQUIVOS Hipertextos EXEMPLO: HTML

ESTRUTURAS DE ARQUIVOS Hipertextos Sistema que combina Pesquisa com browsing: WebGlimpse Questões: desprezar hiperlinks como considerar hiperlinks locais em que profundidade considerar hiperlinks externos (ciclos, cadeias ‘infinitas’)

ESTRUTURAS DE ARQUIVOS EXERCÍCIO Para as palavras chave do exercício anterior criar assinaturas para as palavras chave e usar os parágrafos como unidades e criar uma assinatura para cada parágrafo. Considere as consultas: “Web multilingue” “idiomas na Web” Quais textos serão retornados?