A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Paulo Roberto Recuperação de Informação Multimídia.

Apresentações semelhantes


Apresentação em tema: "Paulo Roberto Recuperação de Informação Multimídia."— Transcrição da apresentação:

1 Paulo Roberto Recuperação de Informação Multimídia

2 Roteiro n Motivação n Recuperação de informação textual n Recuperação de informação multimídia n Conclusões n Referências

3 Motivação Crescimento das coleções de textos digitais (bibliotecas digitais, Internet, Intranets,...) Tempo de busca longo / baixa precisão Novas técnicas de recuperação de informações (IR) +

4 Etapas da Recuperação de Informações (IR) Coleta da Informação disponível Seleção da Informação desejada Apresentação ao Usuário

5 Paradigmas de IR

6 Busca de Informação na Web: n Como localizar a informação relevante? n Como modelar o interesse de um usuário particular? Aprox docs!!!

7 Medidas de Eficácia para Busca e Filtragem Recall: total de documentos relevantes retornados dividido pelo número total dos relevantes. Precisão: documentos relevantes retornados dividido pelo número total de retornados

8 Por que Agentes + IR? n IR se encaixa no modelo de agentes; n Necessidade de acesso a múltiplas fontes de informação; n Necessidade de distribuição

9 Agentes de Busca Exemplos: Radix, AltaVista, Lycos, Excite,... Browser Consulta Resposta Servidor de Consultas Base de Índices Search Engine Usuário Busca Web )--( Robô Indexing Engine

10 Agentes que Filtram Informação Browser Agente de Filtragem Internet Servidor de News Indexing Engine Base de Índices Perfil do usuário ex.: Metacrawler, NewsHound, etc.

11 Montando a Base de Índices n Dado um documento, identificar os conceitos que descrevem o seu conteúdo e quão bem eles o descrevem. n Pesos das Palavras como indicação de relevância: –Frequência relativa da palavra no texto (TFIDF) –Frequência da palavra em relação a outros documentos do conjunto que está sendo indexado. –Colocação da palavra na estrutura do documento (título, início, negrito,...) n Palavras com maiores pesos são selecionadas, formando um vetor de representação.

12 Exemplo de Representação

13 Estrutura de Arquivos p/ IR (Montando a Base de Índices) n Arquivos de índices invertidos

14 Indexação n Selecionar palavras da página HTML –Converter uma cadeia de caracteres em uma cadeia de palavras/tokens. (/, -, 0-9,...) n Stop-list –Palavras sem conteúdo semântico são retiradas da indexação n Montar o centróide da página –Palavras-chave que mais aparecem na página

15 Indexação n Indexação Distribuída, Base compartilhada –Divisão por: Localização Geográfica, Rede, Conteúdo,.. n Stemming –Armazenar apenas o radical da palavra, permitindo variações morfológicas dos termos durante o casamento

16 Estratégias de Busca n Ontologias para aumentar precisão e recall. n Stemming n String searching –String matching exato e aproximado (N-Grams) n Expansão do vocabulário –a informação buscada pode ser expressada por diferentes palavras –utiliza um dicionário de sinônimos

17 Extração de Informação n Extrai dados relevantes (para um determinado objetivo) a partir de documentos digitais. n Etapas: – reconhecimento do trecho de informação; – extração da informação. n Exemplo (projeto de mestrado de Carla): BD (CNCT): Autor:.... Ano:.... Título:.... Local:....

18 Agentes para IR n Transformar o grande número de fontes de informação em rede de agentes de informação. n Organização: – Estruturação dos agentes. n Conhecimento: –Ontologia ou modelo do seu domínio específico. –Modelo das fontes de informação. n Comunicação: –Protocolo de comunicação comum entre os agentes. n Aprendizado: –Melhorar a exatidão e performance com o tempo. –Lidar com as mudanças do ambiente

19 Rede de Agentes

20 IR-Multimídia n Motivação: –Existência de grandes volumes de textos, gráficos, narrações, sons e vídeos acessíveis em bases de dados distribuídas n Aplicações: –Diagnósticos médicos (Medical Image Databases) –Reconhecimento de padrões (faces, impressões digitais, assinaturas, riffs e melodias musicais, etc.) –Pesquisa multimídia

21 Convergência Digital

22 Recuperação de Informações Multimídia n Recuperação baseada em conteúdo n Mas como indexar áudio/vídeo? n Problemas... –Descrevendo imagens/sons através de palavras (cada pessoa conta o filme de uma maneira diferente...) –Extraindo informações de uma amostra de áudio...

23 Estado da Arte n Computação Musical, processamento de som, localização frequência-tempo –Narrações: busca direcionada por voz. Dificuldade de tornar-se independente do usuário –Música: busca baseada em valores (timbre, altura, duração, etc.)

24 Estado da Arte n visão computacional, reconhecimento de padrões e processamento de imagem –Fotos: busca baseada em características. Limitações na tecnologia restringem a busca a domínios específicos –Vídeo: sofre dos mesmos problemas das fotos. Compara quadros adjacentes com mudanças estruturais quadro-a-quadro. Parâmetros de movimento de câmera (zoom, fading, etc.)

25 Recuperando Áudio n Categorias de recuperação: –por um trecho específico –por atributos acústicos mensuráveis –por propriedades subjetivas do som n Indexando formas de onda vs. Indexando arquivos MIDI

26 Recuperação de Informação Musical Baseada em Conteúdo n Uso da tecnologia MIDI facilita o tratamento... n MIDI: nota, instrumento, altura, etc

27 Recuperando Vídeo Parsing Extração do conteúdo e indexação Recuperação e browsing

28 Categorias de Recuperação de Vídeo n High-level –Utiliza um conjunto de termos de indexação predefinidos para anotação de vídeo. –Os termos são organizados em categorias ontológicas de alto nível como ação, tempo, espaço, etc. –Desenvolveu-se a partir da perspectiva de indexação manual –É indicada para lidar com pequenas quantidades de vídeos novos e para acessar bases de dados anotadas previamente

29 Categorias de Recuperação de Vídeo n Low-level –Provê acesso a vídeo baseado em propriedades como cor, textura, formas, etc. –Consiste em extrair características dos dados de vídeo, organizar essas características baseado em alguma distância métrica e usar casamento por similaridade para recuperar o vídeo –Indexação automática –Principal limitação: ausência de semântica associada às características

30 Categorias de Recuperação de Vídeo n Domínio específico –Combina as duas anteriores: high-level para restringir a extração e o processamento low-level –É efetiva no domínio da aplicação –Ex.: parsing e recuperação de vídeos de notícias –Limitação: estreito domínio de aplicabilidade

31 Técnicas de Indexação de Vídeo n Transformada de Fourier –Processamento de padrões presentes em imagens n Descritores de Fourier –identificação dos contornos de figuras geométricas primitivas em imagens –ex: AppletApplet

32 Técnicas de Indexação (A/V) n Wavelets –ondas pequenas com determinadas propriedades que as tornam adequadas a servirem de base para decomposição de outras funções, assim como senos e cossenos servem de base para decomposições de Fourier. –Ferramenta matemática para analisar, processar e sintetizar imagens e sinais onde o método de Fourier não obtém performance aceitável –Aplicações: waveform matching, segmentação de sinais e time-frequency localization –São adaptáveis para a aplicação em questão

33 Query Based in Content (QBIC) n Ferramenta de busca, IBM n Realiza consultas em grandes bases de dados de imagens baseadas no conteúdo visual dos dados n Consultas podem ser feitas através de exemplos –Mostre-me imagens parecidas com esta n Ou por descrições das propriedades –Dê-me imagens que contenham muito vermelho

34 Trademark Server n Permite navegação e busca de padrões de marcas registradas. n O sistema combina o IBM's DB2 Universal Database para consultar os campos numéricos e textuais e o QBIC (tm) para a consulta das figuras n Versão demo... Versão demo...

35 Considerações Finais n Repositórios multimídia precisam mais do que armazenagem e acesso em rede –indexação n Extração automática completa ainda é impossível –interface n Mantra para desenvolvimento: Overview first, zoom and filter, then details on demand Shneiderman

36 Referências - Papers n Bibliography os Papers on Multimedia Retrieval. n Seminários sobre Recuperação de Informação. Paulo Oliva e Mariana Neves n Representação e Recuperação Baseada em Conteúdo de Partituras Musicais em Bases de Dados Orientadas a Objetos. Figueiredo, M.B. Traina, C. Traina, ª n Busca e Recuperação de Informação Musical. Miccolis, A. V Simpósio Brasileiro de Computação e Música, UFRJ n Image and Sound Digital Libraries Need More Than Storage and Networked Access. Aigrain, P. ISDL95

37 Referências - Links n QBIC Homepage. n Trademark Server. n Wavelets at LSI. n Computer-Assisted Perception: A Framework for Multimedia Interaction with Existing Media n Fourier Descriptors.


Carregar ppt "Paulo Roberto Recuperação de Informação Multimídia."

Apresentações semelhantes


Anúncios Google