A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade.

Apresentações semelhantes


Apresentação em tema: "Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade."— Transcrição da apresentação:

1 Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade Federal de Minas Gerais Simpósio Jovem Cientista Academia Brasileira de Ciências Rio de Janeiro, 05 de Maio de 2008

2 Ciência da Computação Foco na Resolução de Problemas! Ciência da computação tem tanto a ver com o computador como a Astronomia com o telescópio, a Biologia com o microscópio, ou a Química com os tubos de ensaio. (Dijkstra) Aspectos de Ciência, Matemática, e Engenharia Grande interdisciplinaridade Se tornando ubíqua!

3 Computação: Interface Com outras Ciências e Engenharias Computação Matemática Biologia Engenharia Eletrica/ Eletrônica Física Ciência da Informação Estatistica E muitos outras...

4 Ciência da Computação – Grandes Áreas (ACM) Hardware Computer Systems Organization Software Data Theory of Computation Mathematics of Computing Information Systems MODELS AND PRINCIPLES DATABASE MANAGEMENT INFORMATION STORAGE AND RETRIEVAL INFORMATION SYSTEMS APPLICATIONS INFORMATION INTERFACES AND PRESENTATION (e.g., HCI) Computing Methodologies Computer Applications

5 Ciência da Computação – Grandes Desafios (Brasil) 1. Gestão da informação em grandes volumes de dados multimídia distribuídos 2. Modelagem computacional de sistemas complexos artificiais, naturais e sócioculturais e da interação homem-natureza 3. Impactos para a área da computação da transição do silício para novas tecnologias 4. Acesso participativo e universal do cidadão brasileiro ao conhecimento 5. Desenvolvimento tecnológico de qualidade: sistemas disponíveis, corretos, seguros, escaláveis, persistentes e ubíquos

6 Gestão da Informação em Grandes Volumes de Dados Multimídia Distribuídos Problema: Quase tudo que vemos, lemos, ouvimos, escrevemos, medimos é coletado e disponibilizado em sistemas de informação computacionais Captura-se cada vez mais dados da natureza. Como viver, trabalhar, ter lazer e evoluir nesse universo informacional? Como tornar isso um ganho para a sociedade? Objetivo: Desenvolver soluções para o tratamento, a recuperação e a disseminação de informação relevante, a partir de volumes exponencialmente crescentes de várias modalidades de dados, incluindo multimídia

7 Soluções em Ciência da Computação Algoritmos e estruturas de dados formam o núcleo da ciência da computação Algoritmo Descrição de um padrão de comportamento, expresso em termos de um conjunto finito de ações (Dijkstra, 1971) Implementável como conjuntos de instruções de máquina Manipulam dados Estruturas de Dados Representação organizada dos dados para fins de manipulação eficiente

8 Foco da Pesquisa Teorias e Métodos para Sistemas de Informação Complexos Bibliotecas Digitais Algoritmos e Métodos para Recuperação de Informação e Bancos de Dados Aprendizado de Máquina

9 Teorias e Métodos para Sistemas de Informação Complexos Bibliotecas Digitais Sistemas de informação bastante complexos que envolvem coleções de objetos digitais e conjuntos de serviços (e.g., busca, navegação, recomendação) normalmente customizados para uma comunidade alvo.

10 Teorias e Métodos para Sistemas de Informação Complexos Contribuições Teóricas: Modelo 5S (Streams, Structures, Spaces Scenarios, Societies) 1o. Modelo Teórico-Formal para a área Modelos de Qualidade Ontologias. Contribuições Práticas : Ferramentas de Design: 5SGraph Ferramentas de Geração de Código: 5SL + 5SGen Arcabouços de Componentes: WS-ODL Ferramentas de Aferição de Qualidade: 5SQual

11

12

13 Algoritmos e Métodos para Recuperação de Informação e Bancos de Dados ? Tecnologia Repositório (Web, Bibliotecas Digitais, Bancos de Dados)

14 Exemplos de Tópicos de Pesquisa Modelos de RI e Técnicas de Busca: Determinam a qualidade da resposta a consultas e formam a base tecnológica do componente principal de qualquer sistema de RI, o processador de consultas

15 Modelos de RI e Técnicas de Busca Lazy Associative Ranking (SIGIR 2008) CCA (SIGIR 2007)

16 Modelos de RI e Técnicas de Busca

17 Exemplos de Tópicos de Pesquisa Modelos de RI para Recuperação de Imagens baseada em Conteúdo Permitem a recuperação de imagens baseadas em seu conteúdo (cor, forma, textura) Problemas: propriedades subjetivas da imagem são muito difíceis de capturar, diferentes percepções para diferentes usuários Solução: combinar diferentes descritores para capturar as diversas propriedades da imagem Descritor: função de extração de características + função de similaridade Abordagem de combinação proposta: programação genética

18 Exemplos de Tópicos de Pesquisa Modelos de RI para Recuperação de Imagens baseada em Conteudo TORRES, Ricardo da Silva ; FALção, Alexandre X ; GONÇALVES, Marcos André ; Papa, J. P. ; ZHANG, Bãoping ; FAN, Weiguo FOX, Edward A. A Genetic Programming Framework for Content-based Image Retrieval. Pattern Recognition, 2008.

19 Exemplos de Tópicos de Pesquisa Classificação Automatica de Texto Tarefa de assinalar automaticamente um documento a categorias semânticas pré-definidas Baseada em aprendizado de máquina Coleção de treino para geração de um classificador Mas as características dos documentos podem mudar ao longo do tempo Novas informações são geradas Novos termos são introduzidos Novos campos de conhecimento emergem e grandes campos são divididos em campos mais especializados Dimensão temporal ignorada pelas técnicas atuais de classificação automática de texto

20 Exemplos de Tópicos de Pesquisa Classificação Automatica de Texto 1o. trabalho a estudar e propor uma metodologia para analisar os fatores temporais em classificação Conclui-se que ganhos de até 20% na performance do classificador podem ser obtidos se esses fatores são isolados Rocha, L. ; Mourão, F. ; GONÇALVES, Marcos André ; MEIRA JR, Wagner. Characterizing and Understanding the Impact of Temporal Evolution on Document Classification. In Proceedings of the First ACM International Conference on Web Search and Data Mining -- WSDM 2008.

21 Classificação Automatica de Texto

22 Exemplos de Tópicos de Pesquisa Deduplicação em Bancos de Dados Bancos de Dados podem conter dados replicados devido a: falta de padronização erros na entradas dos dados falta de chaves de identificação, etc. Dados duplicados causam degradação de performance, perda da qualidade da informação, aumento de custos operacionais, etc. Identificação de replicas manual: tarefa cara e custosa Solução proposta: método que usa programação genética para identificar e combinar as melhores evidências para produzir uma função de similaridade que maximiza a performance Identificar o maior número possível de réplicas sem produzir erros Evidência: similaridade entre dois campos do banco de dados

23 Exemplos de Tópicos de Pesquisa Deduplicação em Bancos de Dados Carvalho, CARVALHO, Moises Gomes de ; LAENDER, Alberto H F ; GONÇALVES, Marcos André ; SILVA, Altigran Soares da. Replica Identification using Genetic Programming. In: ACM Symposium on Applied Computing, 2008, Fortaleza. Proceedings of the 2008 ACM Symposium on Applied Computing.

24 Agradecimentos CNPq CAPES Fapemig UFMG NSF AOL Alunos de doutorado e de mestrado

25 ?


Carregar ppt "Gestão da Informação em Grandes Repositórios de Dados Multimidia Marcos André Gonçalves Professor Adjunto Departamento de Ciência da Computação Universidade."

Apresentações semelhantes


Anúncios Google