Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST.

Slides:



Advertisements
Apresentações semelhantes
A b-on e as Ciências e Engenharias/Tecnologias. b-on Modelo All for All - Editoras - Bases Referenciais - Bases de Texto Integral Fontes de informação.
Advertisements

1 Mapeamento de Ontologias Agentes Inteligentes e Sistemas Cooperativos 02 de Dezembro de 2004 Nuno Silva
© 2003 Mind – Software Multimédia e Industrial, SA – Reprodução ou redistribuição não autorizada. Todos os direitos reservados. 1 Apresentação da MIND.
Novas Tecnologias ao Serviço da PORBASE Jornadas Porbase 11 de Dezembro de 2003.
Perspectiva de uma Biblioteca de Depósito
Ontologia Representação do vocabulário de um determinado domínio e suas conceituações.
DIRETORIA ACADÊMICA NÚCLEO DE CIÊNCIAS HUMANAS E ENGENHARIAS DISCIPLINA: INGLÊS FUNDAMENTAL - NOITE PROFESSOR: JOSÉ GERMANO DOS SANTOS PERÍODO LETIVO
University of Minho, Portugal
METODOLOGIA PARA DESENVOLVIMENTO DE SISTEMAS Prof. Dr. rer. nat. Daniel D. Abdala 1.
Nome do Projecto FEUP – Desenvolvimentos de Jogos de Computador - MIEIC.
Aluno: Daniel Lélis Baggio
Avaliação Constituição dos grupos de trabalho:
Modelação Aula T01 – Modelação de Sistemas Referência: –Conceptual Modeling of Information Systems (Capítulo 1) José Borbinha.
Design Patterns / Acesso ao banco de dados (java.sql)
Alex sandro gomes | 2008 Estratégia, Competição e Usabilidade Ou, ‘Como criar um serviço web 2.0 de sucesso?’
Ordem interna de despesas de marketing e outros custos indiretos - Real SAP Best Practices.
1 ENUM Pedro Veiga FCCN 24 de Junho de Índice O que é o DNS DNS em Portugal DNS a nível internacional Do IAHC ao ICANN O WIPO DNS em Portugal.
Uma Abordagem Baseada em Modelos para Detecção de Situações em Sistemas Sensíveis ao Contexto Izon Thomaz Mielke Orientadora: Patrícia Dockhorn Costa.
10 ª JORNADAS PORBASE UNIMARC REGISTRY 18 / 19 DE MAIO 2006 Paulo Leitão
MÓDULO 4 Como usar PubMed
AutoCAD P&ID 2012 Introdução ao AutoCAD P&ID.
Perfil de aplicação.
Plano Trimestral - Previsão de quantidades de venda CO-PA
Bibliotecas Digitais Que nível de interoperabilidade? Maio, 2001 Belo Horizonte Agosto /2007 Rio de Janeiro, RJ Hélio Kuramoto.
Etapas do processo de pré-requisitos SAP Best Practices.
SWEBOK Guide to the Software Engineering Body of Knowledge Thayssa Rocha TAES 3 –
Chapter 1 - The Foundations for a New Kind of Science Wolfram, Stephen. A New Kind of Science. Wolfram Media, Inc
“Fly Like An Eagle Training” Guest Speaker Tania Diniz.
DCMI Dublin Core Metadata Initiative por Pablo Lopes Alenquer curso Tópicos Especiais em BD2 data Março de 2000 Mestrado IM / NCE.
XML – Extensible Markup Language [Introdução] Renata Pontin de Mattos Fortes SCE-225 Hipermídia 2°Semestre 2003 Material elaborado por Lisandra Cazassa.
© 2012 Autodesk Autodesk Revit para projetos executivos de arquitetura Módulo 6: Quantitativos de áreas precisos Tiago Marçal Ricotta Gerente de Projetos.
Uma proposta para OLAP ontológica Adriana Ribeiro.
Cálculo de Custos de Referência e para Simulação
Cigré/Brasil CE B5 – Proteção e Automação Seminário Interno de Preparação para o Colóquio de Madri 2007 Rio de Janeiro, outubro/07.
Video Capítulo 8: Impasses. Silberschatz, Galvin and Gagne  Video Operating System Concepts Assuntos n Modelo de Sistemas n Carcterização de.
10 o Simpósio Brasileiro de Computação Musical3 a 6 de Outubro de A User-Friendly Graphical System for Room Acoustics Measurement and Analysis Leo.
Building an Enterprise Architecture: The Popkin Process.
Gestão e Recuperação de Informação Informação Estruturada José Borbinha – DEI/IST.
XML Namespaces XML Namespaces provê um método para evitar conflito de nomes de elementos.
Modelação Aula T15 Modelação Conceptual de Sistemas Revisão do Comportamento OCL – Object Constraint Language José Borbinha.
Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST.
Utilização de Ontologias para Integração de Heterogeneidade Semântica
O que são os alertas do Google?
Tesauro, Taxonomia e Ontologia: uma evolução?
Administração de viagens SAP Best Practices. ©2014 SAP SE or an SAP affiliate company. All rights reserved.2 Objetivo, benefícios e principais etapas.
PSI2653: Meios Eletrônicos Interativos I Escola Politécnica da USP Engenharia de Sistemas Eletrônicos I – Informação Digital - Gráfico Meios Eletrônicos.
Microsoft Students to Business
5ª Reunião Plenária da CEE 78 IS - 16/06/ Relato do GT4 – Segurança da Informação e do Paciente.
Redefinição do Modelo Conceitual do Repositório. Modelo Conceitual Anterior Novo Modelo Conceitual (Adotar) A maior mudança no Novo Modelo Conceitual.
Comunicação e Redação Empresarial
Eugenio García ARTech Workflow: moda, re-branding, ou necessidade real?
CBD-0279 Introdução ao Uso dos Metadados no Ambiente das Unidades de Informação Prof. Dr. Ivan Siqueira USP – ECA – CBD 2015.
By Búzios Slides Sincronizado com a Música All For Love Bryan Adams & Rod Stewart.
Limit Equlibrium Method. Limit Equilibrium Method Failure mechanisms are often complex and cannot be modelled by single wedges with plane surfaces. Analysis.
7ª Reunião Plenária da CEE 78 IS - 25/08/ Relato do GT4 – Segurança da Informação e do Paciente.
Apresentação REVISTAS Alexandre Lucas 2º. Trimestre
YOUR LOGO Tópicos Avançados em Internet Prof. Lincoln Ferreira Dantas Sistemas de Informação UNIESP – Presidente Epitácio.
Administração de Sistemas Operacionais Escola Técnica Estadual Maria Eduarda Ramos de Barros Curso Técnico em Redes de Computadores Professor Emerson Felipe.
Vamos conhecer melhor a nossa Biblioteca!?
SISTEMA DE TRANSITIVIDADE: PARTICIPANTES PROCESSOS CIRCUNSTÂNCIAS.
| Copyright© 2010 Microsoft Corporation Ricardo Senna | Especialista em Soluções Online IUR - Benefícios a Parceiros.
Ailton Bispo Doutorando em Administração – PPGA/UnB Visão Geral do Mendeley para o Grupo de Pesquisa IMPACTO da Universidade de Brasília.
1 factor de impacto de revistas científicas 23 de Abril 2008 Biblioteca da UA.
CONHECIMENTO SOBRE A LÍNGUA GRAMÁTICA SISTÊMICO- FUNCIONAL PEDAGOGIA DE GÊNEROS.
Estrutura da empresa Síntese SAP Best Practices. ©2014 SAP AG. All rights reserved.2 Estrutura Organizacional Baseline Package Área Contab. Custos 1000.
O USO DE PADRÕES DE INTERCÂMBIO E DE ARQUIVOS ABERTOS PARA A DISPONIBILIDADE DE RECURSOS MUSICAIS BALLESTÉ, Adriana Olinto Laboratório Nacional de Computação.
CBD0268 Profa. Giovana Deliberali Maimone  Discutir a especificidade da documentação audiovisual em relação à documentação escrita.  Discutir.
Wondershare software On the [View] menu, point to [Master], and then click [Slide Master] or [Notes Master].
CEManTIKA Framework Overview
ISO Tecnologia da informação - técnicas de segurança - sistemas de gerência da segurança da informação - requisitos.
Transcrição da apresentação:

Gestão e Recuperação de Informação Metadados... José Borbinha – DEI/IST

2 Aviso Prévio O contexto de uso do termo “metadata/metadados” aqui usado não é o mesmo que é usado em (embora numa perspectiva genérica tudo isto não seja assim tão diferente...): –Bases de dados / Data Warehouse Catálogo,... –Arquitectura Empresarial CMDB - Configuration Management Database (conceito ITIL...),... –...

3 O que é então “metadata” no contexto de RGI? O nosso contexto vai ser o da “informação documental”! Isto é considerando que: –“metadata” refere-se a “dados sobre dados”... –os nossos objectos de informação são documentos Então no nosso contexto “metadata” dirá respeito a “dados sobre documentos”... Desabafo: isto dito assim até pode parecer claro, mas não será assim tanto... na realidade as fronteiras entre todas as aplicações do termo acabam mesmo por se fundir! Mas isso será uma perspectiva mais avançada disto tudo!

4 “Documento”? Um documento é um contentor de informação organizada para ser disponibilizada sob uma dada forma! Referências: –Document engineering is the computer science discipline that investigates systems for documents in any form and in all media. As with the relationship between software engineering and software, document engineering is concerned with principles, tools and processes that improve our ability to create, manage, and maintain documents. ( –A document is an abstract container that stores information. It may be generated statically or dynamically, it may be transient or persistent, its encoding may be time variant. (

5 Porque é o conceito de “metadata” relevante no contexto de RGI? Já vimos técnicas básicas de identificar, recuperar/ ou recolher objectos de informação a partir apenas dos seus conteúdos! Esses métodos são no entanto inúteis quando: –Não é possível, tecnicamente, extrair automaticamente dos objectos qualquer informação (Ex.: um livro impresso, uma pintura, uma escultura,...) –O objecto é acessível, mas a informação necessária para suportar a pesquisa não existe simplesmente no objecto (Ex.: objectos criados por uma dada pessoa a qual não refere explicitamente nos mesmos ser a sua autora...) –Os conteúdos dos objectos são gerados dinamicamente, sendo impossível prevê-los (Ex.: um programa de rádio ou televisão a emitir ao vivo,...) –...

6 Porque é o conceito de “metadata” relevante no contexto de RGI? “Metadados representam assim os objectos!!! Se for informação estruturada, “metadados” podem representar os objectos na descrição: –do seu conteúdo... (indexação -por palavras-chave,...-, classificação,...) –da sua estrutura... (esquema ou formato, tamanho...) –da sua autoria/proveniência/responsabilidade... (autor, data de criação, curador,...) –das suas condições de utilização... (autorização necessária para acesso, preço,...) –...

7 Porque é o conceito de “metadata” relevante no contexto de RGI? Concluindo, tendo metadados relativos a um objecto podemos usar esses metadados em cenários de recuperação de informação sem necessidade de recorrer ao objecto! ???? Interface ?? Metadata

8 Porque é o conceito de “metadata” relevante no contexto de RGI? Mas já agora, existindo as duas coisas, porque não usá-las (o melhor dos dois mundos)? Interface Metadata

9 Dublin Core METS PREMIS MPEG ONIX UNIMARC MARC 21 EAD EAC MODS MADS XML RDF MDR LOM TEI marcXchange ISO 2709 ISO AACR2 FRBR LCSH DDC UDC

10 Objectos e sua estrutura METS MPEG LOM TEI ONIX UNIMARC MARC 21 EADEAC MODS MADS Descrição de objectos Arquivos Editores Bibliotecas AACR2 Regras de criação FRBR Conceitos LCSH DDC UDC Valores para atributos MDR ISO Dublin Core PREMIS Atributos XML RDFmarcXchange ISO 2709 Codificação...

11 Um mapa conceptual...

12

13 Como se define uma norma ou recomendação?

14 Processos e entidades de normalização 1.Problema bem identificado, partilhado por uma franja alargada da comunidade, com uma solução a tender para o consensual (nem sempre, mas...) e preferencialmente não polémico => normalização formal, acabando por vezes mesmo em aprovação por entidades nacionais que tornam os resultados obrigatórios (Ex.: ISO; normas NP em Portugal, DIN na Alemanha, ANSI e NISO nos Estados Unidos, etc...) 2.Problema perceptível, de interesse geral, mas ainda à procura de uma solução que requer o envolvimento da comunidade => normalização por entidades “ad hoc” ou especializadas na área do problema, cujos resultados são por vezes entendidos como recomendações (Ex.: W3C, IETF, IEEE,..., OASIS). 3.Problema localizado num dado projecto, organização ou comunidade restrita => solução definida e testada localmente...

15 Processos e entidades de normalização 1.Normalização formal: –Processo nem sempre pacífico! Ex.; “Batalha” na ISO da Microsoft para ver o OOXML aprovado (parte da “guerra”com o ODF - OpenDocument Format...) –Boas normas nacionais acabam por vezes por ver a aprovação internacional facilitada (Ex. NISO Z39.50 = ISO 23950) 2.Normalização “ad hoc” –Por vezes, quando estes resultados atingem relevância mais alargada, acabam por ser levados ao nível anterior (Ex: Dublin Core -> ISO 15836) –Neste contexto os processos tendem a ser mais pacíficos (ver a convergência conseguida normalmente nos grupo IETF ou W3C) mas também há “casos”, especialmente quando os interesses financeiros em jogo são relevantes (Ex: problemas recentes com o processo em torno da IEEE , reticências sobre patentes pendentes relacionadas com a MPEG-21, etc...) 3.Problema localizado –Por vezes, quando estas soluções resultam e se demonstra terem interesse geral, acabam por ser propostas aos níveis anteriores...

16 Processos e entidades de normalização 1.Normalização formal 2.Normalização “ad hoc” 3.Problema localizado Prática, Experiência, Resultados provados Visão de negócio, Requisitos Percepção da necessidade com necessidade de discussão consensual

17 Exemplos...

18 urn.porbase.org Registos bibliográficos e de autoridades em vários esquemas e codificações...

19 “A Morgadinha dos Canaviais” UNIMARC (texto) Etiqueta de registo: 00579cam ## $aPTBN ## $a d1980 m y0pora0103 ba 101 0# $apor 102 ## $aPT 200 1# $a morgadinha dos canaviais$fJúlio Dinis 205 ## $a1ª ed 210 ## $aLisboa$cCírculo de Leitores$d[D. L. 1980] 215 ## $a478 p.$d21 cm 675 ## $a $vmed$zpor$ #1 $aDinis$bJúlio$cpseud.$ #0 $aPT$bBN$gRPC 966 ## $lBN$mMG$sL V. 966 ## $lBPMP$mBPMP$sB [3] $x1 966 ## $lBPRMAD$mBPRMAD$s02/ ## $lCMOPA$mCMOPA$s869-A ## $aFSE Dublin Core (XML) morgadinha dos canaviais Dinis, Júlio , por Monografia 1ª ed Círculo de Leitores Lisboa [D. L. 1980] material textual, impresso 478 p., 21 cm Id. do registo: 1535 Cota: BN-L V. Cota: BPMP-B [3] Cota: BPRMAD-02/3729 Cota: CMOPA-869-A 4005 por

20 ONIX Esquema utilizado pelos editores e livrarias on-line, define mais de 100 campos como título, autor, assunto, identificadores,... Exemplo Neruda, Pablo Poeta chileno...

21 UNIMARC Autoridade Etiqueta de registo: 00595cx a ## $a apory0103 ba0 102 ## $aPT 152 ## $aRPC$bSIPOR 200 #1 $aDinis,$bJúlio,$cpseud. 400 #1 $aCoelho,$bJoaquim Guilherme Gomes,$f $ #1 $aCoelho,$bJoaquim Guilherme Gomes$ #1 $aAveleda,$bDiana de,$cpseud.$ #0 $aCecília,$cpseud.$ ## $a869.0 Dinis, Júlio.09$vBN$zpor 675 ## $a929 Dinis, Júlio$vBN$zpor 801 #0 $aPT$bBN$c ## $aAndrade, A. Guerra-Dic. de Pseud. 830 ## $aRomancista, novelista e autor teatral. Médico

22 MODS ( ) 2001 bluegrass odyssey [sound recording]. Roustabouts (Musical group) prf sound recording ncu Charlotte, NC Lamon Records p monographic eng 1 sound disc : analog, 33 1/3 rpm ; 12 in. Bluegrass odyssey -- Hills of Tennessee -- Sassafrass -- Muddy river -- Take your shoes off Moses -- Don't let Smokey Mountain smoke get in your eyes -Farewell party -- Faded love -- Super sonic bluegrass -- Old love letters -- Will the circle be unbroken. Brief record. Performed by the Roustabouts. Country music Bluegrass music Lamon Records LR-4280 DLC

23 Dublin Core Um “set” de elementos (atributos) e não formato!!! title - O nome dado ao recurso. creator - A entidade responsável em primeira instância pela existência do recurso. subject - O tópico do conteúdo do recurso. description – Uma descrição do conteúdo do recurso publisher - Entidade responsável por tornar o recurso acessível. contributor - Entidade responsável por qualquer contribuição para o conteúdo do recurso. date - Uma data associada a um evento do ciclo de vida do recurso. type - A natureza ou género do conteúdo do recurso. format - A manifestação física ou digital do recurso. identifier - Uma referência não ambígua ao recurso, definida num determinado contexto. source - Uma referência a um recurso de onde o presente recurso possa ter derivado. language - A língua do conteúdo intelectual do recurso. relation - Uma referência a um recurso relacionado. coverage - Cobertura geográfica ou temporal do recurso rights - Informação de direitos sobre o recurso ou relativos ao mesmo.

24 Exemplo “Dublin Core em RDF” Karl Mustermann Algebra mathematics EN An introduction to algebra

25 MPEG-7 MPEG-7 Visual – the Description Tools dealing with Visual descriptions. MPEG-7 Audio – the Description Tools dealing with Audio descriptions MPEG-7 Multimedia Description Schemes - the Description Tools dealing with generic features and multimedia descriptions. MPEG-7 Description Definition Language - the language defining the syntax of the MPEG-7 Description Tools and for defining new Description Schemes.

26 MPEG-7 MDS Carro Carro com motor e quatro rodas image.jpg

27 MPEG-7 Classification Schemes MPEG-7 Standard Schema (Syntax) MPEG-7 Description Schemes (DS) & Descriptors (D) 3 rd Party MPEG-7 Extensions (DS & D) MPEG-7 Registration Authority (Terms) MPEG-7 Classification Schemes (CS) & Controlled Terms 3 rd Party Classification Schemes (CS) & Controlled Terms MPEG-7 Description STANDARD MPEG-7 Schema Examples: Creation DS Agent DS Semantic DS MPEG-7 CS Examples: Genre CS Role CS Format CS EXTENSION MPEG-7 Extension Examples: Broadcast DS Rhythm DS Graphics DS MPEG-7 CS Registration Examples: Sports CS News CS TGM-I CS

28 Sobre sistemas de classificação... DDC – Dewey Decimal Classification UDC – Universal Decimal Classification LCSH – Library of Congress Subject Headings CCS - ACM Computing Classification System –

29 DDC e UDC DDC 000 – Computer science, information, and general works 100 – Philosophy and psychology 200 – Religion 300 – Social sciences 400 – Language 500 – Science 600 – Technology 700 – Arts and recreation 800 – Literature 900 – History and geography UDC 0 - GENERALITIES 1 - PHILOSOPHY. PSYCHOLOGY 2 - RELIGION. THEOLOGY 3 - SOCIAL SCIENCES 4 - VACANT 5 - NATURAL SCIENCES 6 - TECHNOLOGY 7 - THE ARTS 8 - LANGUAGE. LINGUISTICS. LITERATURE 9 - GEOGRAPHY. BIOGRAPHY. HISTORY

30 Metadata Registries

31 ISO/IEC Information Technology - Metadata registries (MDR) : Framework –Introduces and discusses fundamental ideas of data elements, value domains, data element concepts, conceptual domains, and classification schemes essential to the understanding of this set of standards and provides the context for associating the individual parts of ISO/IEC : Classification –Provides a conceptual model for managing classification schemes. There are many structures used to organize classification schemes and there are many subject matter areas that classification schemes describe. So, this Part also provides a two-faceted classification for classification schemes themselves : Registry metamodel and basic attributes –Specifies a conceptual model for a metadata registry, and a set of basic attributes for metadata for use when a full registry solution is not needed : Formulation of data definition –Provides guidance on how to develop unambiguous data definitions. A number of specific rules and guidelines are presented in ISO/IEC that specify exactly how a data definition should be formed. A precise, well-formed definition is one of the most critical requirements for shared understanding of an administered item; well-formed definitions are imperative for the exchange of information. Only if every user has a common and exact understanding of the data item can it be exchanged trouble-free : Naming and identification principles –Provides guidance for the identification of administered items. Identification is a broad term for designating, or identifying, a particular data item. Identification can be accomplished in various ways, depending upon the use of the identifier. Identification includes the assignment of numerical identifiers that have no inherent meanings to humans; icons (graphic symbols to which meaning has been assigned); and names with embedded meaning, usually for human understanding, that are associated with the data item's definition and value domain : Registration –Provides instruction on how a registration applicant may register a data item with a central Registration Authority and the allocation of unique identifiers for each data item. Maintenance of administered items already registered is also specified in this document.

32 Perguntas?