Interoperabilidade Semântica no Governo Eletrônico: Informação Legislativa e Jurídica João Lima Senado Federal / Prodasen joaolima@senado.gov.br
Tópicos O Problema O caminho para a solução Interoperabilidade Semântica Entidades Assunto O caminho para a solução Ranganathan Plano das idéias Plano verbal Plano notacional
Quatro Tipos de Heterogeneidade Ouksel & Sheth (2004): Sistema incompatibilidades entre hardware e sistemas operacionais Sintática diferenças na codificação e representação Estrutural variações nos modelos de dados, estruturas de dados e esquemas Semântica Inconsistências na terminologia e significados
Problema Cada Sistema de Informação possui Sintática seu próprio modelo de dados estrutura / semântica sua própria forma de codificar encoding Sintática Fácil de resolver: XML + Unicode + encoding scheme Semântica / Estrutural Não é resolvido pelo
Semantic Interoperability Semantic interoperability is characterized by the capability of different information systems to communicate information consistent with the intended meaning of the encoded information (as intended by the creators or maintainers of the information system). (Patel et. al, 2005)
2 Sistemas - Mapeamento Sistema 2 Sistema 1 Modelo B Modelo A A Mapeamento B A1 = B1 A2 || A3 = B2 A4 = Func(B4)
n Sistemas – Mapeamento x Modelo F Sistema 1 Modelo A Sistema 5 Modelo E Mapeamento Sistema 2 Modelo B Sistema 4 Modelo D Sistema 3 Modelo C
A falta da interoperabilidade Provoca o problema dos silos de informação Fontes de Informações heterogêneas que não podem ser pesquisadas com precisão com opções avançadas comparadas combinadas migradas etc
Em suma, “The overall objective of semantic interoperability is to support complex and advanced, context-sensitive query processing over heterogeneous information resources.” (Patel et al., 2005)
Acordo Semântico Sistema 6 Modelo F Sistema 1 Modelo A Sistema 5 Modelo E Modelo Comum Sistema 2 Modelo B Sistema 4 Modelo D Sistema 3 Modelo C
O caminho para a Solução Qual é esse modelo comum?
DC ? Não, não é o Dublin Core Problemas do DC Foco no Recurso Estrutura flat Não trata adequadamente os eventos temporais Top-Down Approach 15 Qualificadores (abandonado pelo DCC) DC1 DC2
... ... ... ... DC.Date 8 8 1995 - The date of publication 1998 - A date associated with the creation or availability of the resource. 1999 - A date associated with an event in the life cycle of the resource. 2000 – [Qualifers] created, valid, available, issued, modified 2002 – [Qualifers] accepted, submitted, copyrighted 2006 - A point or period of time associated with an event in the lifecycle of the resource. p c a ... e e’ e’’ ... e e’ e’’ c v a i m ... e e’ e’’ c v a i m a s c ... e e’ e’’ 8 8 s’ e’ e’ s’ c v a i m a s c
SW Cake? Não, não é o Semantic Web Cake. “When Tim Berners Lee first outlined his vision of a semantic web at WWW 7 (Brisbane, 1997), he focused on using logic to ensure which things were true and which things were not, in order that one could trust what was being shared. The following year at WWW8 (Toronto, 1998), this aspect of reliability was underlined. The semantic web was presented as synonymous with a web of trust. In the course of the next years (1999-2001) there was increasing emphasis on acronyms and on trust with respect to transactions.” (Kim Veltman)
“By contrast, culture faces a much larger challenge, namely, to represent changes in ways of knowing; changing meanings in different places at a given time (synchronically) and over time (diachronically). Culture is about both objects and the commentaries on them; about a cumulative body of knowledge; about collective memory and heritage.” (K. Veltman)
Core ontology? Sim, é uma core ontology. Comprometimento ontológico Vocabulário comum “Recently, more and more projects and theoreticians support the use of formal ontologies as common conceptual schema for information integration” (Doerr) Grande Economia Reuso (não tem que começar do zero) Tipos de ontologia Terminological Ontologies Grandes, conceitos, isA , domain-specific Core Ontology Concisas, esquemas de dados, isA + outros, genérico
ISO 21127:2006 CIDOC - Conceptual Reference Model
Por que esta ontologia? Suficientemente genérica e flexível Foco no evento e não no recurso Bottom-Up Approach (criação) Museus, Arquivos e Bibliotecas (Instituições de Memória) Separa a discussão da terminologia da parte essencial da ontologia “keep the basic ontology in a manageable size.” Trata Nomes, Identificadores, Títulos Período, Evento, Atividade Pessoa, Organização Tipos, Objetos Físicos e Conceituais, Localidades Obras, Expressão, Manifestação
ISO 21127:2006 CIDOC - Conceptual Reference Model The CIDOC CRM is a formal ontology intended to facilitate the integration, mediation, and interchange of heterogeneous cultural heritage information. It was developed by interdisciplinary teams of experts, coming from fields as diverse as computer science, archaeology, museum curation, history of arts, natural history, library science, physics and philosophy, under the aegis of the International Committee for Documentation (CIDOC) of the International Council of Museums (ICOM). Museus 5 % das classes/relacionamentos
Como foi criada It started bottom-up, by reengineering and integrating the semantic contents of a multitude of database schemata and documentation structures from all kinds of museum disciplines, archives, and more recently libraries. Iniciou em 1996 Tamanho 80 classes 128 propriedades Representa a semântica de centenas de esquemas
Conceptual Reference Model - Architecture Core Ontology/ CRM relationships, language neutral, global “Categorical data” (Thesauri) extent the core ontology terms, multilingual, domain specific Actors Events Objects Factual Background Knowledge / “Authorities” extracted factual knowledge (network) Sources and metadata
The CIDOC CRM Top-level Entities relevant for Integration E55 Types refer to / refine E28 Conceptual Objects E41 Appellations E39 Actors refer to / identifie E18 Physical Thing participate in affect or / refer to location E2 Temporal Entities E52 Time-Spans E53 Places at within
Conceptual Reference Model - Architecture Core Ontology/ CRM relationships, language neutral, global “Categorical data” (Thesauri) extent the core ontology terms, multilingual, domain specific Actors Events Objects Factual Background Knowledge / “Authorities” extracted factual knowledge (network) Sources and metadata
KOS - Instâncias KOS W3C SKOS – Simple Knowledge Organization Systems Vocabulários Classificações Taxonomias Authority Lists Tesauro W3C SKOS – Simple Knowledge Organization Systems Representação Mapeamento
KOS - Instâncias LexML Brasil: urn:lex:br:federal:lei:1990;8112
Identificador Um identificador é uma associação de um nome com uma coisa. (PILIN Ontology) Um label único que torna o recurso referenciável. (DOI Handbook) Coisa Nome A Nome B [ Contexto 1 ] [ Contexto 2 ] Alias de B [ Contexto 2 ]
Identificador Persistente Identificador gerenciado e mantido por uma entidade Persistência > Localização Cria-se um nível de redirecionamento Intermediado por um serviço de resolução Persistência > Referente O referente não será trocado (reaproveitamento de ID) A persistência não é garantida por nenhum tipo de identificador Depende do comprometimento da entidade que publica a informação na manutenção da associação entre o recurso/coisa e a respectiva manifestação (e localização). política de preservação digital
Dois Pontos de Vista (1) (2) Atribuir um ID a um recurso Óbvio Tecnológico (2) Atribuir um recurso a um ID Menos óbvio Análise de conteúdo Coisa Nome [ Contexto ] Coisa Nome [ Contexto ] Both viewpoints valid, (2) is now becoming more relevant Fonte: Paskin (2004)
ISO TC 46 / SC 9 Information and Documentation - Identification and Description ISO 2108 International Standard Book Numbering (ISBN) ISO 3297 International Standard Serial Number (ISSN) ISO 3901 International Standard Recording Code (ISRC) ISO 10444 International Standard Technical Report Number (ISRN) ISO 10957 International Standard Music Number (ISMN) ISO 15706 International Standard Audiovisual Number (ISAN)* ISO 15707 International Standard Musical Work Code (ISWC)* ISO Project 20925 Version identifier for Audiovisual Works (V-ISAN)* ISO Project 21047 International Standard Text Code (ISTC)* * trend towards identifiers of abstract entities Fonte: Paskin (2004)
Iniciativas Identificadores Genéricos Informação Bibliográfica URL PURL URN Handle DOI (Direitos autorais) ARK (Archival Resource Key) PILIN Informação Bibliográfica OpenURL Informação Legislativa e Jurídica URN – LexML Brasil
urn : lex : br;sao.paulo : estadual : lei : 1988-06-02;6134 urn : lex : br : ministerio.fazenda;secretaria.receita.federal : instrucao.normativa : 1998-10-06;117 urn : lex : br;sao.paulo;campinas : camara.municipal : projeto.lei : 2004-11-23;4903
Pattern: Complexo - Individual Conjunto Individual Unidade (membro) LexML Brasil: urn:lex:br:federal:lei:1990;8112 urn:lex:br:federal:lei:1990;8112@1990-12-12;publicacao;1990-12-12 urn:lex:br:federal:lei:1990;8112@1991-01-09;alteracao;1991-01-09 urn:lex:br:federal:lei:1990;8112@1998-18-03;republicacao;1998-18-03
Conceptual Reference Model - Architecture Core Ontology/ CRM relationships, language neutral, global “Categorical data” (Thesauri) extent the core ontology terms, multilingual, domain specific Actors Events Objects Factual Background Knowledge / “Authorities” extracted factual knowledge (network) Sources and metadata
<lexml:LexML xsi:schemaLocation="http://www. lexml. gov <lexml:LexML xsi:schemaLocation="http://www.lexml.gov.br/schema/oai_lexml.xsd" xmlns:lexml="http://www.lexml.gov.br/oai_lexml" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> <Item formato="text/html" idPublicador="1" tipo="conteudo"> http://www6.senado.gov.br/legislacao/ListaPublicacoes.action?id=132554 </Item> <Item formato="text/html" idPublicador="1" tipo="metadado"> http://www6.senado.gov.br/legislacao/DetalhaDocumento.action?id=132554 </Item> <DocumentoIndividual> urn:lex:br:federal:lei:1988-12-02;7682 </DocumentoIndividual> <Epigrafe>Lei nº 7.682, de 02 de dezembro de 1988</Epigrafe> <Ementa>ALTERA O DECRETO-LEI 2.406, DE 5 DE JANEIRO DE 1988, E DA OUTRAS PROVIDENCIAS.</Ementa> <Relacionamento tipo="publicacao.oficial"> urn:lex:br:imprensa.nacional:publicacao.oficial;diario.oficial.uniao;secao.1:1988-12-05!pag1 </Relacionamento> </lexml:LexML>
Assinatura do Projeto da Constituição de 1891 G. Hastoy Modelo
Publicaç
IFLA + CIDOC CRM + FRBR + FRAD CIDOC / FRBR IFLA - FRBR IFLA - FRAD IFLA FRSAR CIDOC – CRM ISO 21127 3.2 4.0 4.2 IFLA + CIDOC CRM + FRBR + FRAD LexML 1992 1996 1998 2003 2005 2008
Item Expression Complex Work Individual Work Work Container Work Manifestation Product Type
Conclusão Nível das Idéias Nível Verbal Nível Sintático ISO 21127:2006 - CIDOC CRM Não começar do zero! Especializar para o Governo Eletrônico Nível Verbal W3C SKOS Por classe/assunto, criar vocabulários Nível Sintático XML + UTF-8 + Encoding Schemas Coleta: OAI-PMH
Referências M. Patel, T. Koch, M.Doerr, C. Tsinaraki, Semantic Interoperability in Digital Library Systems, Report of DELOS2 Network of Excellence in Digital Libraries, 2005. Doerr M., Semantic Problems of Thesaurus Mapping. Journal of Digital Information, Special Issue on Networked Knowledge Organization Systems, Volume 1, issue 8, April 2001. Doerr, M. Semantic problems of thesaurus mapping. In: Journal of Digital information, Volume 1 Issue 8. Article No. 52, 2001-03-26. Doerr, M. The CIDOC conceptual reference module: an ontological approach to semantic interoperability of metadata. AI Magazine. 2003 Veltman, K. Towards a Cultural Semantic Web: From Substance to Relations. Veltman, K. Towards a Semantic Web for Culture. Journal of Digital Information, Vol. 4, No. 4. (15 March 2004) Ouksel A.M. and Sheth A. (1999) Semantic Interoperability in Global Information Systems, ACM SIGMOD Record, Vol 28(1) March 1999, pp 5-12.