A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

An approach for managing and semantically enriching the publication of Linked Open Governmental Data Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1,

Apresentações semelhantes


Apresentação em tema: "An approach for managing and semantically enriching the publication of Linked Open Governmental Data Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1,"— Transcrição da apresentação:

1 An approach for managing and semantically enriching the publication of Linked Open Governmental Data
Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3 1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil 2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland 3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil

2 Agenda Motivação e contextualização
Cenário Atual em Dados Abertos Interligados (LOD) Projeto LinkedDataBR ETL Workflow Tratamento Semântico Incremental Estudo de Caso Considerações finais

3 Motivação e contextualização

4 Motivação e contextualização
Estão abertos?

5 Uso conjunto é ainda um desafio! Motivação e contextualização RNP
CAPES CNPq Uso conjunto é ainda um desafio!

6 Motivação e contextualização
Interoperabilidade e Integração de dados na Web ainda requerem considerável esforço Mesmo dentro de uma organização! . Tivemos SGBD por mais de meio século, mas conseguimos a integração que se pretendia? O que faltou ? E agora, na Web: Distribuídos, heterogêneos, em grande escala, altamente visíveis, grande número de diferentes usuários, …

7 Linked Open Data (LOD) LOD pode ser considerado uma abordagem mais simplista de uso de tecnologias da Web Semântica Baseada em triplas (RDF) para representar os dados de forma realmente “granular” Facilita a interligação Acompanhado de um descritor Abordagem pay-as-you-go

8 Linked Open Data (LOD) O que vem a ser Dados Abertos Interligados?
Utilização ampla de padrões Representação de dados em um grão mínimo (triplas RDF) Flexibilidade nas ligações entre itens de dados Tem a interoperabilidade em sua essência RDF: Resource DESCRIPTION Framework Criado para interoperar METADADOS! Descritores estão na base da proposta

9 Uma maneira “nova” de publicar e consumir dados!
Linked Open Data (LOD) Uma maneira “nova” de publicar e consumir dados! O poder das ligações tipadas O poder da colaboração Consumidores podem ser publicadores também! Mais e mais dados sendo gerados e potencialmente “ligáveis” Sensores e Web das Coisas Dados e metadados sendo explorados juntos em novas aplicações Consulta E Navegação E Busca!

10 Dados publicados como LOD
265 datasets - 32 bilhões de triplas - 42% de dados de governo Setembro de 2011 Até quando conseguiremos representar esta nuvem?

11 Cenário Atual - Internacional
Muitas iniciativas de governo Governo Britânico, Estados Unidos, Espanha, etc. Diferentes abordagens Entrando em fase mais madura Muitas iniciativas do setor privado BBC, New York Times, ... Muitas iniciativas em e-Ciência Dados genômicos, dados de meio-ambiente,... Forte envolvimento da área acadêmica Consórcio W3C, Sir Tim Berners Lee (MIT) DERI/NUI (Irlanda), Univ. Berlim (Alemanha), Univ. de Madri (Espanha) Projeto LOD2

12 Cenário Atual - Internacional
Grande diversidade de ferramentas Ainda sendo experimentadas Foco em atividades específicas de publicação, consumo e colaboração Ainda razoável esforço requerido para seu uso conjunto Abordagem liberal Prioridade para “expor” os dados e depois ir complementando sua descrição Uso de ontologias ainda incipiente Processo de publicação muito artesanal Qualidade do dado publicado ainda pouco rastreável Entrando em fase de amadurecimento Maior preocupação com semântica e descritores Frameworks para integração de ferramentas sendo discutidos

13 Cenário Atual - Nacional
Inicialmente evoluindo sobre pesquisas e aplicações da Web Semântica e Ontologias PUC-RJ, UFRJ, UFES, PUC-RJ, PUC-RS, … Interesse crescente no Governo: Inicialmente uma certa confusão com dados abertos Acordo assinado entre o Brasil, EUA e mais 6 países Tema do CONSEGI deste ano Ministério do Planejamento : Cria o INDA – Infraestrutura Nacional de Dados Abertos Baseada em LOD e uso de ontologias Apoio do W3C Brasil e CGI/BR Cria o GT Ontologias Iniciativas experimentais em LOD Experimentos pontuais -> simples conversão de dados e interfaces atraentes Tecnologia ainda pouco conhecida

14 LinkedData BR LinkedDataBR

15 Nossa Abordagem Linked Data BR Alguns domínios requerem uma abordagem sistemática que garanta: Maior controle do processo Manutenção da consistência dos dados sendo publicados Este é o caso de: Dados Governamentais Dados de e-Ciência Necessário adotar uma abordagem de “gestão de dados” 15

16 LinkedDataBR - FOCO Foco Característica da solução:
no apoio ao processo de publicação na qualidade do dado Característica da solução: Plataforma integrada e flexível Maximização no reuso de ferramentas existentes (software livre) Explorar: Gerência de metadados Apoio ao processo com ferramenta de workflow (ETL) Tratamento Semântico Central functionalities to be included are data cleaning, transformation, association, annotation and referencing to terminology mechanisms.

17 LinkedDataBR - FOCO LinkedDataBR BR Linked Data Treatment Process
Triples Vocabulary Ontology Pre-Processing Triplification Linking Repository LinkedDataBR Feed/Expose Requests URI Responses Linked Data Queries Consume/Explore Consumers Data Producers Governmental and Non Governmental Entities Universities and Research Institutes Citizen and Private Companies LinkedDataCloud Provenance Processo de Tratamento Criar ferramentas e diretrizes associadas para a exposição, compartilhamento e interligação de recursos de dados na forma de Linked Open Data, oferecendo um ambiente que seja principalmente simples de ser utilizado por interessados em disponibilizar seus recursos de dados e associá-los a outros recursos existentes, estimulando a publicação de dados na Web.

18 Projeto LinkedDataBR Objetivos
Construção de uma infra-estrutura inicial de suporte à publicação e criação de repositórios de dados abertos utilizando os padrões de Linked Data E ainda: Criação de diretrizes associadas ao processo de publicação Criação de grupo de interesse e mobilização para apoio e estímulo à iniciativa de Linked Open Data no Brasil e sua inserção no cenário mundial de dados abertos interligados.

19 Linked Data BR Projeto LinkedDataBR Arquitetura

20 ETL Workflow (Captura de Proveniência)
Publishing Workflow Process Extract Transform Load Stage Triplify Linking Workflow Implementation Design Triples Raw Government Data Prospective Provenance Data Provenance Triples Workflow Implementation Execution Linked Open Government Data Retrospective Provenance Data

21 Abordagens para o Enriquecimento semântico
Publicação de Dados Abertos Ligados Abordagens para o Enriquecimento semântico

22 Ausência de preocupação com a semântica

23 Alguma preocupação com a semântica

24 Preocupação mediana com a semântica

25 Muita preocupação com a semântica

26 Exemplo de Cenário de Publicação de Dados Interligados
LinkedData BR Exemplo de Cenário de Publicação de Dados Interligados

27 Cenário de Aplicação C&T
Cenário de Financiamentos de Projetos de Pesquisa Projetos de Pesquisa Currículos de Pesquisadores Instituições de Pesquisa RNP tem participação de Lattes eMec tem instituição FNDCT tem participação de Grupos de Pesquisa - CNPq GP-CNPq

28 Exemplo do Processo de Publicação
Lattes CNPQ Tratamento Triplificação Ligação RNP Banco de Dados Intermediário Banco de Triplas Nuvem LOD

29 Banco de Dados Intermediário
Lattes CNPQ Tratamento RNP Banco de Dados Intermediário Nuvem LOD Banco de Triplas

30 Banco de Dados Intermediário
Lattes CNPQ Triplificação RNP Banco de Dados Intermediário Nuvem LOD Banco de Triplas

31 Banco de Dados Intermediário
Lattes CNPQ Ligação RNP Banco de Dados Intermediário Banco de Triplas Nuvem LOD

32 Resultado Grafos interligados Projetos RNP LODBR UFRJ LODBR_Ph1 MLMC
swrc:Project Projetos RNP GrupoTrabalho Instituticao Grafos interligados “LinkedDataBR” WGFase LODBR temNome UFRJ temFase temInsituicao LODBR_Ph1 temNome “Universidade Federal do Rio do Janeiro” temSigla temParticipacaoDe Participante “UFRJ” swrc:University temNome MLMC “Maria Luiza M. Campos” CNPq CV Lattes Pesquisador eMec Instituições UFRJ “Maria Luiza Machado Campos” temNome temNome MLMC “UFRJ” “UFRJ” swrc:Person temLocalOferta enderecoProfissional temSigla temPublicacao 2009 temAno RioJ “Universidade Federal do Rio do Janeiro” MLMC0232 Grupos de Pesquisa CNPq “CrossMDA: a Model-driven Approach for Aspect Management” MLMC temTitulo temNome “Maria Luiza M.Campos” Publicacao temParticipante “Grupo Engenharia do Conhecimento” GRECO temArea Predominante swrc:Publication swrc:ResearchGroup temNome “Knowledge Engineering”

33 Resultado

34 Considerações Finais Iniciativas nacionais e internacionais pela transparência das ações governamentais e participação do cidadão. Dado Aberto possui um papel fundamental, mas o valor real do dado é revelado se os dados são explorados em conjunto. LOD é uma abordagem de interoperabilidade e integração Em LOGD é essencial considerar algumas garantias de qualidade e estratégias de interoperabilidade Plataforma do LinkedDataBR e a abordagem de enriquecimento semântico incremental Concebida para apoiar os publicadores e gestores de dados de governo O potencial da colaboração do cidadão (wisdom of the crowds) desempenhará um papel importante no mapeamento e ligação. Governments around the world have been engaged in different initiatives towards decentralization and transparency of their actions, together with increasing citizens’ participation. Open data play a fundamental role on these initiatives, but the real value of government assets is only truly revealed if data from various sources can be explored and used together. LOD has emerged as a light-weight data interoperability and integration approach, exploiting already existing semantic web standards and technologies. Its potential was rapidly recognized, as an increasing number of new tools has been developed and there has been a substantial growth of the linked data cloud. But, when referring to governmental data, it is essential to consider some guaranties for the sustainability of the publication process and the quality assurance of the data interoperability strategy. In this work, we described a platform and an associated approach integrating different tools to facilitate LOD publication and to leverage semantic interoperability. The platform was conceived to support governmental data publishers on managing the various phases of LOD life cycle, capturing provenance data along the process and allowing for various levels of conceptual enrichment. The pay-as-you-go approach of linked data allows for an incremental data integration strategy and the flexibility to add new links stimulates associativity between resources. This can greatly contribute to increase the number of applications over governmental data, especially if we consider new opportunities for development teams and private sector. The potential of citizens’ collaboration and the so called “wisdom of the crowds” will play an important role on mapping and linking. In this scenario, provenance management and mechanisms to assist in the data curation process become crucial and constitute future work.

35 An approach for managing and semantically enriching the publication of Linked Open Governmental Data Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3 1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil 2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland 3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil


Carregar ppt "An approach for managing and semantically enriching the publication of Linked Open Governmental Data Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1,"

Apresentações semelhantes


Anúncios Google