An approach for managing and semantically enriching the publication of Linked Open Governmental Data Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1,

Slides:



Advertisements
Apresentações semelhantes
Políticas públicas pela diversidade. fundamentos legais Constituição de 1988 emenda nº 48, de 2005: Plano Nacional de Cultura.
Advertisements

Universidade Federal do Rio de Janeiro Pró-Reitoria de Pós-Graduação e Pesquisa Divisão de Pesquisa Ética em Pesquisa (material informativo adaptado.
Informática na Educação
CONHECENDO A AGENDA 21 NAS ESCOLAS AVANÇAR.
Sistemas de Informações Gerenciais
Raphael Gatti Thomás Bryan
Rational Unified Process
1 / 38 AVALIAÇÃO DE UM PROCESSO E SOFTWARE PARA A PRODUÇÃO DE CONTEÚDOS DE ENSINO Foz do Iguaçu, 02 de Setembro de Luciete Basto de Andrade Albuquerque.
1. 2 Pearson Education do Brasil Editora educacional de alcance mundial No Brasil, publica nas áreas universitária, de ensino de inglês, negócios e informática.
DESENVOLVIMENTO SUSTENTÁVEL
Garantia da Qualidade Mário Eduardo.
15/1/2014 Professor Leomir J. Borba- – 1 Tec. Em Analise e desenvolv. De Sistemas analise.
Ciência da Informação e Documentação Departamento de Ciência da Informação e Documentação Disciplina: Gestão da Informação e do Conhecimento Prof.: Lillian.
LEI DA INOVAÇÃO Lei n o de 2 de dezembro de 2004 Decreto n o de 11 de setembro de 2005 Dispõe sobre incentivos à inovação e à pesquisa científica.
CK 119: Engenharia de Software DC/CC/UFC © Rossana Andrade, Setembro CK119: Engenharia de Software Rossana Andrade Ph.D, SITE, University of Ottawa,
Amanda Meincke Melo RA:
Arquiteturas Diferentes
Larissa Astrogildo de Freitas Patrícia Mylius Pizzinato
1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de.
Ontologias para Melhorar Precisão e Cobertura de Buscas na Web
Técnicas de Apoio ao Processo de Engenharia de Requisitos
Junções Adaptativas em consultas Federadas sobre Linked Data
Maria Angela Campelo de Melo
Engenharia de Requisitos
Simple Network Management Protocol (SNMP)
Práticas da Gestão do Conhecimento e Ferramentas Computacionais aplicadas aos Processos da Comunicação Científica Domingos Bernardo Gomes Santos, Josemir.
Registro Eletrônico para Acompanhamento Médico de Pacientes em uma UTI Rafael Charnovscki (1), Jacques R. Nascimento Filho (2,3) Giancarlo Bianchin.
Composição e Geração de Aplicações usando Aspectos
Grupo 5: Fernando Lourenço Pinho Costa Rafael de Souza Santos
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
Interoperabilidade Semântica de Ferramentas que apóiam a Gerência de Projetos Ana Christina Bringuente
Interoperabilidade semântica no domínio de Engenharia de Software
16 de novembro de 2010, Rio de Janeiro
Instituto de Geociências Universidade Federal de Minas Gerais
MINISTÉRIO DA EDUCAÇÃO II Encontro Brasil-Canadá de Educação Profissional e Tecnológica Novembro de 2011.
POLÍTICA EDUCACIONAL E FORMAÇÃO INICIAL DE PROFESSORES
Aluno: Mário Monteiro Orientador: Sérgio Soares 1.
1 ORÇAMENTO A proposta orçamentária para 2006 seguiu as normas técnicas federais e, particularmente, a Lei 4.320, de 17 de março de 1964 e a Portaria.
Mestrado em Tecnologia Programa de Posgraduação em Tecnologia da UCPEL.
Laboratório de P&D&I em Computação Móvel e Design
MINISTÉRIO DO PLANEJAMENTO Projeto de Lei Orçamentária 2011 Ministro Paulo Bernardo Silva Brasília, novembro de 2010.
MINISTÉRIO DO PLANEJAMENTO Projeto de Lei Orçamentária 2010 Ministro Paulo Bernardo Silva Brasília, 31 de agosto de 2009.
VISÃO GERAL - PPA Brasília, maio de 2011.
Rio de Janeiro, 28/6/2013 GESEL/UFRJ
10º Congresso Brasileiro de Gestão do Conhecimento Gestão do Conhecimento Aliada à Cultura Organizacional e Redes Sociais Amcham, São Paulo, São Paulo,
Desenvolvimento de um Telefone IP Baseado em um Processador Blackfin
MOBILIZAÇÃO EMPRESARIAL PELA INOVAÇÃO - MEI
Gestão das Recomendações do Controle Interno Estadual do RS
EMPREENDEDORES EM AÇÃO PROF. NILSON R. FARIA Colégio Wilson Joffre.
Persistência em Software Orientado a Objetos:
Fevereiro/ Resultado dos Projetos de Software Pesquisa Motivação.
IF696 - Integração de Dados e DW
Planejamento e Gerenciamento
1 My GRID: Bio-informática personalizada em uma grade de informação. Francisco Silva
Projeto de Banco de Dados
1 2 Observa ilustração. Cria um texto. Observa ilustração.
Universidade Federal de Pernambuco Centro de Informática Aluno: Erica Sousa – Orientador: Paulo Maciel – Modelagem de.
Percurso universitário Programa de educação tutorial
Software engineering, the software process and their support M.M. Lehman Apresentadora: Tarciana Dias da Silva.
XVII International Research Society on Public Management, IRSPM CONFERENCE Prague,Czech Republic April 2013 Public Sector Responses to the Global.
1 Segunda fase do projeto: Desenvolvimento do “Catálogo Virtual” Foco em Sistemas de Informação Desenvolvimento baseado no diagnóstico e na interação com.
Soluções de Inteligência de Negócios para o Judiciário - TJMS IV Encontro de Gestores do SAJ - São Paulo - SP Leonardo Torres de Lima Secretaria de Tecnologia.
Late in the night, inside a research facility in the State of São Paulo... Gee Brain, what do you want to do tonight? The same thing we do every night,
Integração como Estratégia da Informação no Setor Público
Dados abertos interligados
Antonio Nascimento Roteiro Introdução Objetivos Áreas de Conhecimento Certificações Conclusões Referências.
09 e 10 de setembro de 2010 Seminário Institucional de Avaliação e Planejamento da Pós-graduação da UFSM Programa de Pós-graduação em Administração Conceito.
Engenharia de Software Conceitos e elementos 1. Engenharia   Resolução de problemas através de soluções economicamente viáveis  Motivacão: Limitação.
Transcrição da apresentação:

An approach for managing and semantically enriching the publication of Linked Open Governmental Data Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3 1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil 2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland 3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil

Agenda Motivação e contextualização Cenário Atual em Dados Abertos Interligados (LOD) Projeto LinkedDataBR ETL Workflow Tratamento Semântico Incremental Estudo de Caso Considerações finais

Motivação e contextualização

Motivação e contextualização Estão abertos?

Uso conjunto é ainda um desafio! Motivação e contextualização RNP CAPES CNPq Uso conjunto é ainda um desafio!

Motivação e contextualização Interoperabilidade e Integração de dados na Web ainda requerem considerável esforço Mesmo dentro de uma organização! . Tivemos SGBD por mais de meio século, mas conseguimos a integração que se pretendia? O que faltou ? E agora, na Web: Distribuídos, heterogêneos, em grande escala, altamente visíveis, grande número de diferentes usuários, …

Linked Open Data (LOD) LOD pode ser considerado uma abordagem mais simplista de uso de tecnologias da Web Semântica Baseada em triplas (RDF) para representar os dados de forma realmente “granular” Facilita a interligação Acompanhado de um descritor Abordagem pay-as-you-go

Linked Open Data (LOD) O que vem a ser Dados Abertos Interligados? Utilização ampla de padrões Representação de dados em um grão mínimo (triplas RDF) Flexibilidade nas ligações entre itens de dados Tem a interoperabilidade em sua essência RDF: Resource DESCRIPTION Framework Criado para interoperar METADADOS! Descritores estão na base da proposta

Uma maneira “nova” de publicar e consumir dados! Linked Open Data (LOD) Uma maneira “nova” de publicar e consumir dados! O poder das ligações tipadas O poder da colaboração Consumidores podem ser publicadores também! Mais e mais dados sendo gerados e potencialmente “ligáveis” Sensores e Web das Coisas Dados e metadados sendo explorados juntos em novas aplicações Consulta E Navegação E Busca!

Dados publicados como LOD 265 datasets - 32 bilhões de triplas - 42% de dados de governo Setembro de 2011 Até quando conseguiremos representar esta nuvem?

Cenário Atual - Internacional Muitas iniciativas de governo Governo Britânico, Estados Unidos, Espanha, etc. Diferentes abordagens Entrando em fase mais madura Muitas iniciativas do setor privado BBC, New York Times, ... Muitas iniciativas em e-Ciência Dados genômicos, dados de meio-ambiente,... Forte envolvimento da área acadêmica Consórcio W3C, Sir Tim Berners Lee (MIT) DERI/NUI (Irlanda), Univ. Berlim (Alemanha), Univ. de Madri (Espanha) Projeto LOD2

Cenário Atual - Internacional Grande diversidade de ferramentas Ainda sendo experimentadas Foco em atividades específicas de publicação, consumo e colaboração Ainda razoável esforço requerido para seu uso conjunto Abordagem liberal Prioridade para “expor” os dados e depois ir complementando sua descrição Uso de ontologias ainda incipiente Processo de publicação muito artesanal Qualidade do dado publicado ainda pouco rastreável Entrando em fase de amadurecimento Maior preocupação com semântica e descritores Frameworks para integração de ferramentas sendo discutidos

Cenário Atual - Nacional Inicialmente evoluindo sobre pesquisas e aplicações da Web Semântica e Ontologias PUC-RJ, UFRJ, UFES, PUC-RJ, PUC-RS, … Interesse crescente no Governo: Inicialmente uma certa confusão com dados abertos Acordo assinado entre o Brasil, EUA e mais 6 países Tema do CONSEGI deste ano Ministério do Planejamento : Cria o INDA – Infraestrutura Nacional de Dados Abertos Baseada em LOD e uso de ontologias Apoio do W3C Brasil e CGI/BR Cria o GT Ontologias Iniciativas experimentais em LOD Experimentos pontuais -> simples conversão de dados e interfaces atraentes Tecnologia ainda pouco conhecida

LinkedData BR LinkedDataBR

Nossa Abordagem Linked Data BR Alguns domínios requerem uma abordagem sistemática que garanta: Maior controle do processo Manutenção da consistência dos dados sendo publicados Este é o caso de: Dados Governamentais Dados de e-Ciência Necessário adotar uma abordagem de “gestão de dados” 15

LinkedDataBR - FOCO Foco Característica da solução: no apoio ao processo de publicação na qualidade do dado Característica da solução: Plataforma integrada e flexível Maximização no reuso de ferramentas existentes (software livre) Explorar: Gerência de metadados Apoio ao processo com ferramenta de workflow (ETL) Tratamento Semântico Central functionalities to be included are data cleaning, transformation, association, annotation and referencing to terminology mechanisms.

LinkedDataBR - FOCO LinkedDataBR BR Linked Data Treatment Process Triples Vocabulary Ontology Pre-Processing Triplification Linking Repository LinkedDataBR Feed/Expose Requests URI Responses Linked Data Queries Consume/Explore Consumers Data Producers Governmental and Non Governmental Entities Universities and Research Institutes Citizen and Private Companies LinkedDataCloud Provenance Processo de Tratamento Criar ferramentas e diretrizes associadas para a exposição, compartilhamento e interligação de recursos de dados na forma de Linked Open Data, oferecendo um ambiente que seja principalmente simples de ser utilizado por interessados em disponibilizar seus recursos de dados e associá-los a outros recursos existentes, estimulando a publicação de dados na Web.

Projeto LinkedDataBR Objetivos Construção de uma infra-estrutura inicial de suporte à publicação e criação de repositórios de dados abertos utilizando os padrões de Linked Data E ainda: Criação de diretrizes associadas ao processo de publicação Criação de grupo de interesse e mobilização para apoio e estímulo à iniciativa de Linked Open Data no Brasil e sua inserção no cenário mundial de dados abertos interligados.

Linked Data BR Projeto LinkedDataBR Arquitetura

ETL Workflow (Captura de Proveniência) Publishing Workflow Process Extract Transform Load Stage Triplify Linking Workflow Implementation Design Triples Raw Government Data Prospective Provenance Data Provenance Triples Workflow Implementation Execution Linked Open Government Data Retrospective Provenance Data

Abordagens para o Enriquecimento semântico Publicação de Dados Abertos Ligados Abordagens para o Enriquecimento semântico

Ausência de preocupação com a semântica

Alguma preocupação com a semântica

Preocupação mediana com a semântica

Muita preocupação com a semântica

Exemplo de Cenário de Publicação de Dados Interligados LinkedData BR Exemplo de Cenário de Publicação de Dados Interligados

Cenário de Aplicação C&T Cenário de Financiamentos de Projetos de Pesquisa Projetos de Pesquisa Currículos de Pesquisadores Instituições de Pesquisa RNP tem participação de Lattes eMec tem instituição FNDCT tem participação de Grupos de Pesquisa - CNPq GP-CNPq

Exemplo do Processo de Publicação Lattes CNPQ Tratamento Triplificação Ligação RNP Banco de Dados Intermediário Banco de Triplas Nuvem LOD

Banco de Dados Intermediário Lattes CNPQ Tratamento RNP Banco de Dados Intermediário Nuvem LOD Banco de Triplas

Banco de Dados Intermediário Lattes CNPQ Triplificação RNP Banco de Dados Intermediário Nuvem LOD Banco de Triplas

Banco de Dados Intermediário Lattes CNPQ Ligação RNP Banco de Dados Intermediário Banco de Triplas Nuvem LOD

Resultado Grafos interligados Projetos RNP LODBR UFRJ LODBR_Ph1 MLMC swrc:Project Projetos RNP GrupoTrabalho Instituticao Grafos interligados “LinkedDataBR” WGFase LODBR temNome UFRJ temFase temInsituicao LODBR_Ph1 temNome “Universidade Federal do Rio do Janeiro” temSigla temParticipacaoDe Participante “UFRJ” swrc:University temNome MLMC “Maria Luiza M. Campos” CNPq CV Lattes Pesquisador eMec Instituições UFRJ “Maria Luiza Machado Campos” temNome temNome MLMC “UFRJ” “UFRJ” swrc:Person temLocalOferta enderecoProfissional temSigla temPublicacao 2009 temAno RioJ “Universidade Federal do Rio do Janeiro” MLMC0232 Grupos de Pesquisa CNPq “CrossMDA: a Model-driven Approach for Aspect Management” MLMC temTitulo temNome “Maria Luiza M.Campos” Publicacao temParticipante “Grupo Engenharia do Conhecimento” GRECO temArea Predominante swrc:Publication swrc:ResearchGroup temNome “Knowledge Engineering”

Resultado

Considerações Finais Iniciativas nacionais e internacionais pela transparência das ações governamentais e participação do cidadão. Dado Aberto possui um papel fundamental, mas o valor real do dado é revelado se os dados são explorados em conjunto. LOD é uma abordagem de interoperabilidade e integração Em LOGD é essencial considerar algumas garantias de qualidade e estratégias de interoperabilidade Plataforma do LinkedDataBR e a abordagem de enriquecimento semântico incremental Concebida para apoiar os publicadores e gestores de dados de governo O potencial da colaboração do cidadão (wisdom of the crowds) desempenhará um papel importante no mapeamento e ligação. Governments around the world have been engaged in different initiatives towards decentralization and transparency of their actions, together with increasing citizens’ participation. Open data play a fundamental role on these initiatives, but the real value of government assets is only truly revealed if data from various sources can be explored and used together. LOD has emerged as a light-weight data interoperability and integration approach, exploiting already existing semantic web standards and technologies. Its potential was rapidly recognized, as an increasing number of new tools has been developed and there has been a substantial growth of the linked data cloud. But, when referring to governmental data, it is essential to consider some guaranties for the sustainability of the publication process and the quality assurance of the data interoperability strategy. In this work, we described a platform and an associated approach integrating different tools to facilitate LOD publication and to leverage semantic interoperability. The platform was conceived to support governmental data publishers on managing the various phases of LOD life cycle, capturing provenance data along the process and allowing for various levels of conceptual enrichment. The pay-as-you-go approach of linked data allows for an incremental data integration strategy and the flexibility to add new links stimulates associativity between resources. This can greatly contribute to increase the number of applications over governmental data, especially if we consider new opportunities for development teams and private sector. The potential of citizens’ collaboration and the so called “wisdom of the crowds” will play an important role on mapping and linking. In this scenario, provenance management and mechanisms to assist in the data curation process become crucial and constitute future work.

An approach for managing and semantically enriching the publication of Linked Open Governmental Data http://greco.ppgi.ufrj.br/gtlinkedbr/ Kelli de Faria Cordeiro1, Fabricio Firmino de Faria1, Bianca de Oliveira Pereira1,2, André Freitas2, Cristiano Expedito Ribeiro1, João Vitor Villas Boas Freitas1, Ana Christina Bringuente3, Lucas de Oliveira Arantes3, Rodrigo Calhau3, Veruska Zamborlini3, Maria Luiza Machado Campos1, Giancarlo Guizzardi3 1Graduate Program in Informatics (PPGI) Federal University of Rio de Janeiro (UFRJ) – Brazil 2Digital Enterprise Research Institute (DERI) National University of Ireland – Galway – Ireland 3Ontology and Conceptual Modeling Research Group (NEMO) – Computer Science Department – Federal University of Espírito Santo (UFES) – Brazil