A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Thiago José Tavares Ávila Mestrando

Apresentações semelhantes


Apresentação em tema: "Thiago José Tavares Ávila Mestrando"— Transcrição da apresentação:

1 Thiago José Tavares Ávila Mestrando
Uma proposta de modelo de processo para publicação de dados abertos conectados governamentais Estudo empírico Mestrado em Modelagem Computacional do Conhecimento Instituto de Computação – Universidade Federal de Alagoas Thiago José Tavares Ávila Mestrando Orientador Prof. Dr. Ig Ibert Bittencourt 20/10/2015

2 Agenda Contextualização Motivação Modelo de Processo O Estudo Empírico

3 Oferta de Dados no mundo em 2020
40 trilhões de gigabytes de dados em 2020 Volume irá dobrar 40x entre (EMC, 2012) [1] Gantz, John and Reinsel. (2012). David. The Digital Universe In 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. EMC Corporation. Acesso em: jul Disponível em: Figura 1 – Perspectiva de crescimento da oferta de dados digitais até 2020 [EMC, 2012).

4 Oferta de Dados Governamentais - 2015
[2] DataPortals. (2015). A Comprehensive List of Open Data Portals from Around the World. Open Knowledge Foundation. Figura 2 – Mapa Mundi dos Catálogos de Dados Abertos Governamentais (DataPortals, 2015) 434 Catálogos de Dados Abertos Governamentais no mundo até hoje

5 Oferta de Dados Governamentais - 2015
E.U.A. conjuntos de dados UNIÃO EUROPÉIA conjuntos de dados REINO UNIDO conjuntos de dados JAPÃO conjuntos de dados ÍNDIA conjuntos de dados BRASIL conjuntos de dados

6 Acesso à Informação Lei 12.527/2011 - Art. 8 § 3º
II - possibilitar a gravação de relatórios em diversos formatos eletrônicos, inclusive abertos e não proprietários, tais como planilhas e texto, de modo a facilitar a análise das informações;  [...] Lei / Art. 8 § 3º III - possibilitar o acesso automatizado por sistemas externos em formatos abertos, estruturados e legíveis por máquina [...] Figura 04 – Mapa dos países que possuem Lei de Acesso à Informação na América Latina e Caribe

7 PÚBLICO-ALVO EXEMPLOS DE INFORMAÇÃO PÚBLICA FINALIDADE Setor Produtivo - Indicadores Sociais, Econômicos, Demográficos, Planos de Governo, Relatórios Fiscais. - Informações Geográficas (imagens aéreas, vetores com distâncias entre localidades, mapas e cartogramas sobre dados socioeconômicos), etc. - Projetos de Consultoria - Expansão e/ou Manutenção de Negócios - Desenvolvimento ou aprimoramento de produtos e serviços Setor Acadêmico - Artigos Científicos, Trabalhos Acadêmicos - Projetos de Pesquisa - Monografias, Dissertações, Teses - Projetos de Pesquisa e Extensão - Projetos para captação de recursos em instituições de fomento Setor Público - Pesquisas acadêmicas, estudos e análises, relatórios de tendência, projeções de cenários. - Diagnósticos governamentais, diagnósticos sobre áreas ou demandas específicas (ex: problemas ambientais) - Formulação de planos e programas de governo, execução de ações, monitoramento e avaliação governamental. - Publicidade de ações governamentais - Projetos para captação de recursos em instituições de fomento Imprensa - Dados orçamentários e financeiros - Pesquisas e indicadores socioeconômicos - Dados Populacionais - Relatórios de Monitoramento e Acompanhamento de Ações Governamentais - Matérias e investigações jornalísticas - Publicidade de ações governamentais - Denúncias de não-conformidades em ações governamentais Sociedade em Geral Monitoramento e Controle Social do Governo Elaboração de Projetos para captação de recursos Tabela 1 – Exemplos de informações públicas e respectivas finalidades por público-alvo (Elaborado pelo autor)

8 Mas problemas existem ... Quão reutilizáveis estes dados são ?
Quão confiáveis ? Quão duplicados estão estes dados ao longo da web ? Estes dados estão de acordo com a legislação vigente ? Estão licenciados ? É possível gerar conhecimento a partir destes dados ? Eles possuem algum elemento semântico ? Destes 434 catálogos de dados, seria possível extrair respostas para perguntas como: “Quantas universidades existem em cada país que oferta dados abertos governamentais ?”

9 Dados Conectados: Um caminho para resolver ...
Identificar os dados Modelar e enriquecer os dados Tornar os dados mais “encontráveis” na web Conectar os dados Se não for Linked Data, podem ser usadas APIs, Webcrawlers, Troca de arquivos, Acesso direto a banco de dados, etc. Figura 6 – Princípios dos dados conectados (Berners-Lee, 2006)

10 Esquema 5-Estrelas: Um caminho evolutivo
Se não for Linked Data, podem ser usadas APIs, Webcrawlers, Troca de arquivos, Acesso direto a banco de dados, etc. Figura 6 – Esquema 5-estrelas dos Dados Abertos (Berners-Lee, 2006)

11 Motivação Evolução: Dados -> Dados Abertos Conectados
Vantagens, Requisitos de qualidade, etc. Dados Abertos Conectados -> Dados Abertos Governamentais Agregam enorme potencial nestes dados (Heath and Bizer, 2011); Situação verificada: Existem processos que apoiam a publicação de dados abertos governamentais, dados abertos e dados abertos conectados Desenvolvidos pela comunidade científica e por órgãos governamentais; Poucos processos apoiam a publicação de dados abertos conectados governamentais [6] Heath, Tom; Bizer, Christian. (2011) Linked Data: Evolving the Web into a Global Data Space (1st edition). Synthesis Lectures on the Semantic Web: Theory and Technology, 1:1, Morgan & Claypool. [7] Maali, Fadi; Cyganiak, Richard; Peristeras, Vassilios (2010). Enabling Interoperability of Government Data Catalogues. Electronic Government - Lecture Notes in Computer Science Volume 6228, 2010, pp

12 Motivação Problemática:
Potencial prejudicado – Dados Abertos Conectados Governamentais -> Ausência de condições para transformar dados brutos em dados altamente qualificados (Linked Open Data) em larga escala (Maali, Cyganiak and Peristeras, 2010). Produção e publicação de dados abertos conectados -> Desenvolvidos sem um conjunto comum e claro de etapas que permitam a sua geração em escala; Ausência de processos detalhados e softwares que apóiem todo o ciclo de vida de publicação de dados governamentais conectados Pois os processos que existem são direcionados à desenvolvedores de software, não para agentes governamentais (Villazón-Terrazas et. al, 2011); Processos existentes, aparentemente, não consideram o nível de maturidade em gestão e publicação de dados das organizações publicadoras. [10] Villazón-Terrazas, Boris; Vilches-Blázquez , Luis. M.; Corcho, Oscar; Gómez-Pérez, Asunción  (2011). Methodological Guidelines for Publishing Government Linked Data. Linking Government Data. pp 27-49

13 Um Referencial Comparativo
“Melhores Práticas para Publicação de Dados Conectados” (W3C) 1. Prepare Stakeholders 2. Select a Dataset 3. Model the Data 4. Specify an Appropriate License 5. The Role of "Good URIs" for Linked Data 6. Standard Vocabularies 7. Convert Data to Linked Data 8. Provide Machine Access to Data 9. Announce to the Public 10. Social Contract of a Linked Data Publisher [11] Hyland, Bernadette; Atemezing, Ghislain; Villazón-Terrazas, Boris. (2014) Best Practices for Publishing Linked Data. W3C. Acesso em: jul Disponível em: Figura 11 – 10 MelhoresPráticas para publicação de dados conectados estabelecidos pelo W3C (W3C, 2014)

14 Modelo de Processo “Piece of Cake”

15 Modelo de processo evolutivo (incremental) de publicação de dados abertos governamentais que proporciona o aprimoramento dos dados através das camadas 3,4 e 5 do esquema 5-Estrelas dos Dados Abertos Busca reduzir a complexidade para publicação de Dados Abertos Conectados Governamentais (DACG) mediante a incorporação gradual de atividades de maior complexidade Considera as “Melhores Práticas para Publicação de Dados Conectados” como grandes etapas para publicação de DACG Apresenta um conjunto de atividades obrigatórias e desejáveis a serem desenvolvidas para publicação de DACG nas camadas 3,4 e 5 do esquema 5-Estrelas

16

17

18

19 O Estudo Empírico

20 Escopo do estudo Objeto de estudo: O objeto de estudo é o processo de publicação de dados abertos conectados governamentais Finalidade: Avaliar a publicação de dados abertos governamentais (DAG) e dados abertos conectados governamentais (DACG) Foco da qualidade: Verificar a eficácia na publicação de DACG

21 Metodologia EQUIPE A: experiência alta EQUIPE B: experiência média
3 equipes formadas por 1 profissional, 1 aluno de pós-graduação e 4 alunos de graduação em computação Objetivo de cada equipe: Publicar dois arquivos, originalmente no nível sem estrela, como dado conectado (5 estrelas) Utilizando o modelo de processo “Piece of Cake” Documentando as atividades desenvolvidas EQUIPE A: experiência alta EQUIPE B: experiência média EQUIPE C: pouca ou nenhuma experiência

22 Metodologia Duração do estudo Avaliação Material fornecido
Apresentação e slides sobre publicação de dados abertos conectados governamentais Documento com atividades (recomendações) publicação de dados abertos conectados governamentais Planilha para apoiar a documentação das atividades Disponíveis em: Duração do estudo 2 dias úteis (aproximadamente 16 horas) Avaliação Responder questionário com avaliação breve (não-identificada), disponível aqui:

23 Atividades sugeridas pelo Modelo de Processo “Piece of Cake”

24

25 1. Preparar Partes Interessadas
Capacitar os envolvidos na publicação dos dados Definir grupos de usuários dos dados Definir perfis profissionais a serem envolvidos Elaborar um plano de ações para publicação dos dados Identificar as partes interessadas Identificar os benefícios para a abertura de dados 2. Selecionar Conjuntos de Dados Analisar a estrutura organizacional da instituição publicadora Analisar o esforço para abertura de dados Analisar o nível de sigilo dos dados e informações Analisar relatórios anuais e documentações da instituição publicadora  Estabelecer diretrizes que orientem a priorização da publicação de dados abertos Fazer e validar mapa de responsabilidades entre conjuntos de dados e unidades de negócio responsáveis Identificar e analisar sistemas de informação que poderão ser objeto da abertura de dados Identificar os dados que serão abertos Realizar consultas aos usuários sobre a demanda de dados

26 4. Especificar uma Licença Apropriada
3. Modelar os Dados Anonimizar dados sensíveis Estabelecer rotinas de conversão de dados para formatos legíveis por máquina Gerar cópias de segurança das bases de dados que serão abertas Higienizar os dados Modelar rotinas automatizadas (ETL) 4. Especificar uma Licença Apropriada Adotar licenças de uso dos dados não restritivas Apresentar opções de licenças de dados a serem adotadas Estabelecer questões-chave para definição de licenças 8. Prover Acesso Automatizado aos Dados Desenvolver uma API Disponibilizar bases completas para download (dumps) Estabelecer um Mapa de Decisões Tecnológicas

27 9.Anunciar Conjuntos de Dados
Disponibilizar os dados com o menor custo possível ao usuário, preferencialmente de modo gratuito na internet Divulgar dados em meios complementares (Catálogos, FTP, Torrent) Divulgar dados em seções destacadas de sítios de governo Estabelecer dados tecnicamente e legalmente abertos Estabelecer recursos de consulta parcial da base de dados como uma API ou webservice Estabelecer visualizações e demais recursos de exploração dos dados Publicar metadados junto aos dados 10.Estabelecer um contrato social para os dados publicados Disponibilizar leis e atos normativos que explicitem aos usuários quanto as obrigações dos governos em publicarem dados com qualidade e disponibilidade Estabelecer com clareza que o processo de publicação contempla etapas de manutenção e atualização dos dados Estabelecer espaços para recebimento do feedback do usuário, preferencialmente publicando dados de uma pessoa e/ou telefone de contato para esclarecimento de dúvidas sobre o uso e disponibilidade dos dados Estabelecer mecanismos de monitoramento e avaliação da oferta de dados disponibilizados ao público

28

29 3.Modelar os Dados 2. Selecionar Conjuntos de Dados
Identificar dados que podem ser conectados 3.Modelar os Dados Analisar se os dados serão conectados ou não Estabelecer ou aprimorar documentação de dados (esquemas, vocabulários e ontologias)

30 5.Estabelecer bons identificadores universais (URIs)
Estabelecer design simplificado de URIs Estabelecer URIs neutras Estabelecer URIs persistentes, que não se alterem em nenhum momento Proporcionar pelo menos um recurso de dados em formato que seja legível por máquina para cada URI URIs das entidades (conjuntos de dados ou recursos) sejam diferentes das URIs das páginas que apresentam estes recursos para a leitura feita por humanos Usar URIs como nomes para as coisas Usar URIs HTTP para que pessoas e máquinas possam encontra-las via web utilizando estes endereços Utilizar datas em URIs com moderação Utilizar hashs (#) em URIs cautelosamente Utilizar identificadores relacionados a informações do mundo real Utilizar URIs para conectar os dados

31 6.Utilizar Vocabulários Padrão 7. Converter e Enriquecer Dados
Criar um esquema de dados para cada conjunto de dados Determinar linguagens para expressar esquemas de dados Estabelecer critérios de escolha de vocabulários Estabelecer os metadados obrigatórios Incentivar o reúso de vocabulários Publicar esquemas de dados em arquivos diferentes 7. Converter e Enriquecer Dados Converter dados para múltiplas finalidades e usos

32

33 6.Utilizar Vocabulários Padrão 7. Converter e Enriquecer Dados
Certificar que os dados estão conectados a outros conjuntos de dados 7. Converter e Enriquecer Dados Permitir o envolvimento de várias pessoas na identificação de como os dados a serem convertidos se relacionam com outros dados 8.Prover Acesso Automatizado aos Dados Desenvolver um endpoint SPARQL 09.Anunciar Conjuntos de Dados Disponibilizar dados conectados em servidores de triplas Melhorar os dados para serem melhor divulgados e encontrados por máquinas

34

35 6.Utilizar Vocabulários Padrão 7. Converter e Enriquecer Dados
Desenvolver ou utilizar ontologias para estruturar a semântica dos dados 7. Converter e Enriquecer Dados Adotar rotinas ETL para enriquecimento de dados

36 Thiago José Tavares Ávila
Muito obrigado !!! Thiago José Tavares Ávila Mestrando em Modelagem Computacional do Conhecimento – IC/UFAL Núcleo de Excelência em Tecnologias Sociais - NEES


Carregar ppt "Thiago José Tavares Ávila Mestrando"

Apresentações semelhantes


Anúncios Google