A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Dados abertos interligados

Apresentações semelhantes


Apresentação em tema: "Dados abertos interligados"— Transcrição da apresentação:

1 Dados abertos interligados
CIN/UFPE José Luiz Correia Neto

2 Web atual Internet Contemporânea: constante processo de evolução
Hipertexto Documentos de diversas áreas do conhecimento Objetivos de apresentação A Internet contemporânea, nos moldes da World Wide Web, vive um constante processo de evolução e tem revolucionado a forma como criamos conteúdo e trocamos informações. A Web organiza as informações disponíveis na Internet por meio de hipertexto e torna a interação do usuário com a rede mundial mais amigável. Com isso, possibilita um ambiente de compartilhamento de documentos oriundos de diversas áreas do conhecimento. Entretanto, tais conteúdos geralmente seguem regras apenas sintáticas, com objetivos de apresentação, não permitindo que se consiga facilmente extrair semântica dos mesmos, sem que para isso seja feito um grande esforço de implementação.

3 Web atual A Web atual pode ser classificada como sintática
e o processo de interpretação dos conteúdos disponibilizados fica geralmente a cargo dos usuários. (CUNHA, LÓSCIO, & SOUZA) Considerando isso, a Web atual pode ser classificada como sintática e o processo de interpretação dos conteúdos disponibilizados fica geralmente a cargo dos usuários.

4 Problema e solução Dados na Web lidos ou compreendidos por humanos e não por agentes de software Processar a semântica Atribuição de significado: Elementos Dados Expressões Em sua maior parte, os dados na Web ainda são organizados para serem lidos ou compreendidos por humanos e não por agentes de software. Para que um agente de software possa entender e interpretar um dado, é necessário processar a semântica envolvida naquele dado, num determinado contexto. Neste escopo, semântica diz respeito à atribuição de significado a elementos, dados ou expressões que precisam ser interpretados numa dada situação [Souza 2009].

5 Problema e solução Relação de significância entre os conteúdos publicados Perceptível pelos usuários e agentes de software Nova visão da Web: Web Semântica No cenário da Web, isso representa atribuir significado aos dados interligando-os com outros conjuntos de dados ou outros domínios de conhecimento, conseguindo, assim, criar uma relação de significância entre os conteúdos publicados na Internet de modo que seja perceptível tanto pelo usuário quanto pelos agentes de software. Essa nova visão da Web vem sendo denominada de Web Semântica (Semantic Web) [Lee et al. 2001]

6 Web semântica Web Semântica: extensão da Web
Facilita a interpretação e integração dos dados A Web Semântica é considerada uma extensão da Web atual cujo objetivo principal é facilitar a interpretação e integração dos dados na Web.

7 Linked data Linked Data: conjunto de boas práticas “Web de Dados”
HTTP e URI A Web de Dados cria inúmeras oportunidades para a integração semântica Como parte do desenvolvimento da Web Semântica, surgiu o conceito de Linked Data (dados ligados) que pode ser definido como um conjunto de boas práticas para publicar e conectar conjuntos de dados estruturados na Web, com o intuito de criar uma “Web de Dados” [Bizer et al. 2009]. Estas práticas são fundamentadas em tecnologias Web, como HTTP (Hypertext Transfer Protocol) e URI (Uniform Resource Identifier), com o objetivo de permitir a leitura dos dados conectados semanticamente, de forma automática, por agentes de software. A Web de Dados cria inúmeras oportunidades para a integração semântica de dados, motivando o desenvolvimento de novos tipos de aplicações e ferramentas, como navegadores e motores de busca.

8 padrões URIs Usadas para identificar objetos e conceitos
O dereferenciamento resulta uma descrição RDF No contexto Linked Data, URIs são usadas para identificar objetos e conceitos, permitindo que eles sejam dereferenciados para obtenção de informações a seu respeito. Assim, o dereferenciamento de uma URI resulta em uma descrição RDF do recurso identificado.

9 padrões HTTP Protocolo responsável pelo tratamento de pedidos e respostas entre cliente e servidor na Web HTTP é um protocolo de aplicação responsável pelo tratamento de pedidos e respostas entre cliente e servidor na Web. Ele surgiu da necessidade de distribuir informações pela Internet e, para que essa distribuição fosse possível, foi necessário criar uma forma padronizada de comunicação entre os clientes e os servidores da Web. Com isso, o protocolo HTTP passou a ser utilizado para a comunicação entre computadores na Internet e a especificar como seriam realizadas as transações entre clientes e servidores, através do uso de regras básicas.

10 padrões RDF Linguagem para representar informação na Internet.
Componentes: Sujeito Predicado Objeto A utilização de um modelo padrão para representação de dados, como o RDF, torna possível a implementação de aplicações genéricas capazes de operar sobre o espaço de dados global [Heath & Bizer 2011]. O modelo RDF é baseado no conceito de grafo, é extensível e possue um alto nível de expressividade, facilitando, dessa forma, a interligação entre dados de diferentes fontes. Em RDF, um recurso pode estar relacionado com dados ou com outros recursos através das sentenças, as quais são estruturadas no formato sujeito + predicado + objeto, onde: Sujeito: Tem como valor o recurso sobre o qual se quer escrever uma sentença. Todo recurso deve ser capaz de ser identificado unicamente. Predicado: Especifica um relacionamento entre um sujeito e um objeto. O predicado é especificado por meio de propriedades, que são relações binárias geralmente nomeadas por um verbo e permitem relacionar um recurso a dados ou a outros recursos. Uma propriedade também é um recurso e, portanto, deve ter um identificador único. Objeto: Denomina o recurso ou dado que se relaciona com o sujeito. O valor de um objeto pode ser um recurso ou um literal, que pode ser um valor numérico ou uma cadeia de caracteres.

11 padrões SPARQL Linguagem de consulta padrão para recuperação de informações contidas em grafos RDF Estrutura: Select-From-Where Assim como os sistemas de bancos de dados relacionais fazem uso do SQL para consultar registros nas suas bases de dados, SPARQL é a linguagem de consulta padrão recomendada pelo W3C para recuperação de informações contidas em grafos RDF. Apesar de existirem outras linguagens de consulta (SeRQL, RQL, etc..) mais antigas, maduras e com maior poder de expressividade que o SPARQL, estas ou foram projetadas para se trabalhar em um domínio específico ou são interpretadas apenas por algumas poucas ferramentas, o que acaba resultando em uma baixa interoperabilidade. Semelhante ao SQL, o SPARQL possui uma estrutura Select-From-Where onde: Select: Especifica uma projeção sobre os dados como a ordem e a quantidade de atributos e/ou instâncias que serão retornados. From: Declara as fontes que serão consultadas. Esta cláusula é opcional. Quando não especificada, assumimos que a busca será feita em um documento RDF/RDFS particular. Where: Impões restrições na consulta. Os registros retornados pela consulta deverão satisfazer as restrições impostas por esta cláusula.

12 Web de Documentos vs. Web de dados
Navegadores HTML Hiperlinks WEB DE DADOS Navegadores RDF Links RDF Para um melhor entendimento sobre a Web de Dados, pode-se estabelecer um paralelo entre a Web de Documentos (a Web atual) e a Web de Dados. A primeira faz uso de navegadores HTML (HyperText Markup Language) para acessar dados na enquanto que na segunda os dados são acessados a partir de navegadores RDF. Na Web de Documentos hiperlinks são usados para navegar entre as páginas, enquanto que na Web de Dados os links RDF são usados para acessar dados de diversas fontes.

13 Web de Documentos vs. Web de dados
Mecanismo de identificação global único (URIs) Mecanismo de acesso universal (HTTP) Formato de representação de conteúdo (HTML) WEB DE DADOS Mecanismo de identificação global único (URIs) Mecanismo de acesso universal (HTTP) Modelo padrão para representação de dados (RDF) Linguagem de consulta (SPARQL) A Web de Documentos é baseada em um conjunto de padrões, incluindo: um mecanismo de identificação global e único, as URIs; um mecanismo de acesso universal, o HTTP e um formato padrão para representação de conteúdo, o HTML. De modo semelhante, a Web de Dados tem por base alguns padrões, como: o mesmo mecanismo de identificação e acesso universal usado na Web de documentos (as URIs e o HTTP); um modelo padrão para representação de dados, o RDF e uma linguagem de consulta para acesso aos dados, a linguagem SPARQL.

14 Princípios linked data
Princípios básicos: Usar URIs como nome para recursos Usar URIs HTTP para que as pessoas possam encontrar esses nomes Quando alguém procurar por uma URI, garantir que informações úteis possam ser obtidas por meio dessa URI Incluir links para outras URIs para que outros recursos possam ser descobertos O termo Linked Data refere-se ao conjunto de melhores práticas para a publicação de dados estruturados na Web. Essas práticas foram introduzidas por Tim Berners-Lee em [Lee et al 2006] e resumem-se em quatro princípios básicos: Tim Berners-Lee

15 LOD Fundado em 2007 Apoiado pelo W3C Semantic Web Education and Outreach Group Objetivo: identificar conjuntos de dados sob licenças abertas e convertê-lo para RDF O exemplo mais visível da adoção e aplicação dos princípios Linked Data tem sido o projeto Linking Open Data fundado em janeiro de 2007 e apoiado pelo W3C Semantic Web Education and Outreach Group. O objetivo principal desse projeto é identificar conjuntos de dados disponíveis sob licenças abertas e convertê-los para RDF de acordo com os princípios Linked Data.

16 LOD Fase inicial: pesquisadores e desenvolvedores de laboratórios universitários e empresas de pequeno porte Requisitos: conjunto de dados de acordo com os princípios do Linked Data e interligação aos conjuntos de dados existentes Os participantes nas fases iniciais do projeto foram os pesquisadores e desenvolvedores de laboratórios universitários e empresas de pequeno porte. Desde então, o projeto tem crescido consideravelmente, conseguindo um envolvimento significativo de grandes organizações como a BBC. Este crescimento é possível graças à natureza aberta do projeto, onde qualquer um pode participar, sendo necessário apenas publicar um conjunto de dados de acordo com os princípios Linked Data e interligá-lo aos conjuntos de dados já existentes.

17 Mais de 500 milhões de triplas RDF
Maio de 2007 Mais de 500 milhões de triplas RDF Cerca de 120 mil links RDF entre fontes de dados Visão geral de conjuntos de dados publicados e seus relacionamentos no contexto do projeto Linking Open Data No grafo, cada nó representa um conjunto de dados publicado seguindo os princípios Linked Data, os quais estão interligados com outros conjuntos de dados na nuvem. O tamanho de cada nó corresponde ao número de triplas RDF do conjunto de dados. As setas indicam a existência de pelo menos 50 ligações entre dois conjuntos, podendo ser unidirecionais, indicando que um certo conjunto contem triplas RDF de um outro conjunto, ou bidirecionais, indicando que ambos os conjuntos contem triplas RDF um do outro. Visão geral de conjuntos de dados publicados e seus relacionamentos no contexto do projeto Linking Open Data

18 Outubro de 2007 Conjuntos de dados publicados no contexto do projeto Linking Open Data

19 Novembro de 2007 Conjuntos de dados publicados no contexto do projeto Linking Open Data

20 Novembro de 2007 Conjuntos de dados publicados no contexto do projeto Linking Open Data

21 Fevereiro de 2008 Conjuntos de dados publicados no contexto do projeto Linking Open Data

22 Março de 2008 Conjuntos de dados publicados no contexto do projeto Linking Open Data

23 Setembro de 2008 Conjuntos de dados publicados no contexto do projeto Linking Open Data

24 Março de 2009 Conjuntos de dados publicados no contexto do projeto Linking Open Data

25 Março de 2009 Conjuntos de dados publicados no contexto do projeto Linking Open Data

26 Julho de 2009 Conjuntos de dados publicados no contexto do projeto Linking Open Data

27 Setembro de 2010 Conjuntos de dados publicados no contexto do projeto Linking Open Data

28 Setembro de 2011 Conjuntos de dados publicados no contexto do projeto Linking Open Data

29 Agosto de 2014 Conjuntos de dados publicados no contexto do projeto Linking Open Data

30 5 estrelas dos dados abertos
Segundo Berners-Lee, “Dados Abertos Interligados são Dados Linkados publicados por meio de licenças abertas” Dados Interligados não são necessariamente abertos Dado Aberto Interligado só é assim considerado se for aberto Quando falamos de estratégias de Dados Abertos que vão além da simples publicação de informações, podemos trazer à discussão o conceito de Dados Linkados ou ir mais além: Dados Abertos Linkados, ou Linked Open Data (LOD). Nas palavras de Tim Berners-Lee, o inventor da World Wide Web, “Dados Abertos Linkados são Dados Linkados publicados por meio de licenças abertas”. Há casos em que os Dados Linkados não necessariamente precisam ser abertos. Mas, em se tratando de Dados Abertos Linkados a coisa muda de figura. Dado Aberto Linkado só pode ser assim considerado se for aberto. E, na tentativa de estimular a difusão destes dados, Tim Berners-Lee sugeriu a escala das 5 estrelas.

31 5 estrelas dos dados abertos
Disponível na Internet (em qualquer formato. Por exemplo: PDF), desde que com licença aberta, para que seja considerado Dado Aberto Disponível na Internet de maneira estruturada (em um arquivo Excel com extensão XLS) Disponível na Internet, de maneira estruturada e em formato não proprietário (CSV em vez de Excel) Seguindo todas as regras acima, mas dentro dos padrões estabelecidos pelo W3C (RDF e SPARQL): usar URL para identificar coisas e propriedades, de forma que as pessoas possam direcionar para suas publicações Todas as regras acima, mais: vincular seus dados aos de outras pessoas, de forma a fornecer um contexto. Quando falamos de estratégias de Dados Abertos que vão além da simples publicação de informações, podemos trazer à discussão o conceito de Dados Linkados ou ir mais além: Dados Abertos Linkados, ou Linked Open Data (LOD). Nas palavras de Tim Berners-Lee, o inventor da World Wide Web, “Dados Abertos Linkados são Dados Linkados publicados por meio de licenças abertas”. Há casos em que os Dados Linkados não necessariamente precisam ser abertos. Mas, em se tratando de Dados Abertos Linkados a coisa muda de figura. Dado Aberto Linkado só pode ser assim considerado se for aberto. E, na tentativa de estimular a difusão destes dados, Tim Berners-Lee sugeriu a escala das 5 estrelas.

32 Consumo de dados interligados
Aumento de dados disponíveis de acordo com os princípios Linked Data. Aplicações: Browsers Motores de Busca Aplicações para domínios específicos Nos últimos três anos, um número significativo de dados vem sendo disponibilizado de acordo com os princípios Linked Data. Como resultado, uma série de aplicações Web estão sendo desenvolvidas para explorar a Web de Dados. Segundo [Bizer et al 2009], essas aplicações podem ser classificadas em três categorias: browsers, motores de buscas e aplicações para domínios específicos. Essa seção examinará cada uma dessas categorias.

33 Consumo de dados interligados
Browser Linked Data - Lodlive Permite alimentá-lo com uma URI e de forma interativa, seguir os links associados. URIs podem vir de DBedia, Freebase, entre outras. Browser Lodlive Assim como os tradicionais browsers da Web clássica permitem aos usuários navegarem por páginas HTML, os browsers Linked Data permitem aos usuários navegar por fontes de dados seguindo os links expressos nas triplas RDF. Por meio destes browsers é possível percorrer os links RDF, explorando e descobrindo novas informações na Web.

34

35

36 Consumo de dados interligados
Motores de Busca - Sindice Coleta de dados na web de muitas maneiras e oferece busca e consulta através dos dados.

37

38

39 Consumo de dados interligados
Aplicações para domínios específicos - DBPedia Provê a visualização de um mapa com informações oriundas das entidades DBpedia e informações de outras bases de conhecimento

40 desafios Criar meios eficientes que viabilizem o uso do grande volume de dados Informação útil, específica e relevante Linked Data é a chave para a transformação da Web Os princípios do Linked Data devem ser ainda mais discutidos O imenso emaranhado de documentos acessíveis na Web é composto de dados e informações de praticamente todas as áreas do conhecimento humano. Contudo, ainda é árdua a tarefa de prover meios eficientes que permitam aproveitar todo esse conteúdo, que pode ser composto tanto por dados estruturados, como os dados provenientes de bancos de dados relacionais, quanto por dados não estruturados, como textos e dados multimídia. No cenário da Web atual, o grande volume de dados e a falta de metadados dificultam o acesso à informação útil, específica e relevante. Neste contexto, espera-se que o uso dos princípios do Linked Data possibilite a transformação de uma Web na qual os recursos são documentos HTML para uma Web de Dados, onde os dados estarão interligados através de metadados. O tema Linked Data traz novos desafios para o desenvolvimento de aplicações Web de uma maneira geral, bem como para o gerenciamento da grande nuvem de dados que vem se formando como resultado da crescente adoção dos princípios do Linked Data. Tendo em vista a relevância deste assunto para a comunidade de Computação e o grande potencial de pesquisa desta área, Linked Data tem sido o foco de diversas conferências internacionais, bem como o foco de estudo de diversos grupos de pesquisa. Dessa forma, torna-se de fundamental importância que este tema seja amplamente abordado e discutido por pesquisadores, alunos e profissionais da área de Computação.

41 Referências CUNHA, D. R. B.; SOUZA, D. Y. ; LOSCIO, B. F. (2011) Linked Data: da Web de Documentos para a Web de Dados. V Escola Regional de Informática Ceará, Maranhão, Piauí: Livro texto dos minicursos, 07 e 08 de novembro de [livro eletrônico] Linked Data ( Publicação de Dados Governamentais no Padrão Linked Data ( abertos/curso/Parte-1-Modulo-4-Linked%20Data.pdf) LiAM: Linked Archival Metadata: Semantic Web browsers. (

42 Referências Lodlive (http://en.lodlive.it/)
Sindice ( DBPedia Applications ( As 5 Estrelas dos Dados Abertos (platform.od4d.org/articles/filter/about/CSV?locale=pt)


Carregar ppt "Dados abertos interligados"

Apresentações semelhantes


Anúncios Google