Interoperabilidade e Semântica na Web Ana Maria de Carvalho Moura Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil.

Slides:



Advertisements
Apresentações semelhantes
Sistemas Distribuídos Baseados na Web
Advertisements

Módulo II – Domine a Internet Introdução a Informática DCC - UFMG.
HTML - HiperText Markup Language Tecnologia para Web
Curso: Banco de Dados I Análise de Sistemas PUC Campinas
Evolução dos SGBD’s (2ª Parte).
Resumo 1.1) Introdução 1.2) Abordagem Convencional de Arquivos
Propriedades de Documentos
SISTEMAS DE INFORMAÇÃO
XML (eXtensible Markup Language) W3C - World Wide Web Consortium Documentos TXT estruturados? Por que XML? XML, ou eXtensible Markup Language, é uma linguagem.
Maurício Edgar Stivanello
Sistema Gerenciador de Banco de Dados SGBD
Bacharelado em Ciência da Computação
Introdução aos Sistemas Gerenciadores de Banco de Dados
Aplicação de XML Web Semântica Tópicos Avançados em Bancos de Dados II
Programas Utilitários Básicos
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
Vânia Maria Ponte Vidal
Gerenciamento de Dados XML
Introdução a Teoria da Classificação
Internet: conceitos básicos
Material III-Bimestre Wagner Santos C. de Jesus
INTERNET O que é ? História da Internet Internet no Brasil
Administração de Sistemas de Informação Banco de Dados
HTML Básico João Araujo.
Web Semântica Mineração na Web – if796 Subtitle.
XML Extended Markup Language
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Computação e Estatística Servidor de Documentos XML Usando.
Banco de Dados II Prof. Antônio Cordeiro.
UNIVERSIDADE FEDERAL SANTA CATARINA Curso de Biblioteconomia Disciplina: Recuperação Da Informação Professora: Ursula Blattmann Acadêmicas:: Mara Suchy.
Tópicos de Sistemas de Informação A
Tópicos de Sistemas de Informação A
Sistemas de Apoio à DecisãoMárcio MoreiraUnidade 5 – Decisões Não Estruturadas – Recuperação de Informações – Slide 1 5Decisões Não Estruturadas 5.1Recuperação.
É um conjunto de registos dispostos numa estrutura regular que possibilita a reorganização dos mesmos e a produção de informação com a menor redundância.
Otimizador de consultas
A autoria - II.
BD.
Prof. Kelly E. Medeiros Bacharel em Sistemas de Informação
ACESSO A BASE DE DADOS.
Mineração na Web Introdução a Recuperação de Informação
Sistemas de Informação Prof. Carlos Alberto Seixas Banco de Dados II /01 UNIESP
Recuperação de Informação
Vânia Maria P. Vidal, José Maria Monteiro, Luís Eufrasio T. Neto
Profº Cláudio Barbosa XHTML – Introdução  XHTML (eXtensible HyperText Markup Language) – linguagem baseada na XML para.
Professor: Márcio Amador
Banco de Dados Parte 04 Ceça. Ceça Moraes 2 Conteúdo  Os três níveis da arquitetura  Mapeamentos  Arquitetura cliente-servidor.
Arquitetura de Desenvolvimento Web MVC vs. Three Tiers
A abordagem de banco de dados para gerenciamento de dados
Banco de Dados Aplicado ao Desenvolvimento de Software
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
Universidade do Estado do Rio de Janeiro Instituto de Matemática e Estatística XML: Extensible Markup Language EquipeEquipe: Adriana Cristina de Oliveira.
Dados abertos interligados
DCMI Dublin Core Metadata Initiative por Pablo Lopes Alenquer curso Tópicos Especiais em BD2 data Março de 2000 Mestrado IM / NCE.
©Silberschatz, Korth and Sudarshan (modificado)10.1.1Database System Concepts Capítulo 10: XML XML para transferência de dados Estrutura hierárquica do.
Produção de Sites Unidade 9 – XML Prof.: Henrique Santos.
Sumário 1 SQL Embutida 2 Processamento de Consultas
Validando Documentos XML Vânia Maria Ponte Vidal
XML Namespaces XML Namespaces provê um método para evitar conflito de nomes de elementos.
RDF -Resource Description Framework
XML: Conceitos, Tecnologias e Aplicações Vânia Maria Ponte Vidal
RDF na interoperabilidade de dados entre domínios Dissertação de Mestrado Domingos Sávio Apolônio Santos Mestrando Ulrich Schiel Orientador /9.
Banco de Dados e Internet
Utilização de Ontologias para Integração de Heterogeneidade Semântica
Banco de Dados Representa o arquivo físico de dados, armazenado em dispositivos periféricos, para consulta e atualização pelo usuário. Possui uma série.
Linguagem de Programação Web Karine Alessandra Córdova.
1 Database Systems, 8 th Edition Sistemas de Banco de Dados: Projeto, Implementação e gestão Oitava Edição Capítulo 2 Modelo de Dados.
Modelagem de dados XML Yago Zacarias Gomes Coutinho Ribeiro
YOUR LOGO Tópicos Avançados em Internet Prof. Lincoln Ferreira Dantas Sistemas de Informação UNIESP – Presidente Epitácio.
Programa de Mestrado Profissional em Gestão da Informação Web Search Comunicação, Gestão e Organização do Conhecimento no Ciberespaço Profa. Dra. Silvana.
Rhizome. Roteiro Definição Metas Características Arquitetura Tecnologias envolvidas Referências.
Eva Méndez Rodriguez Metadados e recuperação da informação: padrões, problemas e aplicabilidade em bibliotecas digitais.
Transcrição da apresentação:

Interoperabilidade e Semântica na Web Ana Maria de Carvalho Moura Instituto Militar de Engenharia - IME Rio de Janeiro - Brasil

Ana Maria Moura Sumário zWeb: evolução história zMecanismos de busca zSemântica na Web zMetadados zTecnologias de suporte à interoperabilidade yXML yRDF zAcesso/extração/integração de informação na Web zConclusões e tendências

Ana Maria Moura A Web: como tudo começou z CERN zIdéia: tornar o conhecimento accessível a todos e de forma amigável zWWW Consortium (W3C) Berners-Lee yobjetivos: xdar suporte à evolução da tecnologia da informação: infraestrutura - redes, gráfico, interface xencorajar cooperação na indústria: desenvolvimento de interfaces e plataformas padrões

Ana Maria Moura A Web: um pouco de história z1993 Mosaic:  50 sites z1994: primeiras máquinas de busca (webcrawler, wwww) z1996: US$ 1 bilhão compras na Internet (150 países) z1997: 1 milhão de sites z1998: 300mil provedores z2000: + de 1 bilhão de páginas Web

Ana Maria Moura Gerações Web z1 a geração: ypáginas HTML criadas manualmente z2 a geração: ygeração automática de páginas HTML p/ processamento humano(leitura, browsing, formulários z3 a geração: yWeb semântica: informação processada por agentes ou robôs

Ana Maria Moura Grande problema !!! zComo achar o que se deseja?

Ana Maria Moura Problemas na Web uAumento exponencial do número de documentos eletrônicos publicados na Web; uProblema de “precisão”das atuais ferramentas de pesquisa de informações na Web, que retornam um número grande de documentos não relevantes; uProblemas p/ identificar, descrever e localizar de forma mais eficiente os recursos na Web; uFerramentas mais eficientes de ajuda à navegação uComo integrar recursos na Web?

Ana Maria Moura Pesquisa e Recuperação na Web zPesquisa em diretório ypesquisa hierárquica, por assunto yindexação manual yex: yahoo, cade, Encyclopedia britannica,...

Ana Maria Moura Pesquisa e Recuperação na Web zMáquinas de Busca ypesquisa p/ palavra chave (“ache documentos que contém a string XML “) yrobôs percorrem estrutura de hipertexto e recuperam documentos referenciados ydocumentos recuperados são analisados e indexados (lista-invertida) yuso de banco de dados p/ pesquisa y2000: milhões de páginas e máquinas de busca Exemplos: lycos, google, infoseek, altavista, excite, hotbot, TodoBr....

Ana Maria Moura Pesquisa e Recuperação na Web zDiretórios com Máquinas de Busca yPesquisa por palavra chave e por assunto yao longo do percurso hierárquico, máquina de busca (pesquisa por palavra chave) ex: yahoo, magellan

Ana Maria Moura Pesquisa e Recuperação na Web zMúltiplos mecanismos de busca (meta- search) ycombina e processa resultados de várias máquinas de busca ex: metacrawler: utiliza Altavista, directHit, Excite, FindWhat, Google, Lycos,.....

Ana Maria Moura Principais problemas dessas ferramentas y Ferramentas de Pesquisa: y indexam páginas individuais e não recursos de informação y pouca precisão do conjunto resultado de uma pesquisa y palavras-chaves extraídas do conteúdo do documento sem informações sobre o contexto no qual estavam inseridas y inexistência de informações padronizadas descrevendo os itens do conjunto resultado de uma pesquisa y inexistência de controle quanto a qualidade dos documentos indexados y consultas pouco expressivas

Ana Maria Moura Principais problemas dessas ferramentas y Ferramentas de Folheio: y falta de padronização dos esquemas de classificação empregados y só organiza recursos: não trata seus relacionamentos  a catalogação de recursos é custosa e centralizada

Ana Maria Moura Linguagens Web zUsam topologia da Web em consultas p/ controlar navegação e obter melhores respostas: navegação e pesquisa yWebSQL, W3QL zConsultam conteúdo do documento a partir da estrutura e constrói novos documentos yWebLog

Ana Maria Moura WebSQL zExplora estrutura e topologia do documento zsemântica clara baseada num modelo de grafo virtual zvisão relacional da Web: ydocumento(url, titulo,texto,type, lenght,modif) ex: encontre todos os documentos html sobre XML select d.url, d.titulo from Documento d such that d mentions “XML” where d.type=“text.html”

Ana Maria Moura Outras linguagens zW3QL yparecida com WebSQL: foco em interoperabilidade - uso com outras ferramentas zWebLog ydocumento baseado em estrutura html ylinguagem baseada em lógica p/ consulta e reestruturação da informação EX: obtenha todos os links p/ documentos html e os títulos correspondentes ans.html[title  ’all citations’, hlink ->>L, occurs ->>T]:- dblp_pages[hlink ->>L],href(L,U), U[title ->>T].

Ana Maria Moura Semântica na Web zSemântica  capacidade da informação ser processável por máquina zDescrever propriedades e relacionamentos sobre itens (metadados) na Web zMetadados, RDF, ontologias

Ana Maria Moura Visão semântica da Web zDepende da capacidade de promover intercâmbio de informações ? Interoperabilidade semântica estrutural sintática

Ana Maria Moura Interoperabilidade ySemântica Uma arquitetura é capaz de prover interoperabilidade semântica quando possibilita a compreensão de cada descritor do recurso (independentemente da forma com que foi descrito) e suas associações com outros; yEstrutural Uma arquitetura é capaz de prover interoperabilidade estrutural quando provê representação para modelo de dados distintos, permitindo especificar tipos e possíveis valores para cada forma de representação; ySintaxe Uma arquitetura é capaz de prover interoperabilidade de sintaxe quando provê um regras precisas para promover o transporte de informações na Web.

Ana Maria Moura Metadado zMeta: ysignifica “algo que descreve...” xe.g. meta-object, meta-information, metadata, meta-modelo zMeta - Meta ysignifica “algo que descreve algo que descreve...” zMetadados ydados que descrevem o conteúdo, estrutura, representação e contexto de algum conjunto de dados

Ana Maria Moura Exemplos zFichas de uma biblioteca tradicional zCatálogos de SGBDs zTags em páginas HTML, XML zDicionários de Ferramentas CASE zDescritores de Bibliotecas Digitais zDescritores de imagens, video zDescritores de documentos na web z...

Ana Maria Moura Dado X Metadado dados s/ autor Termos e Condições Críticas: O Globo AB C Titanic Produtores Termos e condições dados administr

Ana Maria Moura Onde está a fronteira? zContexto A:  dado: Críticas de O Globo  metadado: dados s/ autor(A), termos e condições de acesso(A) zContexto B:  dado: filme Titanic  metadado: críticas de O Globo(A), Produtores (B) e termos e condições (C) zContexto C:  dado: termos e condições  metadado:dados administrat.(C)

Ana Maria Moura Uso de Metadados zGerência de Recursos de Informação Corporativos zComputer-aided design zProjeto e gerência de Data Warehouses zGerência de documentos zGerência de dados científicos e grandes bases estatísticas zGerência de recursos na Web zIntegração de BD Heterogêneos zProjeto e gerência de Workflow zIntegração de recursos na Web z...

Ana Maria Moura Papel do metadado na Web y Identificar  Localizar ( informação s/ identif. recurso, assunto, descrição,... )  Descrever ( que informação será expressa? ydepende do tipo de recurso, objetivos) y Recuperar y Utilizar Recursos de Informação

Ana Maria Moura Localização de recursos na Web zProcesso compreende duas fases: zLocalização: a partir de de critérios de seleção (assunto, data, autor,…) zExame: os metadados relativos aos recursos candidatos são verificados pelo usuário para seleção dos recursos desejados zMetadados são empregados para: zencontrar informações relevantes zencontrar uma informação já conhecida zencontrar novas informações zauxiliar na análise da conveniência de uso do objeto zpossibilitar consultas campo a campo

Ana Maria Moura Recuperação de recursos na Web zRecuperação: acesso aos recursos de informação selecionados pelo usuário z Metadados são empregados para: z possibilitar a negociação de formato entre cliente e servidor (conversão automática de formato - ex: MIME) zpossibilitar a negociação dos custos envolvidos na transferência do objeto selecionado para o cliente: período de acesso, tempo de acesso, formato desejado, quem está solicitando acesso, etc. zpossibilitar o conhecimento prévio do conteúdo do documento  possibilitar privacidade expressando de forma mais adequada “termos e condições” para acesso e uso de um recurso, etc.

Ana Maria Moura A Web hoje zMecanismo de identificação : yUniform Resource Locator (“URL”) yex: yPrincipais problemas: yreferências a recursos pendentes na Web yinexistência de mecanismos de balanceamento automático de carga na rede, c/ redirecionamento automático p/ outro servidor; ylentidão na recuperação de recursos, devido a inexistência de “caches” dos recursos mais utilizados; ybaixa tolerância do sistema à falhas, devido a impossibilidade de redirecionamento p/ outros servidores.

Ana Maria Moura Metadados na Web hoje zMetadados embutidos no recurso: Declaração da linguagem HTML: <META NAME=“autor” CONTENT=“Cassia Barreto” Tags embutidos no XML: Do Fortran à Internet zMetadados como anexo ao recurso: Cabeçalho do Protocolo HTTP: emitidos pelo servidor ao cliente “Expires: Mon, 13 may :13:25 GMT” zMetadados mantidos separados do recurso: Plataforma PICS (Plataform for Internet: Content Selection) rótulos para avaliação de conteúdo

Ana Maria Moura Soluções Propostas (W3C) zPadrões de metadados zXML zRDF zOntologias

Ana Maria Moura Padrões de Metadados Objetivos: yConj. termos p/ descrição de uma ou mais categorias de recursos yObter resultados mais precisos no processo de busca de recursos de informação na web yestabelecimento de padrões de metadados, modelos e protocolos e sua integração a mecanismos de busca na web

Ana Maria Moura Catalogação bibliográfica  MARC ( Machine Readable Catalogue) anos 60  TEI ( Text Encoding Initiative )  EAD ( Encoding Archival Description -1993) zRFC1807 (Request for Comments)

Ana Maria Moura Infraestrutura global da informação  GILS ( Government Information Locator Service 1996) ybusca de informação em agências governamentais

Ana Maria Moura Descoberta de Recursos na Web zmetadados utilizados no contexto de robôs(Harvest, por.ex.), dando suporte a administradores de sites; zdados indexados coletados por ferramentas automáticas não têm formato padrão: nenhuma semântica  IAFA (Internet Anonymous Ftp Archive ) - grupo IETF (internet Engineering Task Force) ySOIF ( Summary Object Interchange Format -1994) yDublin Core (DC -1995)

Ana Maria Moura Dublin Core z(DLOs): documentos vistos como objetos yassociado a arquiteturas de metadados zObjetivos: ydescrever as propriedades dos objetos ypermitir descritores extras específicos a um domínio ya descrição de elementos é opcional ytodos os elementos do DC podem se repetir yelementos autos explicativos zpadrão W3C

Ana Maria Moura Descritores do DC (15) zSubject tópico relacionado ao objeto descrito zTitlenome do objeto zAuthorresponsáveis pelo conteúdo intelectual do objeto zPublisheragente responsável por tornar o objeto disponível zOtherAgent pessoas que contribuíram de forma significativa para o conteúdo intelectual do objeto zDatedata de publicação zObjectTypegênero do objeto zForm formato de dado do objeto zIdentifier identifica o recurso de forma única zRelationindica um tipo de relacionamento com outros objetos zSourceobjetos dos quais o objeto descrito é derivado zLanguageidioma relativo ao conteúdo intelectual do objeto zCoveragelocalização espacial e duração temporal do objeto zRightscontém ou referencia direitos de propriedade zDescriptioncontém uma descrição textual do objeto

Ana Maria Moura Dados geográficos/ dados ambientais zFDGC (Federal Geographic Data Committee- 1994) zUDK (Environmental Data Catalogue )

Ana Maria Moura Tecnologias de suporte à interoperabilidade zPadrão W3C: y padrões de metadados: DC y XML y arquitetura RDF

Ana Maria Moura Por que XML? zPadrão w3C: ++ conteúdo !!! ySGML Standard Generalized Markup Language (Goldfarb, Mosher, Lorie -1974) SGML HTML XML-1996

Ana Maria Moura HTML: sérias limitações zEm relação ao acoplamento com BDs ygeralmente soluções proprietárias ynenhum protocolo p/ publicação de dados xSQL: não adequada p/ Web ynão possui formato de intercâmbio: HTML é apenas um formato de apresentação! xmistura apresentação e conteúdo xnenhuma estrutura, semântica, restrições de integridade xperde informação sobre a estrutura (esquema) de BDs

Ana Maria Moura HTML Bibliography Principles of Distributed Database Systems Ozsu, Valduriez Prentice Hall, 1999 Data on the Web Abiteboul, Buneman, Vianu Morgan Kaufmann, 1999

Ana Maria Moura HTML: descreve apresentação

Ana Maria Moura The Golden Rule “Content must be abstract and independent from storage and rendition”  aplicações dinâmicas (“rendition” difere conforme a mídia, consulta ou perfil do usuário)  integração de dados heterogêneos (de diferentes fontes)

Ana Maria Moura XML: Extended Markup Language zObjetivos yrepresentar a semântica dos dados de forma estruturada (dados e metadados) ypadrão para representar e intercambiar dados estruturados na Internet ypermitir modelar dados heterogêneos gerados a partir de BDs ou processadores de texto, de forma que máquinas de busca possam localizá-los e processar documentos ou registros heterogêneos yconsultar conteúdo de documentos na Web zsuporta a regra dourada (“the golden rule”)

Ana Maria Moura XML descreve conteúdo Principles of Distributed Database Systems Ozsu Valduriez Prentice Hall 1999 Data on the Web Abiteboul Buneman Vianu Morgan Kaufmann 1999

Ana Maria Moura Em XML... zUsuários definem suas próprias marcações (tags) zUm documento XML não provê nenhum comando de exibição ystylesheets (XLS) p/ converter em HTML zEstruturas podem ser aninhadas zUm documento XML pode conter uma descrição opcional de sua gramática (DTD)

Ana Maria Moura XML zSintaxe: yelementos, atributos, entidades, documentos válidos zÉ um modelo de dados semi-estruturados zDefinição de tipos de documentos ytipos de dados, esquemas DTD, namespaces zXML- Schema ymetadados com RDF

Ana Maria Moura Terminologia zMarcações (tags): livro, título, autor (atributos únicos) yInício de marcação: yFim de marcação: zTodos os dados são texto: PCDATA (parsed character data) zElementos: y …, …. yelemento vazio: zUm documento XML: uma única raiz zRestrições fracas

Ana Maria Moura Exemplo Alessandro Fabio Leonardo Marcador de início Marcador de fim é subelemento de que é subelemento de Não existe limite na profundidade de hierarquia é subelemento de que é subelemento de Não existe limite na profundidade de hierarquia Marcador vazio

Ana Maria Moura Atributos zPropriedades das marcações ypares constituídos de: (nome, valor) Exemplo: Principles of Distributed Database Systems Ozsu Valduriez … English

Ana Maria Moura Outro exemplo Atributos - [nome, valor]. Andre É possível utilizar indistintamente elementos e atributos Andre Rua Jaguare 303 Niteroi

Ana Maria Moura Observações  O único tipo de dado que pode ser definido para um atributo é a seqüência de caracteres.  Os elementos podem conter sub-elementos, portanto, podem ser usados para definir objetos complexos.  Cada atributo só pode aparecer uma única vez dentro de um elemento,  Um elemento pode conter N sub-elementos.

Ana Maria Moura Alternativas p/ representar dados < livro lang= “Ingles” preco= “US$ 60.00” titulo= “Principles of Distributed Database Systems” autor=“Ozsu Valduriez”> …. Principles of Distributed Database Systems ….

Ana Maria Moura Entidades zUnidade do texto XML com um nome ypode ser referenciado entre múltiplos documentos yníveis de granularidade arbitrários (palavra, sentença, parágrafo, capítulo, volume, etc.) yconteúdo armazenado em arquivo, BDs,… zProvê independência de dados yelementos especificam estrutura lógica yentidades especificam estrutura física zUm doc. XML pode ser dividido em pedaços ( o parser gera uma estrutura linear)

Ana Maria Moura Exemplos zAbreviação zdeclaração externa zreferência XML(&XML) representa um padrão para intercâmbio de dados na Web. No depto de Computação do &ime- def pesquisadores estão começando a…

Ana Maria Moura Identificadores e referências zElementos podem ter identificadores únicos, podendo ser utilizados como referências Navathe Elmasri Fundamental of Database Systems Mc GrawHill 2000

Ana Maria Moura XML : sob uma perspectiva relacional zTabela relacional: documento XML em 3 níveis - raiz, tabela, coluna zEx: Livro(titulo, editor, ano) tabela Fundamentals of Dadabase.... McGrawHill Tupla !

Ana Maria Moura XML: modelo de dados semi- estruturados Livro Titulo Editor Ano McGrawHillFundamentals of Pessoa Nome Navathe Pessoa Nome Elmasri idref Autores nenhum esquema dados não tipados grafo rotulado cada nó  tag folha =tag + texto arco rotulado = referência

Ana Maria Moura Document Type Definition(DTD) zDTDs representam metadados! zdefine a estrutura lógica do documento ydefine a gramática: combinações válidas de palavras zé definida em uma linguagem a parte zconjunto de restrições muito limitado ynão permite a criação de tipos de dados ynão permite restrição de intervalos para dados zgarante documentos válidos ydocumentos bem formados em conformidade com o DTD (parser)

Ana Maria Moura Um DTD define a estrutura do conteúdo * 1.. * Diferentes possibilidades de DTDs !!! Artigo Autor 1 Instituição Autor n Instituição... Artigo Instituição 1 Autor 1 Autor n Instituição n Autor 1 Autor p... 3 Autor Instituição Artigo Artigo x instituicao artigo autor UML

Ana Maria Moura DTD bd livro1 livro2livro3 tit autorano ….. A ordem dos elementos deve ser respeitada!!!

Ana Maria Moura Exemplo de um DTD <!DOCTYPE bd [ ]>

Ana Maria Moura DTD p/ um esquema relacional zTab1(m,n), Tab2(p) <!DOCTYPE bd [ ]> Ordem das colunas irrelevante !

Ana Maria Moura Atributos e referências em DTD <!ATTLIST livro autor IDREFS #REQUIRED idioma (#PCDATA)>#IMPLIED > Ozsu Valduriez Principles of…

Ana Maria Moura Limitações do DTD zImpõe ordem (verbose) znão aceita tipagem de dados (somente PCDATA) zElementos são globais: não permite nome de livro, nome de pessoa em diferentes estruturas zuso de namespaces znenhuma restrição no tipo IDREF ynão há como expressar chaves, ou dizer que um atributo autor é um identificador de pessoa

Ana Maria Moura Namespaces zDefine o vocabulário utilizado num esquema ynomes de atributos c/ prefixo xmlns seguido de um atributo yvalor do atributo é uma URL Exemplo: Fundamentals of…

Ana Maria Moura Proposta W3c zXML Schema ysubstituir DTD ymais tipos de dados: string, integer, real, time, date… ynamespaces

Ana Maria Moura XML: estilo, formatação e transformação zXML define estrutura e conteúdo de documento, não define apresentação zLinguagem de estilo: define regras para a exibição de um documento XML -XSL: extended style language) zLinguagem de transformação: define regras para a transformação de uma linguagem XML em outra linguagem XML. Ex: transformação de XML em HTML.

Ana Maria Moura Estilo Browser XML XML XSL

Ana Maria Moura Transformação/Formatação Processador XSL WML PDFHTML XMLXSL

Ana Maria Moura Linguagens de Consulta zAs linguagens de consulta XML baseiam-se em caminhos de expressão yXpath yXlink yXpointer

Ana Maria Moura Expressões de caminho (path) /elemento raiz /bdum elemento abaixo da raiz bd /livroum livro num bd bd // livro um livro em qq atributo preço bd / livro atributo preço num bd bd / preco] livros com um determinado preço bd / preco =’10’] livros com preço 10 // livro /parag[2]o 2 0 parágrafo de um livro qq nível

Ana Maria Moura Outras linguagens... zLorel(Abiteboul, Widom 1997) zXML- QL (At&T Labs ) zXQL (Microsoft ) zYatl (Cluet, Simeon - INRIA, 1999) zXSL (W3C, 1998) zXML-GL (Ceri et al ) zQuilt (Chamberlin et al ) z...

Ana Maria Moura XQL zMicrosoft, Texel zuso de Xpath Exemplo 1. A1 A2 2.

Ana Maria Moura Inspirados no SQL: XML- QL zProjeto Strudel (At&T) ybaseada em expressões regulares ycláusula where (seleção) ytemplates p/ construir dados Exemplo: where Mc Graw Hill $A in “ construct $A Resposta: conjunto de autores A1 A2

Ana Maria Moura XML- QL where Prentice Hall $A in “ construct $A $L Resultado: A1 L1 A2 L2

Ana Maria Moura Junção por valor em XML- QL zAutores que publicaram no mínimo 2 livros where $B1 in “ $A in $B1 $B2 in “ $A in $B2 B1!=B2 construct $A

Ana Maria Moura Lorel zbaseado no OEM (Object Exchange Model) zextensão OQL p/ OEM Select xml(result:$b) from from $b in livro.autor where $b.nome= “Ozsu” and and >1995

Ana Maria Moura Yatl zconversão de dados e integração zmodelo dados: árvores ordenadas, referências, nós Recupere títulos de livros publicados in 1995 por Prentice Hall make result[$t] match > with titulo[$t] editor[$e]] where $e=“Prentice-Hall” and $a=1995

Ana Maria Moura Quilt zcaracterísticas de OQL,XML-QL, Lorel, XQL zlimitações: junção, expressões regulares(full), Xpath for $b in document( $a in $b/autor and $e in $e/editor where $a/nome=“Ozsu” and $e/“Prentice Hall” return $b

Ana Maria Moura XSL zXSL Transformations(XSLT), recomendação W3C zregras de transformação XML XML zprograma XSLT é um documento XML! zmais usado como ling. de apresentação

Ana Maria Moura Resource Description Format ( RDF) - W3C Características: zModelo de metadados simples e expressivo: ytrata dados/metadados de forma uniforme zProvê interoperabilidade na Web (XML) zMeio de integração entre diferentes padrões de metadados z Expressa vocabulários distintos com base em um modelo de dados e sintaxe comuns

Ana Maria Moura RDF: visão em camadas Descrição de recursos Aplicação RDF RDF Schema RDF básico (statements) instância de (meta-metamodelo) (metamodelo) (modelo) (dados) descreve

Ana Maria Moura Modelo RDF básico yDefine um formalismo para a definição de recursos  estrutura: DLG (Directed Labeled Graph)  sintaxe : utiliza a linguagem XML yComponentes básicos: y recursos: qualquer recurso que pode ser descrito segundo o modelo RDF ypropriedades(properties): representa um atributo (ou relacionamento) de um recurso ydeclarações (statements): corresponde a associação entre um recurso específico, uma propriedade qualquer e o valor dessa propriedade para esse recurso(predicado, subject, object) yliterais: conjunto de elementos que não são recursos (strings)

Ana Maria Moura RDF: estrutura básica Recurso Valor propriedade Ana Maria Documento Valor autora Representação de um documento em RDF Statement sujeito predicado

Ana Maria Moura RDF Ana Maria Documento Valor dc:creator Metadados <rdf: RDF xmlns:rdf= “ xmlns:dc = “ Ana Maria metadados dc:subject

Ana Maria Moura Entidade estruturada Metadados dc:subject Ana Maria mod:nome mod: <rdf: RDF xmlns:rdf= “ xmlns:dc = “ xmlns:mod=“ Ana Maria metadados dc:creator recurso anônimo A pessoa cujo nome é Ana Maria e ana... é criadora do recurso http//.... entitulado Metadados

Ana Maria Moura Propriedade como um outro recurso Metadados dc:subject Ana Maria mod:nome mod: dc:creator

Ana Maria Moura Propriedade como um outro recurso <rdf: RDF xmlns:rdf= “ xmlns:dc = “ xmlns:mod=“ “ metadados Ana Maria outro recurso

Ana Maria Moura Coleções em RDF rdf:bag / alunos/Veronica / alunos/Eduardo / alunos/Leticia / alunos/Eduardo rdf:type rdf:_1 rdf:_4 ….. rdf: Bag rdf: Sequence rdf: Alternative alunos

Ana Maria Moura RDF/XML com um Bag <rdf: RDF xmlns:rdf= “ xmlns:s = “ definicoes#”> <rdf: Description about=“

Ana Maria Moura RDF Schema (RDFS) u Objetivo provê um sistema de tipos para a declaração de propriedades de recursos (título, autor, etc.), dos relacionamentos entre essas propriedades, das classes de recursos em que essas propriedades se aplicam e das combinações possíveis entre classes e propriedades. u Enfoque: y representação de objetos e classes de objetos  representação de propriedades/ relacionamentos de objetos

Ana Maria Moura RDF Schema (RDFS)  Modelo de dados: y estruturado segundo o modelo de dados básico da RDF, ou seja, como recursos e propriedades yfacilita a descrição de domínios específicos ysintaxe empregada: linguagem XML  elementos do RDF Schema definidos no namespace rdfs

Ana Maria Moura Elementos do RDF Schema zrdfs:Class zrdfs:Resource zrdfs:subClassOf zrdfs:subPropertyOf zrdfs:domain: propriedade de rdf:property, indica a que classe uma propriedade pertence (atributo de) zrdfs:range: propriedade de rdf:property, especifica os valores permitidos de uma determinada propriedade de uma ou mais classes.

Ana Maria Moura RDFS uClasses de objetos: rdfs:Resource, rdfs:Property, rdf:Class, rdfs:ConstraintResource, rdfs:ConstraintProperty u Nomes de propriedades / relacionamentos: rdf:type, rdfs: subClassOf, rdfs:subPropertyOf, rdfs:range, rdfs:domain

Ana Maria Moura Hierarquia de Classes

Ana Maria Moura Exemplo de aplicação no RDF Schema rdfs:Resource rdfs:Class xyz:Automóvel s = rdfs:subClassOf t = rdf:type s t s t t s xyz: VeículoDePassageiro t s xyz:Caminhão t ` marca ` modelo d d literal r r autom marca modelo veic.pass caminhao

Ana Maria Moura Camadas de modelagem t Junção das Camadas RDF Básico e Esquema RDF Camada de Instanciação dos Recursos Camada de Aplicação RDF t xyz:marca Chevrolet Corsa t xyz :marca xyz :modelo t s t t s rdfs:Class xyz:Automóvel rdfs:Resource t xyz:modelo rdf:Property Descrição de Recursos Aplicação RDF Descreve Esquema RDF Descreve Objetos do domínio do usuário Modelo Metamodelo Meta-Metamodelo Descreve RDF Básico

Ana Maria Moura Consultas em RDF zLinguagens de consulta p/ XML não fornecem suporte a esquemas RDF zPropostas: yRDF Query (Malhotra, IBM) ex: Achar todos recursos de uma coleção

Ana Maria Moura RDF query zConsulta ao metadado estrutural de um recurso

Ana Maria Moura Linguagens com serviço de inferência ztotal suporte de descrições RDF zbase de conhecimento extraída a partir de triplas (resource, property, value) em lógica de 1 a ordem ySilRI (W3C) - Frame logic yMetalog (W3C) xregras de inferência no esquema RDF zAmbas ainda não passam de propostas

Ana Maria Moura BDs Web Sistemas de BDs projetados para usuários Web casuais, que desejam consultar informações integradas da Web. Serviços relevantes: zfacilidade de acesso à informação na Web zconsultas complexas em um grande número de sites Web

Ana Maria Moura Desafios de um projeto de BDs Web zSob ponto de vista do usuário: yindependência lógica: usuários ocasionais devem ser capazes de formular consultas ad-hoc ynão cabe a usuários localizar/relacionar sites e resolver diferenças de apresentação de cada site yindependência de navegação: cada site com suas características específicas de consulta e recuperação zSob ponto de vista do projetista ysites são autônomos

Ana Maria Moura BDWeb X BDs Esquema Conceitual/Externo Esquema Lógico Esquema Físico BD SQL/QBE Esquema Conceitual/Externo Esquema Lógico Esquema Virtual Físico interface ad-hoc Web independência lógica independência de site fonte: Florescu, Freire -tutorial SBBD 2000

Ana Maria Moura Construindo um BD Web zLocalizar informação zExtrair fontes de informação (Wrappers) yextrair esquemas (RDF, por exemplo) ymodelos Web zIntegrar fontes yesquema + integração semântica (uso de ontologias) zProcessar de consultas

Ana Maria Moura Extraindo informação Mediador wrapper..... Site Web acesso à informação WebVCR (Freire et al wwww99) Mapping by example ( Davalcu et al Sigmod99) extração da informação NoDose (Adelberg, Sigmod98) Ariadne (Knoblock et al AAAI97) W4F (Sahuguet et al. -VLDB99) XML/RDF : simplifica extração descrição da informação protocolo http 80% dados escondidos (formulários...)

Ana Maria Moura Integrando fontes zSimilar aos mediadores zComo integrar: ymaterializar X dado virtual yvisão local X visão global yrelacional X XML ylinguagens de integração (XML, Datalog,....) zIntegração semântica

Ana Maria Moura Integração semântica zProblema: garantir mesmo conceito a partir de representações diferentes Esquema Conceitual Esquema Lógico1 Esquema Lógico2 Esquema Lógico n..... Site Web

Ana Maria Moura Como integrar diferentes representações de um mesmo conceito? Temperaturas cid ano valor RJ SP SP Temperaturas cid RJ SP Temp_1998 cid valor RJ 30 SP 25 Temp_1999 cid valor RJ 30 SP 34 Ano: valorAno: atributo Ano: tabela

Ana Maria Moura Integração semântica zEx. de sistemas integradores: yTSIMMIS e Information Manifold yAraneus e Web Integrator yYat (baseado em XML) zRDF + ontologias é um caminho

Ana Maria Moura Processamento de consultas zOtimização complexa ynenhuma informação sobre cardinalidade, distribuição, índices ypadrão de acesso limitado zInformação redundante nas fontes zDisponibilidade dos dados é imprevisível zTaxa de carga dos dados muito variável

Ana Maria Moura Sumário e conclusões zVisão dos conceitos importantes para permitir interoperabilidade na Web zMáquinas de busca são serviços importantes, mas ainda muito limitadas: necessidade de mecanismos de consultas ad-hoc zTecnologia XML ymuitos desafios p/ a comunidade de BDs ymuitas linguagens de consulta yiniciativas importantes da W3C: xRDF é um caminho para integração: provê interoperabilidade sintática, estrutural mas ainda requer algo mais (ontologias) para interop. semântica)

Ana Maria Moura Tendências zGerenciamento de dados XML (atualização, indexação, armazenamento em SGBDs RO e BDs nativos) zVisões XML de SGBDsRO zMecanismos de busca que combinem pesquisa estruturada com pesquisa full-text zBenchmarks XML zRDF + ontologias + XML zLinguagens de consulta RDF z.....

Ana Maria Moura Bibliografia zT. Berners-Lee, J. Hendler, O. Lassila. The Semantic Web, zBergamaschi S., Castano S., Vincini M.Semantic Integration of Semistructured and Structured Data Sources. SIGMOD Record, março zA. Bonifati, S. Ceri. Comparative Analysis of Five XML Query Languages, Dipartimento di Elettronica e Informazione, Politecnico di Milano, accessed in zDavid P. Habib and Robert L. Balliot. How to Search the World Wide Web: A Tutorial for Beginners and Non-Experts zKansas City Publication Library. Introduction to Search Engines zG. Karvounarakis. RDF Query Languages: A state-of-the-art, zA. Malhotra, N. Sundaresan. RDF Query Specification, zA.M. C. Moura, M.L. M. Campos and C.M.Barreto. A Survey on Metadata for Describing and Retrieving Internet Resources. World Wide Web Journal, Vol 1, Baltzer Science Publishers BV, , Jan

Ana Maria Moura Bibliografia zS. Rayavarapu. W3C Query Languages, Resource Description Framework (RDF) Model and Sintax Specification W3C Recommendation 22 February 1999, zResource Description Framework (RDF) Model and Syntax Specification – W3C Recommendation 27 March 2000, zFreire J., Florescu D. Querying the Web, tutorial realizado no Simpósio Brasileiro de Banco de Dados, J. Pessoa PB, Brazil, zBergamaschi S., Castano S., Vincini M.Semantic Integration of Semistructured and Structured Data Sources. SIGMOD Record, março zFernandez M., Simeon J., Wadler O.XML Query Languages: Experiences and Exemplars, zMolina G. H., Papakonstantinou Y., Quass D.The TSIMMIS Approach to Mediation: Data Model and Languages. Journal of Intelligent Information Systems [online], Available at: