A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

UFRGS Pesquisas na área de BD Carlos a. Heuser Abril de 2003.

Apresentações semelhantes


Apresentação em tema: "UFRGS Pesquisas na área de BD Carlos a. Heuser Abril de 2003."— Transcrição da apresentação:

1 UFRGS Pesquisas na área de BD Carlos a. Heuser Abril de 2003

2 Temas de pesquisa Update de bases de dados relacionais através de visões XML (colaboração com Susan Davidson – Universidade da Pennsylvania) Geração de ontologias de extração Modelo de versões de sites WEB Consultas a fontes XML integradas

3 Updating relational databases through XML views Vanessa de Paula Braganholo Susan Davidson * Carlos Heuser

4 Overview Main goal: Investigate the problem of updating relational databases through XML views Extract XML views from relational databases Update the view Map the changes back to the underlying relational database

5 Overview In order to accomplish this it is necessary to: Define a language to build XML views from relational databases Define the update operations that can be applied Make sure that it is possible to map the updates back to the underlying relational database unambiguously and without causing side effects

6 Proposed solution We benefit from the connection between XML and nested relations Use nested relational algebra to define XML views Nested relational algebra has the operators of the classical relational algebra (,,,,-,join), plus nest ( ) and unnest ( ) We try to map the problem of updating relational databases through XML views to the problem of update relational databases through relational views.

7 Nest Nest operator Invertible A nested relational algebra query can be unnested when the nest was the last operation to be applied … R can be unnested to the original R, were R is a classical relational algebra expression

8 Nest … R We call expressions of this kind nest-last queries Unfortunately, nest has extraneous interactions with the other operators In general it is not possible to rewrite an expression were the nest appears in any position to a nest-last query

9 Nest-last We use nest-last queries to define XML views Reduce the problem of investigating the updatability of an XML view to the problem of investigating the updatability of the corresponding relational view R This makes possible to benefit from classical work on relational views

10 Current work We are currently working with a subset of nest-last views Nest-Select-Project-Join views We map XML update operations into updates in the corresponding relational view Use Dayal and Bernsteins [DAY 82] technique to map the updates to the relational database prove that the updates are exact and does not cause side effects

11 Future work Improve the semantics of our update operations allow deletions of leaf nodes to be mapped to updates setting the deleted attribute to null allow insertions to contain part of data that is already on the view Improve the power of expression of our query language, R2X [BRA 2001, BRA 2002] currently, R2X is only capable of expressing a subset of Nest-Select-Project-Join views

12 Geração de ontologias de extração Orlando Vivan Dissertação de Mestrado

13 Motivação Extrator baseado em ontologia (Embley) Ontologia = modelo conceitual + regras de extração (expressões regulares) Construção da ontologia trabalhosa Análise de centenas de documentos Dados referentes ao domínio de extração podem existir em uma base de dados relacional

14 Geração semi-automática de ontologia Base de dados é construída para gerar a ontologia de extração Esquema da base de dados – modelo conceitual Instâncias na base de dados – expressões regulares

15 Experimentos BD de biblioteca usada para gerar ontologia com conceitos relativos a livros (título, editora, ano,...) Ontologia estendida com preço Ontologia gerada automaticamente Baixo recall Alterações manuais

16 Modelo de versões para sites WEB Rodrigo Moro Mestrado

17 Construção de sites WEB Necessidade de adaptação (personalização) Separação de conteúdo (XML) e formatação (XSLT)

18 Modelo de versões Extensão do WebDAV Permite versões alternativas Configurações baseadas em critérios fornecidos por um módulo de personalização Versões do conteúdo e versões da formatação

19 Consultas a fontes XML integradas

20 Visão Geral Integração de fontes de dados XML Pertencentes ao mesmo domínio de problema Esquemas descritos através de DTDs Nível de Esquema Nível de Instâncias

21 Visão Geral Modelo Global Modelo Global Integração de esquemas (BInXS) (Ronaldo) Integração de esquemas (BInXS) (Ronaldo) Tradução da consulta (Sandro) Tradução da consulta (Sandro) Integração de instâncias (Carina) Integração de instâncias (Carina) Decomposição de Consulta (Diego) Decomposição de Consulta (Diego) Wrapper Consulta Visão XML - virtual Resposta

22 Integração - Nível de Esquema BInXS - Bottom-up Integration of XML Schemata Integração dos esquemas XML DTDs Mapeamento de cada DTD das fontes para um modelo conceitual Integração dos modelos conceituais Construção de um modelo global.

23 Processo de Integração - BInXS Nível de Esquema – Tese de doutorado concluída Ronaldo Mello Esquema Global Camada do Mediador DTD 1 DTD n... Documentos XML Documentos XML BD Conversão DTD... Esquema Conceitual 1Esquema Conceitual n Integração Semântica Especialista

24 Processo de Integração Consultas Esquema Global Consulta é construída com base no Esquema Global. Exemplo de consulta: Endereço profissional de autores de artigos... Fonte 1 XML Fonte 3 XML Fonte 2 XML Consulta Mapeamento da consulta

25 Consultas sobre o Esquema Global Dissertação de mestrado – Sandro Camillo Endereço residencial (0,1) (1,N) Autor profissional (1,1) (1,N) Cidade (1,N) (1,1) Logradouro (1,N) (1,1) string Problema Consultar estruturas hierárquicas (presentes nas fontes XML) através de um modelo conceitual abstrato XPath ou XQuery não são adequadas: ss XPath: /Autor/Endereço XQuery: {FOR $end IN /Autor/Endereço RETURN $ender } Residencial ou Profissional ? Rua (1,N) (1,1) string Nr integer (1,1) (1,N) (1,1) (1,N)

26 Consultas sobre o Esquema Global Dissertação de mestrado – Sandro Camillo residencial (0,1) (1,N) Autor profissional (1,1) (1,N) Solução Uso de uma linguagem que: Considere a expressividade do modelo conceitual Minimas conversões para a sintaxe das fontes ss CXQuery: {FOR $end IN /Autor/Endereço{Profissional} RETURN $ender } Endereço Cidade (1,1) Logradouro (1,N) (1,1) string Rua (1,N) (1,1) string Nr integer (1,1) (1,N) (1,1) (1,N)

27 Decomposição da consulta Dissertação de mestrado – Diego Feijó Problemas similares aos de BD distribuídos. Decomposição de Consultas Localização das Fontes Otimização Global Otimização Local Resolver heterogeneidade das estruturas presentes nas fontes

28 Nível de Instâncias Equema Global... Fonte 1 XML Fonte 3 XML Fonte 2 XML Consulta Mapeamento da consulta Integração dos resultados

29 Integração das Instâncias Tese de doutorado Carina Friedrich Dorneles Instâncias não são integradas com base em identificadores e sim com base na similaridade Dados não possuem identificadores Identificação é feita com base na similaridade da consulta com as instâncias Integração é feita com base na similaridade entre as instâncias

30 Integração das Instâncias Tese de doutorado Carina Friedrich Dorneles Identificação: Identificar diferentes representacoes de um mesmo objeto do mundo real Encontrar o conjunto de respostas mais relevantes a uma consulta. Integração: Feita com base na similaridade entre as instâncias Agrupamento das instâncias mais similares entre si

31 Integração das Instâncias Tese de doutorado Carina Friedrich Dorneles Uso do modelo conceitual global gerado na fase de integração de esquemas Representação conceitual das fontes Construção das consultas –O usuário usa o esquema fornecido pelo modelo conceitual para construir consultas Informação para cálculo da similaridade Especificação das medidas de similaridade Propriedades a serem consideradas no cálculo do grau de similaridade –Indicadas pelos relacionamentos de cada conceito

32 Exemplo - Possíveis Resultados Av. Jose de Alencar 1500/12A Porto Alegre/RS Av. Jose de Alencar 1500/12A Porto Alegre/RS Fonte 1 Av. Jose de Alencar sala 12A PoA Av. Jose de Alencar sala 12A PoA Fonte 2 J. do Patrocinio 1500/12A PA - RS J. do Patrocinio 1500/12A PA - RS Fonte 3

33 Exemplo endereco profissional rua logradouro Objeto-Consulta cidade Instância da visão XML nr 1500/12A Av. Jose de Alencar Porto Alegre/RS endereco profissional rua logradouro cidade nr 1500 – sala 12A Av. Jose de Alencar PoA Similaridade entre as folhas: - Uso de algoritmos de similaridade aplicáveis ao domínio de cada valor, por exemplo: - Similaridade entre Siglas – algoritmo especifico para siglas - Similaridade entre Datas – algoritmo especifico para datas....

34 Exemplo endereco profissional rua logradouro Objeto-Consulta cidade Instância da visão XML nr 1500/12A Av. Jose de Alencar Porto Alegre/RS endereco profissional rua logradouro cidade nr 1500 – sala 12A Av. Jose de Alencar PoA Similaridade entre objetos Compostos: * Avaliação entre: - Métricas de minkowski,... - Redes bayesianas * Uso de pesos no cálculo da similaridade

35 Clustering Cluster 1 Cluster 2... Av. Jose de Alencar 1500/12A Porto Alegre/RS Av. Jose de Alencar sala 12A PoA J. do Patrocinio 1500/12A PA - RS Representado um objeto do mundo real Representado outro objeto do mundo real

36 Av. Jose de Alencar 1500/12A Porto Alegre/RS Av. Jose de Alencar sala 12A PoA Resultado

37 Trabalhos Futuros Identificação de instâncias Estudo e avaliação das várias métricas de similaridade para objetos complexos Avaliação dos resultados obtidos Integração de instâncias Avaliação de algoritmos de clustering

38 Trabalhos Futuros Integração com os módulos de consulta Especificação de pesos, métricas,... através do modelo conceitual Interação com o módulo de consultas

39 Utilização de técnicas de Engenharia de Conhecimento para medir similaridade entre instâncias de documentos XML

40 Instituto de Informática - UFRGS40 Abordagem Utilização de técnicas típicas de raciocínio baseado em casos Extração de conhecimento de domínio através da análise de documentos legados e da interação com usuários Identificação da estrutura dos documentos Extração da ontologia do domínio Utilização da ontologia para definir similaridades entre instâncias no mesmo domínio

41 Exemplo: estrutura de acórdão jurídico 1. Cabeçalho Ementa Pessoas Envolvidas Relatório Voto Sentença Encerramento... Número do processo Sigla do recurso Relator Data de publicação Tema Ref. Legislativas Recurso Procedência Reclamante Reclamado Órgão Julgador Tribunal QtdeVoto Decisão Ref. Legislativas Local Data Participantes Tema Ref. Legislativas

42 Ontologia de Domínio Cabeçalho Ementa Pessoas Envolvidas Relatório Voto Sentença Encerramento { tema, Referências Legislativas } { tema } { tema, Referências Legislativas } {Número do processo, Sigla do recurso, Relator, Data de publicação } { Recurso, Procedência, Reclamante, Reclamado} { Órgão julgador, Tribunal, Quantidade de voto, Decisão, Referências Legislativas } { Local, Data, Participantes} PART-OF ACÓRDÃO

43 Etapas Aquisição de Conhecimento: Identificação e análise do domínio com auxílio de documentos e pessoas Identificação da ontologia de domínio: Estrutura dos documentos e domínio dos atributos Busca por similaridade: Documentos que possuem estrutura similar (mesmos atributos) Documentos cujos atributos tenham os mesmos valores Ajuste Atributos por ter diferentes pesos na comparação por similaridade

44 Vantagens da engenharia de conhecimento Modelo de documentos mais fiel do que extração automática de estrutura Busca de documentos utilizando a ontologia permite comparar por estrutura e conteúdo Permite busca contextualizada ao domínio Abordagem reutilizável para representação e busca de documentos na WEB


Carregar ppt "UFRGS Pesquisas na área de BD Carlos a. Heuser Abril de 2003."

Apresentações semelhantes


Anúncios Google