A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador.

Apresentações semelhantes


Apresentação em tema: "Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador."— Transcrição da apresentação:

1 Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador UFRGS/II - PPGC

2 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

3 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

4 Motivação Contexto do problema –consultas a fontes de dados heterogêneas e semi- estruturadas na Web –foco em dados XML Áreas de pesquisa –integração de esquemas –tradução e otimização de consultas globais –integração de resultados de consultas

5 Motivação Contexto do problema –consultas a fontes de dados heterogêneas e semi- estruturadas na Web –foco em dados XML Áreas de pesquisa –integração de esquemas –tradução e otimização de consultas globais –integração de resultados de consultas

6 Objetivo da Tese Uma abordagem de integração semântica de esquemas XML –semi-automático mínima intervenção do usuário –processo bottom-up esquema global que representa de forma garantida todas as informações dos esquemas das fontes –modelo canônico conceitual alto nível de abstração

7 Trabalhos Relacionados TrabalhoIntegraçãoProcessoModelo Canônico TSIMMISmanualbottom-upgrafo Garlicmanualbottom-upODMG MIXmanualbottom-upDTD DIXSEmanualbottom-upconceitual Jensenmanualbottom-upUML YATmanual-árvore McBrienmanual-grafo Vdovjakmanualtop-downconceitual Xylemesemi-automáticotop-downDTD LSDsemi-automáticotop-downDTD Limsemi-automáticobottom-upgrafo CUPIDsemi-automáticobottom-upconceitual MOMISsemi-automáticobottom-upconceitual

8 Trabalhos Relacionados TrabalhoIntegraçãoProcessoModelo Canônico TSIMMISmanualbottom-upgrafo Garlicmanualbottom-upODMG MIXmanualbottom-upDTD DIXSEmanualbottom-upconceitual Jensenmanualbottom-upUML YATmanual-árvore McBrienmanual-grafo Vdovjakmanualtop-downconceitual Xylemesemi-automáticotop-downDTD LSDsemi-automáticotop-downDTD Limsemi-automáticobottom-upgrafo CUPIDsemi-automáticobottom-upconceitual MOMISsemi-automáticobottom-upconceitual

9 Características não tratam a integração de representações alternativas de elementos não tratam de forma completa a integração de elementos textuais com estruturados Limitações na integração de esquemas XML MOMIS CUPID Trabalho

10 Características TrabalhoLimitações da Modelagem Conceitual CUPID não modela representações alternativas de elementos não filtra elementos irrelevantes para o domínio MOMIS esquema conceitual definido manualmente Vdokjak esquema conceitual definido manualmente DIXSE não modela relacionamentos de herança não filtra elementos irrelevantes para o domínio

11 Proposta da Tese Processo de integração semântica de esquemas XML –tratamento dos casos de unificação de elementos heterogêneos –modelagem canônica conceitual de um esquema XML análise do esquema XML inferências semânticas (heurísticas) análise de documentos XML

12 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

13 Arquitetura de Mediação Sites Web Documentos XML Sites Web

14 Camada de Wrappers Wrapper 1 Wrapper n DTD 1 DTD n Sites Web... Documentos XML Sites Web disponibiliza um esquema local para uma ou mais fontes executa consultas nestas fontes

15 Mediador Wrapper 1 Wrapper n DTD 1 DTD n Consulta local textual Usuário Especialista Mediador DTDs Documentos XML Locais Sites Web... Documentos XML Sites Web Esquema Global integra esquemas locais gerencia consultas globais a um conjunto de fontes Documento XML global Consulta global textual

16 Interface de Consulta Wrapper 1 Wrapper n DTD 1 DTD n Consultas locais textuais Documento XML global Esquema Global Usuário Especialista Mediador Interface de Consulta DTDs Consulta globalResultados Documentos XML Locais Sites Web Consulta global textual... Documentos XML Sites Web define consultas sobre o esquema global apresenta os resultados

17 Processo de Integração DTD 1 DTD n Esquema Global Usuário Especialista Integração Semântica Camada de Mediação... Esquema Conceitual 1Esquema Conceitual n... Conversão da DTD ARTEMIS Documentos XML Documentos XML Conversão da DTD...

18 Processo de Integração DTD 1 DTD n Esquema Global Usuário Especialista Integração Semântica Camada de Mediação... Esquema Conceitual 1Esquema Conceitual n... Conversão da DTD ARTEMIS Documentos XML Documentos XML Conversão da DTD...

19 Processo de Integração DTD 1 DTD n Esquema Global Usuário Especialista Integração Semântica Camada de Mediação... Esquema Conceitual 1Esquema Conceitual n... Conversão da DTD ARTEMIS Documentos XML Documentos XML Conversão da DTD...

20 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

21 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 3.1 Modelo Conceitual Canônico (MCC) 3.2 Mapeamento MCC-DTD 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

22 Modelo Conceitual Canônico (MCC) Variante do ORM (Object with Roles Model) Halphin, T. Object-Role Modeling (ORM/NIAM), Handbook on Architectures of Information Systems. Springer-Verlag, 1998. –notação gráfica do modelo ER

23 Exemplo de Esquema MCC Publication Proceedings Title Business University Address Conference Publisher Book (1,N) homeAddress (0,1) (1,N) (1,1) (1,N) (1,1) (1,N) (1,1) {technical, fiction} Category Author Name (1,1) (1,N) workAddress (1,1) (1,N) StreetCity (1,N) (1,1) Number (1,N) (1,1) string integer stringinteger

24 Exemplo de Esquema MCC Publication Proceedings Title Business University Address Conference Publisher Book (1,N) homeAddress (0,1) (1,N) (1,1) (1,N) (1,1) (1,N) (1,1) {technical, fiction} Category Author Name (1,1) (1,N) workAddress (1,1) (1,N) StreetCity (1,N) (1,1) Number (1,N) (1,1) string integer stringinteger conceito NL (1,N)

25 Exemplo de Esquema MCC Publication Proceedings Title Business University Address Conference Publisher Book (1,N) homeAddress (0,1) (1,N) (1,1) (1,N) (1,1) (1,N) (1,1) {technical, fiction} Category Author Name (1,1) (1,N) workAddress (1,1) (1,N) StreetCity (1,N) (1,1) Number (1,N) (1,1) string integer stringinteger conceito L (1,N)

26 Exemplo de Esquema MCC Publication Proceedings Title Business University Address Conference Publisher Book (1,N) homeAddress (0,1) (1,N) (1,1) (1,N) (1,1) (1,N) (1,1) {technical, fiction} Category Author Name (1,1) (1,N) workAddress (1,1) (1,N) StreetCity (1,N) (1,1) Number (1,N) (1,1) string integer stringinteger relacionamento de associação (1,N)

27 Exemplo de Esquema MCC Publication Proceedings Title Business University Address Conference Publisher Book (1,N) homeAddress (0,1) (1,N) (1,1) (1,N) (1,1) (1,N) (1,1) {technical, fiction} Category Author Name (1,1) (1,N) workAddress (1,1) (1,N) StreetCity (1,N) (1,1) Number (1,N) (1,1) string integer stringinteger relacionamento de herança (1,N)

28 Exemplo de Esquema MCC disjunção Publication Proceedings Title Business University Address Conference Publisher Book (1,N) homeAddress (0,1) (1,N) (1,1) (1,N) (1,1) (1,N) (1,1) {technical, fiction} Category Author Name (1,1) (1,N) workAddress (1,1) (1,N) StreetCity (1,N) (1,1) Number (1,N) (1,1) string integer stringinteger (1,N)

29 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 3.1 Modelo Conceitual Canônico (MCC) 3.2 Mapeamento MCC-DTD 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

30 Mapeamento MCC - DTD Informação de mapeamento –correspondência entre o esquema global e os esquemas locais –finalidade: tradução de consultas globais Abordagens para definição de mapeamentos –catálogos de mapeamento –visões

31 Mapeamento MCC - DTD Informação de mapeamento –correspondência entre o esquema global e os esquemas locais –finalidade: tradução de consultas globais Abordagens para definição de mapeamentos –catálogos de mapeamento –visões

32 Mapeamento MCC - DTD Estratégia de mapeamento –expressões de caminho XPath associadas a conceitos e relacionamentos do esquema global –por quê XPath? XPath é um padrão para consulta a dados XML visão XPath: expressão direta de busca para um elemento ou atributo em uma fonte XML

33 Mapeamento de Conceitos Expressão de caminho absoluto XPath Book (1,N) Author (1,N) DTD X

34 Mapeamento de Conceitos Expressão de caminho absoluto XPath Book (1,N) Author (1,N) DTD X : /Book/ DTD X

35 Mapeamento de Conceitos Expressão de caminho absoluto XPath Book (1,N) Author (1,N) DTD X : /Book/AuthorList DTD X

36 Mapeamento de Conceitos Expressão de caminho absoluto XPath Book (1,N) Author (1,N) DTD X : /Book/AuthorList/Author DTD X

37 Mapeamento de Relacionamentos Expressão de caminho relativo XPath Book (1,N) Author (1,N) DTD X

38 Mapeamento de Relacionamentos Expressão de caminho relativo XPath Book (1,N) Author (1,N) DTD X DTD X: Book  Author:

39 Mapeamento de Relacionamentos Expressão de caminho relativo XPath Book (1,N) Author (1,N) DTD X DTD X: Book  Author:AuthorList

40 Mapeamento de Relacionamentos Expressão de caminho relativo XPath Book (1,N) Author (1,N) DTD X DTD X: Book  Author:AuthorList/Author

41 Mapeamento de Relacionamentos Expressão de caminho relativo XPath Book (1,N) Author (1,N) DTD X DTD X: Author  Book:

42 Mapeamento de Relacionamentos Expressão de caminho relativo XPath Book (1,N) Author (1,N) DTD X DTD X: Author  Book:..

43 Mapeamento de Relacionamentos Expressão de caminho relativo XPath Book (1,N) Author (1,N) DTD X DTD X: Author  Book:../..

44 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

45 Etapa de Conversão da DTD Contribuição principal da abordagem –diferencial em relação a outros trabalhos define um esquema semântico para uma DTD resulta de uma análise detalhada do esquema + dados de documentos XML + inferências semânticas –modelagem canônica +adequada ao domínio esquema global +preciso

46 Processo de Conversão Documentos XML Usuário Especialista Pré-Processamento DTD Pré-Processada Conversão Esquema Conceitual Preliminar Reestruturação Esquema Conceitual Definitivo Fonte XML

47 Processo de Conversão Documentos XML Usuário Especialista Pré-Processamento DTD Pré-Processada Conversão Esquema Conceitual Preliminar Reestruturação Esquema Conceitual Definitivo Fonte XML modifica detalhes de estruturação da DTD: remoção de informação irrelevante para o domínio tratamento de elementos com aninhamento renomeação de informação

48 Remoção de Elementos...

49 Remoção de Elementos...

50 Tratamento de Aninhamentos

51 Tratamento de Aninhamentos

52 Processo de Conversão Documentos XML Usuário Especialista Pré-Processamento DTD Pré-Processada Conversão Esquema Conceitual Preliminar Reestruturação Esquema Conceitual Definitivo Fonte XML gera os conceitos e relacionamentos de um esquema MCC com base: nas definições de elementos e atributos da DTD nos documentos XML

53 Regras de Conversão

54 Conversão de Elemento Composto Publication

55 Conversão de Elemento Simples Year integer Publication análise de docs XML default: string

56 Análise de Documentos XML Análise de tipo de dado... 2002... 1999... 1995... Tipo de dado de Year : integer

57 Conversão de Componentes Year integer Publication (1,1) (1,N) default: (1,N) regras de cardinalidade

58 Análise de Documentos XML Análise de cardinalidade inversa...... 2002......... 2002...... Cardinalidade Year  Publication : (1,N)

59 Conversão de Componentes Year integer Publication (1,1) (1,N) Author University string (1,N) Business string (1,N) (1,1)

60 Heurística de Herança Year integer Publication (1,1) (1,N) Author University string (1,N) Business string (1,N) (1,1) Book consulta à Thesaurus (Wordnet)

61 Conversão de Atributos Year integer Publication (1,1) (1,N) Author University string (1,N) Business string (1,N) (1,1) Book Title string (1,1)

62 Processo de Conversão Documentos XML Usuário Especialista Pré-Processamento DTD Pré-Processada Conversão Esquema Conceitual Preliminar Reestruturação Esquema Conceitual Definitivo Fonte XML realiza validações manuais e automáticas para uma melhor adequação do esquema ao domínio

63 Validações Manuais Publication Proceedings (1,1) (1,1) Publication Proceedings

64 Validações Automáticas Publication Proceedings Book Title (1,1) (1,N) (1,1) (1,N) (1,1)(1,N) Book Proceedings Publication

65 Processo de Conversão Documentos XML Usuário Especialista Pré-Processamento DTD Pré-Processada Conversão Esquema Conceitual Preliminar Reestruturação Esquema Conceitual Definitivo Fonte XML

66 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

67 Etapa de Integração Semântica Baseada em regras e algoritmos de unificação Diferencial em relação a outros trabalhos –trata as particularidades de integração de esquemas XML representações textuais e/ou estruturadas representações alternativas

68 Processo de Integração Semântica Usuário Especialista Clusterização de Sinônimos Clusters de Afinidade Esquema Conceitual 1 Reestruturação Esquema Global Definitivo Esquema Conceitual n Unificação Inclusão de Relações de Herança Esquema Global Preliminar ARTEMIS...

69 Processo de Integração Semântica Usuário Especialista Clusterização de Sinônimos Clusters de Afinidade Esquema Conceitual 1 Reestruturação Esquema Global Definitivo determinação de equivalências entre conceitos: graus de afinidade agrupamento em clusters Esquema Conceitual n Unificação Inclusão de Relações de Herança Esquema Global Preliminar ARTEMIS...

70 Processo de Integração Semântica Usuário Especialista Clusterização de Sinônimos Clusters de Afinidade Esquema Conceitual 1 Reestruturação Esquema Global Definitivo Esquema Conceitual n Unificação Inclusão de Relações de Herança Esquema Global Preliminar ARTEMIS... integração semântica de conceitos presentes em um mesmo cluster

71 Unificação Regras e algoritmos aplicadas a três casos de unificação –Unificação L x L (cluster léxico) –Unificação NL x NL (cluster não-léxico) –Unificação NL x L (cluster misto)

72 Unificação L x L Number integer Nr integer Number float Number float string Business string Enterprise string (1) (2) Enterprise (3) (1) (2)

73 Unificação NL x NL Writer Name (1,1) (1,N) E-mail (1,1) (1,N) Author Name (1,1) (1,N) (2) (1) University Business Name (1,1) (1,N) (1,1) (1,N) University (1,1) (1,N) E-mail (1,1) (0,N) University Business (1,N)(0,1) (1,N)

74 Unificação NL x L City Publishing-House Manual (1,N) (1,1) Name string (1,N) (1,1) string (1,1) (0,N) (2) Publisher string (1) Publisher (2)  Publishing-House/Name (1) (mapeamento 1:1) City Publishing-House Manual (1,N) (1,1) Name string (1,N) (1,1) string (1,1) (0,N) DTD 2: Publisher

75 Unificação NL x L Address Street City (1,N) (1,1) Number (1,1) string integer (1,N) (1) Address string (2) Address (2)  Address/Street  Address/Number  Address/City (1) (mapeamento 1:N) Address DetailedAddress TextualAddress TextualAddress Text string (1,N) (1,1) Street (1,N) (1,1) City (1,N) (1,1) string Number (1,1) integer (1,N) string DTD 1: AddressDTD 2: Address

76 Processo de Integração Semântica Usuário Especialista Clusterização de Sinônimos Clusters de Afinidade Esquema Conceitual 1 Reestruturação Esquema Global Definitivo Esquema Conceitual n Unificação Inclusão de Relações de Herança Esquema Global Preliminar ARTEMIS... consideração de novos relacionamentos de herança relevantes para o domínio

77 Inclusão de Relações de Herança Publication Title (1,1) string (1,N) Manual (1,1) (1,N) e Publication Title (1,1) string (1,N) Manual (1,1) (1,N) relacionamento relevante?

78 Processo de Integração Semântica Usuário Especialista Clusterização de Sinônimos Clusters de Afinidade Esquema Conceitual 1 Reestruturação Esquema Global Definitivo Esquema Conceitual n Unificação Inclusão de Relações de Herança Esquema Global Preliminar ARTEMIS... validações manuais e automáticos para uma melhor adequação do esquema global ao domínio

79 Ajuste de Disjunções Publication Proceedings Book Manual Publication Proceedings Book Manual + Publication Proceedings Book Manual Publication Proceedings Book Manual 

80 Simplificação do Esquema Publication Title (1,1) string (1,N) Manual (1,1) (1,N) Publication Title (1,1) string (1,N) Manual

81 Processo de Integração Semântica Usuário Especialista Clusterização de Sinônimos Clusters de Afinidade Esquema Conceitual 1 Reestruturação Esquema Global Definitivo Esquema Conceitual n Unificação Inclusão de Relações de Herança Esquema Global Preliminar ARTEMIS...

82 Roteiro 1.Introdução 2.Abordagem de Integração Proposta 3.Modelo Canônico e Mapeamentos 4.Etapa de Conversão da DTD 5.Etapa de Integração Semântica 6.Considerações Finais

83 Contribuições Um processo de conversão de uma DTD para um esquema conceitual Um processo de integração semântica de esquemas XML Uma estratégia de mapeamento baseado no padrão XPath

84 Trabalhos Relacionados TrabalhoIntegraçãoProcessoModelo Canônico TSIMMISmanualbottom-upgrafo Garlicmanualbottom-upODMG MIXmanualbottom-upDTD DIXSEmanualbottom-upconceitual Jensenmanualbottom-upUML YATmanual-árvore McBrienmanual-grafo Vdovjakmanualtop-downconceitual Xylemesemi-automáticotop-downDTD LSDsemi-automáticotop-downDTD Limsemi-automáticobottom-upgrafo TESEsemi-automáticobottom-upconceitual

85 Trabalhos Relacionados TrabalhoTécnicas de IntegraçãoIntegração de esquemas XML CUPID análise de informação do esquema análise de nomenclatura análise de estrutura não tratam a integração de representações alternativas de elementos (disjunções) não tratam de forma completa a integração de elementos textuais com estruturados MOMIS TESE análise de informação do esquema análise de nomenclatura análise de estrutura análise de informação de instâncias de instâncias tratam a integração de disjunções disjunções consideram várias consideram várias alternativas para a alternativas para a integração NL x L integração NL x L

86 Trabalhos Relacionados TrabalhoLimitações de Modelagem ConceitualTESE CUPID não modela representações alternativas de elementos não filtra elementos irrelevantes para o domínio  MOMIS esquema conceitual definido manualmente  Vdokjak esquema conceitual definido manualmente  DIXSE não modela relacionamentos de herança não filtra elementos irrelevantes para o domínio 

87 Trabalhos Futuros Comparação de esquemas –técnicas de integração baseada em instâncias aprendizado de máquina, PLN Mapeamento –desenvolvimento do módulo processador de consultas do Mediador validação da estratégia de mapeamento –consideração de restrições de integridade Fonte X: Sigmod Record Journal –Journal — Title (Fonte X: [Title = “Sigmod Record”])

88 Trabalhos Futuros Processo de integração –abstração de esquemas em XML-Schema –consulta a vários Thesauri comparação de termos em diversas línguas –análise de performance dos algoritmos otimização de processamento –realização de mais estudos de caso validação da aplicabilidade das regras e algoritmos –desenvolvimento de um protótipo completo

89 Publicações Abordagem de integração –“A Method for the Unification of XML Schemata” Mello, R.; Castano, S.; Heuser, C. Information & Software Technology, v.44, n.4, Mar 2002. –“A Rule-Based Conversion of a DTD to a Conceptual Schema” Mello, R.; Heuser, C. Proceedings of the XX International Conference on Conceptual Modeling (ER’2001), Yokohama, Japan, Springer-Verlag, Nov 2001. –“A Bottom-Up Approach for Integration of XML Sources” Mello, R.; Heuser, C. Proceedings of the International Workshop on Information Integration on the Web (WIIW’2001), Rio de Janeiro, Brazil, Apr 2001.

90 Publicações Estado da arte –“Dados Semi-Estruturados” Mello R. et. al. Anais do XV Simpósio Brasileiro de Banco de Dados (SBBD’2000) / XIV Simpósio Brasileiro de Engenharia de Software – Mini-cursos e Tutoriais, João Pessoa, Brasil, Out. 2000. –“Aplicação de Ontologias a Dados Semi- Estruturados” Mello R., Heuser, C. Anais da XXVI Conferencia Latinoamericana de Informática (CLEI’2000), Cidade do México, México, Set, 2000 (ed. eletrônica)

91 Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador UFRGS/II - PPGC

92 ORM x ER ER –dicotomia Entidade-Atributo Author University DTD University Author affiliation ER: name

93 ORM x ER ORM – somente um construtor de modelagem para representação de informação léxica ORM: Author University DTD

94 ORM x ER ER –elementos léxicos compartilhados não podem ser modelados como atributos DTD Author Name Company Name ER:

95 ORM x ER ORM –não há restrição de modelagem para conceitos léxicos compartilhados ORM: Author Name DTD Company


Carregar ppt "Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador."

Apresentações semelhantes


Anúncios Google