A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Integração Semântica de Esquemas

Apresentações semelhantes


Apresentação em tema: "Integração Semântica de Esquemas"— Transcrição da apresentação:

1 Integração Semântica de Esquemas
Gabrielle Karine Canalle

2 Roteiro Integração de Dados Integração de Esquemas
Heterogeneidade dos dados Causas para a diversidade de esquemas Processo genérico para Integração de Esquemas Semântica em Integração de Esquemas Relações Semânticas Similaridade Semântica Conflitos Semânticos Ontologias em Integração Contexto em Integração Trabalhos Relacionados

3 Integração de Dados Fornecer ao usuário uma visão unificada dos dados contidos em diversas fontes de dados heterogêneas. De maneira que para o usuário esse processo seja transparente, aconteça a integração sem que ele perceba.. Abordagem Virtual Informações consultadas nas fontes apenas quando as consultas são realizadas Dados atualizados. Abordagem Materializada Informações são recuperadas, integradas e armazenadas em um reposítório Dados disponíveis imediatamente. Arquiteturas Mediadores – oferecem uma visao integrada sobre os dados distribuidos em multiplas fontes de dados e disponibilizam um esquema p essa visao Data warehouse – os dados sao recuperados, integrados, e armazenados em um repositorio de dados, obtendo-se assim uma visao materializada dos dados Peer to peer – os participantes sao tanto provedores como usuarios dos recursos. Dataspaces – abordagem pay as you go – integração por demanda

4 Integração de Esquemas
Esquema descreve os objetos que estão sendo representados em um banco de dados e as relações entre eles. (entidades, atributos e relacionamentos) Integração de esquemas é o processo que recebe esquemas de fontes de dados distintas e produz um esquema unificado. Existem dois tipos: View Integration (Integração de visões) Ocorre durante a criação de um novo banco de dados quando os requisitos do usuário podem ser diferentes para cada grupo de usuários. É utilizado para mesclar diferentes pontos de vista em um único modelo de dados. Database Integration (Integração de Bases de Dados) É utilizado quando dois ou mais bancos de dados devem ser combinados para produzir um único esquema, chamado de esquema global. Database integration: duas categorias – integracao de bases de dados homogeneas, e heterogeneas

5 Heterogeneidade dos Dados
Sintática: Divergências na representação de escalas, unidades, tipos de dados e formatos; Ex: Nome de tabelas FUNC em um BD e FUNCIONARIOS em outro BD Estrutural: Diferenças em modelos, esquemas e estruturas na representação de informações; Ex: BD orientado a objeto e BD relacional Semântica: Diferenças na interpretação da informação mesmo representada de forma homogênea Ex: Entidades ALUNO em um BD e ESTUDANTE em outro BD representando o mesmo conceito. Dentre os problemas de integração, o que vem sendo considerado o mais desafiador por especialistas é o da heterogeneidade EXEMPLO HETEROGENEIDADE SINTÁTICA –conteúdos iguais, mas com sintaxes diferentes. Esta heterogeneidade é de fácil solução e pode ser resolvida com o uso de um dicionário de termos léxicos. HETEROGENEIDADE SEMÂNTICA – considera o significado dos dados.

6 Causas para a diversidade de esquemas
Diferentes perspectivas Quando dois esquemas de banco de dados são projetados por projetistas diferentes, ou as requisições dos usuários são diferentes, os esquemas resultantes muitas vezes são visões contrastantes dos mesmos dados.

7 Diferentes perspectivas
No exemplo acima, a relação entre empregado e projeto em um banco de dados é representado como uma relação entre empregado, departamento e projeto em outro banco de dados. Esta situação pode ocorrer em uma organização que permite que diferentes departamentos tenham regras diferentes a respeito de como os funcionários estão alocados a projetos. [Lenzerine; Navathe, 1986]

8 Conceitos Equivalentes
Bases de dados diferentes podem tratar os mesmos conceitos de maneiras diferentes. Há duas situações: Conceitos diferentes modelados da mesma forma; ex: em um BD de uma universidade onde funcionários e alunos podem ser representados pela entidade pessoa, embora sejam conceitos diferentes. Mesmos conceitos modelados de forma diferente.

9 Man e Woman são distinguidos em uma hierarquia de generalização no primeiro esquema visto que no segundo esquema eles são distinguidos por diferentes valores do atributo sexo. Exemplo editora e livro [Lenzerine; Navathe, 1986]

10 Projetos Incompatíveis
Dois projetos de banco de dados podem ser incompatíveis devido a erros cometidos no projeto inicial, ou restrições diferentes.

11 Projetos incompatíveis
Por exemplo, no exemplo acima, a relação entre o empregado e o projeto é representado como uma relação um-para-muitos em banco de dados 1 e, como um relacionamento muitos-para-muitos em banco de dados 2. Este problema pode ser causado por erros cometidos durante a tarefa inicial de análise de banco de dados ou porque os usuários do sistema têm diferentes métodos de trabalho. [Lenzerine; Navathe, 1986]

12 Processo Genérico para Integração de Esquemas
Recebe um conjunto de esquemas diferentes, com estruturas diferentes e semântica diferente; É composto por uma série de tarefas; [Belian, 2007]

13 Pré-integração Nesta etapa uma análise dos esquemas é realizada para se decidir uma política de integração. Engloba a escolha dos esquemas a serem integrados e a ordem da integração. Traduz os esquemas para um formato adequado para ser processado pelos passos restantes do processo de integração.

14 Abordagens utilizadas na pré-integração
Técnicas baseadas em String Consideram os nomes de elementos formados por Strings que são sequências de caracteres; São baseadas em sintática, a referências de duas strings de um mesmo conceito é estabelecido por medidas de similaridade. Técnicas baseadas em Linguagem Tokenization, lemmatization e elimination são exemplos; Geralmente são aplicadas aos nomes dos elementos antes das técnicas baseadas em string.

15 Comparação de Esquemas
Esta etapa tem como objetivo identificar os conflitos e as correspondências entre elementos dos esquemas. Considera características sintáticas, semânticas e estruturais. A tarefa de comparação de esquema precisa identificar conflitos entre os elementos do esquema Conflitos sintáticos e estruturais; Quando os conceitos do mundo real são representados através de diferentes modelos e estruturas (tipos de dados, restrições de integridade) Conflitos semânticos; Quando o mesmo elemento do mundo real é modelado diferentemente por fontes de dados distintas causando interpretações divergentes, ou diferentes elementos com a mesma representacão ( homônimos, sinônimos) Toma como entrada dois esquemas, compara e retorna um conjunto de mapeamentos entre os elementos dos dois esquemas (entidades, atributos e relacionamentos)

16 Abordagens para Comparação de Esquemas
Existem várias abordagens para comparação de esquemas: Instância vs nível de esquema Elemento vs correspondência de estrutura Baseados em Linguagem Utilizando restrições e tipos de dados Correspondência de cardinalidade Informações auxiliares fornecidas Elemento vs correspondencia de estrutura – dois esquemas podem ser comparados por elementos individuais (atributos) ou comparando as estruturas Baseados em linguagem – utiliza um dicionario de sinonimo fornecendo um vocabulario do dominio do conhecimento Utilizando restriçoes e tipos de dados – usa informacoes sobre as restricoes e tipo de dados a fim de auxiliar a operaçao de correspondencia e associar essa informacao com outros tipos de abordagens. Correspondencia de cardinalidade – pode relacionar um ou mais elementos dos dois esquemas que retorna 1:1, 1:N, N:1, e N:M como resultados Informacoes auxiliares fornecidas – nao eh baseada apenas nas informacoes dos esquemas, mas depende tambem de informacoes auxiiares fornecidas por vocabularios, dicionarios, ontologias, esquemas globais ou resultatos anteriores.

17 Correspondência de Esquemas
Este passo é responsável pela resolução dos conflitos identificados no passo anterior. Tem como objetivo tornar os esquemas compatíveis, permitindo sua integração

18 Abordagens para Correspondência de Esquemas
Soluções Baseadas em regras Regras feitas a mão empregadas para combinar os esquemas; Exploram informações como nome de elementos, tipos de dados, número de sub-elementos e restrições de integridade; Benefício: baixo custo, não exigem treino. Soluções Baseadas em Aprendizagem Maioria propostas na última década; Benefício: aprendizagem do passado para melhorar ao longo do tempo.

19 Fusão de Esquemas Nesta etapa os elementos correspondentes são agrupados de modo a gerar um esquema integrado. Além disso, esta etapa deve produzir mapeamentos entre os elementos do esquema integrado e seus elementos correspondentes nas fontes de dados.

20 Abordagens utilizadas na Fusão de Esquemas
Duas estratégias são mais utilizadas nesta etapa: Abordagem binária A fusão é realizada com dois esquemas de cada vez; Utiliza medidas de similaridade; Reduz a complexidade da etapa de Fusão; Requer um grande número de iterações para produzir o esquema global. Abordagem N-ary Integra N esquemas de cada vez; Requer uma única iteração; Aumenta a complexidade da etapa de Fusão.

21 Reestruturação do Esquema Global
O resultado do passo anterior é analisado e se necessário é feita uma reestruturação a fim de atingir os critérios: Integridade– o esquema integrado resultante deve conter todos os elementos apresentados nos esquemas das fontes de dados locais; Exatidão – o esquema global integrado deve conter corretamente os dados dos esquemas locais; Minimalidade – se o mesmo conceito for representado em mais de um componente do esquema, este deve ser representado somente uma vez no esquema integrado; Compreensão – o esquema integrado deve ser de fácil compreensão para o desenvolvedor e o usuário final.

22 Abordagens para Reestruturação de Esquemas
Top-down Considera inicialmente os requisitos do usuário ou aplicação para produzir o esquema integrado; Depois, procura nos esquemas das fontes de dados locais os elementos necessários para formar o esquema integrado. Bottom-up Produz o esquema integrado com base nos elementos fornecidos pelos esquemas das fontes de dados; Os elementos do esquema global podem ser selecionados e personalizados de acordo com as necessidades do utilizador ou das aplicações.

23 Sêmantica em Integração de Esquemas
Nome acadêmico para o estudo do significado; Desafio antigo e muito pesquisado; Semântica, é a interpretação que pessoas atribuem aos dados, ou seja, relacionam o dado ao que ele representa de acordo com o seu entendimento de mundo; Representada através da linguagem; Considerar o significado (conteúdo) do dado na integração Nomes dos elementos servem para indicar a qual objeto no mundo real o elemento se refere. A interpretção semântica depende do contexto que existe entendimentos especificos sobre o dominio de conhecimento.

24 Relações Semânticas Representação de relacionamentos semânticos entre os elementos de um esquema de fonte de dados; Auxiliam na resolução de conflitos semânticos; Existem vários tipos: Sinonímia Antonímia Homonímia Hiponímia Meronímia Relacionam os elementos de um banco de dados para reproduzir uma situação do mundo real

25 Sinonímia Nomes diferentes; Entidades semanticamente equivalentes;
é o mesmo que ESTUDANTE ALUNO

26 Antonímia Significados opostos HOMEM MULHER

27 Homonímia Nomes iguais; Entidades semanticamente diferentes; BANCO
Instituição financeira Banco de sangue

28 Hiponímia/Hipernímia
Sub-tipo/super-tipo; Inclusão de uma entidade em uma classe semântica; PÁSSARO hiperônimo é um tipo de pássaro BEIJA-FLOR hipônimo

29 Meronímia/Holonímia Todo-parte; Decomposição do objeto em partes;
BICICLETA holônimo tem um tem uma tem um GUIDÃO ASSENTO RODA merônimo

30 Similaridade Semântica
Baseada no conceito de proximidade semântica, estabelece medidas sobre o quão forte é a semelhança semântica entre dois elementos que utilizam a mesma semantica do mundo real. Equivalência semântica – elementos representam o mesmo conceito. Forma mais forte de proximidade semântica; Relação semântica – elementos associados através de relacionamento 1:N, generalização ou agregação; Relevância semântica – elementos associados através de algum tipo de abstração; Semelhança semântica – elementos não são associados através do domínio, relacionados através de regras ou papéis definidos pelo usuário. Forma mais fraca de proximidade semântica; Incompatibilidade semântica – termos não possuem qualquer relação semântica. Grau de semelhança semantica mede a similaridade entre dois termos Medidas para estimar graus de similaridade semantica As medidas de similaridade semantica sao formuladas apra estabelecer o parentesco semantico , a semelhaca semantca ou até a distancia semantica entre dois termos

31 Conflitos Semânticos São causados por representações diferentes de conceitos do mundo real em fontes de dados diversas; A informação tem interpretações diferentes; Ocorre em esquemas e conteúdo de fontes de dados.

32 Incompatibilidade de Domínio
Conflitos de nomes – atributos semanticamente iguais (sinônimos), atributos não relacionados semanticamente (homônimos); Ex. Remuneração e Salário, ou, id da entidade estudante que representa o cpf e id da entidade livro que representa o isbn. Conflitos de representação de dados – atributos semanticamente similares de tipos diferentes; Ex. Cpf definido como tipo inteiro em uma entidade e em outra como String. Conflitos de unidade de medida – atributos semanticamente similares representados em unidades de medida diferentes. Ex. Um atributo preço que pode estar representado em uma entidade em dólar e em outra em real. OCORREM QUANDO DOIS OBJETOS TEM DEFINIÇOES DIFERENTES DE DOMINIOS DE ATRIBUTOS SEMANTICAMENTE SIMILARES.

33 Conflitos de precisão – é possível que não exista um mapeamento de um para um entre os valores dos domínios dos atributos, e sim um mapeamento de um para vários. O mapeamento pode ser feito precisamente apenas em uma direção, e os objetos têm uma relação semântica; Ex. Mapeamento entre notas e conceitos. Conhecendo a nota é possível obter o conceito, mas sabendo o conceito não é possível obter a nota com precisão. Conflitos de valores default – dois atributos têm valores default diferentes em bases diferentes. Ex. Valor default para um atributo maioridade que pode ser em uma entidade 18 e em outra 21 anos. Conflitos de restrições – dois atributos semanticamente similares com restrições conflitantes. Ex. Atributo peso com restrição peso < 70 em um BD e peso > 80 em outro BD.

34 Incompatibilidade entre Definições de Entidades
Conflitos de chaves – quando duas relações que modelam a mesma entidade têm chaves semanticamente diferentes; Ex. Em um BD a entidade pessoa tem como chave o n. identidade e em outro BD a entidade pessoa tem como chave o n. do cpf Conflitos de nomes – também ocorrem com as entidades assim como com os atributos. Se os nomes são sinônimos os objetos são considerados semanticamente equivalentes, se forem homônimos, são considerados semanticamente incompatíveis; Ex. Um BD com o objeto empregado e em outro com o objeto trabalhador representando o mesmo conceito, ou então em um BD o objeto bolsa representando bolsa de valores, e em outro BD o objeto bolsa representando o acessório. OCORREM QUANDO AS DEFINIÇOES DAS ENTIDADES SÃO APENAS PARCIALMENTE COMPATÍVEIS, MESMO QUANDO O MESMO TIPO DE ENTIDADE ESTÁ SENDO MODELADO.

35 Conflitos de compatibilidade de união – quando os atributos de uma não são semanticamente relacionados com os atributos da outra, sendo impossível realizar um mapeamento 1-1 entre eles; Ex. Entidade pessoa em um BD definida como Pessoa(CPF, nome, nomeDoPai) e em outro BD, definida como Pessoa(CPF, nome, telefone). Conflitos de isomorfismo de esquemas – entidades semanticamente similares têm um número diferente de atributos. Ex. Entidade Pessoa definida em um BD como Pessoa(CPF, telefoneResidencial, celular) e em outro BD como Pessoa(CPF, telefone). Conflitos de dados não informados – ocorre quando na definição da entidade existe um atributo não informado. Ex. podemos citar as relações estudante(CPF, nome, tipo) e estudanteDeMestrado(CPF, nome) em bancos distintos. Consideremos que o atributo tipo possa ter os valores graduação ou mestrado. Apesar de estudanteDeMestrado não possuir o atributo tipo, podemos deduzir que ele é do tipo mestrado

36 Incompatibilidade no Nível de Abstração
Conflitos de Generalização – duas entidades representadas em diferentes níveis de generalização em bases diversas, com uma relação de inclusão entre as entidades; Ex. Uma entidade estudanteDeGraduacao representada como estudante(cpf, nome) em uma base, e como estudanteGraduacao(cpf, nome, orientador) em outra base. A mesma entidade representada de maneira mais geral na primeira base. Conflitos de agregação – quando uma agregação é utilizada em uma base para identificar um conjunto de entidades em outra base; Ex. Entidade comboio(id,npesoMedio, posicao) em um banco e uma entidade navio(id, peso, posicao, capitao) em outro. Comboio no primeiro banco é um conjunto de navios no segundo banco. Conhecendo o navio é possível identificar o comboio, mas conhecendo apenas o comboio não é possível identificar o navio com precisão.

37 Ontologias em Integração
Na integração semântica, ontologias possuem um importante papel. Como são modelos formais de representação do conhecimento consensual, elas podem servir como base na atribuição de semântica aos sistemas a serem integrados. Vocabulário de referência Significado de elementos das fontes de dados; Utilizadas na resolução de conflitos semânticos em esquemas e conteúdo; “Uma ontologia é uma especificação explícita de uma conceitualização” [Gruber 1993] conceitualização = conhecimento representado formalmente Elementos: Classes, relações, funções, axiomas e instâncias.

38 Abordagens de Ontologia
Abordagem de Ontologia Única Utiliza uma ontologia global, a ontologia possui um vocabulário compartilhado para a especificação das semânticas. Todas as fontes de informação são relacionadas a uma ontologia global. [Lima Sá, 2008]

39 Abordagem de Múltiplas Ontologias
Cada fonte de informação é descrita por sua própria ontologia. [Lima Sá, 2008]

40 Abordagem Híbrida A semântica de cada fonte é descrita por uma ontologia própria, e é acrescida uma camada com um vocabulário global compartilhado no qual é baseada a construção das ontologias locais. [Lima Sá, 2008]

41 Vantagens do Uso de Ontologias na Integração de Dados
Ontologias possuem um vocabulário rico e predefinido que serve como uma interface estável e conceitual para os bancos de dados e é independente de esquema da base; O conhecimento representado pela ontologia é suficientemente abrangente para dar suporte à tradução de todas as fontes de informações relevantes; A ontologia dá suporte ao gerenciamento de consistência, e o reconhecimento de inconsistência de dados.

42 Contexto “Contexto é qualquer informação que pode ser utilizada para caracterizar a situação de uma entidade. Uma entidade é uma pessoa, lugar, ou objeto que é considerado relevante para a interação entre um usuário e uma aplicação, incluindo o usuário e a aplicação em si.” Dey, 2001

43 Contexto em Integração
Conjunto de meta-atributos utilizados na captura da semântica de elementos de banco de dados; O uso de informação contextual, além da de domínio, pode trazer uma maior precisão na interpretação dos elementos permitindo modificar o seu significado de acordo com um dado contexto; Pode-se utilizar ontologias para representação contextual. NO CONTEXTO DE SAÚDE – BANCO = BANCO DE SANGUE NO CONTEXTO FINANCEIRO – BANC0 = AGENCIA BANCÁRIA NO CONTEXTO COMPUTACIONAL– BANCO = BANCO DE DADOS

44 Desafio da Integração Semântica
Devido à subjetividade na atribuição de semântica, é muito difícil que algum método consiga solucionar completamente a questão da interoperabilidade semântica. E por causa desses julgamentos subjetivos, a automatização total torna-se praticamente inviável.

45 Trabalhos Relacionados
Alguns trabalhos que já foram realizados na área de integração semântica com ontologias e contexto.

46 Projeto Integra Sistema de integração baseado em mediadores que utiliza o enfoque Global-As-View (GAV); Propõe um processo para geração semântica de um esquema de mediacão; Utiliza metadados, contexto e ontologias na resolução de conflitos semânticos; Processo Básico Comparação de esquemas Enriquecimento léxico Unificação semântica Geração do esquema de mediação

47 OBA-SI(Ontology-Based Approach for Semantic Integration)
É uma abordagem de integração semântica de sistemas baseada em ontologias; Seu intuito é sistematizar o processo de integração sugerindo etapas a serem seguidas; Apresenta uma abordagem em que a integração semântica é tratada em um nível mais alto de abstração.

48 Batini, Lenzerini e Navathe;
A Comparative Analysis of Methodologies for Database Schema Integration Batini, Lenzerini e Navathe; Compara as metodologias para integração de esquemas propostas até o momento. Survey antigo mas muito conceituado na área de Integração de Esquemas. Recomendações de leitura

49 A Formalisation of Semantic Schema Integration
Peter McBrien e Alexandra Poulovassilis; Mostra como ocorre a transformação dos dados em cada etapa do processo de integração semântica de esquemas e apresenta um estudo de caso

50 Dúvidas?

51 Referências Belian, Rosalie Barreto. A context-based name resolution approach for semantic schema integration, 2008. Dey, Anind K. Understanding and Using Context, 2001. Marcílio, Daltron Luiz. Análise e metodologias de integração de esquemas de banco de dados, 2008. An, Yuan. Data Semantics: Data Integration and the Semantic Web, 2004. Doan, AnHai; Halevy, Alon Y. Semantic Integration Research in the Database Community: A Brief Survey, 2004. Kearney, Stephen. Schema Integration, 2002.

52 Integração Semântica de Esquemas
Gabrielle Karine Canalle


Carregar ppt "Integração Semântica de Esquemas"

Apresentações semelhantes


Anúncios Google