Uso de Ontologias em Data Warehousing Alexandra Vitorio de Morais Silva av@cin.ufpe.br 18/04/2017
Roteiro Motivação Data Warehousing Engenharia de ontologias em DW Uso de ontologias durante projeto de ETL Referências 18/04/2017
Motivação Automação de processos de data warehousing Conhecimento semântico das fontes de dados 18/04/2017
Data Warehousing Coleção de tecnologias de suporte à decisão: Consolidação de dados provenientes de fontes heterogêneas (EIS, fontes externas) Data warehouse: coleção de dados orientada a assunto, integrada, variante no tempo e não volátil (Inmon) Suporte a OLAP (On-Line Analitycal Processing) Modelagem de dados multidimensional 18/04/2017
Data Warehousing Processo se dá em duas fases: ETL: extração, transformação e carga Visões multidimensionais dos dados como entrada para ferramentas de front end de análises gerenciais, mineração de dados e geração de relatórios 18/04/2017
Arquitetura de Data Warehousing Fonte: [CHAUDHURI, 1997] 18/04/2017
Engenharia de ontologia para DW Proposta por [CAO, 2006] Construção de uma estrutura ontológica para o domínio específico Definição do comprometimento ontológico e relacionamentos semânticos Especificação formal da estrutura ontológica (profile) em lógica de descrição Agregação, transformação, mapeamento e consulta intra e inter domínios 18/04/2017
Estrutura ontológica em Warehousing Transformar o domínio do problema e o sistema de resolução do problema (DW) em uma ontologia de domínio (DO) e uma ontologia de resolução do problema (PSO) DO: vocabulário de conceitos e relacionamentos Ex: 18/04/2017
Estrutura ontológica em Warehousing PSO - definir ontologias para: Tarefas Métodos Lógica de negócio Recursos (bases de dados, bases de conhecimento, metadados) 18/04/2017
Comprometimento ontológico e relacionamentos semânticos Acordo de utilização de uma ontologia compartilhada de forma coerente e consistente OC = (C,O,R,P,S), onde C é um conjunto de conceitos de um domínio específico O é um conjunto de ontologias candidatas R é um conjunto de relacionamentos entre ci e oj P são as propriedade de cardinalidade S são medidas de similaridade entre ci e oj 18/04/2017
Especificação formal e Agregação, Transformação, Mapeamento e Consultas Estrutura ontológica definida mais precisamente em lógica de descrição Definição de mecanismos de agregação, transformação, mapeamento e consulta inter e intra domínios Ex: uso de regras semânticas 18/04/2017
Projeto de ETL Análise da estrutura e conteúdo das fontes de dados e mapeamento em um modelo de dados comum Em geral, a identificação das transformações necessárias durante o processo de ETL é feita manualmente, guiada pela semântica das fontes de dados e pelas restrições e requisitos da aplicação 18/04/2017
Projeto de ETL utilizando ontologias [SKOUTAS, 2006] propõe a utilização de ontologias para a definição da seqüência de atividades de ETL Especificação formal e explícita da semântica dos esquemas das fontes de dados e do esquema do DW Automatização do processo 18/04/2017
Projeto de ETL utilizando ontologias Construção de uma ontologia baseada nos esquemas das fontes de dados e do DW Derivação automática das transformações necessárias para o processo 18/04/2017
Abordagens de integração de informação baseada em ontologia ([WACHE, 2001]) Ontologia única: integração simples, mas difícil de criar e manter Múltiplas ontologias: mais flexível, no entanto comparação torna-se difícil Abordagem híbrida: cada fonte é descrita em uma ontologia utilizando termos de um vocabulário compartilhado [SKOUTAS, 2006]: vocabulário contendo termos primitivos do domínio fontes de dados descritas independentemente a partir dos termos comuns 18/04/2017
Construção da ontologia do domínio Representação formal e explícita, permitindo uso de técnicas de raciocínio Baseada em um vocabulário comum Linguagem de representação: OWL DL classes, hierarquias, propriedades de domínio e restrições de intervalo, equivalência entre classes e disjunção Mapeamento entre a ontologia e os esquemas das fontes 18/04/2017
Resumo das características de OWL utilizadas Fonte: [SKOUTAS, 2006] 18/04/2017
Cenário As fontes de dados contém informações sobre lojas e produtos; cada produto é vendido em uma loja. Para cada produto, são fornecidos a quantidade disponível e o preço. A informação sobre a quantidade não está disponível para alguns produtos. Há dois tipos de produto: software e hardware. Em DS1 essa distinção é feita pelo atributo “type”, enquanto em DS2 duas relações distintas são utilizadas. Os preços são armazenados em euro e dólar em DS1 e DS2, respectivamente. Produtos em DS1 possuem uma check constraint para que o preço mínimo seja 200 euros. Cada loja tem nome e endereço, que inclui cidade, rua e número. Em DS1 essa informação está no atributo “location”. No DW, o atributo “street” contém a rua e o número da loja. Assume-se também que as lojas estão localizadas em uma dessas cidades: Paris, Roma ou Atenas. No DW, a relação “products” deve conter apenas produtos de software, com os preços variando de 500 a 1500 euros, a quantidade é conhecida e a cidade é Roma ou Atenas. Finalmente, o id nas relações do DW são surrogate keys que substituem as chaves primárias originais das fontes. 18/04/2017
Anotação das fontes de dados Vocabulário de termos em comum Mapeamento da fonte DS1 18/04/2017
Anotação das fontes de dados Anotação da fonte DS1 18/04/2017
Construção da Ontologia A ontologia da aplicação é composta por: Um conjunto de classes primitivas que correspondem aos conceitos especificados, formatos de representação e intervalos ou conjunto de valores Um conjunto de propriedades correspondente às características dos conceitos do domínio Um conjunto de classes definidas representando as fontes de dados 18/04/2017
Classes e propriedades A partir do vocabulário e das anotações: Hierarquia final das classes 18/04/2017
Derivação automática das transformações Conjunto de operadores de um processo de ETL 18/04/2017
Derivação automática das transformações Integração das fontes de dados e carga do DW Algoritmo que define: De quais atributos e relações as informações serão extraídas Quais as transformações necessárias para a integração 18/04/2017
Referências [CAO, 2006] Cao, L.; Ni, J.; Luo, D. Ontological Engineering in Data Warehousing. LCNS - Lecture Notes in Computer Science, vol. 3841, p. 923-929, 2006. [CHAUDHURI, 1997] Chaudhuri, S.; Dayal, U. An overview of data warehousing and OLAP technology. ACM SIGMOD Record, vol. 26, issue 1, p. 65-74, 1997. [SKOUTAS, 2006] Skoutas, D.; Simitsis, A. Designing ETL Processes Using Semantic Web Technologies. Proceedings of the 9th ACM international workshop on Data warehousing and OLAP, p. 67-74, 2006. [WACHE, 2001] Wache, H., et al. Ontology-Based Integration of Information — A Survey of Existing Approache. IJCAI wokshop on Ontologies and Information Sharing, 2001. 18/04/2017
Obrigada! 18/04/2017