A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Extração, transformação e carga (ETL) Sistemas de Informação Prof. Me. Everton C. Tetila.

Apresentações semelhantes


Apresentação em tema: "Extração, transformação e carga (ETL) Sistemas de Informação Prof. Me. Everton C. Tetila."— Transcrição da apresentação:

1 Extração, transformação e carga (ETL) Sistemas de Informação Prof. Me. Everton C. Tetila

2 Agenda 1. Introdução à ETL 1. Introdução à ETL 2. O ciclo de aquisição de dados para o armazém 2. O ciclo de aquisição de dados para o armazém 3. Qualidade de dados 3. Qualidade de dados 4. Ferramentas de ETL 4. Ferramentas de ETL

3 Introdução à ETL Definição: ETL, ou Extract Transform Load, são ferramentas de software cuja função é a extração de dados de diversos sistemas; transformação desses dados conforme regras de negócios; e, por fim, a carga dos dados em um data mart ou um data warehouse.

4 Introdução à ETL O processo de ETL é composto de três partes: 1.Extração: determina a origem, seus metadados, tamanhos e disponibilidades. Se a origem não cumprir com determinadas regras, a carga já pode ser rejeitada na etapa de extração. 2.Transformação: as regras do processo podem ser aplicadas, seja selecionando apenas algumas colunas do roll de dados de origem, conversão de caracteres de um determinado campo em outro padrão, derivando novas colunas, ordenando as informações, etc. 3.Carga: a carga é o passo final, em que os dados são carregados no destino, geralmente um data warehouse ou uma área de estageamento.

5 Introdução à ETL Os conflitos típicos de domínio de atributo são: Diferenças de unidades: quando as unidades utilizadas diferem, embora forneçam a mesma informação Diferenças de precisão: quando a precisão escolhida varia de um ambiente para outro Diferenças em códigos ou expressões: quando o código utilizado difere um do outro Diferenças de granularidade: quando os critérios associados a uma informação, embora utilizando uma mesma unidade, são distintos Diferenças de abstração: quando a forma de estruturar uma mesma informação segue critérios diferentes

6 O ciclo de aquisição de dados para o armazém O ciclo de aquisição de dados para o armazém envolve as seguintes etapas: 1.Os dados precisam ser extraídos de várias fontes heterogêneas 2.Os dados precisam ser formatados por coerência dentro do armazém 3.Os dados precisam ser limpos para garantir a validade 4.Os dados precisam ser ajustados ao modelo de dados do armazém 5.Os dados precisam ser carregados no armazém

7 Qualidade dos dados Para garantir a qualidade dos dados do data warehouse, alguns pontos importantes devem ser observados: Para um dado ser correto, seu valor deve estar inserido dentro de um domínio discreto ou contínuo Um dado pode estar correto, porém, não estar acurado Os dados devem respeitar as regras de negócio estabelecidas para o data warehouse Os dados devem ser completos, consistentes e integrados Algumas regras de cleasing, ou limpeza, podem ser utilizadas Deve-se analisar a possibilidade de derivação de dados a partir de outros

8 Ferramentas de ETL Pentaho Data Integration PowerCenter DataStage

9 Pentaho Data Integration Características: Projeto open source desenvolvida pela Pentaho Download Pentaho Data Integration – Kettle -stable/pdi-ce stable.zip/download Download Java JRE Download Driver JDBC para Mysql


Carregar ppt "Extração, transformação e carga (ETL) Sistemas de Informação Prof. Me. Everton C. Tetila."

Apresentações semelhantes


Anúncios Google