A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da | facebook.com/bfcosta

Apresentações semelhantes


Apresentação em tema: "Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da | facebook.com/bfcosta"— Transcrição da apresentação:

1 Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da Costa @feldmanB | facebook.com/bfcosta bfcosta@gmail.com

2 About Me! Bruno Feldman da Costa Tech Leader DB/BI at White Cube Twitter: @feldmanB E-mail: bfcosta@gmail.combfcosta@gmail.com Facebook: https://facebook.com/bfcostahttps://facebook.com/bfcosta Blog: http://brunofeldman.wordpress.comhttp://brunofeldman.wordpress.com

3 Agenda Big Data? Hadoop HDInsight MapReduce MapReduce com HIVE e PIG Transferindo dados com SQOOP Workflows com OOZIE Ferramentas: Powershell e SSIS

4 Big Data “Big data are a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.” Tom White, Hadoop Definitive Guide “In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log, they didn't try to grow a larger ox. We shouldn't be trying for bigger computers, but for more systems of computers.” Grace Hooper

5 Big Data Typified by the “3 V’s”: Volume – Huge amounts of data to process Variety – A mixture of structured and unstructured data Velocity – New data generated extremely frequently

6 Big Data Em 1990 um HD típico armazenava 1,4GB com uma taxa de transferência de 4,4MB/s, ou seja, podia ler todo o disco em uns 5 minutos. Uns 20 anos depois, os discos armazenam 1TB mas lêem a 100MB/s, fazendo a leitura de todo o disco em 2h30min. E se dividíssemos os dados entre vários discos, armazenando uma porção do dado em cada?

7 Hadoop Plataforma que fornece: Um sistema de arquivos distribuído (HDFS) que armazena os dados entre vários servidores. Um meio para armazenar/consultar (MapReduce/ YARN) esses dados distribuídos. HDFS Name NodeData Nodes Hadoop Cluster

8 Blocos de dados redundantes, distribuídos entre os nós do cluster. Falhas nos nós são esperadas! HDFS – Hadoop Distributed File System 8 |

9 Hadoop Ecosystem Distribuições Hadoop Cloudera CDH Hortonworks Data Platform (HDP) MapR Microsoft Azure HDInsight

10 Implementação do HDP no ambiente do Azure VM’s com Windows Server (ou Linux) com HDP WebHDFS (Azure Blob Storage) Suporte a Powershell e SSIS Escalabilidade Rápida implementação

11 DEMO Criando um cluster HDInsight

12 MapReduce Dado dividido entre os data nodes Cada nó faz o “MAP” gerando o par “KEY/Value” O REDUCE faz a agregação.

13 MapReduce MAPMAP REDUCE

14 DEMO Executando um Job Map Reduce

15 HIVE Muito legal esse Map Reduce! Mas… Não sei programar em Java Não sei programar em Python Não sei programar em C# Não sei programar!!!!

16 HIVE Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server. O HIVE faz isso!!!

17 HIVE Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server. O HIVE faz isso!!! A query em HiveQL é “traduzida” para um JOB MapReduce

18 HIVE Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server. O HIVE faz isso!!! A query em HiveQL é “traduzida” para um JOB MapReduce

19 DEMO Usando o Hive

20 PIG O PIG realiza uma série de transformações no dado através de statements Pig Latin. Cada comando Pig Latin vai transformando o dado até chegar no resultado esperado. Ao rodar os comandos DUMP ou STORE o Job MapReduce é executado.

21 DEMO Usando o PIG

22 SQOOP O SQOOP (SQL-HADOOP) permite a transferência bi-direcional de dados entre banco de dados (compatíveis com jdbc) e clusters Hadoop.

23 DEMO Usando o SQOOP

24 OOZIE Engine de Workflow para as ações realizadas no cluster Haddop: Hive Pig Sqoop E outras…

25 DEMO Usando o OOZIE

26 OOZIE / SQOOP O OOZIE e o SQOOP até que são legais… Mas o SSIS é MUITO melhor!!

27 Quer aprender mais? Books: Hadoop: The Definitive Guide - Tom White Microsoft Big Data Solutions - Adam Jorgensen and James Rowland-Jones Pro Microsoft HDInsight: Hadoop on Windows - Debarchan Sarkar Cursos: EDX: DAT202.1x Processing Big Data with Hadoop in Azure HDInsight

28 DÚVIDAS? OBRIGADO!


Carregar ppt "Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da | facebook.com/bfcosta"

Apresentações semelhantes


Anúncios Google