Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da | facebook.com/bfcosta

Slides:

Advertisements

Apresentações semelhantes

Nova Plataforma BVS New VHL Platform

Advertisements

O Paradigma Cliente/Servidor Prof. Carlos A. Maziero, PhD PPGIA PUCPR.

Introdução aos Sistemas Gerenciadores de Banco de Dados

Daniel Paulo Introdução O tempo de resposta de um sistema é determinado pelo tempo que ele leva para retornar aos usuários às.

Daniel Paulo SQL Server 2008 Módulo III Daniel Paulo

.NET FRAMEWORK. 2.NET Framework É uma plataforma que permite desenvolver aplicações de software e bibliotecas chamadas aplicações gerenciadas; Ele provê

MVP Virtual Conference 2013

YADFS Yet Another Distributed File System

Laboratório de Programação I Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.

MapReduce Conceitos e Aplicações

Semana do SQL Server. Virtual PASS Chapter BR -2 meses de vida visitas por mês -380 artigos -20+ vídeos

Treinamento sobre SQL.

NoSQL colunas Jairo Tiburtino dos Santos.

Microsoft Azure Apresentação de visão geral para parceiros

Introdução à Computação em Grade Porto Alegre, Maio/2006 Centro Nacional de Supercomputação CESUP/RS Realização: Projeto GradeUFRGS Material pertencente.

Parceria Estratégica. 1.Mandic, Soluções e Parceria. 2.O que é Computação em Nuvem? 3.A Oportunidade. 4.Como se diferenciar com o modelo de negócio na.

O primeiro passo para a nuvem

Agenda Sessão Matutina HoraMódulo 8:30O que é a Plataforma de Aplicação Microsoft? 9:00Business Intelligence 10:00Next Web 11:00Enterprise Applications.

@daibert Solutions Architect Hewlett-Packard Brasil

Workshop MODCS Avaliação de Desempenho de Máquinas Virtuais Eucalyptus Considerando a Compressão de Arquivos. Aluno:Érico Moutinho Medeiros Professor:

Compare as Tecnologias de Memória no VMware e Microsoft VIR311 Fabio Hara Especialista de Infraestrutura Microsoft Alexandre Goudard.

Java Coorporativo Jobson Ronan

Infra-Estrutura de Software

Um Sistema Peer-to- Peer para Armazenamento Distribuído de Arquivos Daniel Mauricio Sthor Lauro Luis Costa Lucas Nascimento Ferreira Departamento de Informática.

Migrando uma aplicação para Windows Azure COS305 Rogerio Cordeiro Developer Evangelist Microsoft Brasil.

Big Data Analise de dados

Irei focar nos recursos que o WSRM tem para gerenciar ambientes com multiplos serviços em um mesmo servidor. Na primeira parte mostrarei o porque é importante.

MICROSOFT BUSINESS INTELLIGENCE & AZURE DATA SERVICES

O que são os alertas do Google?

Distributed Data-Parallel Computing Using a High-Level Programming Language TL1 Programação com Objetos Distribuídos Claiton Luiz Vieira Lisboa.

Windows Azure: computação em nuvem no melhor estilo self-service Fabrício Lopes Sanchez.

Microsoft Students to Business

Java no “ Estado da Arte ” Jobson Ronan

Conhecendo e Migrando para SQL Azure DBP 202 Diego Nogare MVP SQL Marcondes Alexandre MVP

Daniel Paulo Banco de dados: é uma coleção/conjunto de registros relacionados.  Exemplo: O banco de dados de uma Universidade.

Daniel Paulo Introdução O tempo de resposta de um sistema é determinado pelo tempo que ele leva para retornar aos usuários às.

Pedro Antonio Galvão Junior MVP – Windows Server System – SQL Server. Senior Database Administrator. Software Engineer. University Teacher. Flextronics.

BANCO DE DADOS MULTIDIMENSIONAIS CONSULTANDO O CUBO DE DADOS (MDX – SQL SERVER 2008) Banco de Dados Avançado - Prof.ª Valeria Times Andresson Firmino.

Computação na Nuvem e BPOS

AMAZON WEB SERVICES AULA DEMONSTRATIVA. AMAZON WEB SERVICES Começou a atuar no ramo de computação em nuvem em Provê serviços de infraestrutura de.

Microsoft Datazen Do Início… …ao Fim! Arthur Luz | BI Consultant at One Way Solution

Microsoft Certified Professional Consultor e Instrutor de BI e Banco de Dados - One Way Solution Instrutor Datazen - BI do Brasil Articulista – SQL Magazine.

Bancos de Dados Sistema de Banco de dados – sistema de manutenção de registros por computador. É considerado como uma sala.

Sistemas de Arquivos.

Microsoft Datazen Do Início… …ao Fim!

Administração de Sistemas Operacionais Escola Técnica Estadual Maria Eduarda Ramos de Barros Curso Técnico em Redes de Computadores Professor Emerson Felipe.

Encontro SQL BH April 2016 Melhores Práticas para Utilizar as Policies no SQL Server 2014.

SQL Saturday #469 - Brasília SQL 2016 CTP Query Store Luiz Mercante

Integrando Big Data ao OLTP com Polybase. Hadoop Cluster.

Administração de Banco de Dados José Antônio da Cunha CEFET-RN.

SISTEMA DE TRANSITIVIDADE: PARTICIPANTES PROCESSOS CIRCUNSTÂNCIAS.

II Congresso Brasileiro de Tecnologia da Informação e Comunicação Clusters de Alta Disponibilidade em Linux Frederico Madeira LPIC-1, LPIC-2, CCNA

Trabalhando com grandes quantidades de dados Universidade Federal de Campina Grande – UFCG Centro de Engenharia Elétrica e Informática – CEEI Departamento.

Capturando Dados Históricos com Change Data Capture Arthur Luz | MCSA & MCT em SQL Server

Nilton Pinheiro Microsoft SQL Server Implementando SQL Server 2014 Failover Cluster com Cluster Shared Volume.

Implementando SQL Server 2014 Failover Cluster com Cluster Shared Volume (CSV) Nilton Pinheiro SQL Server Specialist SQL Server MVP MCITP | MCSE | MCDBA.

Sistemas Operacionais Linha de tempo Microsoft Marcelo Josué Telles Timeline and File Systems of Microsoft Operations System.

Implementando SQL Server 2014 Failover Cluster com Cluster Shared Volume (CSV) Nilton Pinheiro SQL Server Specialist SQL Server MVP MCITP | MCSE | MCDBA.

Índices - Full Text Searching IFRN José Antonio da Cunha.

SQL Saturday #488 Gerenciamento de múltiplas instâncias de SQL Server Vitor Fava

DyKnow Recursos Transmissão de conteúdo (da tela do professor ou do aluno) Anotações sobre apresentações do professor “Replay” das anotações.

SQL Saturday #512 Oportunidades com a Plataforma de Dados da Microsoft Rodrigo Crespi

SQL Saturday #512 Boas Vindas O dia a dia de um Administrador de banco de dados. Thiago Cruz.

Super ETL’s com as novidades do SSIS 2016

Super ETL’s com as novidades do SSIS 2016

4º Encontro do Grupo SQL Server ES

Conhecendo o Azure SQL Data Warehouse

How to learn English THE EASY WAY. Ways to learn english Music; Games; Apps; Movies/Series;

Event Hubs + Stream Analytics + Power BI

Transcrição da apresentação:

Hadoop!? HDInsight!? Hive?? Uma introdução ao mundo Big Data para DBA’s Bruno Feldman da | facebook.com/bfcosta

About Me! Bruno Feldman da Costa Tech Leader DB/BI at White Cube Facebook: Blog:

Agenda Big Data? Hadoop HDInsight MapReduce MapReduce com HIVE e PIG Transferindo dados com SQOOP Workflows com OOZIE Ferramentas: Powershell e SSIS

Big Data “Big data are a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.” Tom White, Hadoop Definitive Guide “In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log, they didn't try to grow a larger ox. We shouldn't be trying for bigger computers, but for more systems of computers.” Grace Hooper

Big Data Typified by the “3 V’s”: Volume – Huge amounts of data to process Variety – A mixture of structured and unstructured data Velocity – New data generated extremely frequently

Big Data Em 1990 um HD típico armazenava 1,4GB com uma taxa de transferência de 4,4MB/s, ou seja, podia ler todo o disco em uns 5 minutos. Uns 20 anos depois, os discos armazenam 1TB mas lêem a 100MB/s, fazendo a leitura de todo o disco em 2h30min. E se dividíssemos os dados entre vários discos, armazenando uma porção do dado em cada?

Hadoop Plataforma que fornece: Um sistema de arquivos distribuído (HDFS) que armazena os dados entre vários servidores. Um meio para armazenar/consultar (MapReduce/ YARN) esses dados distribuídos. HDFS Name NodeData Nodes Hadoop Cluster

Blocos de dados redundantes, distribuídos entre os nós do cluster. Falhas nos nós são esperadas! HDFS – Hadoop Distributed File System 8 |

Hadoop Ecosystem Distribuições Hadoop Cloudera CDH Hortonworks Data Platform (HDP) MapR Microsoft Azure HDInsight

Implementação do HDP no ambiente do Azure VM’s com Windows Server (ou Linux) com HDP WebHDFS (Azure Blob Storage) Suporte a Powershell e SSIS Escalabilidade Rápida implementação

DEMO Criando um cluster HDInsight

MapReduce Dado dividido entre os data nodes Cada nó faz o “MAP” gerando o par “KEY/Value” O REDUCE faz a agregação.

MapReduce MAPMAP REDUCE

DEMO Executando um Job Map Reduce

HIVE Muito legal esse Map Reduce! Mas… Não sei programar em Java Não sei programar em Python Não sei programar em C# Não sei programar!!!!

HIVE Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server. O HIVE faz isso!!!

HIVE Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server. O HIVE faz isso!!! A query em HiveQL é “traduzida” para um JOB MapReduce

HIVE Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server. O HIVE faz isso!!! A query em HiveQL é “traduzida” para um JOB MapReduce

DEMO Usando o Hive

PIG O PIG realiza uma série de transformações no dado através de statements Pig Latin. Cada comando Pig Latin vai transformando o dado até chegar no resultado esperado. Ao rodar os comandos DUMP ou STORE o Job MapReduce é executado.

DEMO Usando o PIG

SQOOP O SQOOP (SQL-HADOOP) permite a transferência bi-direcional de dados entre banco de dados (compatíveis com jdbc) e clusters Hadoop.

DEMO Usando o SQOOP

OOZIE Engine de Workflow para as ações realizadas no cluster Haddop: Hive Pig Sqoop E outras…

DEMO Usando o OOZIE

OOZIE / SQOOP O OOZIE e o SQOOP até que são legais… Mas o SSIS é MUITO melhor!!

Quer aprender mais? Books: Hadoop: The Definitive Guide - Tom White Microsoft Big Data Solutions - Adam Jorgensen and James Rowland-Jones Pro Microsoft HDInsight: Hadoop on Windows - Debarchan Sarkar Cursos: EDX: DAT202.1x Processing Big Data with Hadoop in Azure HDInsight

DÚVIDAS? OBRIGADO!