A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

MVP Virtual Conference 2013

Apresentações semelhantes


Apresentação em tema: "MVP Virtual Conference 2013"— Transcrição da apresentação:

1 MVP Virtual Conference 2013
Windows Server HPC e Big Data: aplicação real em finanças Pericles Rocha Architect, Microsoft Technology Center

2 Ex consultor na HP Services Na Microsoft há 6 anos
Pericles Rocha Arquiteto, Microsoft Technology Center MCSE, MCDBA, MCSD 16 anos na indústria Corintiano e Karateca Desenvolvedor Ex consultor na HP Services Na Microsoft há 6 anos

3 Agenda Big Data HPC + Windows Azure Cenários de uso Instalar Gerenciar
O que é Windows HPC Server? Arquitetura de um cluster HPC HPC + Windows Azure Cenários de uso Instalar Gerenciar Jobs Cenário Real e Demo Dúvidas

4 Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem
Indivíduos criam 70% de todos os dados – empresas armazenam 80% “Expertise em Big Data está escarço e é caro”, dizem 38% dos pesquisados Big Data

5 Big Data Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem¹ Indivíduos criam 70% de todos os dados – empresas armazenam 80%¹ “Expertise em Big Data está escarço e é caro”, dizem 38% dos pesquisados “Until recently, "data-intensive" applications have been viewed from a computational perspective as not being all that intense. Much of the computation in this applications area has played out on workstations or clusters, using spreadsheets or relational databases. From an HPC perspective, data was a backwater – important, to be sure, but uninteresting computationally.” “Now, things appear to be changing. Contemporary processor technologies, on the one hand, and the great expense of developing and fielding trans-petascale computers, on the other, seem to be blurring the boundaries between the "continuous" and "discrete" mathematics camps. Distinctions remain, but cooperation prevails.” The advent of digital information from traditional sources, combined with that flowing from the geosocial universe, leads to predictions of enormous future data volumes in our digital universe. A recent CSC study cites a 4,300 percent increase in annual data generation by 2020 – by which time the global data volume is predicted to reach 35 zettabytes (or 35 billion terabytes). The claim is also made that, by 2020, more than 70 percent of the digital universe will be generated by individuals. But enterprises will have responsibility for storing, protecting and managing 80 percent of it. ¹ Big Data Just Beginning to Explode – csc.com ² How to Bridge Big Data’s Information Gap – InformationWeek.com

6 Big Data... consequências
50% dos CIOs acreditam que seus custos vão aumentar 39% acreditam que terão redução de flexibilidade Fonte: IDC Whitepaper, “Big Data Analytics in Deuschland 2012”

7 O que é Big Data? Big Data Web 2.0 ERP/CRM
MGXFY13 3/30/2017 O que é Big Data? Big Data Log files Spatial & GPS coordinates Data market feeds eGov feeds Weather Text/image Click stream Wikis/blogs Sensors/RFID/ devices Social sentiment Audio/video Petabytes Web 2.0 Web Logs Digital Marketing Search Marketing Recommendations Advertising Mobile Collaboration eCommerce Terabytes ERP/CRM Payables Payroll Inventory Contacts Deal Tracking Sales Pipeline Gigabytes Megabytes ERP, SCM, CRM, and transactional Web applications are classic examples of systems processing Transactions. Highly structured data in these systems is typically stored in SQL databases. Web 2.0 are about how people and things interact with each other or with your business. Web Logs, User Click Streams, Social Interactions & Feeds, and User-Generated Content are classic places to find Interaction data. Ambient data tends is coming “Internet of Things”. Mary Meeker has predicted 10B connected devices by Sensors for heat, motion, pressure and RFID and GPS chips within such things as mobile devices, ATM machines, and even aircraft engines provide just some examples of “things” that output ambient signals… There are multiple types of data personal - > organizational - > public - > private So we should NOT minimize our thinking to just data that flows through an organization. Ex. The mortgage-related data you may have COULD benefit from being blended with external data found in Zillow, for example. Moreover, the government has the Open Data Initiative. Which means that more and more data is being made publicly available. Complexidade: Variedade e Velocidade © 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows, and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.

8 Oportunidade Esteja entre os primeiros na sua indústria
Lidere a discussão Entenda as opções Tire mais dos dados Economize tempo e dinheiro Transforme grandes volumes de informações em aprendizado

9 Cenários comuns de Big Data
Otimização da infraestrutura de TI Descobertas Análise de redes sociais Otimização do fluxo de transito Otimização de aplicações web Análises de Churn Exploração de recursos naturais Previsão do tempo Saúde pública Detecção de fraudes Pesquisas científicas Análise de resultado de anúncios Monitoração de equipamentos Medição inteligente

10 Big Data requer uma abordagem fim-a-fim
INSIGHT Auto serviço Colaboração Aplicativos Dispositivos DATA ENRICHMENT Descobrir Combinar Refinar DATA MANAGEMENT Relacional Não-relacional Analíticos Streaming

11 The Big (Data) Picture Data Insights Value Yahoo Klout
Alertas, Notificações 3. Streaming: Processamento de dados Real Time SQL Server StreamInsight Fontes Big Data (Raw, Nào Estruturados) Dados e Aplicações de Computação intensiva Business Insights 4. Business Analytics: Interações com os dados SQL Server FTDW Data Marts Sensores 2. Map/Reduce: Armazenamento e processamento de dados não estruturados Sumarização e Carga Fast Load Dispositivos SQL Server Reporting Services Relatórios Interativos Hadoop on Windows Azure Hadoop on Windows Server SQL Server Parallel Data Warehouse Equipamentos Dados Históricos 1. Data Warehousing: Armazenamento e análise de dados estruturados Integrar/Enriquecer SQL Server Analysis Server Coletores Scorecards de Desempenho Azure Market Place ETL: SSIS, DQS, MDS ERP CRM LOB APPS Sistemas Fontes Data Insights Value The Big (Data) Picture Yahoo Klout >> AMD (non public)

12 High Performance computing
Tecnologia comoditizada, desenvolvimento simplificado Reaproveitamento de aplicações existentes Atuação mais abrangente: Big Data, Cálculo de Risco, Processamento de grandes volumes de informação High Performance computing

13 High Performance Computing (HPC)
Histórico do uso científico de super computadores Década Uso e computador envolvido 1970 Previsão do tempo, pesquisa aerodinâmica (Cray-1) 1980 Análise de probabilidade, modelagem de blindagem de radiação (CDC Cyber) 1990 Quebra de código por força bruta (EFF DES cracker) 2000 Testes nucleares em 3D em substituição por conduta legal do Tratado de Proliferação Nuclear (ASCI Q) 2010 Simulação de Dinâmica Molecular (Tianhe-1A) Fonte: Supercomputer, Wikipedia

14 HPC e Big Data Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados Utilização (re) de código legado, ou de aplicações já existentes para cálculo Modelos de cálculo em Microsoft Office Excel

15 HPC hoje Tecnologia comoditizada, desenvolvimento simplificado Reaproveitamento de aplicações existentes Atuação mais abrangente: Big Data, Cálculo de Risco, Processamento de grandes volumes de informação

16 Windows Server HPC Plataforma da Microsoft para computação em alta performance Escala para milhares de núcleos Na versão 2012 (quarta versão do HPC para Windows), permite que um cluster utilize VMs no Windows Azure

17 HPC: Modelos de Desenvolvimento
Parallel Applications Embarrassingly Parallel Applications Hybrid Applications Data Intensive Applications

18 Parallel Applications
MPI (C++ e Fortran) Modelo de Programação Comunicação entre nodos do cluster Sensível a latência Difícil de escalar. Apropriado para cargas em batch Características Dinâmica de Fluídos Análise de elemento finito Clima Exemplos

19 Embarrassingly Parallel Applications
Parametric Sweep Orientado a Serviços/WCF Excel Services for HPC Server Modelo de Programação Tarefas independentes uma das outras Aplicações escalam com facilidade Jobs interativos ou em batch Características Análise de Monte Carlo Cálculo de Risco Financeiro Otimização de parâmetros MPI Exemplos

20 Hybrid Applications Modelo de Programação Características Exemplos
TechReady13 3/30/2017 Hybrid Applications OpenMP GP-GPU (CUDA – Compute Unified Device Architecture) Modelo de Programação Aplicações com kernel apropriado para multicore ou GPU Podem ser parallel ou embarrassingly parallel Características Processamento Sísmico Exemplos Hybrid = combining parallel processing on 1 node and parallel across multiple nodes (eg MPI) GP/GPU = General purpose computing on GPUs © 2011 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.

21 Data Intensive Applications
Linq to HPC (Dryad) Hadoop Map-Reduce Modelo de Programação Dados muito grandes para movimentar pelo cluster Consultas Ad hoc em dados não estruturados Características Análise de arquivos de Log Busca de Web Exemplos

22 HPC Services for Excel Utiliza uma infraestrutura SOA para executar Jobs do Excel no cluster Unidades independentes de cálculo (células, linhas ou colunas) que rodam de forma assíncrona e independente no cluster

23 Arquitetura de um cluster hpc
Gerenciamento e agendamento dos Jobs. Ponto de entrada da rede corporativa para o Cluster Monitora e gerencia sessões SOA. Recebe requisições Aceita e executa Jobs. Podem ser utilizados de forma oportunista quando tem outro papel (File/Print Server, etc) Arquitetura de um cluster hpc

24 Topologia básica de um Cluster HPC
Active Directory Clientes Compute Nodes Head, Compute & Broker Nodes Jobs Requests Tasks Jobs Jobs

25 Papéis dos membros de um cluster
Papel Funcionalidade Head node Gerenciamento e agendamento dos Jobs. Ponto de entrada da rede corporativa para o Cluster WCF Broker node Monitora e gerencia sessões SOA. Recebe requisições Compute node Aceita e executa os Jobs Workstation node Aceita e executa Jobs (Windows 7) Windows Azure Worker node Aceita e executa Jobs Windows Azure Virtual Machine node Unmanaged Server node Aceita e executa Jobs. Podem ser utilizados de forma oportunista quando tem outro papel (File/Print Server, etc)

26 Componentes do HPC Server
Job Scheduler API e Portal para submissão de jobs Fila e Priorização Monitoração Políticas de Compartilhamento de Recursos Distributed Runtimes Parametric Sweeps Cluster SOA Excel MPI LINQ to HPC System Administration Cluster deployment Diagnósticos Reporting On-Premises Windows Azure (breve) Windows Azure (hoje)

27 Windows server hpc + azure
Ambiente híbrido: nodes on-premises e no Azure O único papel mandatório on-premise é o Head node Suportado a partir do Windows Server 2008 R2 SP 2 Windows server hpc + azure

28 Windows Server HPC + Azure
Ambiente híbrido: nodes on-premises e no Azure O único papel mandatório on-premise é o Head node Suportado a partir do Windows Server 2008 R2 SP 2

29 Windows Server HPC + Azure

30 Criação de Conteúdo Digital Pesquisa e Desenvolvimento Setor Público Ciências e Energia Finanças
Cenários de uso

31 Cenários Criação de Conteúdo Digital Ciências e Energia Finanças
Setor Público Manufatura Pesquisa e Desenvolvimento

32 Instalação, gerenciamento e jobs
Instalar o Microsoft HPC Pack 2012 para criar o Head node, Fazer configuração inicial no Head node, Pre-configurar os Compute nodes, Fazer Join dos Compute nodes no cluster, HPC Cluster Manager, Node & Job Management, Diagnósticos, Relatórios e Gráficos Management Pack (apenas 2008 R2), Agendamento, Monitoração da execução dos Jobs Instalação, gerenciamento e jobs

33 Windows HPC Cluster: instalação
Depois de validados os pré-requisitos: Instalar o Microsoft HPC Pack 2012 para criar o Head node Fazer configuração inicial no Head node Pre-configurar os Compute nodes Fazer Join dos Compute nodes no cluster

34 Windows HPC Cluster: gerenciar
HPC Cluster Manager Node & Job Management Diagnósticos Relatórios e Gráficos Management Pack (apenas 2008 R2)

35 Windows HPC Cluster: jobs
Agendamento Cada Job pode ter várias tarefas Escolha de compute nodes para cada Job Monitoração da execução dos Jobs

36 Vida real: o cenário Cliente com necessidade de uma solução para auxílio de cálculo de VAR (value at risk). Um dos cálculos necessários é o RAROC O modelo RAROC (Risk Adjusted Return on Capital, ou Retorno Ajustado ao Risco no Capital) foi desenvolvido nos anos 70. Hoje em dia, praticamente todos os grandes bancos internacionais utilizam uma variação deste modelo. O RAROC é uma mensuração da rentabilidade baseada no risco, sendo base para análise do desempenho do ajuste de risco e provendo uma visão consistente da rentabilidade cruzada com os negócios.

37 Vida real: a solução Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa A solução deverá oferecer boa escalabilidade, custo competitivo e agilidade na adoção de novos projetos

38 Cenário da Demonstração
Utilização de uma aplicação de cálculo que recebe um arquivo de entrada, realiza cálculos de raiz quadrada e escreve o resultado em um arquivo de saída É criado um Parametric Sweep Job (cenário Embarrassingly Parallel) Serão passados 20 arquivos ao cluster. Cada Compute Node aloca quatro threads de cada vez, uma para cada núcleo, e cada thread processa um arquivo Nesta demonstração, o Head node também é um compute node Os dados processados são importados utilizando o SSIS e a análise pode ser feita no Excel por analistas de Business Intelligence

39 Demonstração: Parametric Sweep Job
C:\calcula.exe dados.txt dados.txt 1 2 3 ... dados.out 1: 1,00 2: 1,41 3: 1,73 ... : SQRT de 1: 20 vezes SQRT de 2: 20 vezes SQRT de 3: 20 vezes ... SQRT de : 20 vezes Total de 20 milhões de cálculos

40 Demonstração: Parametric Sweep Job
HPC Engine: Parametric Sweep Job Compute Node 1 CPU 1 CPU 2 CPU 3 CPU 4 O Head Node distribui a execução do job entre os núcleos dos Compute Nodes, de acordo com a disponibilidade dados_1 dados_2 1 2 3 ... 1 2 3 ... 1: 1,00 2: 1,41 3: 1,73 ... : 1: 1,00 2: 1,41 3: 1,73 ... : 1 2 3 ... 1: 1,00 2: 1,41 3: 1,73 ... : dados_3 dados_4 Compute Node 2 CPU 1 CPU 2 CPU 3 CPU 4 Compute Node 3 CPU 1 CPU 2 CPU 3 CPU 4 dados_1.txt dados_2.txt dados_3.txt ... dados_20.txt dados_1.out dados_2.out dados_3.out ... dados_20.out dados_5 dados_6 dados_9 dados_10 dados_7 dados_8 dados_11 dados_12

41 Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa A solução deverá oferecer boa escalabilidade, custo competitivo e agilidade na adoção de novos projetos Demonstração

42 Resumo Big Data: oportunidade de liderar a discussão
Várias tecnologias podem ser envolvidas no processo de tratamento dos dados HPC é uma solução barata, altamente escalável e de implementação rápida

43 Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados – Utilização (re) de código legado, ou de aplicações já existentes para cálculo – Modelos de cálculo em Microsoft Office Excel Dúvidas

44 Obrigado


Carregar ppt "MVP Virtual Conference 2013"

Apresentações semelhantes


Anúncios Google