MVP Virtual Conference 2013

Slides:



Advertisements
Apresentações semelhantes
Ferramentas OLAP: MicroStrategy OLAP Services
Advertisements

Desempenho da Computação Paralela em Ambientes Virtualizados
DESENVOLVIMENTO DE SISTEMAS PARA INTERNET
Visão Geral Técnica do Microsoft Operations Manager 2005
Modelo de Maturidade de Empresas de Médio Porte para BPIO
Habilitando Processos “People-Ready” através do Business Process Management (BPM) Este modelo é um esboço de uma apresentação comum a respeito de uma parte.
Noções de Sistemas Operacionais
Arquitetura de Sistemas Operacionais
Tendência de Mercado.
© 2011 IBM Corporation IBM Netezza O verdadeiro Appliance para Data Warehouse Presenters Name - Presenters Title DD Month Year.
09/03/10 20:13 Claudio de Oliveira – 1/21.
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
1 Felipe L. SeverinoPOD XtremWeb Felipe L. Severino Programação com Objetos Distribuídos paralela e.
DevOps Integrando Desenvolvimento com Operações Team Foundation Server 2012 e System Center Operations Manager 2012 Adriano Bertucci Konia Tecnologia.
Gestão Tecnológica da Informação
“ Para que pessoas e instrumentos sigam rigorosamente o tempo rítmico, a dinâmica e o andamento indicado na partitura, é necessário um chefe que mantenha.
DOCUMENTO CONFIDENCIAL DA MICROSOFT Set 2009 | Página 1 | Apresentação para BDMs.
Curso Superior de Tecnologia: Sistemas para Internet
Sistemas Operacionais
Telecom Sistema de Inteligência MultiMercado 2014.
Agenda - Março de 2012 AssuntoDia (11: :00) Status Introdução ao Windows Partner Mentoring - edição técnica 05/03 (segunda) Concluído 1. Diferentes.
Introdução ao Windows Azure
TI para uma Instituição de Ensino Dinâmica
Jason Leznek Gerente de Grupo de Produto Cliente Windows
Implantação e Gerenciamento do Windows Server com o System Center
Garanta Mais Valor, da Estação de Trabalho até o Datacenter
Arquitetura e Configuração do Windows Server AppFabric
Tópicos em redes e sistemas distribuídos Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.
Laurier Soares Consultor de Negócios Redução de custos e aumento de segurança para gestão de ambientes de TI.
Consumerização no Windows Server 2012
Business Intelligence:
Gerencia de Redes Redes de Computadores II
MapReduce Conceitos e Aplicações
Soluções de TI seguras, integradas e continuadas H igh P erformance C omputing.
Otimizando sua TI, maximizando seus negócios
MVP Virtual Conference 2013
TRÊS BILHÕES DE GIGABYTES DE DADOS POR DIA. FAZENDO PARTE DO GIGANTESCO ARMAZENAMENTO DE DADOS, COM ENORME VELOCIDADE, O BIG DATA É BASEADO NO CONCEITO.
Inteligência de Negócios
Plataforma Microsoft de BI
Gerenciamento de conteúdo e automação de processos de trabalho com o novo 2007 Microsoft Office system.
Universidade de Mogi das Cruzes Tec
Disciplina :Administração de Serviços de Diretórios
Microsoft Azure Apresentação de visão geral para parceiros
Uma Análise das plataformas CUDA e OpenCL usando MetaHeurísticas aplicadas no Problema do Caixeiro Viajante Aluno: Hedley Luna Gois Oriá Disciplina: Introdução.
Sistemas Operacionais
Mais nova versão do sistema operacional da Microsoft voltado para o segmento de servidores.
Introdução à Computação em Grade Porto Alegre, Maio/2006 Centro Nacional de Supercomputação CESUP/RS Realização: Projeto GradeUFRGS Material pertencente.
Private Cloud na Prática VIR302
Gerenciamento de Ambientes. Sumário 2 1.Justificativa 2.Gerenciamento de Ambientes ALOG 3.Caso de sucesso 4.Almoço.
O primeiro passo para a nuvem
Governança e Automação com o System Center
Agenda Sessão Matutina HoraMódulo 8:30O que é a Plataforma de Aplicação Microsoft? 9:00Business Intelligence 10:00Next Web 11:00Enterprise Applications.
@daibert Solutions Architect Hewlett-Packard Brasil
Gestão da Tecnologia da Informação
Sistemas Distribuidos
Workshop.  Introdução  Histórico  Principais Características  Componentes  Topologia  Instalação  Passo a passo de Instalação  Console de Operações.
Perspectivas NVidia para Desktop Tiago Carneiro Pessoa
Automação Comercial Faculdade Estácio Radial Prof. Paulo Alipio Alves de Oliveira 2010.
Monarc Framework para Simulações Disciplina: Programação Distribuída e Paralela Alunos: Anderson Bestteti e Rafael Zancan Frantz Professor: Cláudio Fernando.
Distributed Data-Parallel Computing Using a High-Level Programming Language TL1 Programação com Objetos Distribuídos Claiton Luiz Vieira Lisboa.
3 Mainframe 4 Cliente / Servidor Transformações na Indústria 5 Web Cliente / Servidor.
Introdução aos Sistemas Operacionais
Daniel Paulo Banco de dados: é uma coleção/conjunto de registros relacionados.  Exemplo: O banco de dados de uma Universidade.
Memória de Aula 1 Prof Alfredo Senger
Pedro Antonio Galvão Junior MVP – Windows Server System – SQL Server. Senior Database Administrator. Software Engineer. University Teacher. Flextronics.
Cloud computing e o novo modelo de software
Infoworker – Soluções desenhadas para Nuvem
Workshop de abertura Equipe: Professores Flavia Delicato Paulo F. Pires (coordenador) Thais Batista (coordenadora-adjunta) Pesquisadores Bruno Costa Everton.
Emerson Felipe GOVERNO DO ESTADO DE PERNAMBUCO ESCOLA TÉCNICA ESTADUAL MARIA EDUARDA RAMOS DE BARROS.
SQL Saturday #512 Oportunidades com a Plataforma de Dados da Microsoft Rodrigo Crespi
Transcrição da apresentação:

MVP Virtual Conference 2013 Windows Server HPC e Big Data: aplicação real em finanças Pericles Rocha Architect, Microsoft Technology Center procha@microsoft.com

Ex consultor na HP Services Na Microsoft há 6 anos Pericles Rocha Arquiteto, Microsoft Technology Center MCSE, MCDBA, MCSD 16 anos na indústria Corintiano e Karateca Desenvolvedor Ex consultor na HP Services Na Microsoft há 6 anos

Agenda Big Data HPC + Windows Azure Cenários de uso Instalar Gerenciar O que é Windows HPC Server? Arquitetura de um cluster HPC HPC + Windows Azure Cenários de uso Instalar Gerenciar Jobs Cenário Real e Demo Dúvidas http://www.microsoft.com/hpc/en/us/product/cluster-computing.aspx

Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem Indivíduos criam 70% de todos os dados – empresas armazenam 80% “Expertise em Big Data está escarço e é caro”, dizem 38% dos pesquisados Big Data

Big Data Até 2020, mais de 1/3 de todos os dados do mundo vão passar pela núvem¹ Indivíduos criam 70% de todos os dados – empresas armazenam 80%¹ “Expertise em Big Data está escarço e é caro”, dizem 38% dos pesquisados http://www.hpcwire.com/hpcwire/2012-10-25/big_data_is_hpc_%E2%80%93_let_s_embrace_it.html “Until recently, "data-intensive" applications have been viewed from a computational perspective as not being all that intense. Much of the computation in this applications area has played out on workstations or clusters, using spreadsheets or relational databases. From an HPC perspective, data was a backwater – important, to be sure, but uninteresting computationally.” “Now, things appear to be changing. Contemporary processor technologies, on the one hand, and the great expense of developing and fielding trans-petascale computers, on the other, seem to be blurring the boundaries between the "continuous" and "discrete" mathematics camps. Distinctions remain, but cooperation prevails.” The advent of digital information from traditional sources, combined with that flowing from the geosocial universe, leads to predictions of enormous future data volumes in our digital universe. A recent CSC study cites a 4,300 percent increase in annual data generation by 2020 – by which time the global data volume is predicted to reach 35 zettabytes (or 35 billion terabytes). The claim is also made that, by 2020, more than 70 percent of the digital universe will be generated by individuals. But enterprises will have responsibility for storing, protecting and managing 80 percent of it. ¹ Big Data Just Beginning to Explode – csc.com ² How to Bridge Big Data’s Information Gap – InformationWeek.com

Big Data... consequências 50% dos CIOs acreditam que seus custos vão aumentar 39% acreditam que terão redução de flexibilidade Fonte: IDC Whitepaper, “Big Data Analytics in Deuschland 2012”

O que é Big Data? Big Data Web 2.0 ERP/CRM MGXFY13 3/30/2017 O que é Big Data? Big Data Log files Spatial & GPS coordinates Data market feeds eGov feeds Weather Text/image Click stream Wikis/blogs Sensors/RFID/ devices Social sentiment Audio/video Petabytes Web 2.0 Web Logs Digital Marketing Search Marketing Recommendations Advertising Mobile Collaboration eCommerce Terabytes ERP/CRM Payables Payroll Inventory Contacts Deal Tracking Sales Pipeline Gigabytes Megabytes ERP, SCM, CRM, and transactional Web applications are classic examples of systems processing Transactions. Highly structured data in these systems is typically stored in SQL databases. Web 2.0 are about how people and things interact with each other or with your business. Web Logs, User Click Streams, Social Interactions & Feeds, and User-Generated Content are classic places to find Interaction data. Ambient data tends is coming “Internet of Things”. Mary Meeker has predicted 10B connected devices by 2015. Sensors for heat, motion, pressure and RFID and GPS chips within such things as mobile devices, ATM machines, and even aircraft engines provide just some examples of “things” that output ambient signals… There are multiple types of data personal - > organizational - > public - > private   So we should NOT minimize our thinking to just data that flows through an organization. Ex. The mortgage-related data you may have COULD benefit from being blended with external data found in Zillow, for example. Moreover, the government has the Open Data Initiative. Which means that more and more data is being made publicly available. Complexidade: Variedade e Velocidade © 2012 Microsoft Corporation. All rights reserved. Microsoft, Windows, and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.

Oportunidade Esteja entre os primeiros na sua indústria Lidere a discussão Entenda as opções Tire mais dos dados Economize tempo e dinheiro Transforme grandes volumes de informações em aprendizado

Cenários comuns de Big Data Otimização da infraestrutura de TI Descobertas Análise de redes sociais Otimização do fluxo de transito Otimização de aplicações web Análises de Churn Exploração de recursos naturais Previsão do tempo Saúde pública Detecção de fraudes Pesquisas científicas Análise de resultado de anúncios Monitoração de equipamentos Medição inteligente

Big Data requer uma abordagem fim-a-fim INSIGHT Auto serviço Colaboração Aplicativos Dispositivos DATA ENRICHMENT Descobrir Combinar Refinar DATA MANAGEMENT Relacional Não-relacional Analíticos Streaming

The Big (Data) Picture Data Insights Value Yahoo Klout Alertas, Notificações 3. Streaming: Processamento de dados Real Time SQL Server StreamInsight Fontes Big Data (Raw, Nào Estruturados) Dados e Aplicações de Computação intensiva Business Insights 4. Business Analytics: Interações com os dados SQL Server FTDW Data Marts Sensores 2. Map/Reduce: Armazenamento e processamento de dados não estruturados Sumarização e Carga Fast Load Dispositivos SQL Server Reporting Services Relatórios Interativos Hadoop on Windows Azure Hadoop on Windows Server SQL Server Parallel Data Warehouse Equipamentos Dados Históricos 1. Data Warehousing: Armazenamento e análise de dados estruturados Integrar/Enriquecer SQL Server Analysis Server Coletores Scorecards de Desempenho Azure Market Place ETL: SSIS, DQS, MDS ERP CRM LOB APPS Sistemas Fontes Data Insights Value The Big (Data) Picture Yahoo Klout >> AMD (non public)

High Performance computing Tecnologia comoditizada, desenvolvimento simplificado Reaproveitamento de aplicações existentes Atuação mais abrangente: Big Data, Cálculo de Risco, Processamento de grandes volumes de informação High Performance computing

High Performance Computing (HPC) Histórico do uso científico de super computadores Década Uso e computador envolvido 1970 Previsão do tempo, pesquisa aerodinâmica (Cray-1) 1980 Análise de probabilidade, modelagem de blindagem de radiação (CDC Cyber) 1990 Quebra de código por força bruta (EFF DES cracker) 2000 Testes nucleares em 3D em substituição por conduta legal do Tratado de Proliferação Nuclear (ASCI Q) 2010 Simulação de Dinâmica Molecular (Tianhe-1A) Fonte: Supercomputer, Wikipedia

HPC e Big Data Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados Utilização (re) de código legado, ou de aplicações já existentes para cálculo Modelos de cálculo em Microsoft Office Excel

HPC hoje Tecnologia comoditizada, desenvolvimento simplificado Reaproveitamento de aplicações existentes Atuação mais abrangente: Big Data, Cálculo de Risco, Processamento de grandes volumes de informação

Windows Server HPC Plataforma da Microsoft para computação em alta performance Escala para milhares de núcleos Na versão 2012 (quarta versão do HPC para Windows), permite que um cluster utilize VMs no Windows Azure

HPC: Modelos de Desenvolvimento Parallel Applications Embarrassingly Parallel Applications Hybrid Applications Data Intensive Applications

Parallel Applications MPI (C++ e Fortran) Modelo de Programação Comunicação entre nodos do cluster Sensível a latência Difícil de escalar. Apropriado para cargas em batch Características Dinâmica de Fluídos Análise de elemento finito Clima Exemplos

Embarrassingly Parallel Applications Parametric Sweep Orientado a Serviços/WCF Excel Services for HPC Server Modelo de Programação Tarefas independentes uma das outras Aplicações escalam com facilidade Jobs interativos ou em batch Características Análise de Monte Carlo Cálculo de Risco Financeiro Otimização de parâmetros MPI Exemplos

Hybrid Applications Modelo de Programação Características Exemplos TechReady13 3/30/2017 Hybrid Applications OpenMP GP-GPU (CUDA – Compute Unified Device Architecture) Modelo de Programação Aplicações com kernel apropriado para multicore ou GPU Podem ser parallel ou embarrassingly parallel Características Processamento Sísmico Exemplos Hybrid = combining parallel processing on 1 node and parallel across multiple nodes (eg MPI) GP/GPU = General purpose computing on GPUs © 2011 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.

Data Intensive Applications Linq to HPC (Dryad) Hadoop Map-Reduce Modelo de Programação Dados muito grandes para movimentar pelo cluster Consultas Ad hoc em dados não estruturados Características Análise de arquivos de Log Busca de Web Exemplos

HPC Services for Excel Utiliza uma infraestrutura SOA para executar Jobs do Excel no cluster Unidades independentes de cálculo (células, linhas ou colunas) que rodam de forma assíncrona e independente no cluster

Arquitetura de um cluster hpc Gerenciamento e agendamento dos Jobs. Ponto de entrada da rede corporativa para o Cluster Monitora e gerencia sessões SOA. Recebe requisições Aceita e executa Jobs. Podem ser utilizados de forma oportunista quando tem outro papel (File/Print Server, etc) Arquitetura de um cluster hpc

Topologia básica de um Cluster HPC Active Directory Clientes Compute Nodes Head, Compute & Broker Nodes Jobs Requests Tasks Jobs Jobs

Papéis dos membros de um cluster Papel Funcionalidade Head node Gerenciamento e agendamento dos Jobs. Ponto de entrada da rede corporativa para o Cluster WCF Broker node Monitora e gerencia sessões SOA. Recebe requisições Compute node Aceita e executa os Jobs Workstation node Aceita e executa Jobs (Windows 7) Windows Azure Worker node Aceita e executa Jobs Windows Azure Virtual Machine node Unmanaged Server node Aceita e executa Jobs. Podem ser utilizados de forma oportunista quando tem outro papel (File/Print Server, etc)

Componentes do HPC Server Job Scheduler API e Portal para submissão de jobs Fila e Priorização Monitoração Políticas de Compartilhamento de Recursos Distributed Runtimes Parametric Sweeps Cluster SOA Excel MPI LINQ to HPC System Administration Cluster deployment Diagnósticos Reporting On-Premises Windows Azure (breve) Windows Azure (hoje)

Windows server hpc + azure Ambiente híbrido: nodes on-premises e no Azure O único papel mandatório on-premise é o Head node Suportado a partir do Windows Server 2008 R2 SP 2 Windows server hpc + azure

Windows Server HPC + Azure Ambiente híbrido: nodes on-premises e no Azure O único papel mandatório on-premise é o Head node Suportado a partir do Windows Server 2008 R2 SP 2

Windows Server HPC + Azure

Criação de Conteúdo Digital Pesquisa e Desenvolvimento Setor Público Ciências e Energia Finanças Cenários de uso

Cenários Criação de Conteúdo Digital Ciências e Energia Finanças Setor Público Manufatura Pesquisa e Desenvolvimento

Instalação, gerenciamento e jobs Instalar o Microsoft HPC Pack 2012 para criar o Head node, Fazer configuração inicial no Head node, Pre-configurar os Compute nodes, Fazer Join dos Compute nodes no cluster, HPC Cluster Manager, Node & Job Management, Diagnósticos, Relatórios e Gráficos Management Pack (apenas 2008 R2), Agendamento, Monitoração da execução dos Jobs Instalação, gerenciamento e jobs

Windows HPC Cluster: instalação Depois de validados os pré-requisitos: Instalar o Microsoft HPC Pack 2012 para criar o Head node Fazer configuração inicial no Head node Pre-configurar os Compute nodes Fazer Join dos Compute nodes no cluster

Windows HPC Cluster: gerenciar HPC Cluster Manager Node & Job Management Diagnósticos Relatórios e Gráficos Management Pack (apenas 2008 R2)

Windows HPC Cluster: jobs Agendamento Cada Job pode ter várias tarefas Escolha de compute nodes para cada Job Monitoração da execução dos Jobs

Vida real: o cenário Cliente com necessidade de uma solução para auxílio de cálculo de VAR (value at risk). Um dos cálculos necessários é o RAROC O modelo RAROC (Risk Adjusted Return on Capital, ou Retorno Ajustado ao Risco no Capital) foi desenvolvido nos anos 70. Hoje em dia, praticamente todos os grandes bancos internacionais utilizam uma variação deste modelo. O RAROC é uma mensuração da rentabilidade baseada no risco, sendo base para análise do desempenho do ajuste de risco e provendo uma visão consistente da rentabilidade cruzada com os negócios.

Vida real: a solução Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa A solução deverá oferecer boa escalabilidade, custo competitivo e agilidade na adoção de novos projetos

Cenário da Demonstração Utilização de uma aplicação de cálculo que recebe um arquivo de entrada, realiza cálculos de raiz quadrada e escreve o resultado em um arquivo de saída É criado um Parametric Sweep Job (cenário Embarrassingly Parallel) Serão passados 20 arquivos ao cluster. Cada Compute Node aloca quatro threads de cada vez, uma para cada núcleo, e cada thread processa um arquivo Nesta demonstração, o Head node também é um compute node Os dados processados são importados utilizando o SSIS e a análise pode ser feita no Excel por analistas de Business Intelligence

Demonstração: Parametric Sweep Job C:\calcula.exe dados.txt dados.txt 1 2 3 ... 1000000 dados.out 1: 1,00 2: 1,41 3: 1,73 ... 1000000: SQRT de 1: 20 vezes SQRT de 2: 20 vezes SQRT de 3: 20 vezes ... SQRT de 1000000: 20 vezes Total de 20 milhões de cálculos

Demonstração: Parametric Sweep Job HPC Engine: Parametric Sweep Job Compute Node 1 CPU 1 CPU 2 CPU 3 CPU 4 O Head Node distribui a execução do job entre os núcleos dos Compute Nodes, de acordo com a disponibilidade dados_1 dados_2 1 2 3 ... 1000000 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: 1: 1,00 2: 1,41 3: 1,73 ... 1000000: 1 2 3 ... 1000000 1: 1,00 2: 1,41 3: 1,73 ... 1000000: dados_3 dados_4 Compute Node 2 CPU 1 CPU 2 CPU 3 CPU 4 Compute Node 3 CPU 1 CPU 2 CPU 3 CPU 4 dados_1.txt dados_2.txt dados_3.txt ... dados_20.txt dados_1.out dados_2.out dados_3.out ... dados_20.out dados_5 dados_6 dados_9 dados_10 dados_7 dados_8 dados_11 dados_12

Utilização de uma Plataforma de Cálculo em Alta Performance que deve utilizar código legado já em uso na empresa A solução deverá oferecer boa escalabilidade, custo competitivo e agilidade na adoção de novos projetos Demonstração

Resumo Big Data: oportunidade de liderar a discussão Várias tecnologias podem ser envolvidas no processo de tratamento dos dados HPC é uma solução barata, altamente escalável e de implementação rápida

Parte de sua rotina de ETL: processamento com cálculos complexos, em grande volume de dados – Utilização (re) de código legado, ou de aplicações já existentes para cálculo – Modelos de cálculo em Microsoft Office Excel Dúvidas

Obrigado