Big compute, big net & big data: How to be big! CloudConf 2013

Slides:



Advertisements
Apresentações semelhantes
Data Center Definido por Software
Advertisements

Sistemas Distribuídos
Desempenho da Computação Paralela em Ambientes Virtualizados
INTRODUÇÃO À COMPUTAÇÃO Sistemas Operacionais
Sistemas distribuídos Metas de Projeto Prof. Diovani Milhorim
Sistemas Distribuídos
Sistemas distribuídos
Sistemas Distribuídos:Definições e Caracteristicas
Sistemas Operacionais - 3
Sistemas Operacionais - 4
Scheila,Marilse e Eliana.
A arte da computação de grande porte
Multithreading e multiprocessamento
Peer to Peer Referência:
Arquitetura de Sistemas Operacionais
Computação de Alto Desempenho
Sistemas Operacionais
SISTEMAS DISTRIBUÍDOS
Andrew's File System1 Equipe: Allyson André Gustavo Antônio Neto Marcone Andrews File System.
QoS para Realidade Virtual
APRESENTAÇÃO DE ESTÁGIO
Uso de Cluster de Computadores no Ambiente Corporativo
© 2011 IBM Corporation IBM Netezza O verdadeiro Appliance para Data Warehouse Presenters Name - Presenters Title DD Month Year.
Uma estratégia para implementar Computação Paralela
Sistemas Operacionais de Rede
Arquitetura de armazenamento de objetos em nuvem
Prefeitura de Santo André
BOA NOITE Alex Sandro Souza de Oliveira 23/09/2010.
BitTorrent e as Redes P2P
Introdução Desde sua criação, todo esforço desenvolvido, foi no sentido de obter uma estrutura de TI sustentável, econômica e adequada ambientalmente.
BAH! 2013 HPC & Big Data Luiz Monnerat 7 / Maio / 2013
Sistema Cliente-servidor ou Sistema Client-server
Redes de Computadores Prof. Rafael Silva.
Redes Par-a-Par Nelson de Melo Guimarães Jr. Ramon Duarte de Melo
Estratégias Cliente-Servidor para SIGWeb
TI para uma Instituição de Ensino Dinâmica
Linguagem de Programação IV
Sistemas Distribuídos
______________________
MapReduce Conceitos e Aplicações
Streaming de vídeo em Redes P2P
Soluções de TI seguras, integradas e continuadas H igh P erformance C omputing.
Sistemas Distribuídos
MVP Virtual Conference 2013
TRÊS BILHÕES DE GIGABYTES DE DADOS POR DIA. FAZENDO PARTE DO GIGANTESCO ARMAZENAMENTO DE DADOS, COM ENORME VELOCIDADE, O BIG DATA É BASEADO NO CONCEITO.
(Aula complemento) – Parte 1
Universidade de Mogi das Cruzes Tec
BOA NOITE Alex Sandro Souza de Oliveira 23/09/2010.
Augusto Martins e José Luís Zem Universidade Metodista de Piracicaba - UNIMEP Curso de Bacharelado em Sistemas de Informação Utilização de Cluster de Computadores.
Uma Análise das plataformas CUDA e OpenCL usando MetaHeurísticas aplicadas no Problema do Caixeiro Viajante Aluno: Hedley Luna Gois Oriá Disciplina: Introdução.
Mais nova versão do sistema operacional da Microsoft voltado para o segmento de servidores.
Sistemas Distribuídos
Nomeação.
Aplicações de redes em sistemas de informação
Tópicos Especiais em Redes de Computadores 6º Semestre Aula 03 Prof
Sistemas Distribuidos
Escola Tecnológica e Profissional do Sicó
Google Wave (Arquitetura) Ademir Junior / Felipe Ferreira / Fernando Kakimoto.
Um proposta de Arquitetura para protocolos entre grades.
Distributed Hash Tables Danielle Santos da Silva Marcelo Borghetti Soares Tiago Alves Macambira.
Sistemas de Arquivos Paralelos Alternativas para a redução do gargalo no acesso ao sistema de arquivos Roberto Pires de Carvalho carvalho arroba ime ponto.
Introdução aos Sistemas Operacionais
Arquitetura de computadores
Análise e Projeto de Sistemas Análise e Projeto de Sistemas Aula 2 Professor: Italo Rodrigues Castro.
Plano de SI Aula 5 – 1º Bimestre. As empresas buscam: Excelência operacional Novos produtos Melhor relacionamento com clientes e fornecedores Melhor tomada.
Sistemas Distribuídos
Modelos de Sistema Prof. Dr. Norian Marranghello Grupo 6 Fábio Hitoshi Ide Gilson Watanabe.
Engenharia de Sistemas (Lato Sensu) Victor Costa de Alemão Cisneiros Hudson Ramos Aracaju/SE COMPARAÇÃO ENTRE SERVIDORES WEB APACHE HTTP SERVER E NGINX.
Projeto do CBPF Grid SSOLAR Bruno Lima Felipe da Matta Roberto Kishi Thagor Baiocco Tiago Olimpio
Cluster Claudio Cavalcante. Cluster Nome dado a um sistema que relaciona dois ou mais computadores para que estes trabalhem de maneira conjunta no intuito.
Transcrição da apresentação:

Big compute, big net & big data: How to be big! CloudConf 2013 Outubro / 2013 Big compute, big net & big data: How to be big! Luiz Monnerat PETROBRAS

Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Tópicos!!! Big Compute (HPC) Big Net (Internet) Big Data Paralelismo Escalabilidade Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Distributed Hash Tables O que podemos aprender ? How to be big ????

Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Tópicos!!! Big Compute (HPC) Big Net (Internet) Big Data Paralelismo Escalabilidade Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Distributed Hash Tables O que podemos aprender ? How to be big ????

Processamento de Alto Desempenho Big Compute Processamento de Alto Desempenho Também conhecido como HPC, HPTC ou Supercomputação Uso de computadores poderosos para resolver os maiores e mais complexos problemas numéricos Meteorologia, Simulações Nucleares, Avaliação de riscos em mercados, Processamento Sísmico, etc. Exemplo: grifo04, maior supercomputador da América Latina 17 bastidores 544 servidores Rede de 20gbps por servidor Cerca de 500 mil cores matemáticos (incluindo GPUs) 40TB de RAM

grifo04 : 500 mil cores e 40TB RAM (2010)

bwr1: 1300 CPUs (2004)

Processamento Paralelo How to be Big Compute...... Processamento Paralelo Uso de mais de uma unidade computacional (p.e., CPU) para resolução de um (ou vários) problema(s) simultaneamente Escalabilidade Propriedade de um sistema prover mais desempenho à medida em que lhe é adicionada mais capacidade (p.e., com a adição de mais CPUs ou servidores) Balanceamento de carga, Processamento Heterogêneo, comunicação entre processos, sincronização, etc.

Processamento Paralelo How to be Big Compute...... Processamento Paralelo Uso de mais de uma unidade computacional (p.e., CPU) para resolução de um (ou vários) problema(s) simultaneamente Escalabilidade Propriedade de um sistema prover mais desempenho à medida em que lhe é adicionada mais capacidade (p.e., com a adição de mais CPUs ou servidores) Balanceamento de carga, Processamento Heterogêneo, comunicação entre processos, sincronização, etc.

Processamento Paralelo Servidor de Processamento Servidor de Processamento Servidor de Processamento Servidor de Processamento Servidor de Processamento Servidor de Processamento Servidor de Processamento Para o paralelismo trazer benefícios o sistema tem que ser escalável

Processamento Paralelo How to be Big Compute...... Processamento Paralelo Uso de mais de uma unidade computacional (p.e., CPU) para resolução de um (ou vários) problema(s) simultaneamente Escalabilidade Propriedade de um sistema prover mais desempenho à medida em que lhe é adicionada mais capacidade (p.e., com a adição de mais CPUs ou servidores) Balanceamento de carga, Processamento Heterogêneo, comunicação entre processos, sincronização, etc.

Processamento Paralelo How to be Big Compute...... Processamento Paralelo Uso de mais de uma unidade computacional (p.e., CPU) para resolução de um (ou vários) problema(s) simultaneamente Escalabilidade Propriedade de um sistema prover mais desempenho à medida em que lhe é adicionada mais capacidade (p.e., com a adição de mais CPUs ou servidores) Balanceamento de carga, Processamento Heterogêneo, comunicação entre processos, sincronização, etc.

Curva de Escalabilidade Escalabilidade é a propriedade de um sistema prover mais desempenho à medida em que lhe é adicionada mais capacidade.

Curva de Escalabilidade Escalabilidade é a propriedade de um sistema prover mais desempenho à medida em que lhe é adicionada mais capacidade.

Curva de Escalabilidade Escalabilidade é a propriedade de um sistema prover mais desempenho à medida em que lhe é adicionada mais capacidade.

Curva de Escalabilidade Escalabilidade é a propriedade de um sistema prover mais desempenho à medida em que lhe é adicionada mais capacidade.

Limitações de Escalabilidade Há diversos fatores que podem limitar a escalabilidade de um sistema Balanceamento de carga Comunicação entre processos Sincronização ... Arquitetura Cliente/Servidor

Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Tópicos!!! Big Compute (HPC) Big Net (Internet) Big Data Paralelismo Escalabilidade Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Distributed Hash Tables

Sistemas com milhões de usuários simultâneos Demandas imprevisíveis Big Net Internet Rede mundial de “computadores”..... e “coisas” !!!!! Sistemas com milhões de usuários simultâneos Demandas imprevisíveis Sistemas Cliente/Servidor não atendem bem.... Escalabilidade é crítica Alto custo Difíceis de dimensionar

Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Tópicos!!! Big Compute (HPC) Big Net (Internet) Big Data Paralelismo Escalabilidade Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Distributed Hash Tables

Intrinsicamente escalável !!!!!! How to be Big Net..... P2P !!!! peer-to-peer ou par-a-par Arquitetura de sistemas distribuídos onde todos os participantes são iguais em suas funções (pares) Cada par realiza funções de servidor e de cliente de um mesmo serviço Não há distinção entre servidores e clientes Intrinsicamente escalável !!!!!! Ajusta-se automaticamente a variações de demanda!!

Escalabilidade P2P Malha Telefônica

Sistemas puramente P2P atuais usam DHTs como diretórios Vários sistemas P2P usam soluções Cliente/Servidor (p.e., diretórios) para metadados Exemplo: Napster Acesso a metadados pode ser um gargalo em sistemas enormes Sistemas puramente P2P atuais usam DHTs como diretórios Exemplos Skype, KAD/eMule, BitTorrent São mais escaláveis

Filesystem Tradicional Cluster de Processamento FS Server Servidor de Processamento FS client Servidor de Processamento FS client Servidor de Processamento FS client

Filesystem Tradicional Cluster de Processamento FS Server Servidor de Processamento FS client Servidor de Processamento FS client Servidor de Processamento FS client

Filesystem Tradicional Cluster de Processamento FS Server Servidor de Processamento FS client Servidor de Processamento FS client Servidor de Processamento FS client

Filesystem Paralelo FS Server FS Server Cluster de Processamento Servidor de Processamento FS client FS Server Servidor de Processamento FS client Servidor de Processamento FS client

Filesystem Paralelo FS Server FS Server FS Server FS Server FS Server Cluster de Processamento FS Server Servidor de Processamento FS client FS Server FS Server FS Server FS Server Servidor de Processamento FS client Servidor de Processamento FS client

Filesystem Paralelo versus P2P Cluster de Processamento FS Server Servidor de Processamento Filesystems P2P são soluções basicamente de software que podem aliar: Baixo custo Escalabilidade Alto desempenho Exemplos Google filesystem Hadoop FS FS client FS Server Servidor de Processamento FS client FS Server Servidor de Processamento FS client FS Server

Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Tópicos!!! Big Compute (HPC) Big Net (Internet) Big Data Paralelismo Escalabilidade Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Distributed Hash Tables

Big Data Várias definições.......... Grandes massas de dados não estruturados Uso de Data Mining / busca de correlações Uso de Analytics 5V’s : Velocidade, Volume, Variedade, Veracidade e Valor As demandas impostas pelas necessidades de volume e velocidade de acesso dos dados desafiam os filesystems tradicionais Cliente/Servidor (sejam paralelos ou não!)

P2P dentro do CPD! Filesystem P2P Hadoop FS (HDFS) How to be Big Data...... P2P dentro do CPD! Filesystem P2P Hadoop FS (HDFS) Não é puramente P2P....... Pode ter gargalos no acesso aos metadados Criadores do GoogleFS relataram que eles usam centenas de servidores de metadados dedicados

Hadoop File System (HDFS) Parte do projeto Apache Hadoop Baseado no GFS (Google FS) É P2P!!!!!!!! P2P híbrido, com os metadados em servidor dedicado Escalável Integração com MapReduce Pode ser usado em separado do Hadoop Não é compatível com padrão POSIX Aplicações prévias precisam ser reescritas Aplicações novas podem ser desenvolvidas de modo “HDFS friendly”

Típico Filesystem P2P Metadata Server Cluster de Processamento Metadata Server Servidor de Processamento FS client FS Server Servidor de Processamento FS client FS Server Filesystems P2P em geral usam uma solução cliente/servidor para diretórios/metadados Acesso a metadados só se torna um gargalo em sistemas P2P MUITO grandes Mas soluções P2P para diretórios (DHTs) costumam ter latências muito altas Servidor de Processamento FS client FS Server

Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Tópicos!!! Big Compute (HPC) Big Net (Internet) Big Data Paralelismo Escalabilidade Arquiteturas P2P na Internet Arquiteturas P2P nos CPDs Distributed Hash Tables

Distributed Hash Table (DHT) Estrutura de dados distribuída, P2P, escalável e auto-reorganizável Os dados são tipicamente metadados (entradas de diretórios) As recuperações dos dados são feitas através de consultas Os dados são distribuídos segundo uma função criptográfica (hash)

Resolução de Consultas em DHTs As consultas são resolvidas recursivamente Cada consulta pode gerar várias “sub-consultas” (ou hops) Multi-hop DHTs, introduzidas no início dos anos 2000 Como quando fazemos para descobrir o telefone de alguém, ligando para seus amigos, parentes, etc. Cada consulta em uma Multi-hop DHT pode gerar dezenas de saltos Latência alta, porém adequada para muitas aplicações de Internet Mais recentemente surgiram as single-hop DHTs “Diretórios” P2P Escalabilidade aliada a baixa latência

Principais Single-hop DHTs OneHop (MIT, Gupta et al, 2004) Altíssimo consumo de banda passante Desbalanceamento de carga 1h-Calot (IBM+Rochester, Tang et al, 2005) Bom balanceamento de carga D1HT (Petrobras+UFRJ, Monnerat e Amorim, 2005) Consumo de banda passante 10x menor do que OneHop e 1h-Calot Puramente P2P Auto-reorganizável

Baixos custos de manutenção: D1HT: A Distributed One Hop Hash Table Baixa Latência: Requisito de HPC, Big Data, etc. Baixos custos de manutenção: Requisito de aplicações P2P na Internet

D1HT: Uma DHT de propósito geral! D1HT: A Distributed One Hop Hash Table Baixa Latência: Requisito de HPC, Big Data, etc. Baixos custos de manutenção: Requisito de aplicações P2P na Internet D1HT: Uma DHT de propósito geral!

D1HT: Uma DHT de propósito geral! D1HT: A Distributed One Hop Hash Table Baixa Latência: Requisito de HPC, Big Data, etc. Baixos custos de manutenção: Requisito de aplicações P2P na Internet D1HT: Uma DHT de propósito geral! Melhor Tese de Doutorado brasileira em HPC (2010)

Conclusões Aprendizado e técnicas desenvolvidas para HPC, Internet e Big Data são importantes para implantação de grandes sistemas Sistemas cliente/servidor paralelos podem ser escaláveis e resolver a maioria das demandas Sistemas P2P são ainda mais escaláveis e recomendados para ambientes muito grandes Na medida em que os sistemas têm crescido cada vez mais, DHTs se tornarão mais comuns e até necessárias em alguns casos

MUITO Obrigado!!! http://www.cos.ufrj.br/~monnerat http://br.linkedin.com/in/luizmonnerat

Perguntas. http://www. cos. ufrj. br/~monnerat http://br. linkedin

Introdução: Processamento Sísmico Processamento de Alto Desempenho Agenda Introdução: Processamento Sísmico Processamento de Alto Desempenho Escalabilidade Grandes Massas de Dados não Estruturados na Petrobras Filesystems Paralelos Arquiteturas P2P Filesystems P2P Tabelas Hash Distribuídas (DHTs) Hadoop Conclusão

Arquitetura do HDFS

Arquitetura P2P híbrida do HDFS FS client datanode Servidor de Processamento namenode Namenode (servidor de metadadados) roda em um servidor dedicado Datanodes (servidores de dados) rodam nos nós do cluster. Cada nó atua então como: Servidor de processamento Cliente de FS Servidor de FS

Pode ser SUPER útil para HPC !!!!! Hadoop HDFS + MapReduce & more! É P2P!!!!!!!! “Moving Computation is Cheaper than Moving Data” Se encaixa bem com estratégias de Analytics Pode facilitar – em MUITO – o desenvolvimento de aplicações paralelas Solução commodity e escalável! Pode ser SUPER útil para HPC !!!!!

Processamento sísmico usa grandes massas de dados e HPC Conclusões Processamento sísmico usa grandes massas de dados e HPC Muito da experiência HPC pode ser usado em BigData Clusters Linux Soluções commodities Quanto mais commodity melhor! Paralelismo Escalabilidade Arquiteturas P2P são intrinsicamente escaláveis DHT: solução P2P para diretórios e metadados Hadoop: P2P, escalável e commodity HPC pode usufruir de soluções desenvolvidas para BigData