A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

A Revolução do Big Data Foco em infraestrutura de dados

Apresentações semelhantes


Apresentação em tema: "A Revolução do Big Data Foco em infraestrutura de dados"— Transcrição da apresentação:

1 A Revolução do Big Data Foco em infraestrutura de dados
SUCESU–BA 2014 Ilan Grinspun Storage Specialist

2 O Que é Big Data?

3 Definição de BIG DATA Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too! Big Data é como sexo na adolescência: Todos falam sobre ele, ninguem realmente sabe como fazer, todos acham que os outros estão fazendo, então todos dizem que estão fazendo tambem!

4 Definições de BIG DATA Big data é a habilidade de extrair informação de diferentes conjuntos de dados estruturados e/ou não estruturados através de uma nova geração de softwares, aplicações, sistemas e arquiteturas computacionais e de Storage. Data Analytics é a procura por padrões em quantidades massivas de dados gerados por diferentes fontes.

5 Big Data em todo lugar! Informação Não Estruturada Os dados estão sendo gerados, coletados, armazenados e analizados Internet das coisas e-comerce Transações bancarias Redes Sociais RFID WIFI Tracking GPS+3G/4G Internet da coisas Informação de posição, RFID, WIFI, 4G.

6 Quais os numeros do Big Data?
Google executa 2 milhões de procuras por minuto e processa 40 PB por dia O universo digital cresce a uma taxa de PB / dia Apenas 1% dos dados globais são analisados Dados gerados por maquinas produzirão 40% de todos os dados até 2020 O equivalente ao conteudo inteiro da biblioteca do congresso americano passa pela internet a cada 10 segundos 640K são suficientes para todo mundo

7 Dados Transacionais (Estruturados)
A Dimensão do Big Data. Internet das coisas Interações Arquivos Humanos PC Internet Mobile Mainframe Machine Petabyte Terabyte Exabyte Zettabyte Volume De Dados Dados Transacionais (Estruturados) 2011 1.8 Zettabytes em dados corporativos Não estruturados Logs, Files Multi-Structured Block & File Streaming 2020 35 Zettabytes em dados corporativos Volume Tamanho dos dados explode a taxa de 650% nos proximos 5 anos. Velocidade 92% taxa de crescimento de trafego de dados de 2010 a 2015 Variedade 85% não estruturado! Big Data refers to enterprise data that is unstructured, generated from non-traditional sources, and/or real-time – in addition to being large in volume. Enterprises face the challenge and opportunity of storing and analyzing Big Data efficiently and quickly. Think of big data challenges as the four “V”s. Data stores continue to grow , at high growth rates. New types of data hinder analysis when using structured data tools while decision makers continue to ask for more information to help drive decision making. Valor 61% dos decisores querem mais informações Zettabyte = 1,000,000,000,000,000,000,000 Bytes Graph based on IDC and UC Berkeley Data Growth Estimates, Source: IDC & CosmoBC.com:

8 Exemplos de Aplicações
Netflix produziu o primeiro seriado(House of Cards) baseado em informações sobre o diretor mais assistido(David Fincher) e do ator preferido(Kevin Spacey) do grande publico. Rede de supermercados canadense descobre o que casais compram e as marcas mais usadas antes de darem a luz e enviam cupons de desconto para acessórios de bebes (carrinhos, fraldas, etc) Google descobre surtos de gripe antes da agencia nacional de saúde. Caso Turnstyle (Smartphones WIFI real time). Rede varegista Dollar General monitora combinações de compras nos carrinhos “Este é o Universo em que todos nós estamos: por causa do Big Data, todas as lojas saberão o que nos oferecer, todos os governos vão estar nos monitorando, seu medico saberá de seu passado, sua empresa lhe conhecerá antes de voce fazer a entrevista de emprego, esta será a norma!"

9 Quais tecnologias tornam o Big Data uma possibilidade?

10 Convergencia, Scale Out NAS ou Flash Pool
Os Pilares do Big Data Utilizar discos de estado solido 100x mais rapidos que HDDs Tecnologias SLC e MLC SSD/flash Ex. Apache Hadoop Data Analytics Consolidar recursos de Storage, e escalar ao extremo virtualmente sem fim, Centralizar Gerencia.. Convergencia, Scale Out NAS ou Flash Pool Reduzir quantidade de Storage, removendo dados duplicados de dentro de data sets Deduplicação

11 Big Data muda toda TI como conhecemos!
Nodes do cluster SQL Server Clientes SQL Server Database Nodes do cluster SQL Server Clientes SQL Server Database Nodes do cluster SQL Server Clientes SQL Server Database O crescimento scale-up ocorre adicionando mais recursos para um single node ou substituindo por um node maior Ativo Passivo

12 Arquiteturas: SAN Scale-Up e NAS Scale-Out
Rede Interna LAN Arquiteturas: SAN Scale-Up e NAS Scale-Out NFS CIFS FluidFS FluidFS FluidFS Gateways Sempre redundantes Write cache espelhada Load Balanced FluidFS FluidFS SAN “back-end” Disk Arrays Disk Arrays Disk Arrays Disk Arrays

13 NAS storage pool (underlying SAN storage)
Load balancing Otimização de performance As conexões são automaticamente balanceadas por todas as portas e todas as controladoras no cluster Single namespace significa que arquivos de dados não precisam ser fragmentados ou colocados em silos individuais de grupos de arquivos quando appliances são adicionados Single namespace Controller 1 Controller 2 FluidFS appliance NAS storage pool (underlying SAN storage) B C D E F G H A, I MAC address A MAC address G MAC address F MAC address E MAC address D MAC address C MAC address B Client network

14 Infraestrutura Hiper Convergente
Infraestrutura Tradicional Infraestrutura Hiper Convergente Servidor Storage

15 Arquitetura inovadora da Nutanix
VM Storage Capacity Storage Control Compute X86 Node VM Storage Capacity Storage Control Compute X86 Node VM Storage Capacity Storage Control Compute X86 Node Melhor performance Convergência elimina gargalos Performance linear Escalabilidade Escale “um nó por vez" Expansão do cluster sem parada Confiável Sem ponto único de falha Reproteção automática

16 Data Locality SSD HDD SSD HDD SSD HDD VM VM VM CVM VM VM VM VM VM VM
ESX ESX ESX X86 Node X86 Node X86 Node SSD HDD SSD HDD SSD HDD

17 Hot Tier SSD HDD SSD HDD SSD HDD VM VM VM CVM VM VM VM VM VM VM CVM
ESX ESX ESX X86 Node X86 Node X86 Node SSD HDD SSD HDD SSD HDD

18 Flash Pool: Otimiza o caminho dos dados.
Flash traz os dados para mais perto da aplicação Storage Array Gerenciado pela controladora do storage Bandwidth é compartilhada por muitos servidores Latencia SAN é problema Server Gerenciada pelo S.O. Não há latencia SAN Pode rodar a velocidade PCIe mais rapido do que SAN Escala performance adicionando SSDs Roda como cache: Localização e gerencia dos dados é tranquila Tira proveito das funcionalidades do Storage: HA, replicação, thin provisioning, e Dedup Storage Area Network Flash roda em appliance como cache Compartilhada entre arrays Bandwidth é compartilhada por muitos servidores Latencia SAN é problema You can put flash on a storage, there are some plusses and minuses You can put it in the Storage Area Network You can put it on the server. It brings the data the closest to the compute. - If you bring the cache to the server level, you bring the data closest to the applicaion You want to solve within budget, these are your options for cache placement…. Flash SSDs Global Marketing

19 Aproximando o Flash do Servidor:
Server INSTALL Cache SW 1 ADD PCIe SSD 2 Pvt Cache Network Fast access to data in the PCIe SSD Cache between nodes ADD 3 Low Latency IB Or 10Gb w/RDMA Data has to go to SAN every time for shared storage writes and reads Storage Network (FC or iSCSI) ENABLE Cache SW 4 Storage Area Network (SAN) PCIe SSD (Sevidores) + Caching Software + SAN = Applicações Aceleradas = Problema resolvido Confidential

20 Beneficios do Tiered Flash
A Tierização permite conseguir performance de Storage flash ao preço de disco Workload necessario: 40,000 IOPS 30TB Raw Storage 84% RU reduction 50% more IOPS 90% latency reduction 56% lower price Beneficios do Tiered Flash 264 x 15k HDDs Space Savings 24 x SSDs Legal Claim: G To handle a specific workload, the HDD-based Compellent will need k HDDs in 26U, the All-Flash Compellent with a blend of SLC and MLC SSDs will need 24 SSDs in a 6U configuration. The Compellent All-Flash system will be able to process the workload with 84% lower footprint, 90% lower latency and 56% lower price while delivering 50% more IOPS which can be used to process another workload. Dell changed the economics of storage with the introduction of tiered flash in the Compellent storage array. Until now, flash storage has been too expensive for most customers. Dell disrupted the status quo by introducing a new price model which offers flash solutions at the price of the traditional rotating disk, making flash storage affordable and accessible to a broad number of customer deployments for the first time. <for background only from an internal document> When does Flash at the price of disk works best?  Works best when comparing systems with similar performance levels. The biggest benefits of an all flash system will be to achieve high performance I/O at very low latency. Other benefits include reducing rack space, reducing power, and a reduction in price when comparing to an all spindle disk system. This is mainly due to the reduction in the number of drives which helps drive down the product (HW/SW) and support fees. Though we see benefits with hybrid systems (flash + disk), some of the pricing differentiation gets lost when software enterprise cap limit (96 drives) is reached since the software (SW) and SW support fees are roughly the same between all flash and all HDD system. For example, if we are having 12 SSDs with 84x4TB using SC280 enclosure, we lose the benefits of lowered SW pricing when compared to a system with 15K RPM drives and 84x4TB drives due to the system being at enterprise cap limit (96 drives) Claim detail: G The Dell Compellent all-flash solution costs less than a comparable 15K disk drive solution. Source: Internal Dell analysis in July 2013 based on Dell Compellent flash-optimized and spinning disk US list pricing. Dell Compellent Flash-optimized solutions can reduce rack space by up to 84%, reduce latency by up to 90% and reduce the solution cost by approximately 56% compared to traditional spinning arrays. Source: Internal Dell analysis in July 2013 based on Dell Compellent flash-optimized and spinning disk US list pricing, technical specifications of flash-optimized vs. spinning disk arrays and an internal test performed by Dell in March 2013 with Storage Center v on dual SC8000 controllers running OLTP type workloads using IOmeter with a 100% random, 70/30 read/write mix and 8K sector transfer size achieved this IOPS performance.  Assumption is SC 6.4 will have similar results. Actual performance/latency will vary based on configuration, usage and manufacturing variability.

21 Redução de custos com MLC flash
$/GB Capacity MLC SSDs reduz custo $/GB mas requer cuidados especiais com os dados Arrays Hibridos: 2 tiers de SSD e discos de 7.2k Custo equivalente ($/GB) a 15K Performance muito superior Tipos de utilização All flash arrays (Performance) Hibrido (Performance & capacidade) HDD (Capacidade e custo controlado)

22 Nem todo SSD é criado igual
Enterprise SAS SSDs Duas portas SAS para performance e alta disponibilidade Monitoramento de uso integrado Provisionado para durabilidade e performance sustentada. Tecnologia de cache Non-volatil em cada drive Proteção total de dados (IOEDC/IOECC) Header Write Intensive (WI) Read Intensive (RI) Utilização Aplicações Top Qualquer uso Maioria Leitura 90/10 R/W Mix Capacidade 400/800 GB 1.6 TB Utilização(Full writes / Day) 30 3 Endurance (written PBs) 21.9PB 8.76PB Performance IOPS (8K 70/30 R/W) 38K 14K Gravação de banda 400 MB/s 70 MB/s Data Progression* Escrita direta de servidores Read-only replay data Enterprise class drives, not notebook drives like some other solutions in industry Confidential

23 Efficient Cloud / Services
Para o sucesso do Big Data em sua empresa procure o parceiro tecnologico correto! Efficient Workforce Efficient Data Center Efficient Cloud / Services IT management software Application modernization software and services Cloud Client Computing solutions Mainframe migration, modernization, and optimization Server, data and application protection for virtual, physical and cloud infrastructures Remote systems management appliance Advanced data protection & network security High-performance data centre networking Consulting services & cloud expertise A single point of mgmt for both physical and virtual resources Archiving and image management solution for healthcare vertical. Simple, easy-to-use SaaS integration tool and consulting High performance SAN iSCSi solutions for virtualization Managed security services, threat intelligence and security & risk consulting Software asset management Intelligent infrastructure and mgmt. of multi-tier storage architecture Remote management – continuity and archiving SaaS App mgmt., deployment svcs, and infrastructure consulting Distributed device management delivered as a SaaS services Storage compression & de-duplication IT monitoring software Clustered NAS storage Memory Virtualization technology

24 SUCESU–BA Ilan Grinspun Storage Specialist

25 Scale Out Crescimento sem fim… Engineering Collaboration Analytics:
NAS Scale-Out. Crescimento horizontal, com adição de controladoras. Sem necessidade de reconfigurações de provisionamento (Thin provisioning) Single Namespace capaz de crescimentos exponenciais: Dezenas ou centenas de Terabytes, para comportar dados não estruturados Engineering Collaboration Design Optimization Process Flow Fluid Dynamics 3D Modeling Analytics: Predictive Modeling Decision Processing Demographics Behavior Analysis Data Warehouse Hosting Digitization/archive Backup Web 2.0 Simulation Genome Sequencing Seismic Processing Weather forecast

26


Carregar ppt "A Revolução do Big Data Foco em infraestrutura de dados"

Apresentações semelhantes


Anúncios Google