A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Infraestrutura computacional para BI Guilherme Galante.

Apresentações semelhantes


Apresentação em tema: "Infraestrutura computacional para BI Guilherme Galante."— Transcrição da apresentação:

1 Infraestrutura computacional para BI Guilherme Galante

2 Roteiro Infraestrutura para BI2 Introdução Armazenamento de dados Mídias de armazenamento RAID DAS, NAS, SAN Sistemas de Arquivo Backup Alta Disponibilidade Virtualização e Computação em nuvem

3 Parte I – Introdução 3Infraestrutura para BI

4 BI: Passos para o desenvolvimento Larissa T. Moss, Shaku Atre - Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications - Addison Wesley Infraestrutura para BI

5 Demanda por Infraestrutura Armazenamento Confiabilidade e Disponibilidade Capacidade Desempenho Processamento Desempenho Escalabilidade (mudanças acontecem) BI Grande Quantidade de dados Armazenamento Processamento 5Infraestrutura para BI

6 Parte I – Armazenamento de Dados O aumento da quantidade de dados emergiu como o maior desafio para a infraestrutura de hardware de data centers, com 47% dos clientes de grandes empresas classificando-o entre os três principais desafios, seguido por desempenho do sistema e escalabilidade (37%), além de congestionamento da rede e arquitetura de conectividade (36%). Gartner Infraestrutura para BI

7 Camadas de Armazenamento de dados 1. Mídias de Armazenamento 2. SAN (Storage Area Network) 3. Hardware de RAID 4. Software RAID e Ger. Volumes 5. Sistema de Arquivos 6. Aplicações e Banco de Dados 7Infraestrutura para BI

8 Parte I.1 – Mídias de Armazenamento 8Infraestrutura para BI

9 Discos Rígidos 90% de novas informações geradas são armazenadas em discos rígidos (2007) Confiáveis(?!) Compostos por diversos componentes Tempo de vida médio: 5 anos Fatores relevantes para falhas: Idade Carga de uso Ambiente 9Infraestrutura para BI

10 Anatomia do disco 10Infraestrutura para BI

11 Probabilidade de Falhas em disco Estudo do Google (2007) USENIX Conference on File and Storage Technologies (FAST07) Dados coletados de discos de seus servidores Conclusões Após o segundo ano de vida do HD a probabilidade de falha quadruplica A utilização do HD influencia menos que o esperado; a alta utilização só aumenta sensivelmente a taxa de falhas nos 6 primeiros meses e após o 5º ano de uso A temperatura também influencia menos que o esperado. A longo prazo a melhor temperatura de operação é entre graus 11Infraestrutura para BI

12 S.M.A.R.T Self-Monitoring, Analysis and Reporting Tecnhology Sistema de monitoramento de discos que detecta e antecipa falhas, através de vários indicadores de confiabilidade Implementado no próprio disco 12Infraestrutura para BI

13 S.M.A.R.T – Informações do disco Seek error rate Trilha não encontrada Raw read error rate Problemas na mídia magnética hardware ECC recovered Correções de erro Scan error rate Taxa de erros não reparáveis Spin up time Tempo de inicialização Reallocated sector count Setores realocados (!) Temperatura Contador de ativações/desativações Horas de funcionamento 13Infraestrutura para BI

14 S.M.A.R.T Conclusões Google retiradas do S.M.A.R.T Após o primeiro Scan Error (Raw Read Erro Rate) a chance de um HD falhar nos próximos 60 dias aumenta pelo fator 39 Após o primeiro Reallocation Count chance de um HD falhar nos próximos 60 dias aumenta pelo fator 14 Após o primeiro Offline Realocation chance de um HD falhar nos próximos 60 dias aumenta pelo fator 21 Após o primeiro Pending Sector chance de um HD falhar nos próximos 60 dias aumenta pelo fator 16. 2/3 das falhas podem ser previstas 1/3 ocorre sem aviso 14Infraestrutura para BI

15 Ferramentas Smartmontools (linux e windows) Disponível em várias distribuições Interface gráfica CrystalDiskInfo (windows) Disk Monitor (windows) 15Infraestrutura para BI

16 Solid State Disks - SSD Infraestrutura para BI16 Usam materiais semi-condutores para o armazenamento Sem partes móveis Não é sensível a choque, altitude, vibração, magnetismo Problemas: limite de regravações custo Compensa?

17 HDD vs SDD Infraestrutura para BI17

18 Fitas Magnéticas Infraestrutura para BI18 Dispositivos de armazenamento de dados mais utilizados no mercado corporativo para guardar dados e fazer backups Desde que armazenadas adequadamente, podem conter informações por aproximadamente 1 século Grande capacidade de armazenamento

19 Parte I.2 – RAID 19Infraestrutura para BI

20 RAID Redundant Array of Independent (Inexpensive) Disks Motivação: Redundância (confiabilidade) Desempenho Volumes lógicos maiores Dividido em níveis (0 – 6) Hardware ou Sofware 20Infraestrutura para BI

21 RAID 0 Conhecido como stripping Junção de 2 ou mais discos Sem redundância (!) Divisão dos dados em fatias (stripes) Aumento do tamanho da unidade lógica Aumento do Desempenho Blocos pode ser lidos/escritos em paralelo Não confundir com JBOD Just a Bunch Of Disks Quando usar: Quando for necessário APENAS desempenho Operações temporárias 20GB 40GB 21Infraestrutura para BI

22 RAID 0 - desempenho Fonte: Clube do Hardware 22Infraestrutura para BI

23 RAID 1 Espelhamento de discos (mirroring) Dados armazenados em dois ou mais dispositivos Redundância de dados Cara (50% do espaço de disco) Desempenho: Leitura rápida (com suporte do SO) Escrita lenta Quando usar: Aplicações que exigem redundância Leituras rápidas Ex. Pequenos servidores de arquivo 20GB 23Infraestrutura para BI

24 RAID 2, 3e 4 Obsoletos e pouco utilizados Variações de RAID 0 RAID 2 Código de Hamming (correção de erros) Discos atuais já possuem este tipo de correção RAID 3 Um disco para armazenar paridade (byte) RAID 4 Um disco para armazenar paridade (bloco) 24Infraestrutura para BI

25 RAID 5 Divide dados entre todos os discos Paridade distribuída Um disco pode falhar sem perda de dados Bom desempenho Operações paralelas Quando usar: Desempenho Redundância Servidores de BD Mínimo 3 discos 20GB 60GB 25Infraestrutura para BI

26 RAID 6 Variação do RAID 5 Duplicação dos blocos de paridade 26Infraestrutura para BI

27 RAID 0+1 Junção de dois volumes RAID0 em um volume RAID1 Dobra-se a velocidade de leitura e gravação Tolerância a falhas de até dois discos RAIDs diferentes Quando usar: Rapidez e redundância 4 discos necessários 50% perda de espaço 27Infraestrutura para BI

28 RAID 10 Junção de dois volumes RAID1 em um volume RAID0 Desempenho elevado Confiabilidade 28Infraestrutura para BI

29 RAID 50 Combina o stripping do nível 0 com a paridade distribuída do nível 5 Requer pelo menos 6 drives Escritas rápidas Ótimo desempenho 29Infraestrutura para BI

30 RAID – capacidade 30Infraestrutura para BI

31 RAID – desempenho 31Infraestrutura para BI

32 RAID: HW vs SW Infraestrutura para BI32

33 RAID por hardware Controladoras que realizam todas as operações via hardware Podem ser externas ou plugáveis Algumas placas-mãe já tem embutidas (ponte-sul compatível) Os chipsets da Intel que têm RAID integrado possuem a letra R O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado ROCKETRAID RAID 0, 1, 5, 10 e JBOD - 4 discos SATA II ou SATA I - PCI express - Aprox. R$500,00 33Infraestrutura para BI

34 RAID por hardware O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado Muitas vezes como um drive SCSI Chip Promise FastTrak 100 Lite da Soyo Dragon Plus 34Infraestrutura para BI

35 RAID por sofware A grande vantagem do RAID por software é seu custo Nenhuma placa adicional ou mesmo componente onboard faz parte dos seus requisitos Na verdade, a única necessidade é ter um sistema operacional que dê suporte a essa tecnologia Windows, Linux e MacOS possuem suporte a RAID 35Infraestrutura para BI

36 RAID por sofware Windows 7 (ultimate) Computador -> Gerenciar -> Gerenciamento de disco Opções de RAID (partições/disco não alocados) 36Infraestrutura para BI

37 RAID por sofware Linux Linha de comando: fdisk, mkraid e o mount (abordagem mais antiga) mdadm Opção de interface: Webmin + módulo Linux RAID 37Infraestrutura para BI

38 RAID: Casos de Uso Infraestrutura para BI38 Servidor de imagens HTTP Imagens dos produtos em uma loja online Conteúdo estático Fotos são inseridas pelos funcionários Muitos acessos Necessidade de acesso rápido Ficar offline o mínimo possível Qual o melhor RAID?

39 RAID: Casos de Uso Infraestrutura para BI39 ACME Motion Picture Company Criação de vídeos Quantidade enorme de conteúdo 3 servidores 1. Trabalhos terminados (Tolerância a Falhas) 2. Trabalhos em andamento (Tolerância a Falhas) 3. Edição (Desempenho e Tolerância a Falhas)

40 Infraestrutura para BI40 Boa escolha?

41 Parte I.3 – DAS, NAS, SAN 41Infraestrutura para BI

42 DAS, NAS e SAS Discos locais podem não ser suficientes Desempenho Capacidade Alternativas: DAS (Direct Attached Storage) NAS (Network Attached Storage) SAN (Storage Area Network) 42Infraestrutura para BI

43 Conceitos Infraestrutura para BI43 Conectividade: Como os processadores e armazenamento estão físicamente conectados Mídia: Cabeamento e protocolos Protocolos: Como as requisições são comunicadas à mídia

44 Conectividade Infraestrutura para BI44 Conexão direta Interligado por rede REDE

45 Mídia Infraestrutura para BI45 Alguns Padrões: 1. Ethernet 2. Fibre Channel 3. Parallel SCSI 4. SSA (Serial Storage Architecture) 2 3 4

46 Protocolos Infraestrutura para BI46 SCSI (Small Computer Systems Interface): nível de bloco NFS (Network File System) nível de arquivo CIFS (Common Internet File System) nível de arquivo

47 DAS (Direct Attached Storage) Sistema de armazenamento conectado diretamente a um servidor Não há acesso direto via rede acessados pelos outros computadores da rede através do computador ligado a este dispositivo Interface especial - host bus adapter (HBA) Variam de gavetas portáteis até dispositivos com vários discos Os principais protocolos usados nas conexões DAS são: ATA, SATA, eSATA, SCSI, SAS e o Fibre Channel Promise SmartStor DS Bay Dell PowerVault MD Infraestrutura para BI

48 NAS (Network Attached Storage) Um NAS, por sua vez, roda um sistema operacional completo e funciona como um servidor de arquivos Também conhecidos como filers Tratada como única unidade de armazenamento Ligado diretamente na rede TCP/IP Acessado via protocolos NFS e CIFS Usuário enxerga arquivos 48Infraestrutura para BI

49 NAS Limitações: A rede pode ser um gargalo Quantidade de discos limitado à capacidade do equipamento Mais apropriado para uso no nível de arquivo Opções para implementação de NAS Equipamentos próprios PCs podem ser configurados como NAS NFS OpenNas (BSD) OpenFiler (UNIX) 49Infraestrutura para BI

50 SAN (Storage Area Network ) É uma rede dedicada ao armazenamento de dados Conecta storages aos servidores da rede Estrutura de rede dedicada, geralmente baseada em Fibre Channel Os computadores que têm acesso ao SAN possuem interface específica para ligar-se ao SAN, além da interface de rede tradicional HBA (Host Bus Adapter) 50Infraestrutura para BI

51 SAN (Storage Area Network ) O acesso a dados na SAN é de baixo nível, sendo parecido com o usado internamente em discos locais Acesso a LUNs (unidades lógicas) SAN Discos Físicos Unidades Lógicas 51Infraestrutura para BI

52 SAN Fonte: 52Infraestrutura para BI

53 NAS vs SAN 53Infraestrutura para BI

54 NAS + SAN 54Infraestrutura para BI

55 iSCSI Tecnologia que permite que o cliente (initiator) envie comandos SCSI para um array de armazenamento (target) via TCP/IP Acesso aos discos remotos como se fossem unidades de armazenamento local através de cabos de rede Pode utilizar um adaptador Pode ser emulado por sofware 55Infraestrutura para BI

56 iSCSI Fonte: Adaptec 56Infraestrutura para BI

57 DAS, NAS e SAN 57Infraestrutura para BI

58 Parte I.4 – Sistemas de Arquivo 58Infraestrutura para BI

59 Sistemas de Arquivo Um sistema de arquivos (SA) e um conjunto de estruturas lógicas e de rotinas, que permitem o acesso a dispositivos de armazenamento Localização de arquivos e diretórios no disco Quais setores são utilizados para armazenar um arquivo 59Infraestrutura para BI

60 Sistemas de Arquivo O desempenho do SA acaba por influenciar diretamente o desempenho de um sistema computacional como um todo E importante conhecer o desempenho dos SAs disponíveis em um sistema operacional Comparativo de características de Sistemas de arquivo: 60Infraestrutura para BI

61 Benchmarking Sistemas de Arquivo Testes efetuados usando IOZone Ambiente Computacional CPU: Xeon E5405 Quad, 2.00 GHz, 6144 KB de cache por core; Memória: 2GB DDR; Disco: Seagate Barracuda, 400 GB, 7200 rpm, 16 MB de cache Sistema Operacional: Linux Debian Lenny NetInst i386; IOZone: versão SAs Testados EXT2 e EXT3 REISER BTRFS 61Infraestrutura para BI

62 Resultados - Escrita 62Infraestrutura para BI

63 Resultados - Leitura 63Infraestrutura para BI

64 Outros Testes - PostgreSQL 64Infraestrutura para BI

65 Sistemas de Arquivos - Considerações Testes apropriados para o ambiente Considerar um SAN ou rede, por exemplo Desempenho nem sempre é o mais importante Levar em consideração questões como segurança, capacidade, etc. Sistemas de Arquivo são tunáveis Cache Journaling Compressão 65Infraestrutura para BI

66 Parte II – Backup 66Infraestrutura para BI S... happens...

67 Backup Fundamental para organizações de qualquer porte Geralmente não recebem a importância devida Nem o investimento... Ideia geral: Copiar os dados para algum lugar e recuperar se necessário Não é tão simples como parece Como você cuida do backup dos seus dados? 67Infraestrutura para BI

68 Backup O backup é realizado devido a várias razões das quais podemos destacar : requisitos de negócio proteção contra falhas de hardware recuperação a desastres proteção contra falha da aplicação proteção contra o erro do usuário atigimento de específicos níveis de serviço requisitos legais 68Infraestrutura para BI

69 Backup - Observações Mirroring não substitui backup Arquivos podem ser apagados ou corrompidos Recuperações são mais comuns do que parece Apagamento de arquivos ou diretórios (rm –rf) Problemas no RAID Otimize para a recuperação de um único arquivo Teste a capacidade de restauração Evite a criação de backups inúteis Cuide das mídias (fitas, discos ópticos, HDs) 69Infraestrutura para BI

70 Por que Back up? 70Infraestrutura para BI Fonte: HP (http://static.highspeedbackbone.net/pdf/hp_why_backup.pdf)

71 Backup Qual o custo da perda de dados? Clientes Vendas Moral (!) Imagem da empresa Tempo (e $) Qual o custo do downtime? Sistema fora do ar Qualidade de trabalho Tempo 71Infraestrutura para BI

72 Backup - O que guardar? Sistema Configurações do sistema Sofware instalado (ao menos uma lista) Arquivos Arquivos em geral Banco de dados Dados e configurações SGBDs possuem funcionalidades para isso 72Infraestrutura para BI

73 Tipos de Backup Full: Todos os dados são copiados Server de referência para os demais Demorado Incremental (ou cumulativo) backup de arquivos que foram alterados ou novos desde o último backup incremental Diferencial backup dos arquivos que foram alterados desde que foi feito um backup completo Mais rápido 73Infraestrutura para BI

74 Exemplo – Backup de dados 60 GB de dados 5 GB de alterações por dia 20 GB/h: velocidade de backup diferencial incremental 74Infraestrutura para BI

75 Exemplo - Restauração 15 GB/h: velocidade de restauração 2 min: manipulação da mídia (fita, no caso) Erro ocorreu na sexta, após o backup de quinta ter sido completado E para um backup do dia 29, considerando que o backup full ocorreu dia 01? 75Infraestrutura para BI

76 Métodos de backup Nível de arquivos Usa o sistema operacional para fazer o backup dos arquivos O Backup é mais longo Fácil de recuperar arquivos únicos Nível de imagem ou bloco Backup no nível de bloco Muito rápido Dificuldade de recuperar arquivos únicos sem acesso aos metadados Nível de aplicação Utiliza uma aplicação específica para executar o backup 76Infraestrutura para BI

77 Hot Backup Realizado quando dados estão sendo atualizados, adicionados ou lidos por seus usuários, mas não controla transações correntes Somente o sistema de gerenciamento de banco de dados (SGBD) de recursos deve ser usado para fazer backups deste tipo Certifique-se que os backups sejam feitos apenas durante poucas horas de trabalho A indicação deste tipo de Backup é para ambientes onde o banco de dados precisa permanecer online 24 horas por dia e 7 dias por semana não exigem paralisação como os cold backup que são realizados off line 77Infraestrutura para BI

78 Armazenamento de Backup Ambiente apropriado Mídias limpas Temperatura adequada Identificação (Data, tipo) Validade das mídias Armazenamento fora de sede Incêndio ou alagamento do CPD Furto ou roubo Inabilidade de acessar as dependências principais do escritório Falha dos sistemas primários de backup Falhas da gravação ou leitura em mídias magnéticas Backup via Rede e/ou Cloud pode ser uma alternativa 78Infraestrutura para BI

79 Backup Linux Backups locais dump/restore Tar Cpio Backup via rede rsync Bacula (http://www.bacula.org) Amanda (http://www.amanda.org/) 79Infraestrutura para BI

80 Backup Windows SO possui ferramenta do própria Já foi problemático Melhorou nas últimas versões do Windows Outras opções SyncBack (http://www.2brightsparks.com/syncback/syncback-hub.html)http://www.2brightsparks.com/syncback/syncback-hub.html Cobian (http://www.educ.umu.se/~cobian/cobianbackup.htm)http://www.educ.umu.se/~cobian/cobianbackup.htm Acronis True Image (http://www.acronis.com/homecomputing/products/trueimage/)http://www.acronis.com/homecomputing/products/trueimage/ Muitas outras... 80Infraestrutura para BI

81 Camadas de Armazenamento - Overview 1. Discos Físicos 2. SAN (Storage Area Network) 3. Hardware de RAID 4. Software RAID e Ger. Volumes 5. Sistema de Arquivos 6. Aplicações e Banco de Dados HDs, DAS e NAS FC, iSCSI RAID HW, SW, níveis SA locais e de rede (NFS, CIFS) 81Infraestrutura para BI

82 Parte II – Alta Disponibilidade 82Infraestrutura para BI

83 Disponibilidade (Availability) Disponibilidade é a probabilidade do sistema estar operacional em um instante de tempo determinado Alternância de períodos de funcionamento e reparo Um sistema pode ser altamente disponível mesmo apresentando períodos de inoperabilidade Exemplos de sistemas onde alta disponibilidade é requerida: base de dados on-line servidores de rede servidores de páginas web 83 Infraestrutura para BI

84 Fatores que afetam a disponibilidade Planejados Backups Upgrade de Hardware e/ou software Manutenção Reconfiguração e realocação Não Planejados Falhas do sistema operacional Falhas de aplicação Falhas no hardware Erros operacionais Desastres Naturais Falta de Energia Ataques (virus, invasões) Fonte: IBM Global Services 84Infraestrutura para BI

85 Medidas de Disponibilidade Número de 9s É a medida do número de noves na expressão de percentagem de tempo de disponibilidade Fonte: 85Infraestrutura para BI

86 Classes de disponibilidade Básica: 99% a 99,9% Alta: 99,99% a 99,999% Contínua: 100% Depende das necessidades da organização e de suas aplicação 86Infraestrutura para BI

87 Implementação Redundância Fontes Refrigeração Disco (RAID é um exemplo) Etc... Failover Recuperação para manter o serviço no ar Recurso substitui o recurso faltoso automaticamente Balanceamento de carga 87Infraestrutura para BI

88 Exemplo de servidor com TF Exemplo de servidor TF Stratus: Outras empresas também possuem servidores HA HP SUN entre outras... 88Infraestrutura para BI

89 Clusters HA CLUSTER: Conjunto de servidores agrupados com intenção de ganho de desempenho, disponibilidade, ou facilidade no gerenciamento Tipos: Alta disponibilidade Balanceamento de carga Cluster de processamento paralelo 89Infraestrutura para BI

90 Clusters HA Intenção de manter a maior disponibilidade possível dos serviços, através da duplicação de servidores, ambientes de rede, discos, etc Sistema de monitoração interno no cluster garante que, no caso de falha do servidor ativo, o sistema em standby assumirá os serviços automaticamente Linux: Heartbeat Mon DRBD 90Infraestrutura para BI

91 Clusters HA - Heartbeat Núcleo do ambiente de alta disponibilidade Troca de mensagens entre os servidores Gerenciamento de um IP compartilhado entre os nodos 91Infraestrutura para BI

92 Clusters HA – MON O mon é utilizado para monitorar os serviços locais da máquina e executar uma tarefa caso ocorra algum problema com o serviço monitorado Por exemplo: monitorar o apache e caso o mesmo tenha problemas de requisição, o mon irá derrubar o heartbeat forçando assim a máquina slave a assumir os serviços DRBD: C onsiste em um módulo para o kernel Linux que faz o espelhamento dos dados de um dispositivo de bloco 92Infraestrutura para BI

93 Exemplo de aplicação Implementação de um serviço de diretórios para autenticação de usuários OpenLDAP Heartbeat Mon DRBD 93Infraestrutura para BI

94 Windows Cluster Failover Clustering in Windows Server - White paper download.microsoft.com/download/F/2/1/F AC0-4C50-B69A-12428FF0B077/WS08%20R2%20Failover%20Clustering%20White%20Paper.doc 94Infraestrutura para BI

95 Parte III – Virtualização e Nuvens Computacionais A realidade demonstrada no relatório do Gartner traz à tona a urgência e a importância de se adotar uma nova infraestrutura e operações tecnológicas, principalmente baseadas em serviços de Cloud Computing e virtualização. Ione de Almeida Coco - vice-presidente do Programa Executivo Gartner AL. 95Infraestrutura para BI

96 Virtualização Ideia não é nova: década de 60 mainframes Década de 80: PC – virtualização em desuso 30 anos depois... Arquitetura X86 Máquinas subutilizadas 10% ou 15% em média Aumento dos custos para infraestrutura física Muitas máquinas: manutenção difícil Hoje: infraestrutura virtualizada máquinas virtuais Hypervisores 96Infraestrutura para BI

97 Virtualização Infraestrutura para BI97

98 Beneficios da Virtualização Infraestrutura para BI98 Redução na quantidade de hardware físico Economia com energia e refrigeração Poupança de espaço Instalações simplificadas Facilidade para a execução de cópias de segurança Independência de Hardware Disponibilização de novos servidores virtuais (VPS) reduzida para alguns minutos Migração de servidores para novo hardware de forma transparente Maior disponibilidade e mais fácil recuperação de servidores Compatibilidade total com as aplicações

99 Soluções de Virtualização Infraestrutura para BI99 VMWare Microsoft HyperV Xen KVM

100 Virtualização e Computação em Nuvem Virtualização é fundamental para o conceito de computação em Nuvem Muitos dos conceitos envolvidos na nuvem são derivados ou utilizam conceitos de virtualização Mas afinal... O que é a computação em Nuvem? 100Infraestrutura para BI


Carregar ppt "Infraestrutura computacional para BI Guilherme Galante."

Apresentações semelhantes


Anúncios Google