A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Infraestrutura computacional para BI

Apresentações semelhantes


Apresentação em tema: "Infraestrutura computacional para BI"— Transcrição da apresentação:

1 Infraestrutura computacional para BI
Guilherme Galante

2 Roteiro Introdução Armazenamento de dados Backup Alta Disponibilidade
Mídias de armazenamento RAID DAS, NAS, SAN Sistemas de Arquivo Backup Alta Disponibilidade Virtualização e Computação em nuvem Infraestrutura para BI

3 Parte I – Introdução Infraestrutura para BI

4 BI: Passos para o desenvolvimento
Larissa T. Moss, Shaku Atre - Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications - Addison Wesley. 2003 Infraestrutura para BI

5 Demanda por Infraestrutura
Armazenamento Grande Quantidade de dados BI Processamento Armazenamento Confiabilidade e Disponibilidade Capacidade Desempenho Processamento Escalabilidade (mudanças acontecem) Infraestrutura para BI

6 Parte I – Armazenamento de Dados
O aumento da quantidade de dados emergiu como o maior desafio para a infraestrutura de hardware de data centers, com 47% dos clientes de grandes empresas classificando-o entre os três principais desafios, seguido por desempenho do sistema e escalabilidade (37%), além de congestionamento da rede e arquitetura de conectividade (36%). Gartner 2011. Parte I – Armazenamento de Dados Infraestrutura para BI

7 Camadas de Armazenamento de dados
6. Aplicações e Banco de Dados 5. Sistema de Arquivos 4. Software RAID e Ger. Volumes 3. Hardware de RAID 2. SAN (Storage Area Network) 1. Mídias de Armazenamento Infraestrutura para BI

8 Parte I.1 – Mídias de Armazenamento
Infraestrutura para BI

9 Discos Rígidos 90% de novas informações geradas são armazenadas em discos rígidos (2007) Confiáveis(?!) Compostos por diversos componentes Tempo de vida médio: 5 anos Fatores relevantes para falhas: Idade Carga de uso Ambiente Infraestrutura para BI

10 Anatomia do disco Infraestrutura para BI

11 Probabilidade de Falhas em disco
Estudo do Google (2007) USENIX Conference on File and Storage Technologies (FAST’07) Dados coletados de discos de seus servidores Conclusões Após o segundo ano de vida do HD a probabilidade de falha quadruplica A utilização do HD influencia menos que o esperado; a alta utilização só aumenta sensivelmente a taxa de falhas nos 6 primeiros meses e após o 5º ano de uso A temperatura também influencia menos que o esperado. A longo prazo a melhor temperatura de operação é entre graus Infraestrutura para BI

12 S.M.A.R.T Self-Monitoring, Analysis and Reporting Tecnhology
Sistema de monitoramento de discos que detecta e antecipa falhas, através de vários indicadores de confiabilidade Implementado no próprio disco Infraestrutura para BI

13 S.M.A.R.T – Informações do disco
Seek error rate Trilha não encontrada Raw read error rate Problemas na mídia magnética hardware ECC recovered Correções de erro Scan error rate Taxa de erros não reparáveis Spin up time Tempo de inicialização Reallocated sector count Setores realocados (!) Temperatura Contador de ativações/desativações Horas de funcionamento Infraestrutura para BI

14 S.M.A.R.T Conclusões Google retiradas do S.M.A.R.T
Após o primeiro Scan Error (Raw Read Erro Rate) a chance de um HD falhar nos próximos 60 dias aumenta pelo fator 39 Após o primeiro Reallocation Count chance de um HD falhar nos próximos 60 dias aumenta pelo fator 14 Após o primeiro Offline Realocation chance de um HD falhar nos próximos 60 dias aumenta pelo fator 21 Após o primeiro Pending Sector chance de um HD falhar nos próximos 60 dias aumenta pelo fator 16. 2/3 das falhas podem ser previstas 1/3 ocorre sem aviso Infraestrutura para BI

15 Ferramentas Smartmontools (linux e windows) CrystalDiskInfo (windows)
Disponível em várias distribuições Interface gráfica CrystalDiskInfo (windows) Disk Monitor (windows) Infraestrutura para BI

16 Solid State Disks - SSD Usam materiais semi-condutores para o armazenamento Sem partes móveis Não é sensível a choque, altitude, vibração, magnetismo Problemas: limite de regravações custo Compensa? Infraestrutura para BI

17 HDD vs SDD Infraestrutura para BI

18 Fitas Magnéticas Dispositivos de armazenamento de dados mais utilizados no mercado corporativo para guardar dados e fazer backups Desde que armazenadas adequadamente, podem conter informações por aproximadamente 1 século Grande capacidade de armazenamento Infraestrutura para BI

19 Parte I.2 – RAID Infraestrutura para BI

20 RAID Redundant Array of Independent (Inexpensive) Disks Motivação:
Redundância (confiabilidade) Desempenho Volumes lógicos maiores Dividido em níveis (0 – 6) Hardware ou Sofware Infraestrutura para BI

21 RAID 0 Conhecido como stripping Aumento do tamanho da unidade lógica
Junção de 2 ou mais discos Sem redundância (!) Divisão dos dados em fatias (stripes) Aumento do tamanho da unidade lógica Aumento do Desempenho Blocos pode ser lidos/escritos em paralelo Não confundir com JBOD Just a Bunch Of Disks Quando usar: Quando for necessário APENAS desempenho Operações temporárias 20GB 20GB 40GB Infraestrutura para BI

22 RAID 0 - desempenho Fonte: Clube do Hardware Infraestrutura para BI

23 RAID 1 Espelhamento de discos (mirroring) Desempenho: Quando usar:
Dados armazenados em dois ou mais dispositivos Redundância de dados Cara (50% do espaço de disco) Desempenho: Leitura rápida (com suporte do SO) Escrita lenta Quando usar: Aplicações que exigem redundância Leituras rápidas Ex. Pequenos servidores de arquivo 20GB 20GB 20GB Infraestrutura para BI

24 RAID 2, 3 e 4 Obsoletos e pouco utilizados Variações de RAID 0 RAID 2
Código de Hamming (correção de erros) Discos atuais já possuem este tipo de correção RAID 3 Um disco para armazenar paridade (byte) RAID 4 Um disco para armazenar paridade (bloco) Infraestrutura para BI

25 RAID 5 Divide dados entre todos os discos Paridade distribuída
Um disco pode falhar sem perda de dados Bom desempenho Operações paralelas Quando usar: Desempenho Redundância Servidores de BD Mínimo 3 discos 20GB 20GB 20GB 20GB 60GB Infraestrutura para BI

26 RAID 6 Variação do RAID 5 Duplicação dos blocos de paridade
Infraestrutura para BI

27 RAID 0+1 Quando usar: Junção de dois volumes RAID0 em um volume RAID1
Dobra-se a velocidade de leitura e gravação Tolerância a falhas de até dois discos RAIDs diferentes Quando usar: Rapidez e redundância 4 discos necessários 50% perda de espaço Infraestrutura para BI

28 RAID 10 Junção de dois volumes RAID1 em um volume RAID0
Desempenho elevado Confiabilidade Infraestrutura para BI

29 RAID 50 Combina o stripping do nível 0 com a paridade distribuída do nível 5 Requer pelo menos 6 drives Escritas rápidas Ótimo desempenho Infraestrutura para BI

30 RAID – capacidade Infraestrutura para BI

31 RAID – desempenho Infraestrutura para BI

32 RAID: HW vs SW Infraestrutura para BI

33 RAID por hardware Controladoras que realizam todas as operações via hardware Podem ser externas ou “plugáveis” Algumas placas-mãe já tem embutidas (ponte-sul compatível) Os chipsets da Intel que têm RAID integrado possuem a letra “R” O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado - RAID 0, 1, 5, 10 e JBOD 4 discos SATA II ou SATA I PCI express - Aprox. R$500,00 ROCKETRAID2302 Infraestrutura para BI

34 RAID por hardware O sistema operacional apenas acessa os dados, como se houvesse um único HD instalado Muitas vezes como um drive SCSI Chip Promise FastTrak 100 Lite da Soyo Dragon Plus Infraestrutura para BI

35 RAID por sofware A grande vantagem do RAID por software é seu custo
Nenhuma placa adicional ou mesmo componente onboard faz parte dos seus requisitos Na verdade, a única necessidade é ter um sistema operacional que dê suporte a essa tecnologia Windows, Linux e MacOS possuem suporte a RAID Infraestrutura para BI

36 (partições/disco não alocados)
RAID por sofware Windows 7 (ultimate) Computador -> Gerenciar -> Gerenciamento de disco Opções de RAID (partições/disco não alocados) Infraestrutura para BI

37 RAID por sofware Linux Linha de comando:
fdisk, mkraid e o mount (abordagem mais antiga) mdadm Opção de interface: Webmin + módulo Linux RAID Infraestrutura para BI

38 RAID: Casos de Uso Servidor de imagens HTTP
Imagens dos produtos em uma loja online Conteúdo estático Fotos são inseridas pelos funcionários Muitos acessos Necessidade de acesso rápido Ficar offline o mínimo possível Qual o melhor RAID? Infraestrutura para BI

39 RAID: Casos de Uso ACME Motion Picture Company Criação de vídeos
Quantidade enorme de conteúdo 3 servidores Trabalhos terminados (Tolerância a Falhas) Trabalhos em andamento (Tolerância a Falhas) Edição (Desempenho e Tolerância a Falhas) Infraestrutura para BI

40 Boa escolha? Infraestrutura para BI

41 Parte I.3 – DAS, NAS, SAN Infraestrutura para BI

42 DAS, NAS e SAS Discos locais podem não ser suficientes Alternativas:
Desempenho Capacidade Alternativas: DAS (Direct Attached Storage) NAS (Network Attached Storage) SAN (Storage Area Network) Infraestrutura para BI

43 Conceitos Conectividade: Mídia: Protocolos:
Como os processadores e armazenamento estão físicamente conectados Mídia: Cabeamento e protocolos Protocolos: Como as requisições são comunicadas à mídia Infraestrutura para BI

44 Conectividade Conexão direta Interligado por rede REDE
Infraestrutura para BI

45 Mídia Alguns Padrões: Ethernet Fibre Channel Parallel SCSI
2 Alguns Padrões: Ethernet Fibre Channel Parallel SCSI SSA (Serial Storage Architecture) 3 4 Infraestrutura para BI

46 Protocolos SCSI (Small Computer Systems Interface):
nível de bloco NFS (Network File System) nível de arquivo CIFS (Common Internet File System) Infraestrutura para BI

47 DAS (Direct Attached Storage)
Sistema de armazenamento conectado diretamente a um servidor Não há acesso direto via rede acessados pelos outros computadores da rede através do computador ligado a este dispositivo Interface especial - host bus adapter (HBA) Variam de gavetas portáteis até dispositivos com vários discos Os principais protocolos usados nas conexões DAS são: ATA, SATA, eSATA, SCSI, SAS e o Fibre Channel Promise SmartStor DS Bay Dell PowerVault MD1000 Infraestrutura para BI

48 NAS (Network Attached Storage)
Um NAS, por sua vez, roda um sistema operacional completo e funciona como um servidor de arquivos Também conhecidos como “filers” Tratada como única unidade de armazenamento Ligado diretamente na rede TCP/IP Acessado via protocolos NFS e CIFS Usuário enxerga arquivos Infraestrutura para BI

49 NAS Limitações: Opções para implementação de NAS
A rede pode ser um gargalo Quantidade de discos limitado à capacidade do equipamento Mais apropriado para uso no nível de arquivo Opções para implementação de NAS Equipamentos próprios PCs podem ser configurados como NAS NFS OpenNas (BSD) OpenFiler (UNIX) Infraestrutura para BI

50 SAN (Storage Area Network )
É uma rede dedicada ao armazenamento de dados Conecta storages aos servidores da rede Estrutura de rede dedicada, geralmente baseada em Fibre Channel Os computadores que têm acesso ao SAN possuem interface específica para ligar-se ao SAN, além da interface de rede tradicional HBA (Host Bus Adapter) Infraestrutura para BI

51 SAN (Storage Area Network )
O acesso a dados na SAN é de baixo nível, sendo parecido com o usado internamente em discos locais Acesso a LUNs (unidades lógicas) SAN Unidades Lógicas Discos Físicos Infraestrutura para BI

52 SAN Infraestrutura para BI
Fonte: Infraestrutura para BI

53 NAS vs SAN Infraestrutura para BI

54 NAS + SAN Infraestrutura para BI

55 iSCSI Tecnologia que permite que o cliente (initiator) envie comandos SCSI para um array de armazenamento (target) via TCP/IP Acesso aos discos remotos como se fossem unidades de armazenamento local através de cabos de rede Pode utilizar um adaptador Pode ser emulado por sofware Infraestrutura para BI

56 iSCSI Fonte: Adaptec Infraestrutura para BI

57 DAS, NAS e SAN Infraestrutura para BI

58 Parte I.4 – Sistemas de Arquivo
Infraestrutura para BI

59 Sistemas de Arquivo Um sistema de arquivos (SA) e um conjunto de estruturas lógicas e de rotinas, que permitem o acesso a dispositivos de armazenamento Localização de arquivos e diretórios no disco Quais setores são utilizados para armazenar um arquivo Infraestrutura para BI

60 Sistemas de Arquivo O desempenho do SA acaba por influenciar diretamente o desempenho de um sistema computacional como um todo E importante conhecer o desempenho dos SAs disponíveis em um sistema operacional Comparativo de características de Sistemas de arquivo: Infraestrutura para BI

61 Benchmarking Sistemas de Arquivo
Testes efetuados usando IOZone Ambiente Computacional CPU: Xeon E5405 Quad, 2.00 GHz, 6144 KB de cache por core; Memória: 2GB DDR; Disco: Seagate Barracuda, 400 GB, 7200 rpm, 16 MB de cache Sistema Operacional: Linux Debian Lenny NetInst i386; IOZone: versão 3.353 SAs Testados EXT2 e EXT3 REISER BTRFS Infraestrutura para BI

62 Resultados - Escrita Infraestrutura para BI

63 Resultados - Leitura Infraestrutura para BI

64 Outros Testes - PostgreSQL
Infraestrutura para BI

65 Sistemas de Arquivos - Considerações
Testes apropriados para o ambiente Considerar um SAN ou rede, por exemplo Desempenho nem sempre é o mais importante Levar em consideração questões como segurança, capacidade, etc. Sistemas de Arquivo são “tunáveis” Cache Journaling Compressão Infraestrutura para BI

66 “S... happens...” Parte II – Backup Infraestrutura para BI

67 Backup Fundamental para organizações de qualquer porte
Geralmente não recebem a importância devida Nem o investimento... Ideia geral: Copiar os dados para algum lugar e recuperar se necessário Não é tão simples como parece Como você cuida do backup dos seus dados? Infraestrutura para BI

68 Backup O backup é realizado devido a várias razões das quais podemos destacar : requisitos de negócio proteção contra falhas de hardware recuperação a desastres proteção contra falha da aplicação proteção contra o erro do usuário atigimento de específicos níveis de serviço requisitos legais Infraestrutura para BI

69 Backup - Observações Mirroring não substitui backup
Arquivos podem ser apagados ou corrompidos Recuperações são mais comuns do que parece Apagamento de arquivos ou diretórios (rm –rf) Problemas no RAID Otimize para a recuperação de um único arquivo Teste a capacidade de restauração Evite a criação de backups inúteis Cuide das mídias (fitas, discos ópticos, HDs) Infraestrutura para BI

70 Por que Back up? Infraestrutura para BI
Fonte: HP (http://static.highspeedbackbone.net/pdf/hp_why_backup.pdf) Infraestrutura para BI

71 Backup Qual o custo da perda de dados? Qual o custo do downtime?
Clientes Vendas Moral (!) Imagem da empresa Tempo (e $) Qual o custo do downtime? Sistema fora do ar Qualidade de trabalho Tempo Infraestrutura para BI

72 Backup - O que guardar? Sistema Arquivos Banco de dados
Configurações do sistema Sofware instalado (ao menos uma lista) Arquivos Arquivos em geral Banco de dados Dados e configurações SGBDs possuem funcionalidades para isso Infraestrutura para BI

73 Tipos de Backup Full: Incremental (ou cumulativo) Diferencial
Todos os dados são copiados Server de referência para os demais Demorado Incremental (ou cumulativo) backup de arquivos que foram alterados ou novos desde o último backup incremental Diferencial backup dos arquivos que foram alterados desde que foi feito um backup completo Mais rápido Infraestrutura para BI

74 Exemplo – Backup de dados
diferencial 60 GB de dados 5 GB de alterações por dia 20 GB/h: velocidade de backup incremental Infraestrutura para BI

75 Exemplo - Restauração 15 GB/h: velocidade de restauração
2 min: manipulação da mídia (fita, no caso) Erro ocorreu na sexta, após o backup de quinta ter sido completado E para um backup do dia 29, considerando que o backup full ocorreu dia 01? Infraestrutura para BI

76 Métodos de backup Nível de arquivos Nível de imagem ou bloco
Usa o sistema operacional para fazer o backup dos arquivos O Backup é mais longo Fácil de recuperar arquivos únicos Nível de imagem ou bloco Backup no nível de bloco Muito rápido Dificuldade de recuperar arquivos únicos sem acesso aos metadados Nível de aplicação Utiliza uma aplicação específica para executar o backup Infraestrutura para BI

77 Hot Backup Realizado quando dados estão sendo atualizados, adicionados ou lidos por seus usuários, mas não controla transações correntes Somente o sistema de gerenciamento de banco de dados (SGBD) de recursos deve ser usado para fazer backups deste tipo Certifique-se que os backups sejam feitos apenas durante poucas horas de trabalho A indicação deste tipo de Backup é para ambientes onde o banco de dados precisa permanecer online 24 horas por dia e 7 dias por semana não exigem paralisação como os cold backup que são realizados off line Infraestrutura para BI

78 Armazenamento de Backup
Ambiente apropriado Mídias limpas Temperatura adequada Identificação (Data, tipo) Validade das mídias Armazenamento fora de sede Incêndio ou alagamento do CPD Furto ou roubo Inabilidade de acessar as dependências principais do escritório Falha dos sistemas primários de backup Falhas da gravação ou leitura em mídias magnéticas Backup via Rede e/ou Cloud pode ser uma alternativa Infraestrutura para BI

79 Backup Linux Backups locais Backup via rede dump/restore Tar Cpio
rsync Bacula (http://www.bacula.org) Amanda (http://www.amanda.org/) Infraestrutura para BI

80 Backup Windows Outras opções SO possui ferramenta do própria
Já foi problemático Melhorou nas últimas versões do Windows Outras opções SyncBack (http://www.2brightsparks.com/syncback/syncback-hub.html) Cobian (http://www.educ.umu.se/~cobian/cobianbackup.htm) Acronis True Image (http://www.acronis.com/homecomputing/products/trueimage/) Muitas outras... Infraestrutura para BI

81 Camadas de Armazenamento - Overview
6. Aplicações e Banco de Dados 5. Sistema de Arquivos SA locais e de rede (NFS, CIFS) 4. Software RAID e Ger. Volumes RAID HW, SW , níveis 3. Hardware de RAID 2. SAN (Storage Area Network) FC, iSCSI 1. Discos Físicos HDs, DAS e NAS Infraestrutura para BI

82 Parte II – Alta Disponibilidade
Infraestrutura para BI

83 Disponibilidade (Availability)
Disponibilidade é a probabilidade do sistema estar operacional em um instante de tempo determinado Alternância de períodos de funcionamento e reparo Um sistema pode ser altamente disponível mesmo apresentando períodos de inoperabilidade Exemplos de sistemas onde alta disponibilidade é requerida: base de dados on-line servidores de rede servidores de páginas web Infraestrutura para BI

84 Fatores que afetam a disponibilidade
Planejados Backups Upgrade de Hardware e/ou software Manutenção Reconfiguração e realocação Não Planejados Falhas do sistema operacional Falhas de aplicação Falhas no hardware Erros operacionais Desastres Naturais Falta de Energia Ataques (virus, invasões) Fonte: IBM Global Services Infraestrutura para BI

85 Medidas de Disponibilidade
Número de 9’s É a medida do número de noves na expressão de percentagem de tempo de disponibilidade Fonte: Infraestrutura para BI

86 Classes de disponibilidade
Básica: 99% a 99,9% Alta: 99,99% a 99,999% Contínua: 100% Depende das necessidades da organização e de suas aplicação Infraestrutura para BI

87 Implementação Redundância Failover Balanceamento de carga Fontes
Refrigeração Disco (RAID é um exemplo) Etc... Failover Recuperação para manter o serviço no ar Recurso substitui o recurso faltoso automaticamente Balanceamento de carga Infraestrutura para BI

88 Exemplo de servidor com TF
Exemplo de servidor TF Stratus: Outras empresas também possuem servidores HA HP SUN entre outras... Infraestrutura para BI

89 Clusters HA CLUSTER: Conjunto de servidores agrupados com intenção de ganho de desempenho, disponibilidade, ou facilidade no gerenciamento Tipos: Alta disponibilidade Balanceamento de carga Cluster de processamento paralelo Infraestrutura para BI

90 Clusters HA Intenção de manter a maior disponibilidade possível dos serviços, através da duplicação de servidores, ambientes de rede, discos, etc Sistema de monitoração interno no cluster garante que, no caso de falha do servidor ativo, o sistema em standby assumirá os serviços automaticamente Linux: Heartbeat Mon DRBD Infraestrutura para BI

91 Clusters HA - Heartbeat
Núcleo do ambiente de alta disponibilidade Troca de mensagens entre os servidores Gerenciamento de um IP compartilhado entre os nodos Infraestrutura para BI

92 Clusters HA – MON O mon é utilizado para monitorar os serviços locais da máquina e executar uma tarefa caso ocorra algum problema com o serviço monitorado Por exemplo: monitorar o apache e caso o mesmo tenha problemas de requisição, o mon irá derrubar o heartbeat forçando assim a máquina slave a assumir os serviços DRBD: Consiste em um módulo para o kernel Linux que faz o espelhamento dos dados de um dispositivo de bloco Infraestrutura para BI

93 Exemplo de aplicação Implementação de um serviço de diretórios para autenticação de usuários OpenLDAP Heartbeat Mon DRBD Infraestrutura para BI

94 Windows Cluster Failover Clustering in Windows Server - White paper
Infraestrutura para BI

95 Parte III – Virtualização e Nuvens Computacionais
“A realidade demonstrada no relatório do Gartner traz à tona a urgência e a importância de se adotar uma nova infraestrutura e operações tecnológicas, principalmente baseadas em serviços de Cloud Computing e virtualização.” Ione de Almeida Coco - vice-presidente do Programa Executivo Gartner AL. Parte III – Virtualização e Nuvens Computacionais Infraestrutura para BI

96 Virtualização Ideia não é nova: década de 60 mainframes
Década de 80: PC – virtualização em desuso 30 anos depois... Arquitetura X86 Máquinas subutilizadas 10% ou 15% em média Aumento dos custos para infraestrutura física Muitas máquinas: manutenção difícil Hoje: infraestrutura virtualizada máquinas virtuais Hypervisores Infraestrutura para BI

97 Virtualização Infraestrutura para BI

98 Beneficios da Virtualização
Redução na quantidade de hardware físico Economia com energia e refrigeração Poupança de espaço Instalações simplificadas Facilidade para a execução de cópias de segurança Independência de Hardware Disponibilização de novos servidores virtuais (VPS) reduzida para alguns minutos Migração de servidores para novo hardware de forma transparente Maior disponibilidade e mais fácil recuperação de servidores Compatibilidade total com as aplicações Infraestrutura para BI

99 Soluções de Virtualização
VMWare Microsoft HyperV Xen KVM Infraestrutura para BI

100 Virtualização e Computação em Nuvem
Virtualização é fundamental para o conceito de computação em Nuvem Muitos dos conceitos envolvidos na nuvem são derivados ou utilizam conceitos de virtualização Mas afinal... O que é a computação em Nuvem? Infraestrutura para BI


Carregar ppt "Infraestrutura computacional para BI"

Apresentações semelhantes


Anúncios Google