Projeto Big Data sobre Arquiteturas ARM Serviço Federal de Processamento de Dados - SERPRO

Apresentações semelhantes


Apresentação em tema: "Projeto Big Data sobre Arquiteturas ARM Serviço Federal de Processamento de Dados - SERPRO"— Transcrição da apresentação:

1

2 Projeto Big Data sobre Arquiteturas ARM Serviço Federal de Processamento de Dados - SERPRO
Palestrante: Lucas Alberto S. Santos Maio/2016

3 Contexto O Serpro é a maior empresa pública de TI da América Latina, com + de 11 mil funcionários. O Serpro tem larga experiência com Mainframes, DataWare House em SGBDs Oracle e PostgreSQL. O Serpro não tem experiência com arquiteturas distribuídas para alto desempenho. Os custos para investimentos em infraestrutura x86 para Big Data são bastante elevados para a situação atual da empresa. A arquitetura ARM desponta na indústria como uma alternativa viável para computação de alto desempenho econômica. Big Data sobre Arquiteturas ARM

4 Contexto Busca-se alternativas em hardware e software que ofereçam redução de custo por unidade de processamento e armazenamento. A sustentabilidade ambiental da Computação Verde também desejada. Existem diversos produtos ARM para uma gama grande de aplicações, alguns poucos dedicados a atender Big Data. Mas há poucos fornecedores de soluções ARM para Data Centers (appliances, clusters, etc). Big Data sobre Arquiteturas ARM

5 Big Data no Serpro O Serpro está desenvolvendo o Centro de Informações Serpro – CIS [cis.serpro.gov.br]. Projeto de longo prazo (até 2022) que objetiva consolidar um centro de informações estratégicas dentro do governo federal. O CIS utiliza Big Data para oferecer informações (cruas e analíticas) para o governo, mercado e sociedade. Ainda estamos nos primeiros passos em Big Data Analytics, com processamento de dados não- estruturados, criação de um DataLake e planejamento de experimentos em escala Petabyte. Mas há poucos Cientistas de Dados dentro da empresa. Big Data sobre Arquiteturas ARM

6 Big Data no Serpro O ecossistema Hadoop é uma tecnologia analítica Big Data que o Serpro tem interesse em investir a médio prazo. O 1º produto comercial é baseado no Apache Solr e HDFS para armazenamento e indexação de coleções de dados crus. Já há uma demanda de cliente de governo para análise de 210 Teras (9 bilhões de registros) de arquivos de Nota Fiscal Eletrônica. Não há recursos computacionais suficientes dentro do Serpro para suportar escala Petabyte. Cooperação com Universidades estão sendo buscadas para estudos sobre Big Data em contextos de e- government. Big Data sobre Arquiteturas ARM

7 Pesquisa de Arquiteturas Alternativas
O elevado custo para se atingir a escala Big Data motivou o Serpro a criar um projeto de pesquisa sobre arquiteturas alternativas. O projeto mais amplo envolve: - estudo sobre a evolução dos custos de processamento e armazenamento e consumo de energia em arquiteturas tradicionais; - estudo comparativo de arquiteturas: inovações em System on Chip (SoC) e processadores ARM (Advanced Risc Machines); - simulação de Hadoop sobre arquiteturas ARM de mercado, para estudos de viabilidade; - aquisição de placas promissoras e construção de testbed; - desenvolvimento de um modelo de computação distribuída baseado nos resultados das pesquisas; Big Data sobre Arquiteturas ARM

8 Simulação de Big Data sobre ARM
Busca-se o caminho da simulação para viabilizar a criação de um testbed. Possibilita o estudo da viabilidade de uma arquitetura distribuída para cenários de Big Data Analytics. Tomou-se conhecimento sobre a existência do simulador MRSG (MapReduce over SimGrid). Big Data sobre Arquiteturas ARM

9 Temas de Pesquisas Temas para Trabalho Final de Conclusão de Curso, Bolsista ou Mestrado: Revisão literatura de Big Data sobre ARM e outras arquiteturas “não-tradicionais”; Adaptações do simulador MRSG para ARM; Simulação Hadoop em escala Petabyte; Estudo de caso de aplicação real do Serpro com MRSG; Adaptação MRSG para simular consumo energético; Implementação SimGrid para outros modelos: Solr (busca), Flink, Spark; Simulação ARM e validação com Hadoop em cluster Raspberry PI (pequeno investimento); Pesquisa de aplicações Big Data para governo eletrônico. Big Data sobre Arquiteturas ARM

10 Simulação de Big Data sobre ARM
Como calibrar o simulador para um hardware do qual se conhecem apenas as especificações técnicas? Parâmetros dos experimentos: calibração para placas ARM de mercado (?) número de nós infra de rede do cluster cargas a serem simuladas (até 1.5 Peta) modelo de distribuição de dados (1 Tera por nodo?) dinâmica da aplicação MapReduce Verificar a escalabilidade do cluster para variações dos parâmetros da simulação. Análise de viabilidade da arquitetura X para a aplicação Y. Big Data sobre Arquiteturas ARM

11 Soluções ARM para DataCenters
HP ProLiant m400 Server Cartridge Utiliza placas Applied Micro X-Gene ARMv8 64 bits 8 cores a 2.5GHz 4 x 40Gbps 64GB of DDR3 Ubuntu for 64-bit ARM Bem sucedido com Spark: GigaByte R120-T30 - 1U ARM Rackmount Server 1 x Cavium ThunderX 64bit ARMv8 48 cores per processor a 2.0GHz até 1TB DDR4 4 x 10Gbps RHEL, Ubuntu, Fedora, CentOS (versões para ARMs) Big Data sobre Arquiteturas ARM

12 Parceria com o GPPD UFRGS
O Serpro tem uma política de cooperação com Universidades. O Serpro já possui uma relação formal com a UFMG na área de Data Mining e com a Unicamp em de laboratório compartilhado de computação distribuída (equipamentos doados). Outras parcerias com grupos de pesquisa estão sendo firmadas. A empresa atualmente pode oferecer dedicação de técnicos qualificados e, sobretudo, estudos de caso reais para argumento de pesquisas em computação aplicada. É possível a participação do Serpro como interveniente na qualificação de projetos conjuntos de P&D junto às agências de fomento. O Serpro está iniciando envolvimento com atores estatais sobre o tema Smart Cities. Que tipo de parceria podemos construir com o GPPD? Big Data sobre Arquiteturas ARM

13 Obrigado Lucas Alberto S. Santos SERPRO - CEIIG


Carregar ppt "Projeto Big Data sobre Arquiteturas ARM Serviço Federal de Processamento de Dados - SERPRO"

Apresentações semelhantes


Anúncios Google