Como funciona o MapReduce

Slides:

Advertisements

Apresentações semelhantes

MapReduce Conceitos e Aplicações

Advertisements

6. Andando na Superfície de Resposta Técnica de otimização baseada em planejamentos fatoriais Etapas distintas: Modelagem e deslocamento Modelagem: ajuste.

Prof. Paulo Barreto O hardware são as partes concretas de uma máquina, como o gabinete, o teclado, o mouse, a impressora, o disco.

As escalas de Proficiência do PISA Material do Curso: Avaliação educacional em larga escala: O PISA no Brasil Autor: Lenice Medeiros Pesquisador-Tecnologista.

Análise Desenvolvimento/Testes Entrega Suporte. Nome da atividade Análise de Negócio Fase Análise Finalidade Esta atividade tem por finalidade analisar.

FERRAMENTA PARA COMPARAÇÃO DA APLICABILIDADE DA XBRL Rosane Aparecida Braz Orientador: Wilson Pedro Carli.

Linguagem Lógico-Funcional Curry Gabriel Cardoso Jeferson Rubert

FUNDAÇÃO UNIVERSIDADE FEDERAL DE RONDONIA CAMPUS DE PRESIDENTE MÉDICI Curso: ENGENHARIA DE PESCA E AQUICULTURA Disciplina: INTRODUÇÃO À COMPUTAÇÃO E INFORMÁTICA.

Introdução e Conceitos.

CÁLCULO NUMÉRICO Aula 2 – Introdução ao Programa de Computação Numérica (PCN) e Teoria dos Erros.

ESTRATEGIA EMPRESARIAL AVALIAÇÃO DAS CAPACIDADES INTERNAS 3ª parte

Externalidades: falha de mercado

Introdução Os pesquisadores através da mensuração descrevem fenómenos que existem no mundo empresarial em termos de por exemplo, demografia, comportamento,

O Controlo de Gestão e a Situação do SMIGESPT

TUTORIAL FRAMEWORK SPRING.

Redes Neurais Artificiais

Título do projeto Nomes dos autores Local e Data

Montes Claros, 12 a 15 de Outubro 2016

Seleção de Atributos.

ENGENHARIA DE PRODUÇÃO

O que é um banco de dados? Antes precisamos entender o que são dados.

Tema 5 – Arquitetura de Banco de Dados

PLANEJAMENTO ESTRATÉGICO DE NEGÓCIOS

ALGEBRA LINEAR AUTOVALORES E AUTOVETORES Prof. Ademilson

Planejamento de estratégias:

SISTEMAS OPERACIONAIS

Algoritmos e Fluxogramas

Mestrado em Engenharia de Computação área de concentração Geomática

Arquitetura de Computadores

PPGT Aluno: Arthur Neiva Fernandes Disciplina: Prática Científica

TEORIA DA PRODUÇÃO E CUSTOS

Métodos Quantitativos Avançados

Parte III – Planejando o Projeto

INTRODUÇÃO À COMPUTAÇÃO PARALELA

CES-11 ALGORITMOS E ESTRUTURAS DE DADOS

Daniel Paulo SQL Server 2016 Módulo II Daniel Paulo

Estrutura de Repetição

Arranjo Físico Celular

Luis Fernando Fachinelli Caique Maciel

Trabalho realizado: Inês Pereira nº11 Ernesto Cunha nº18

14/08/2012 Professor Leomir J. Borba- –

Curso Técnico em Informática

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE AULA 8

MICROECONOMIA Aula 6 – Análise da Teoria da Produção.

Sistema Parametrizável de Pesquisa 

Sistemas Operacionais

Complexidade de Algoritmos

Armando Castelar Pinheiro IBRE/FGV -- IE/UFRJ

Integração de Informações, Gerência de Armazenamento e Otimizações em Aplicações Não Convencionais Projeto de Pesquisa DIA/UNIRIO Fernanda Baião

DHD – Desenvolvimento em Hardware

Computação e Informática

FUNDAMENTOS DA GESTÃO DE PROCESSOS Business Process Modeling Notation

Como Investigar um Acidente de Trabalho

Manuais Administrativos

Mestrado Profissional em Física Médica

PROJETO FATORIAL 23 Considere que três fatores A, B e C, cada um em dois níveis O projeto experimental é denominado projeto fatorial 23 Oito combinações.

TEORIA E CUSTOS DE PRODUÇÃO

SISTEMAS DISTRIBUIDOS

SISTEMAS DISTRIBUIDOS

MAPREDUCE. Histórico, motivação e cenário Grande quantidade de dados criou uma necessidade de maior poder computacional; Impossibilidade de aumentar a.

SISTEMAS DISTRIBUIDOS

O mundo além do processamento de jogos.

Dicas para um bom PITCH Deu Certo

Dicas para um bom PITCH Deu Certo Cultura da Inovação Brasil

SISTEMAS DISTRIBUIDOS

Formulários OSM Ariana Barra.

Sistemas de Informação

Transcrição da apresentação:

Como funciona o MapReduce

E para compreender como é feito o processamento, a análise e o armazenamento de grandes quantidade de dados, é importante conhecer o MapReduce, um modelo de programação criado pelo Google. Hoje, ele é utilizado em várias aplicações e em empresas de todo tipo de setor, inclusive grandes companhias de tecnologia como Yahoo!, Amazon Web Services (AWS), Intel, Microsoft e IBM. MapReduce

Para entender o conceito do MapReduce Uma analogia que ajuda a entender tanto o conceito do MapReduce, quanto da computação paralela é imaginar que existe uma tarefa: contar o número de laranjas maduras em um cesto muito grande. No método tradicional em que uma pessoa faz tudo, ela levaria muito tempo para contar as laranjas. Tanto tempo que, ao terminar o trabalho, outras laranjas teriam amadurecido no cesto. Para entender o conceito do MapReduce

No modelo do MapReduce, um coordenador responsável pela tarefa pode dividir as laranjas em 20 cestos. Por exemplo, e vinte pessoas contam o que há em cada um deles e entregam o resultado de laranjas maduras em menor tempo. Cabe então ao coordenador reduzir os vinte resultados em apenas uma saída e somar os valores retornados pelos contadores. MapReduce

Se alguma pessoa não comparecer, a tarefa é redistribuída entre os presentes e continua sem nenhuma perda de informação ou performance, o que representa a tolerância a falhas do MapReduce. MapReduce

Como o próprio nome revela, o MapReduce é baseado nas funções Map() e Reduce(). Sua operação se divide em duas etapas: Na primeira fase, chamada de Map (mapeamento), os dados são separados em pares de chave e valor, divididos em fragmentos (cestos) e distribuídos para os nodes (pessoas), onde serão processados (contadas). Fase 1: Mapeamento

Depois disso, pode ocorrer outras fases, por exemplo, Shuffle. Essa fase agrupa os dados intermediários pela chave e produz um conjunto de tuplas (k2, list(v2)). Assim todos os valores associados a uma determinada chave serão agrupados em uma lista. Após essa fase intermediária, o arcabouço também se encarrega de dividir e replicar os conjuntos de tuplas para as tarefas Reduce que serão executadas. Fase 2: Shuffle

A etapa de Reduce (redução), que é a combinação dos processamentos dos nodes por um master node. É ele que entregará uma resposta única à requisição realizada pelo usuário. Fase 3 Reduce

Tolerância a Falhas em Haddop A tolerância a falhas mencionada anteriormente aparece aqui. Caso um sistema ou disco de armazenamento falhe por algum motivo, a tarefa é redistribuída pelo master node e não há perda significativa de dados ou de performance no processo. Tolerância a Falhas em Haddop

Por que utilizar o MapReduce para analisar dados em larga escala? Uma das vantagens do paradigma do MapReduce é a velocidade da análise dos dados. Em ferramentas tradicionais de processamento de dados, é comum que eles sejam movidos do armazenamento para o processamento, o que é lento e inviável para grandes volumes. Por que utilizar o MapReduce para analisar dados em larga escala?

Por que utilizar o MapReduce para analisar dados em larga escala? Outra vantagem é que, como o processamento é paralelo e fragmentado, pode acontecer mesmo em clusters de máquinas com configurações modestas – não é preciso ter um supercomputador. Por que utilizar o MapReduce para analisar dados em larga escala?

Por que utilizar o MapReduce para analisar dados em larga escala? Por essa razão, o MapReduce toma o caminho oposto e leva o processamento para os locais em que os dados estão armazenados, o que traz mais agilidade e eficiência à análise. Por que utilizar o MapReduce para analisar dados em larga escala?

Por que utilizar o MapReduce para analisar dados em larga escala? O MapReduce também é relativamente simples e tem uma boa curva de aprendizado, mesmo quando comparado com outras soluções adotadas para lidar com big data, como o Spark ou o Mesos. Essa facilidade de utilização e implementação, em grande parte graças ao alto engajamento da comunidade de Hadoop, se reflete na adoção maior desse modelo de programação. Por que utilizar o MapReduce para analisar dados em larga escala?

Essa técnica não só reduz riscos de perda de dados devido a falhas das máquinas como também facilita a combinação das informações processadas pelos diversos equipamentos em uma única resposta. A importância de big data para os negócios. MapReduce

Hadoop se aplica a Big Data No trabalho de um cientista de dados, muitas vezes, é preciso lidar com Big Data, nome dado aos conjuntos de dados que, devido ao seu volume ou complexidade, não podem ser processados por ferramentas tradicionais. Big Data pode ser resolvido com Hadoop. Hadoop se aplica a Big Data

Data Mining consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e/ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo ou definição do padrão e validação/verificação. Data Mining se beneficia com Hadoop. Data Mining

Hadoop se aplica a Data Mining

The Basic of MapReduce Video in https://youtu.be/gI4HN0JhPmo MapReduce

No Hadoop, o resultado final é escrito em HDFS (Hadoop Distributed File System), o sistema de arquivos da plataforma que lida com grandes volumes de dados.