Como funciona o MapReduce

Slides:



Advertisements
Apresentações semelhantes
MapReduce Conceitos e Aplicações
Advertisements

6. Andando na Superfície de Resposta Técnica de otimização baseada em planejamentos fatoriais Etapas distintas: Modelagem e deslocamento Modelagem: ajuste.
Prof. Paulo Barreto O hardware são as partes concretas de uma máquina, como o gabinete, o teclado, o mouse, a impressora, o disco.
As escalas de Proficiência do PISA Material do Curso: Avaliação educacional em larga escala: O PISA no Brasil Autor: Lenice Medeiros Pesquisador-Tecnologista.
Análise Desenvolvimento/Testes Entrega Suporte. Nome da atividade Análise de Negócio Fase Análise Finalidade Esta atividade tem por finalidade analisar.
FERRAMENTA PARA COMPARAÇÃO DA APLICABILIDADE DA XBRL Rosane Aparecida Braz Orientador: Wilson Pedro Carli.
Linguagem Lógico-Funcional Curry Gabriel Cardoso Jeferson Rubert
FUNDAÇÃO UNIVERSIDADE FEDERAL DE RONDONIA CAMPUS DE PRESIDENTE MÉDICI Curso: ENGENHARIA DE PESCA E AQUICULTURA Disciplina: INTRODUÇÃO À COMPUTAÇÃO E INFORMÁTICA.

Introdução e Conceitos.
AKKA.
CÁLCULO NUMÉRICO Aula 2 – Introdução ao Programa de Computação Numérica (PCN) e Teoria dos Erros.
ESTRATEGIA EMPRESARIAL AVALIAÇÃO DAS CAPACIDADES INTERNAS 3ª parte
Externalidades: falha de mercado
Introdução Os pesquisadores através da mensuração descrevem fenómenos que existem no mundo empresarial em termos de por exemplo, demografia, comportamento,
O Controlo de Gestão e a Situação do SMIGESPT
TUTORIAL FRAMEWORK SPRING.
Redes Neurais Artificiais
Título do projeto Nomes dos autores Local e Data
Montes Claros, 12 a 15 de Outubro 2016
Seleção de Atributos.
ENGENHARIA DE PRODUÇÃO
O que é um banco de dados? Antes precisamos entender o que são dados.
Tema 5 – Arquitetura de Banco de Dados
PLANEJAMENTO ESTRATÉGICO DE NEGÓCIOS
ALGEBRA LINEAR AUTOVALORES E AUTOVETORES Prof. Ademilson
Planejamento de estratégias:
SISTEMAS OPERACIONAIS
Algoritmos e Fluxogramas
Mestrado em Engenharia de Computação área de concentração Geomática
Arquitetura de Computadores
PPGT Aluno: Arthur Neiva Fernandes Disciplina: Prática Científica
TEORIA DA PRODUÇÃO E CUSTOS
Métodos Quantitativos Avançados
Parte III – Planejando o Projeto
INTRODUÇÃO À COMPUTAÇÃO PARALELA
CES-11 ALGORITMOS E ESTRUTURAS DE DADOS
Daniel Paulo SQL Server 2016 Módulo II Daniel Paulo
Estrutura de Repetição
Arranjo Físico Celular
Luis Fernando Fachinelli Caique Maciel
Programação.
Trabalho realizado: Inês Pereira nº11 Ernesto Cunha nº18
14/08/2012 Professor Leomir J. Borba- –
Curso Técnico em Informática
PROCESSO DE DESENVOLVIMENTO DE SOFTWARE AULA 8
MICROECONOMIA Aula 6 – Análise da Teoria da Produção.
Sistema Parametrizável de Pesquisa 
Sistemas Operacionais
Complexidade de Algoritmos
Armando Castelar Pinheiro IBRE/FGV -- IE/UFRJ
Integração de Informações, Gerência de Armazenamento e Otimizações em Aplicações Não Convencionais Projeto de Pesquisa DIA/UNIRIO Fernanda Baião
DHD – Desenvolvimento em Hardware
Computação e Informática
FUNDAMENTOS DA GESTÃO DE PROCESSOS Business Process Modeling Notation
Como Investigar um Acidente de Trabalho
Manuais Administrativos
Mestrado Profissional em Física Médica
PROJETO FATORIAL 23 Considere que três fatores A, B e C, cada um em dois níveis O projeto experimental é denominado projeto fatorial 23 Oito combinações.
TEORIA E CUSTOS DE PRODUÇÃO
SISTEMAS DISTRIBUIDOS
SISTEMAS DISTRIBUIDOS
MAPREDUCE. Histórico, motivação e cenário Grande quantidade de dados criou uma necessidade de maior poder computacional; Impossibilidade de aumentar a.
SISTEMAS DISTRIBUIDOS
O mundo além do processamento de jogos.
Dicas para um bom PITCH Deu Certo
Dicas para um bom PITCH Deu Certo Cultura da Inovação Brasil
SISTEMAS DISTRIBUIDOS
Formulários OSM Ariana Barra.
Sistemas de Informação
Transcrição da apresentação:

Como funciona o MapReduce

E para compreender como é feito o processamento, a análise e o armazenamento de grandes quantidade de dados, é importante conhecer o MapReduce, um modelo de programação criado pelo Google. Hoje, ele é utilizado em várias aplicações e em empresas de todo tipo de setor, inclusive grandes companhias de tecnologia como Yahoo!, Amazon Web Services (AWS), Intel, Microsoft e IBM. MapReduce

Para entender o conceito do MapReduce Uma analogia que ajuda a entender tanto o conceito do MapReduce, quanto da computação paralela é imaginar que existe uma tarefa: contar o número de laranjas maduras em um cesto muito grande. No método tradicional em que uma pessoa faz tudo, ela levaria muito tempo para contar as laranjas. Tanto tempo que, ao terminar o trabalho, outras laranjas teriam amadurecido no cesto. Para entender o conceito do MapReduce

No modelo do MapReduce, um coordenador responsável pela tarefa pode dividir as laranjas em 20 cestos. Por exemplo, e vinte pessoas contam o que há em cada um deles e entregam o resultado de laranjas maduras em menor tempo. Cabe então ao coordenador reduzir os vinte resultados em apenas uma saída e somar os valores retornados pelos contadores. MapReduce

Se alguma pessoa não comparecer, a tarefa é redistribuída entre os presentes e continua sem nenhuma perda de informação ou performance, o que representa a tolerância a falhas do MapReduce. MapReduce

Como o próprio nome revela, o MapReduce é baseado nas funções Map() e Reduce(). Sua operação se divide em duas etapas: Na primeira fase, chamada de Map (mapeamento), os dados são separados em pares de chave e valor, divididos em fragmentos (cestos) e distribuídos para os nodes (pessoas), onde serão processados (contadas). Fase 1: Mapeamento

Depois disso, pode ocorrer outras fases, por exemplo, Shuffle. Essa fase agrupa os dados intermediários pela chave e produz um conjunto de tuplas (k2, list(v2)). Assim todos os valores associados a uma determinada chave serão agrupados em uma lista. Após essa fase intermediária, o arcabouço também se encarrega de dividir e replicar os conjuntos de tuplas para as tarefas Reduce que serão executadas. Fase 2: Shuffle

A etapa de Reduce (redução), que é a combinação dos processamentos dos nodes por um master node. É ele que entregará uma resposta única à requisição realizada pelo usuário. Fase 3 Reduce

Tolerância a Falhas em Haddop A tolerância a falhas mencionada anteriormente aparece aqui. Caso um sistema ou disco de armazenamento falhe por algum motivo, a tarefa é redistribuída pelo master node e não há perda significativa de dados ou de performance no processo. Tolerância a Falhas em Haddop

Por que utilizar o MapReduce para analisar dados em larga escala? Uma das vantagens do paradigma do MapReduce é a velocidade da análise dos dados. Em ferramentas tradicionais de processamento de dados, é comum que eles sejam movidos do armazenamento para o processamento, o que é lento e inviável para grandes volumes. Por que utilizar o MapReduce para analisar dados em larga escala?

Por que utilizar o MapReduce para analisar dados em larga escala? Outra vantagem é que, como o processamento é paralelo e fragmentado, pode acontecer mesmo em clusters de máquinas com configurações modestas – não é preciso ter um supercomputador. Por que utilizar o MapReduce para analisar dados em larga escala?

Por que utilizar o MapReduce para analisar dados em larga escala? Por essa razão, o MapReduce toma o caminho oposto e leva o processamento para os locais em que os dados estão armazenados, o que traz mais agilidade e eficiência à análise. Por que utilizar o MapReduce para analisar dados em larga escala?

Por que utilizar o MapReduce para analisar dados em larga escala? O MapReduce também é relativamente simples e tem uma boa curva de aprendizado, mesmo quando comparado com outras soluções adotadas para lidar com big data, como o Spark ou o Mesos. Essa facilidade de utilização e implementação, em grande parte graças ao alto engajamento da comunidade de Hadoop, se reflete na adoção maior desse modelo de programação. Por que utilizar o MapReduce para analisar dados em larga escala?

Essa técnica não só reduz riscos de perda de dados devido a falhas das máquinas como também facilita a combinação das informações processadas pelos diversos equipamentos em uma única resposta. A importância de big data para os negócios. MapReduce

Hadoop se aplica a Big Data No trabalho de um cientista de dados, muitas vezes, é preciso lidar com Big Data, nome dado aos conjuntos de dados que, devido ao seu volume ou complexidade, não podem ser processados por ferramentas tradicionais. Big Data pode ser resolvido com Hadoop. Hadoop se aplica a Big Data

Data Mining consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e/ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo ou definição do padrão e validação/verificação. Data Mining se beneficia com Hadoop. Data Mining

Hadoop se aplica a Data Mining

The Basic of MapReduce Video in https://youtu.be/gI4HN0JhPmo MapReduce

No Hadoop, o resultado final é escrito em HDFS (Hadoop Distributed File System), o sistema de arquivos da plataforma que lida com grandes volumes de dados.