Gerência de Dados na Web: Especial Big Data

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

Software Básico Silvio Fernandes
A busca das mulheres para alcançar seu espaço dentro das organizações
SBC Women in Information Technology Gender and regional differences in Brazil: do they really exist? Janne Oeiras Universidade Federal do Pará
Operadores e Funções do LINGO
Curso de ADMINISTRAÇÃO
Introdução à Informática
ArchC: Uma linguagem de descrição de arquiteturas
Arquiteturas Diferentes
1 Data Integration in a Bandwidth-Rich World Ian Foster and Robert L. Grossman Universidade Federal Fluminense Doutorado em Computação – Engenharia de.
Mineração de Dados ou Descoberta de conhecimento em BDs
GHHITS – Mining the Web Link Structure Universidade Federal de Pernambuco Centro de Informática Roberta Coelho Silvio Meira.
Dissertação de Mestrado Michel Alain Quintana Truyenque
Francieli Zanon Boito Rodrigo Virote Kassick
Maria Aparecida Castro Livi
Introdução à Programação Fundamentos da Computação Prof. Filipo Studzinski Perotto 2009.
Capítulo 6 Sistemas de Arquivos 6.1 Arquivos 6.2 Diretórios
Universidade Federal de Minas Gerais
-- PNOTA -- Uma Aplicação para Correção Assistida de Questões Discursivas Filipe Wall Mutz.
COMODATO – SEM PACOTE DE INTERNET Aparelhos: Linha nova e troca COMODATO – SEM PACOTE DE INTERNET Aparelhos: Linha nova e troca Pont.: 0,7 Dual Band Câmera.
Portfólio COMODATO – Junho – SEM PACOTE DE INTERNET
Candybar Câmera Dual Band Câmera VGA Bluetooth Toques MP3 Downloads Rádio FM público copyright©vivo2008 Dual Band Câmera VGA Radio FM Toques MP3 Slot P/cartão.
COMODATO – SEM PACOTE DE INTERNET Aparelhos: Linha nova e troca
Aula 4 Nomes, Vinculações, Tipos e Escopos
Integrando Textura e Forma para a Recuperação de Imagens por Conteúdo
Registro Eletrônico para Acompanhamento Médico de Pacientes em uma UTI Rafael Charnovscki (1), Jacques R. Nascimento Filho (2,3) Giancarlo Bianchin.
Experiments with Strassen’s Algorithm: from sequential to parallel
Instruções aos autores: conteúdo e importância para a
Faculdade Anhanguera de Valinhos
Visão Geral de Equipamentos de Rede
Instituto de Geociências Universidade Federal de Minas Gerais
Semana de Informática 2011 – IFAM Parintins
Produtos e Serviços Telefonia Móvel e Banda Larga Móvel Setembro/2013
Visão Geral de Equipamentos de Rede
Renda até 2 SM.
Portfólio Julho/2012 Apresentação dos Terminais do mês
Plano corporativo de telefonia - Tarifas
APRESENTA!. APRESENTA! Esta Campanha tem o apoio do grupo BMG Campanha válida de 01/01/2014 a 30/06/2014 – Vide regulamento.
Sistemas Operacionais
Cicília Raquel Maia Leite –
Samsung S3 Publicidade e Propaganda: conceitos e categorias
Hardware questions Um jogo produzido por Bruno Mota, com objetivo de desenvolver o conhecimento de crianças e idosos que desejam aprender sobre computadores,
Bolha Posição de máx. W2 Ponto de Estagnação
PROCESSOS PRINCIPAIS Alunos - Grau de Satisfação 4971 avaliações * Questões que entraram em vigor em 2011 ** N.A. = Não Aplicável Versão: 07/02/2012 INDICADORES.
Suellen Silva de Almeida Victor Hugo Cunha de Melo David Menotti
Rodolpho Carvalho Cezar 1PPManhã
VI e-Science XXXII Congresso da Sociedade Brasileira de Computação (CSBC) BIOPEN MANAGER FERRAMENTA COMPUTACIONAL PARA COLETA E ANÁLISE DE DADOS LABORATORIAIS.
Sistemas Operacionais
WEBSAÚDE Controle de Consultas Um novo conceito em Saúde Pública
Tributação da Exportação nas Empresas optantes pelo Simples Nacional
APARELHO NOKIA 1680 Características Relevantes para o Corporativo - Tri Band Digital GSM 850/900/1800 MHz - Câmera digital VGA integrada - Download de.
MapReduce Conceitos e Aplicações
Especialmente projetado para atingir as pessoas que gostam de tecnologia, designs arrojados, diferenciados e que assegurem praticidade.
Persistência em Software Orientado a Objetos:
Portfólio de Aparelhos
Cesar Lima José Francisco
Projeto de Banco de Dados
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Recuperação de Informação
Olhe fixamente para a Bruxa Nariguda
Pré –requisitos para gerar o EFD – SPED PIS/COFINS
1 INSTITUTO FEDERAL DE EDUCAÇÃO CIÊNCIA E TECNOLOGIA Arquitetura de Computadores Campus Santo Amaro TEGRA 2 Graduandos:  Angelo Ramos  Jackeline Barbosa.
Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos.
CURSO DE INFORMÁTICA MÓDULO BÁSICO.
Filtragem de Informação
1 Edgar Marçal de Barros Filho Orientador: Riverson Rios Co-Orientadora: Rossana Andrade Aprendizagem utilizando Dispositivos Móveis com Sistemas de Realidade.
0 TLCne P0 Sales Business ONDA N235 – DUAL CHIP Frequência: Quad Band Câmera 2.0 MP EDGE Bluetooth Toques MP3 Gravação e reprodução de vídeo.
ARQUITETURA WEB SERVICE TGM
Indexação automática de documentos utilizando técnicas de mineração de textos Trabalho de conclusão de curso Fabio Montefuscolo Rafael Câmara.
Temas de Pesquisa para 2016 Prof. Elvis Fusco. Data Science e Big Data Analytics Estudo e aplicações do conceito de Data Science no desenvolvimento de.
Transcrição da apresentação:

Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Roteiro Introdução Motivação ONDUX ONDUXHadoop Resultados Obtidos Conclusão Hands on

Introdução Abundância de registros não estruturados na Web em forma textual. Endereços postais. Citações Científicas. Anúncios de Imóveis. Artigos Científicos. Ofertas de produtos. Etc…

Desafios Enorme quantidade de dados Dados semi-estruturados Domínios diversificados Grande esforço humano

Pra que extrair isso tudo??

Motivação Informações Textuais Ricas de informações e não estruturadas Necessidade de recuperar informações Estruturar em bancos de dados Mineração de Dados. Comparação de Registros. Filtros Consulta complexas

Como extrair? ONDUX(Cortez@SIGMOD`10) Método de extração de informação Segmentação do texto. Método probabilístico. Utiliza Base de Conhecimento.

ONDUX Entradas Registros que se deseja classificar. Base de Conhecimento. Saídas Registros rotulados. Possibilidade de armazenamento em arquivos estruturados(CSV e XML).

Exemplo de registro Smartphone Moto G Colors Edition Dual Chip Desbloqueado 3G Câmera 5MP 16GB Android 4.3 R$ 799,00 Smartphone Dual Chip Samsung Galaxy Trend Lite Duos Desbloqueado Branco Android 4.1 3G/Wi-Fi Câmera 3MP R$ 579,00 Smartphone Nokia Lumia 520 Desbloqueado TIM Preto Windows Phone 8 Câmera 5MP 3G Wi-Fi Memória Interna 8G GPS R$ 499,00 Smartphone Samsung Galaxy S4 Zoom Preto Android 4.2 3G Desbloqueado - Câmera 16MP Câmera Wi-Fi GPS Memória 8GB R$ 1.499,00

Exemplo de Base de Conhecimento XML Par (Atributo, Exemplo de Valor) <outros> Conectividade USB Bluetooth 4.0 Wi-Fi 802.11 bgn </outros> <processador> Processador Single Core </processador> <processador> Quad Core </processador> <sistema_operacional> Android 4.3 </sistema_operacional> <modelo> Galaxy SIII I9300 </modelo> <modelo> Optimus Hub E510 </modelo> <cor> Preto </cor> <marca> Nokia </marca> <marca> LG </marca>

Funcionamento

Blocking Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00 Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13MP Wi-Fi 4G Por: R$ 2.899,00

Matching Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00 Categoria Marca Modelo Cor Smartphone Samsung Galaxy Note III Branco ??? Câmera Processador Android 4.3 Câmera de 13MP Quad Core Outros ??? Preço 4G Wi-Fi Por: R$ 2.899,00

PSM Início Cor Marca Modelo Categoria Processador Câmera ??? Fim Preço 65% 35% 57% Início 12% Cor Marca 90% 90% Modelo Categoria 82% 13% 45% 55% 17% 21% Processador 9% Câmera ??? 78% 55% Fim 44% 67% 94% Preço 98% 35% Outros 8%

Reinforcement Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00 Categoria Marca Modelo Cor Smartphone Samsung Galaxy Note III Branco SO Câmera Processador Android 4.3 Câmera de 13MP Quad Core Outros Outros Preço 4G Wi-Fi Por: R$ 2.899,00

ONDUX Hadoop Possibilidade de utilizar BigData Melhoria na extração de dados Foco na etapa Matching e Reinforcement Geração de blocos Detectar Ambiguidade PSM sem ruídos

ONDUX Hadoop Hadoop Single Node Versão 1.2.1 Framework MapReduce Entrada: Blocos rotulados Saída: Montagem de registros filtrados

ONDUX Hadoop Matching gera entrada do Hadoop smartphone-categoria-0-1:0 android 41-sistema_operacional-4-0.81:0 3g-atributos-1-0.51:1 proc quad core-processador-10-0.75:1 … valorBloco – atributo – posição – score : id_registro

MapReduce MAP IDRegistro : quádrupla Reduce ID Registro : Registro Filtrado Gera registro sem unmatch e maior que limiar(0.15) Remove ruídos no PSM

ONDUXHadoop ONDUX Dados Extraídos

MapReduce Reduce

Avaliação 51 registros modificados como novo PSM Total de 164 rotulações 82 blocos por implementação Avaliação Manual Ganho de 65%! Implementação Corretos Errados Normal 7 75 Hadoop 20 62

Trabalhos Futuros Gerar mais de um bloco por termo para detectar ambiguidades Construir vários PSM`s e utilizar um classificador capaz de escolher o melhor grafo para um registro específico. Realizar mais experimentos de acordo com a variação de limar e comparação de desempenho Desenvolver Matching dentro do Hadoop

Conclusão Grandes possibilidades de melhoria do ONDUX PSM sem ruído consegue melhorar a extração de dados Implementação em Hadoop possibilita utilização em grande escala de dados

Obrigado.

Hands On