Mineração de Dados: caso da editora E-papers

Slides:

Advertisements

Apresentações semelhantes

Como se familiarizar com seu banco de dados usando o SPSS

Advertisements

Tipos de Indicadores Por Carlos Reis.

Estatística amintas paiva afonso.

Estatística amintas paiva afonso.

CAPÍTULO 7 TESTE DE HIPÓTESE

Como criar avisos de revista científica e pesquisa

INTELIGÊNGIA COMPUTACIONAL

ANÁLISE DISCRIMINANTE LIG, 18 de novembro de 2008.

2 Marcelo Marinho DRE: Mariana Belmar DRE:

CAPÍTULO 7 TESTE DE HIPÓTESE

Lógica Fuzzy Aplicada a Sistemas de Diagnóstico

Prof. Esp. Mick Lennon Machado

Felipe Carvalho – UFES 2009/2

FINANÇAS EM PROJETOS DE TI

A razão como comparação

1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (

Testes de Troca de Arquivos no Bacen Jud 2.0

Estatística Básica Utilizando o Excel

Sistemas Operacionais Planejamento de Experimento

Avaliação de Desempenho Planejamento de Experimentos 1

MEDIDAS E INCERTEZAS O Que é Medição?

A FAST APRIORI implementation

Como se familiarizar com seu banco de dados Como se familiarizar com seu banco de dados usando o SPSS Profa. Suzi Camey Depto de Estatística - UFRGS.

Estatística Aplicada (Aula 4)

Emitindo seu Certificado Digital

Jackson D. N. Mourão Pietrângelo V. Ferronato

Engenharia de Requisitos Requisito – sistema Caso de uso - usuário

Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,

Desenvolvimento de PROJETOS.

Gerenciamento de Frota de Veículos

Tutorial para EDITORES DE SEÇÃO

Grupo de Trabalho Tabulação Vera Marchesi - Gerente de Qualidade IBOPE Media Information Novembro de 2005.

II. M o d e l o s d e C o n h e c i m e n t o

Inteligência Artificial Redes Neurias

Marco Antonio Montebello Júnior

Gerenciamento de Controle de Combustível

Financeiro - Cadastro de Conta Contábil

Excel Bares 2006 A Soluções Simples, devido à grande procura por soluções administrativas mais compactas, desenvolveu um modelo de planilhas em Excel*

Análise de Sistemas Análise e Projeto Prof. Jeime Nunes Site:

Módulo Financeiro Centro de Custo.

OPERAÇÕES COM CONJUNTOS

Tecnólogo em Analise e Desenvolvimento de Sistemas - Faculdade de Tecnologia SENAC De Roger Ferreira Memórias e suas características,

Gráfico de Pareto O termo Gráfico de Pareto ficou conhecido depois que Juran começou a utilizá-lo. O nome se originou no trabalho de Vilfredo Pareto, durante.

Avaliação da Viabilidade Econômico-Financeira em Projetos

Sistema Recomendador para Comércio Eletrônico

Treinamento do Microsoft® Access® 2010

Custeio Variável Prof. Carlos Alexandre.

ICPP – Intel Channel Partner Program. O que é? O ICPP é o programa de Canal da Intel mais conhecido como o antigo IPI. Simplificando, o ICPP é o Programa.

OBSERVAÇÕES GERAIS Atenção às quantidades das metas !!

Tutorial de Utilização do Controle de Pendências – JIRA

Site: Estatística Prof. Edson Nemer Site:

Relatório Pedagógico de Geografia e História

Engenharia de Requisitos

Uma ação muito comum em relação ao tratamento de uma distribuição de dados é agrupamento, que consiste em agrupar conjuntos grandes de dados antes de efetuar.

Inserir crédito para cliente

UNIVERSIDADE SEVERINO SOMBRA

Modelagem Estatística

Algoritmos 1º Semestre Materia: Informática Profº: Cristiano.

Dimensionamento de Corridas e Análise de Resultados

Projeto de Banco de Dados

Distribuição da Proporção Amostral

S ISTEMA DE I NFORMAÇÃO DE V IGILÂNCIA DA Q UALIDADE DA Á GUA PARA C ONSUMO H UMANO (S ISAGUA ) N OVA VERSÃO DO S ISAGUA - C ONTROLE M ENSAL DE SAA - Departamento.

Matemática Financeira

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.

Contagem do estoque utilizando o coletor de dados

Linguagem de Programação I Parte IV

III - Amostragem Prof. Herondino.

Usando Excel Prof. Rosemberg Trindade. Parte 1 Representação tabular de distribuição com variáveis discretas e contínuas.

Transcrição da apresentação:

Mineração de Dados: caso da editora E-papers EDSON GONÇALVES JUNIOR

Introdução do Problema História: A E-papers é uma empresa que surgiu em 1999 na incubadora de empresas da COPPE / UFRJ. Seu principal objetivo é difundir conhecimento técnico-científico gerado por universidades e instituições de ensino, buscando qualidade tecnológica e melhor resultado gráfico e editorial, onde seu o principal canal de comunicação com a clientela é através da internet em sua página: http:\www.e-papers.com.br

Introdução do Problema Descrição do Problema: baseado na amostra de encomendas durante o ano de 2007 da editora E-papers, objetivamos traçar um perfil de seus consumidores, bem como verificar possíveis regras de consumo entre eles. Para tanto, vamos inicialmente, ajustar um modelo através de uma Análise de Associação, visto que temos um dados categóricos e desejamos perceber e ou definir regras de consumo dos clientes da E-papers.

Introdução do Problema · Fonte e Descrição dos Dados: para efetuar a proposta acima vamos analisar as seguintes variáveis abaixo: o código da encomenda _ numérica; o pessoa física _ categórica; o pessoa jurídica _ categórica; o código do produto _ categórico; o frequência de compra _ categórica;

Regras de Associação (market basket analysis) Uma Regra de associação representa um padrão de relacionamento entre itens de dados do domínio da aplicação que ocorre com uma determinada freqüência na base de dados. parte significativa das compras de homens, às sextas-feiras à noite, que inclui fraldas, inclui também cerveja. {fralda}  {cerveja} o cliente que compra pão e manteiga, 80% das vezes compra leite. {pão, manteiga}  {leite} muitos pacientes aidético que contraem a doença candidíase também têm pneumonia. {candidíase}  {pneumonia}

Regras de Associação (market basket analysis) Regras de associação são extraídas a partir de bases de dados que contêm transações - formadas por conjuntos de itens do domínio da aplicação. Id-Transação (TID) Itens Comprados 1 leite, pão, refrigerante 2 cerveja, carne 3 cerveja, fralda, leite, refrigerante 4 cerveja, fralda, leite, pão 5 fralda, leite, refrigerante {fralda}  {cerveja} confiança de 66% (suporte médio) {fralda}  {leite} confiança de 100% (suporte alto) {leite}  {fralda} confiança de 75% (suporte alto) {carne}  {cerveja} confiança de 100% (suporte baixo)

Tratamento dos dados População; Triagem dos dados e criação de variáveis; Amostragem; Transformação de dados; (Não necessário); Ajuste e Treinamento; Validação; Implementação; ROI _ Retorno de Investimento.

População Vamos usar dados de consumo de produtos por tipo de cliente (pessoa física, não classificado ou jurídica) do movimento de 2007 da empresa “E-papers”.

Triagem dos dados e criação de variáveis Dados faltantes (pessoa física e jurídica); solução: foi observado dados faltantes na variável NATUREZA DO CLIENTE. Optamos por usar todos os dados, denominando estes faltantes como nova categoria “não declarada”. A variável NATUREZA serviu para determinar as proporções na amostra de treinamento e validação; Excluir a categoria código da encomenda;

Amostragem Para que tenhamos uma amostra de validação e outra de treinamento, respectivamente vamos dividir essa amostra inicial em 70% (treinamento) e 30% (validação) de maneira que a primeira será selecionada de forma estratificada, respeitando as proporções da categoria natureza do consumidor da amostra inicial, ou seja, 45.40% para o tipo “pessoa física”, 2.04% para o tipo “pessoa jurídica” e 52.56% para o tipo “não declarado” .

Ajuste e Treinamento Os resultados obtidos no sistema STATISTICS produziu regras onde identificou-se que as principais regras são 16 (Revista ECO-PÓS)  2 (Comunicação), e vice-versa. Esta regra ocorre quase 50% das operações, conforme fator de suporte, e mais de 80% conforme o fator de confiança, o que valida a regra. A alavancagem ficou em torno de 84%. Os valores de suporte e confiança mínimos pré-definidos são respectivamente de 10% (assim como a correlação mínima). Os resultados obtidos estão no slide a seguir:

Ajuste e Treinamento

Ajuste e Treinamento Abaixo segue os resultados obtidos pelo sistema WEKA: confiança: do inglês confidence, foi introduzida na mineração de dados através do modelo suporte-confiança, por Agrawal, Imielinski e Srikant (1993). Esta medida indica a ocorrência de transações em que todos os itens da regra aparecem, em relação às transações em que os itens do antecedente estão presentes. Os modelos que foram rodados tinham medidas CONFIANÇA e de ALAVANCAGEM (LIFT _ WEKA). O modelo escolhido registrou 20 regras, com suporte mínimo de 0,1 a 0,9. As regras geradas tem CONFIANÇA que variam de 96% a 100%, e ALAVANCAGEM foi de 1,85 _ positivamente dependente (LIFT > 1).

Ajuste e Treinamento

Validação Esta parte do projeto serve, como o próprio nome diz, para validar os resultados obtidos na etapa anterior. Realmente as regras 16  2 (e vice-versa) foram confirmadas o que demonstra que a modelagem utilizada na amostra para a validação atingiu o objetivo de ser representativa para ambas as etapas. Como também era esperado os índices de CONFIANÇA e de ALAVANCAGEM (lift), foram menores, mas se manteve a conclusão obtida na etapa anterior; Como nos modelos de treinamento, o modelo abaixo de VALIDAÇÃO foi rodado com o uso da medida CONFIANÇA e de ALAVANCAGEM, onde esta última avalia o grau de dependência do conseqüente em relação ao dependente (LIFT). Foram solicitadas no sistema até 20 regras, “Lower Bound Min Support” de 0,1 até 0,9 e “Upper Bound Min Support” de 0,5 a 1,0. O modelo, no meu parecer, que deu melhor retorno esta a seguir, que registrou 20 regras, com suporte mínimo de 0,1 a 0,9, e alavancagem maior que 1, ou seja, positivamente DEPENDENTE o conseqüente em relação ao dependente da regra. As regras geradas tem CONFIANÇA que variam de 53% a 95%, e de 1,78 para ALAVANCAGEM (LIFT positivamente dependente).

Validação

Validação Identificou-se que as principais regras são 16 (Revista ECO-PÓS)  2 (Comunicação), e vice-versa, confirmando o resultado obtido na etapa de treinamento. Outras regras foram identificadas, mas também participava destas os itens mencionados na regra acima. Foi feita uma avaliação das regras para cada uma das naturezas de clientes (pessoa física, jurídica e não declarada), tanto no arquivo de treinamento como o de validação. Como as regras encontradas foram iguais (16 (Revista ECO-PÓS)  2 (Comunicação), e vice-versa) as encontradas com estes dados de natureza em conjuntamente, não disponibilizamos os resultados.

Implementação Variáveis de ENTRADA: A variável natureza foi inicialmente usada para determinar as proporções que cada tipo de cliente (foram três no total: pessoa física, pessoa jurídica e não declarado) nas amostras de treinamento e validação, sendo que a separação foi feita na primeira amostra e a segunda se deu por conjunto complementar do conjunto de dados originais. A amostra de treinamento teve 2504 de tamanho de amostra e a de validação 1073. Após este passo, entramos no sistema WEKA com o arquivo contendo apenas as compras efetuadas por cada cliente. No conjunto de dados original, 35 artigos diferentes foi o máximo de compras efetuado por um cliente. Desta maneira, foram analisadas 35 variáveis denominadas respectivamente de “CAT” + o número de ordem de 1 a 35, conforme a primeira compra, segunda ..., até a trigésima quinta compra efetuada.

Implementação Variáveis de ENTRADA: O arquivo de entrada deve ser de extensão “.CSV” ou “.TXT” que é mais fácil de trabalhar devido a poder ser manipulado pelo EXCEL; Abre-se o WEKA, e escolhe no menu inicial a opção EXPLORER; No menu WEKA EXPLORER é que abre-se o arquivo de dados pelo “open file” na aba “PREPROCESS”. Depois de aberto, seleciona-se a aba “ASSOCIATE”, para que se possa selecionar os parâmetros iniciais Os parâmetros iniciais do sistema do sistema WEKA para o estudo das Regras de Associação foram: 20 regras no máximo; CONFIANÇA e SUPORTE mínimo no intervalo de 0,1 a 0,9; Para determinar a ALAVANCAGEM (dependência entre os objetos da regra _ dependente e conseqüente), foi solicitado no sistema para o calculo do LIFT, com valor mínimo no sistema de 0,1; O sistema usou Associação APRIORI;

Implementação Variáveis de SAIDA: A resposta do sistema WEKA foi a regra de associação que comentamos nas etapas de TREIANEMENTO e VALIDAÇÃO (16 (Revista ECO-PÓS)  2 (Comunicação) e vice-versa). Com esta regra evidenciada é que pode-se perceber o foco de intenção de compra de compra do cliente da E-papers. Desta maneira, pode-se oferecer a todo cliente que comprar artigos Revista ECO-PÓS, artigos de Comunicação e vice-versa, sabendo que é grande a possibilidade de efetuar com sucesso esta venda casada por parte da equipe de venda. O exemplo de execução e resultado do sistema pode ser evidenciado pelo slide anterior número 16.

Implementação A utilização do sistema WEKA é bem simples, é escrito em JAVA e tem distribuição gratuita, que é a sua maior vantagem em função do alto custo de outros sistemas de mineração de dados. No site descrito abaixo: http://www.cs.waikato.ac.nz/ml/weka Além disso é um sistema bem leve e pode rodar com eficiência em uma configuração bastante modesta de computador.

ROI  Retorno de Investimento ROI: é o impacto financeiro do projeto calculado em termos de percentagem do custo do projeto. [(RECEITA – DESPESA) / DESPESA] X 100 Sem modelo (16) _ regra 13  freqüência 432 Receita (ano) 30,00 x 432 = 12.960,00 Despesas (ano) 30% x 12.960,00 = 3.888,00 ROI ((12.960,00-3.888,00) / 3.888,00)% = 233,33% (2)  freqüência 0 Despesas (ano) 0,00 Receita 0,00 ROI 0,00%

ROI  Retorno de Investimento Com modelo (162) _ regra 8  freqüência 305 Receita (ano) 30,00 x 305 = 9.150,00 Despesas (ano) 30% x 9.150,00 = 2.745,00 ROI ((9.150,00-2.745,00) / 2.745,00)% = 233,33% (216) _ regra 7  freqüência 305

Conclusões Identificou-se que as principais regras são 16 (Revista ECO-PÓS)  2 (Comunicação), e vice-versa; Na análise do ROI não encontramos vendas isoladas para o tipo de produto 2 (Comunicação), somente encontrando para o produto 16 (Revista ECO-PÓS). O mesmo valor de ROI foi encontrado para a venda isolada de 16 (Revista ECO-PÓS), como para a venda casada após Análise de Associação, mesmo assim, concluímos que mesmo os resultados sem o modelo levar ao mesmo valor de ROI que com o modelo, vale usar o modelo pela aquisição de informação e cultura da maneira de comprar do cliente da E-papers. Fora isso, se um maior cuidado for dado ao preenchimento das informações de compra e mais detalhes destes clientes forem disponibilizados para análise maior e melhor serão os resultados.