Carlos Eduardo Silva de Moura

Slides:



Advertisements
Apresentações semelhantes
SISTEMAS DE SUPORTE À DECISÃO
Advertisements

Correlação e Regressão
Introdução ao processamento de dados e à estatística - parte 02
INTELIGÊNGIA COMPUTACIONAL
ANÁLISE DISCRIMINANTE
Aplicações Estatísticas na Área de Inteligência de Mercado
2 Marcelo Marinho DRE: Mariana Belmar DRE:
Cássio Luís Fernandes de Oliveira
Técnicas de orçamento de capital
FINANÇAS EM PROJETOS DE TI
Excel Profa. Cristina M. Nunes.
João Carlos Porto Orientadora: Prof.ª Dr.ª Junia Coutinho Anacleto 26/03/2010 Projeto de interceo.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
ENGENHARIA DE MÉTODOS Prof. Adolfo Sérgio Furtado da Silva
Prof. Fábio Kleine Albers
Análise de regressão linear simples: abordagem matricial
Arquivos Seqüenciais Inhaúma Neves Ferraz
EXPRESSÕES ARITMÉTICAS
MB751 – Modelos de previsão
Métodos Quantitativos
FUNÇÃO MODULAR.
CEP – Controle Estatístico de Processo
Estatística Aplicada (Aula 4)
Estatística Aplicada (Aula 5)
Estatística Aplicada (Aula 4)
Custos para Tomada de Decisão
Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,
Como Desenvolver Sistemas de Informação
Gerenciamento do Escopo
Classes e objetos Arrays e Sobrecarga
Estrutura de decisão e repetição em JAVA
Classes e objetos P. O. O. Prof. Grace.
Estatística Descritiva
Financeiro - Cadastro de Conta Contábil
Módulo Financeiro Centro de Custo.
Estatística Descritiva
Engenharia de Requisitos
ESTATÍSTICA.
TREINAMENTO Pós-Vendas John Deere Brasil – Todos os direitos reservados. Material elaborado em Outubro/2008. A John Deere Brasil reserva-se ao direito.
Como controlar o caixa Supermercados.
José Roberto Blaschek Gerência do Escopo José Roberto Blaschek.
Engenharia de Software
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
PMBOK 5ª Edição Capítulo 7
FAC SÃO ROQUE Curso: Administração Turma: ADM-5ª
Estatística e Probabilidade
Coordenação Geral de Ensino da Faculdade
Quais são, suas médias, medianas e modas?
ESTATÍSTICA DESCRITIVA
Sistema Unificado de Planejamento e Orçamento - UNI 1 Palmas, 21 de outubro de 2011.
Análise Fatorial Factor analysis.
Modelagem Estatística
Desafios gerenciais Aula 4.
SAD - 2. Processo Decisório - Etapas
GESTÃO DE PROJETOS Aula 5 1.
Redes Bayesianas - Aplicação em Risco Operacional
Projeto de Banco de Dados
Regressão Múltipla Profas: Gardênia da Silva Abbad Elaine Rabelo Neiva
Técnicas e Projeto de Sistemas
Redes Neuronais/Neurais/ Conexionistas Introdução
Aula 19 – Método Gespública MPOG Prof Júlio Andrade Fonte: MPOG – GesPublica, “Guia de Indicadores”, Brasília – DF, 2010.
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
UML - Unified Modeling Language
Campus de Caraguatatuba
Agenda GERÊNCIA DE PROJETOS PMI – Project Management Institute
Módulo Compras Relatórios e Relações 1. Objetivo 2 Conhecer os relatórios e as relações do sistema disponibilizadas no módulo Compras.
Aula 11 - Teste de hipóteses, teste de uma proporção
Sistema de Previsão Financeira Tendências e medidas de probabilidade.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Estatística Descritiva
Transcrição da apresentação:

Carlos Eduardo Silva de Moura Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008 1 1

Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 2 2

Descrição do Problema Empresa de Seguros O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clintes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e assim evitar desperdício nas vendas. 3

Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 4 4

Classificação (Supervisionada ) ou predição categórica Categoria do Problema Classificação (Supervisionada ) ou predição categórica Classificação (supervisionada) ou predição categórica Tem por objetivo a criação de modelos para predizer as classes a que pertencem objetos desconhecidos. Determinar uma regra que possa ser usada para classificar de forma otimizada uma nova observação a uma classe já rotulada. Nosso objetivo final será predizer baseado nos dados de cada cliente quais tem maior chance de adquirir uma apólice de seguros. 5

Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 6 6

Empresa de Seguros ( Fonte dos Dados) Os dados foram obtidos de uma competição internacional (Coil challenge 2000 dataming competion), porém são baseados em dados reais fornecidos pela Dutch datamining company Sentient Machine Research*. * Para informações sobre o datasets ver homepage: http://www.wi.leidenuniv.nl/~putten/library/cc2000/ 7

Empresa de Seguros ( Descrição dos Dados) Foram informados 86 variavéis sobre os clientes dentre essas tinham dados sócio-demográficos e relativos a seguros. A base de treinamento do modelo contém 5826 clientes e inclui a informação se o cliente tinha ou não uma apólice de seguro. Para testar o modelo foram fornecidos dados de 4000 clientes com as mesmas informações, exceto se tinha ou não uma apólice de seguro. Sendo a variável alvo a que diz se comprou ou não seguro. 8

Empresa de Seguros ( Descrição dos Dados) As variáveis de 1 a 43 são referentes a dados sócio-demográficos e as variáveis de 44 a 86 são referentes a seguros. 9

Empresa de Seguros ( Descrição dos Dados) 10

Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 11 11

Mostype Customer Subtype –Extraindo características e realce Devido ao número baixo de pessoas que responderam e as suas características as variáveis14,15,16,17,18,19, 20, 21 e 28 foram eliminadas, além da variável 5 que é repetida. As variáveis 3,8,12,23,24,33 foram eliminadas devido a relação com outras variáveis como classe social,renda e idade.

5 MOSHOOFD Customer main type - Extraindo características e realce A variável 5 é definida como o tipo principal de clientes que a seguradora procura.Está variável vai ser desmembrada em 10 variáveis novas do tipo dummy na parte de protipagem. %Percentual de respostas assinaladas 0% 5% 10% 15% 20% 25% 30% 2 4 6 8 10

Variáveis do grupo 1 ( 1 ao 24) As variáveis de 7 a 24 são baseadas na região onde o cliente reside,ou seja , são atribuídos porcentagens de tal individuo possuir tal característica ou não, varia de 0% a 100%.Estas informações são retiradas do censo demográfico.Vide tabela ao lado. A variável 21 será eliminada devido a semelhança com a variável 5 atributo 10.

Variáveis socioeconômicas: grupo 2 ( 25 ao 43) Através do resultado da regressão logística, chegou-se a eliminação das variáveis 30,31,33,34 e 43 do grupo 2.

Variáveis relativas a seguro: grupo 3 ( 44 ao 85) As variáveis relativas a seguro apresentam uma correlação muito grande, por isso serão eliminadas as variáveis da coluna excluídas.

Variáveis Tabela com as variáveis que serão usados no ajuste do modelo. R

Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 18 18

Ferramenta de modelagem matemática Plano de Prototipagem É a etapa de desenvolvimento das hipóteses de trabalho para a análise,baseada nas metas definidas pela empresa e da construção de um plano para testá-las. Plano de Prototipagem Ferramenta de modelagem matemática A ferramenta utilizada foi o software Statistica. Para a estimação dos parâmetros do modelo e previsão dos resultados da amostra de treinamento foi utilizado a técnica de regressão logística e redes neurais. Técnica utilizada

Padronização das variáveis Uma grande parte das 95 variáveis foram padronizadas,estas foram diminuídas da média e divididas pelo o desvio padrão, somente as variáveis dummy (0 ou 1) foram mantidas sem a padronização. Esta padronização deve como objetivo evitar problemas de escala e com isso deixá-las mais estáveis.

Resultado da amostra de treinamento Para o ajuste do modelo foi utilizado, as variáveis definidas na etapa anterior V

Matriz de Confusão Para realizar a previsão foi utilizado uma probabilidade de que um cliente compre o seguro da ordem de px = 0,85( ponto de corte). Após fixar este valor foi observado a matriz de confusão abaixo.Os valores previstos foram comparados com a amostra de treinamento.

Gráfico Nota: o modelo não se mostrou sensível a mudanças no parâmetro fatorial que realiza interações entre as variáveis.

Matriz de Confusão Redes Neurais As matrizes de confusão abaixo, mostra que o melhor modelo foi o modelo resumido com critério de paragem com entropia.Este obteve um acerto da ordem de 67% para os casos de compra e 72% para os casos de não compra. Modelo Completo com entropia Modelo Completo com soma dos quadrados Matriz de Confusão Não Compra Compra Total 3773 119 3892 1701 229 1930 Modelo Resumido com entropia Modelo Resumido com soma dos quadrados Matriz de Confusão Não Compra Compra Total 3949 115 4064 1525 233 1758 Matriz de Confusão Não Compra Compra 2.694 162 2.780 186 V

Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 25 25

VALIDAÇÃO Todas as modificações realizadas com as variáveis na base de dados de treinamento foram feitas na base de validação , para manter a compatibilidade com o modelo proposto. Como a base de teste não tinha as respostas da variável target foi realizado na base de dados de treinamento um split para realizar a validação do modelo.Foi utilizado 30% da base de treinamento(1745 observações). A validação foi feita pela análise da matriz de confusão e o gráfico de alavancagem

Modelo resumido de redes neurais com entropia Percentual de acertos na base de validação Matriz de Confusão

Gráfico de Alavancagem

Gráfico de Alavancagem

Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI( Análise Financeira) 30 30

Implementação O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clientes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e evitar desperdício nas vendas. O modelo foi desenvolvido no software Statistica. Após um estudo detalhado das variáveis de entrada foram selecionadas inicialmente 95 variáveis e posteriormente foram selecionadas 34 variáveis. Foram implementados dois modelos um chamado de modelo completo que contém 95 variáveis e outro chamado modelo resumido que contém 34 variáveis. Modelo Resumido Modelo Completo

Implementação R V

Implementação V

Implementação Antes de rodar o modelo, devem-se realizar as mesmas modificações nas variáveis que foram feitas na fase de treinamento, abaixo segue uma tabela com as variáveis e os tipos de transformações que devem ser feitas.

Implementação A etapa de validação foi feita usando uma amostra teste, ou seja, o modelo parametrizado na etapa de treinamento foi rodado com esta amostra teste e foram observados os resultados obtidos. Para validar os resultados utilizamos a matriz de confusão e o gráfico de alavancagem. O modelo resumido com redes neurais com entropia com critério de paragem mostrou-se o mais assertivo. Etapas que devem ser seguidas pelo usuário do modelo

Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 36 36

ROI(Análise Financeira) Após a validação do modelo proposto deve-se fazer uma análise financeira,pois os softwares de dataming são caros e este investimento inicial tem que ser aprovado pela alta gerência. Porém, neste trabalho será realizado uma análise relacionada as metas de previsão com o ajuste do modelo mediante o conceito de função de perda. HIPÓTESES: Prêmio: R$ 3.000,00 Custo de Mala Direta(CMD): R$ 5,00 Despesas: CMD*Itens enviados Receitas:PCS x Prêmio Obs.: PCS: Pessoa que compram seguros de Trailer

ROI(Análise Financeira) Com o modelo Sem modelo

ROI(Análise Financeira) Análise de Sensibilidade Para valores de custo de mala direita maior que R$ 7,50 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.

ROI(Análise Financeira) Análise de Sensibilidade Para valores de prêmio menor que R$ 1900 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.