A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Carlos Eduardo Silva de Moura

Apresentações semelhantes


Apresentação em tema: "Carlos Eduardo Silva de Moura"— Transcrição da apresentação:

1 Carlos Eduardo Silva de Moura
Empresa de Seguros Mineração de Dados Carlos Eduardo Silva de Moura Prof:Luis Paulo 23 de Junho de 2008 1 1

2 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados
Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 2 2

3 Descrição do Problema Empresa de Seguros O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clintes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e assim evitar desperdício nas vendas. 3

4 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados
Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 4 4

5 Classificação (Supervisionada ) ou predição categórica
Categoria do Problema Classificação (Supervisionada ) ou predição categórica Classificação (supervisionada) ou predição categórica Tem por objetivo a criação de modelos para predizer as classes a que pertencem objetos desconhecidos. Determinar uma regra que possa ser usada para classificar de forma otimizada uma nova observação a uma classe já rotulada. Nosso objetivo final será predizer baseado nos dados de cada cliente quais tem maior chance de adquirir uma apólice de seguros. 5

6 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados
Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 6 6

7 Empresa de Seguros ( Fonte dos Dados)
Os dados foram obtidos de uma competição internacional (Coil challenge 2000 dataming competion), porém são baseados em dados reais fornecidos pela Dutch datamining company Sentient Machine Research*. * Para informações sobre o datasets ver homepage: 7

8 Empresa de Seguros ( Descrição dos Dados)
Foram informados 86 variavéis sobre os clientes dentre essas tinham dados sócio-demográficos e relativos a seguros. A base de treinamento do modelo contém 5826 clientes e inclui a informação se o cliente tinha ou não uma apólice de seguro. Para testar o modelo foram fornecidos dados de 4000 clientes com as mesmas informações, exceto se tinha ou não uma apólice de seguro. Sendo a variável alvo a que diz se comprou ou não seguro. 8

9 Empresa de Seguros ( Descrição dos Dados)
As variáveis de 1 a 43 são referentes a dados sócio-demográficos e as variáveis de 44 a 86 são referentes a seguros. 9

10 Empresa de Seguros ( Descrição dos Dados)
10

11 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados
Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 11 11

12 Mostype Customer Subtype –Extraindo características e realce
Devido ao número baixo de pessoas que responderam e as suas características as variáveis14,15,16,17,18,19, 20, 21 e 28 foram eliminadas, além da variável 5 que é repetida. As variáveis 3,8,12,23,24,33 foram eliminadas devido a relação com outras variáveis como classe social,renda e idade.

13 5 MOSHOOFD Customer main type - Extraindo características e realce
A variável 5 é definida como o tipo principal de clientes que a seguradora procura.Está variável vai ser desmembrada em 10 variáveis novas do tipo dummy na parte de protipagem. %Percentual de respostas assinaladas 0% 5% 10% 15% 20% 25% 30% 2 4 6 8 10

14 Variáveis do grupo 1 ( 1 ao 24)
As variáveis de 7 a 24 são baseadas na região onde o cliente reside,ou seja , são atribuídos porcentagens de tal individuo possuir tal característica ou não, varia de 0% a 100%.Estas informações são retiradas do censo demográfico.Vide tabela ao lado. A variável 21 será eliminada devido a semelhança com a variável 5 atributo 10.

15 Variáveis socioeconômicas: grupo 2 ( 25 ao 43)
Através do resultado da regressão logística, chegou-se a eliminação das variáveis 30,31,33,34 e 43 do grupo 2.

16 Variáveis relativas a seguro: grupo 3 ( 44 ao 85)
As variáveis relativas a seguro apresentam uma correlação muito grande, por isso serão eliminadas as variáveis da coluna excluídas.

17 Variáveis Tabela com as variáveis que serão usados no ajuste do modelo. R

18 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados
Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 18 18

19 Ferramenta de modelagem matemática
Plano de Prototipagem É a etapa de desenvolvimento das hipóteses de trabalho para a análise,baseada nas metas definidas pela empresa e da construção de um plano para testá-las. Plano de Prototipagem Ferramenta de modelagem matemática A ferramenta utilizada foi o software Statistica. Para a estimação dos parâmetros do modelo e previsão dos resultados da amostra de treinamento foi utilizado a técnica de regressão logística e redes neurais. Técnica utilizada

20 Padronização das variáveis
Uma grande parte das 95 variáveis foram padronizadas,estas foram diminuídas da média e divididas pelo o desvio padrão, somente as variáveis dummy (0 ou 1) foram mantidas sem a padronização. Esta padronização deve como objetivo evitar problemas de escala e com isso deixá-las mais estáveis.

21 Resultado da amostra de treinamento
Para o ajuste do modelo foi utilizado, as variáveis definidas na etapa anterior V

22 Matriz de Confusão Para realizar a previsão foi utilizado uma probabilidade de que um cliente compre o seguro da ordem de px = 0,85( ponto de corte). Após fixar este valor foi observado a matriz de confusão abaixo.Os valores previstos foram comparados com a amostra de treinamento.

23 Gráfico Nota: o modelo não se mostrou sensível a mudanças no parâmetro fatorial que realiza interações entre as variáveis.

24 Matriz de Confusão Redes Neurais
As matrizes de confusão abaixo, mostra que o melhor modelo foi o modelo resumido com critério de paragem com entropia.Este obteve um acerto da ordem de 67% para os casos de compra e 72% para os casos de não compra. Modelo Completo com entropia Modelo Completo com soma dos quadrados Matriz de Confusão Não Compra Compra Total 3773 119 3892 1701 229 1930 Modelo Resumido com entropia Modelo Resumido com soma dos quadrados Matriz de Confusão Não Compra Compra Total 3949 115 4064 1525 233 1758 Matriz de Confusão Não Compra Compra 2.694 162 2.780 186 V

25 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados
Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 25 25

26 VALIDAÇÃO Todas as modificações realizadas com as variáveis na base de dados de treinamento foram feitas na base de validação , para manter a compatibilidade com o modelo proposto. Como a base de teste não tinha as respostas da variável target foi realizado na base de dados de treinamento um split para realizar a validação do modelo.Foi utilizado 30% da base de treinamento(1745 observações). A validação foi feita pela análise da matriz de confusão e o gráfico de alavancagem

27 Modelo resumido de redes neurais com entropia
Percentual de acertos na base de validação Matriz de Confusão

28 Gráfico de Alavancagem

29 Gráfico de Alavancagem

30 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados
Extração de características e realce Plano de Prototipagem Validação Implementação ROI( Análise Financeira) 30 30

31 Implementação O Problema consiste em tomar uma decisão de enviar por mala direta uma proposta de apólice de seguro para todos os clientes da seguradora ou só para os clientes que tem uma chance maior de fazer o seguro. A empresa identificando estes clientes potenciais conseguirá reduzir o custo e evitar desperdício nas vendas. O modelo foi desenvolvido no software Statistica. Após um estudo detalhado das variáveis de entrada foram selecionadas inicialmente 95 variáveis e posteriormente foram selecionadas 34 variáveis. Foram implementados dois modelos um chamado de modelo completo que contém 95 variáveis e outro chamado modelo resumido que contém 34 variáveis. Modelo Resumido Modelo Completo

32 Implementação R V

33 Implementação V

34 Implementação Antes de rodar o modelo, devem-se realizar as mesmas modificações nas variáveis que foram feitas na fase de treinamento, abaixo segue uma tabela com as variáveis e os tipos de transformações que devem ser feitas.

35 Implementação A etapa de validação foi feita usando uma amostra teste, ou seja, o modelo parametrizado na etapa de treinamento foi rodado com esta amostra teste e foram observados os resultados obtidos. Para validar os resultados utilizamos a matriz de confusão e o gráfico de alavancagem. O modelo resumido com redes neurais com entropia com critério de paragem mostrou-se o mais assertivo. Etapas que devem ser seguidas pelo usuário do modelo

36 Agenda Descrição do Problema Categorização Fonte e Descrição dos Dados
Extração de características e realce Plano de Prototipagem Validação Implementação ROI ( Análise Financeira) 36 36

37 ROI(Análise Financeira)
Após a validação do modelo proposto deve-se fazer uma análise financeira,pois os softwares de dataming são caros e este investimento inicial tem que ser aprovado pela alta gerência. Porém, neste trabalho será realizado uma análise relacionada as metas de previsão com o ajuste do modelo mediante o conceito de função de perda. HIPÓTESES: Prêmio: R$ 3.000,00 Custo de Mala Direta(CMD): R$ 5,00 Despesas: CMD*Itens enviados Receitas:PCS x Prêmio Obs.: PCS: Pessoa que compram seguros de Trailer

38 ROI(Análise Financeira)
Com o modelo Sem modelo

39 ROI(Análise Financeira)
Análise de Sensibilidade Para valores de custo de mala direita maior que R$ 7,50 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.

40 ROI(Análise Financeira)
Análise de Sensibilidade Para valores de prêmio menor que R$ 1900 o ROI do modelo fica menor do que o ROI sem o modelo.Com isso, não compensaria o investimento no modelo.


Carregar ppt "Carlos Eduardo Silva de Moura"

Apresentações semelhantes


Anúncios Google