Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG CEAPE-PB Centro de Apoio aos Pequenos EMPREENDIMENTOS – CEAPE-PB, com sede na Cidade de Campina Grande.

Slides:



Advertisements
Apresentações semelhantes
MOtivação Atender clientes com eficiência e rapidez .
Advertisements

Indução de Árvores de Decisão
INTELIGÊNGIA COMPUTACIONAL
Auditoria de Sistemas ● Introdução
Exercício 1 Rodar o algoritmo de classificação J4.8 do Weka variando:
1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (
A PPLYING D ATA M INING T ECHNIQUES TO S EMI -A UTOMATICALLY D ISCOVER G UIDELINES FOR M ETAMODELS {andreza, franklin, patricia,
Dicas para a realização do Trabalho1
Mineração de Dados ou Descoberta de conhecimento em BDs
Jacques Robin, Francisco Carvalho, Flávia Barros
Weka Coleção de algoritmos de aprendizado de máquina implementado em Java Tanto é API como aplicativo!!! Open source software Framework para o desenvolvimento.
-- PNOTA -- Uma Aplicação para Correção Assistida de Questões Discursivas Filipe Wall Mutz.
SPC SCORE.
Projeto para Desenvolvimento de Sistema
3. Árvore de Decisão.
SUA EMPRESA ESTÁ PREPARADA PARA O NOVO CENÁRIO FISCAL ?
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Aula Prática Classificação
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Mini testes A apresentar na aula da semana a seguir à data descrito em cada teste. As respostas não devem exceder mais do que duas páginas A4.
A inadimplência pode comprometer o sucesso do distribuidor Yes!
Tecnologia da informação e estado
Sistemas Inteligentes
Aprendizado de Máquina - Introdução
Data Mining: Conceitos e Técnicas
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Higienização e Enriquecimento Base de Dados
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
ADR – Administrador de Restritivos SPC e SERASA
Marcelo Ladeira, Ph.D Departamento de Ciência da Computação
2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
WEKA Jacques Robin João Batista Marcelino Pereira junho/2001.
RUP - Cap. 3 – Processo Dirigido por Caso de Uso
Anadélia Tavares Nara d’Oliveira. Célula direcionada ao atendimento de contas de todos os segmentos de empresas de médio e grande porte, na identificação.
7. Mineração de Texto ("Text Mining")
RequisitePro Ismênia Galvão Lourenço da Silva ANÁLISE E ESPECIFICAÇÃO DE REQUISITOS CENTRO DE INFORMÁTICA UNIVERSIDADE FEDERAL DE PERNAMBUCO.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
A Systematic Approach for Inducing Reliable Classifiers From Data Mines David Moises Barreto dos Santos Universidade Federal de Campina Grande Programa.
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.
Marcus Sampaio DSC/UFCG Vários slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
Electronic Data Interchange EDI
Introdução a Mineração de Dados
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
Laboratório 5 Regras. Bases Utilize a base que se encontra no diretório de dados do weka: wheather.nominal.arff Gere regras usando diferentes classificadores.
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
Software Weka Waikato 2004, Witten & Frank 2000.
Projetos de descobertas de conhecimento em banco de dados e mineração de dados Jacques Robin, Francisco de Assis e Paulo Adeodato CIn-UFPE.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG A Lógica dos Algoritmos “Covering” A estratégia é selecionar cada classe do conjunto-treinamento, e procurar.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
Classificação de Textos
Propostas de Projetos para Especialização em IC
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
Importância da Política de Crédito no Processo de Gestão da Cooperativa de Crédito Olavo Borges Dezembro / 2005.
15 anos15 anos. Onde encontrá-lo? Podemos encontrar todos os Procedimentos provenientes do SGQ disponibilizados em nossa rede pelo caminho : Z:\S G Q\Procedimentos.
Elicitar Requisitos Documentar Requisitos Validar Requisitos Estrutura Implementação Implementar Componentes Testar de Unidades Corrigir Defeitos Testar.
Aula prática: Análise exploratória e modelos de regressão Luciana Soler.
Transcrição da apresentação:

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG CEAPE-PB Centro de Apoio aos Pequenos EMPREENDIMENTOS – CEAPE-PB, com sede na Cidade de Campina Grande Desenvolvimento e implantação do "Sistema de Apoio a Análise de Risco de Crédito “ N ú mero de clientes ainda abaixo do desej á vel Taxa de inadimplência acima dos n í veis desej á veis Procedimentos de an á lise de crédito ineficientes Carteira de produtos limitada Funcion á rios pouco motivados

Marcus Sampaio DSC/UFCG Objetivos Expansão segura da carteira de clientes da Empresa –Base de clientes significativa –Taxa de inadimplência reduzida Ampliação da sua carteira de produtos –Perfil da clientela conhecido –Análise sistemática da inadimplência Aumento da motivação de seus funcionários –Procedimentos operacionais racionalizados –Custos operacionais reduzidos vs. Aumento da receita líquida

Marcus Sampaio DSC/UFCG Diagnóstico do INFOCRED Preparação da base INFOCRED para mineração Seleção de atributos (dados brutos) Eliminação de ruídos (campos incompletos, não informados, etc) Geração de um arquivo no formato do algoritmo de perfilamento. Classificação manual da base INFOCRED Classificação caso-a-caso de perfis (grande, médio, baixo ou não inadimplente) Atualização da base INFOCRED Emissão de relatórios para fins de conferência Validação de perfis Regras gerais de classificação (perfilamento do grande, médio, baixo ou não inadimplente) Resultado Parcial 1: Perfis generalizados e validados Plano de Trabalho

Marcus Sampaio DSC/UFCG Definição/Refinamento do Modelo-CEAPE de análise de risco de crédito Seleção de atributos críticos Atribuição de pesos Eleição de alternativas de crédito Resultado Parcial 2: Modelo pronto para uso inicial Plano de Trabalho (2)

Marcus Sampaio DSC/UFCG Desenvolvimento/Implantação do Sistema Desenvolvimento e teste Implantação Treinamento. Resultado Final: Modelo automatizado / Ferramenta completa Plano de Trabalho (3)

Marcus Sampaio DSC/UFCG Arquitetura do Sistema Modelo-CEAPE Análise Risco CARGA FEEDBACK INFOCRED

Marcus Sampaio DSC/UFCG Id === Error on training data === Correctly Classified Instances % Incorrectly Classified Instances 0 0% Total Number of Instances 2197 Análise dos Dados com ID3 Note que o modelo gerado pelo ID3 é espelho do BD INFOCRED

Marcus Sampaio DSC/UFCG === Confusion Matrix === a b c d e f g <-- classified as | a = inadimplente | b = inadimplente | c = inadimplente | d = inadimplente | e = inadimplente | f = Adimplente | g = Cart. Castigada Análise... (2)

Marcus Sampaio DSC/UFCG === Error on test data === Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 1098 Análise... (3)

Marcus Sampaio DSC/UFCG === Confusion Matrix === a b c d e f g <-- classified as | a = inadimplente | b = inadimplente | c = inadimplente | d = inadimplente | e = inadimplente | f = Adimplente | g = Cart. Castigada Análise... (4)

Marcus Sampaio DSC/UFCG Análise... ativo_fixo {'maior12000', '0a5000', '5001a8000', fone_fixo {'N', grupo {'3', '2', '1', '5', lucro_liquido {'Prejuízo', '501a1000', 'acima 1000', '251a500', vendas_vista {'501a1000', '2001a4000', '6001a10000', '0a500', '4001a6000', 'maior10000', '1001a2000'} Atributos demográficos Formato ARFF vendas_prazo {'501a1000', '2001a4000', '6001a10000', '0a500', '4001a6000', 'maior10000', vl_autorizado {'acima 1000', '0 a 500', '501 a inadimplencia {'inadimplente 010', 'inadimplente 090', 'inadimplente 060', 'inadimplente 150', 'inadimplente 030', 'inadimplente 120', 'Adimplente', 'Cart. Castigada', 'inadimplente 180'}

Marcus Sampaio DSC/UFCG J === Error on training data === Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 2197 Note que o modelo inferido pelo J48 não espelha BD INFOCRED; em compensação, poderá ser mais confiável que o do ID3, nos testes Mineração com J48

Marcus Sampaio DSC/UFCG === Confusion Matrix === a b c d e f g <-- classified as | a = inadimplente | b = inadimplente | c = inadimplente | d = inadimplente | e = inadimplente | f = Adimplente | g = Cart. Castigada Mineração com J48 (2)

Marcus Sampaio DSC/UFCG Mineração com J48 (3) === Error on test data === Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 1098 Confirmado: o modelo do J48 é mais confiável Que o do ID3

Marcus Sampaio DSC/UFCG === Confusion Matrix === a b c d e f g <-- classified as | a = inadimplente | b = inadimplente | c = inadimplente | d = inadimplente | e = inadimplente | f = Adimplente | g = Cart. Castigada Mineração com J48 (4)

Marcus Sampaio DSC/UFCG Prism === Error on training data === Correctly Classified Instances % Incorrectly Classified Instances 0 0 % Total Number of Instances 2197 Mineração com Prism

Marcus Sampaio DSC/UFCG Mineração com Prism (2) === Confusion Matrix === a b c d e f g <-- classified as | a = inadimplente | b = inadimplente | c = inadimplente | d = inadimplente | e = inadimplente | f = Adimplente | g = Cart. Castigada

Marcus Sampaio DSC/UFCG Mineração com Prism (3) === Error on test data === Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 1098

Marcus Sampaio DSC/UFCG Mineração com Prism (4) === Confusion Matrix === a b c d e f g <-- classified as | a = inadimplente | b = inadimplente | c = inadimplente | d = inadimplente | e = inadimplente | f = Adimplente | g = Cart. Castigada

Marcus Sampaio DSC/UFCG Mineração com NaïveBayes Naive Bayes Classifier Class inadimplente 010: Prior probability = 0.01 ativo_fixo: Discrete Estimator. Counts = (Total = 33) fone_fixo: Discrete Estimator. Counts = (Total = 31) grupo: Discrete Estimator. Counts = (Total = 34) lucro_liquido: Discrete Estimator. Counts = (Total = 34) vendas_vista: Discrete Estimator. Counts = (Total = 36) vendas_prazo: Discrete Estimator. Counts = (Total = 36) vl_autorizado: Discrete Estimator. Counts = (Total = 32)

Marcus Sampaio DSC/UFCG Mineração com NaïveBayes (2) Class inadimplente 060: Prior probability = 0.01 ativo_fixo: Discrete Estimator. Counts = (Total = 15) fone_fixo: Discrete Estimator. Counts = 5 8 (Total = 13) grupo: Discrete Estimator. Counts = (Total = 16) lucro_liquido: Discrete Estimator. Counts = (Total = 16) vendas_vista: Discrete Estimator. Counts = (Total = 18) vendas_prazo: Discrete Estimator. Counts = (Total = 18) vl_autorizado: Discrete Estimator. Counts = (Total = 14)

Marcus Sampaio DSC/UFCG Mineração com NaïveBayes (3) Class inadimplente 030: Prior probability = 0.01 ativo_fixo: Discrete Estimator. Counts = (Total = 36) fone_fixo: Discrete Estimator. Counts = (Total = 34) grupo: Discrete Estimator. Counts = (Total = 37) lucro_liquido: Discrete Estimator. Counts = (Total = 37) vendas_vista: Discrete Estimator. Counts = (Total = 39) vendas_prazo: Discrete Estimator. Counts = (Total = 39) vl_autorizado: Discrete Estimator. Counts = (Total = 35)

Marcus Sampaio DSC/UFCG Mineração com NaïveBayes (4) Class Adimplente: Prior probability = 0.96 ativo_fixo: Discrete Estimator. Counts = (Total = 2119) fone_fixo: Discrete Estimator. Counts = (Total = 2117) grupo: Discrete Estimator. Counts = (Total = 2120) lucro_liquido: Discrete Estimator. Counts = (Total = 2120) vendas_vista: Discrete Estimator. Counts = (Total = 2122) vendas_prazo: Discrete Estimator. Counts = (Total = 2122) vl_autorizado: Discrete Estimator. Counts = (Total = 2118)

Marcus Sampaio DSC/UFCG Mineração com NaïveBayes (5) Time taken to build model: 0.01 seconds Time taken to test model on training data: 0.05 seconds === Error on training data === Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 2197

Marcus Sampaio DSC/UFCG Mineração com NaïveBayes (6) === Confusion Matrix === a b c d e f g <-- classified as | a = inadimplente | b = inadimplente | c = inadimplente | d = inadimplente | e = inadimplente | f = Adimplente | g = Cart. Castigada

Marcus Sampaio DSC/UFCG Mineração com NaïveBayes (7) === Error on test data === Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 1098

Marcus Sampaio DSC/UFCG Mineração com NaïveBayes (8) === Confusion Matrix === a b c d e f g <-- classified as | a = inadimplente | b = inadimplente | c = inadimplente | d = inadimplente | e = inadimplente | f = Adimplente | g = Cart. Castigada

Marcus Sampaio DSC/UFCG Síntese da Mineração AlgoritmoAcurácia de TreinamentoAcurácia de Teste ID3100%91,62% See596,31%94,54% Naïve Bayes96,27%94,62% Prism100%92,07%

Marcus Sampaio DSC/UFCG Conjunto-Treinamento

Marcus Sampaio DSC/UFCG Conjunto-Teste