Mineração de Dados Introdução
Introdução 1/ Motivação Explosão de Dados Ferramentas automáticas de coleta de dados +maturidade das tecnologias de bancos de dados enorme quantidade de dados armazenados em bases de dados e outros meios de armazenamento Abundancia de dados ao lado de escassez de conhecimentos
Introdução 2/ Motivação Explosão de Dados Solução: data warehousing e mineração de dados descoberta de conhecimentos (regras, regularidades, padrões) a partir de enormes bases de dados
KDD: Descoberta de Conhecimentos a partir de bancos de dados Avaliação dos Padrões Mineração de Dados Dados relevantes Seleção Data Warehouse Limpeza de Dados Integração de Dados Bases de dados
Introdução 4/ Passos do Processo KDD Estudo do domínio de aplicação conhecimento a priori relevante, objetivo da aplicação Seleção dos dados Limpeza e pre-processamento dos dados (60% do esforço) Redução e transformação de dados seleção de atributos, redução de dimensão
Introdução 5/ Passos do Processo KDD Escolha dos modelos de mineração sumário, classificação, regressão, associação, clustering Escolhas dos algoritmos de mineração Mineração de dados: busca de padrões de interesse
Introdução 6/ Passos do Processo KDD Avaliação dos padrões e apresentação do conhecimento visualização, transformação, remoção de padrões redundantes Uso do conhecimento descoberto
Mineração de Dados e Inteligencia nos Negócios Potencial crescente de apoio a decisões nos negócios Usuário Final Tomador de Decisões Apresentação dos Dados Analista de Negócios Tecnicas de Visualização Mineração de Dados Analista de Dados Descoberta de Informação Exploração de Dados Análise estatística, consultas, relatórios Data Warehouses / Data Marts OLAP Fontes de Dados Papeis, Arquivos, Provedores de Informação, Bases de Dados, OLTP
Arquitetura de um sistema usual de mineração de dados Interface Gráfica Avaliação dos Padrões Mineração de Dados Knowledge-base Servidor de base de dados ou data warehouse Filtragem Limpeza e integração de dados Data Warehouse Bases de dados
Introdução 9/ Fontes de dados para a mineração Bases de dados relacionais Data warehouses Bases de dados transacionais
Introdução 10/ Fontes de dados para a mineração Bases de dados avançadas e repositórios de dados bases de dados orientada objeto e bases de dados objeto-relacional bases de dados espaciais dados temporais e seqüenciais bases de dados textuais e bases de dados multimídia bases de dados heterogêneas WWW
Introdução 11/ Funcionalidades da mineração de dados Descrição de conceitos: caracterização e discriminação Generaliza, resume e contrasta as características dos dados Associação: correlação e causualidade associação multi-dimensional versus associação uni-dimensional idade(X, “20..29”) ^ renda(X, “20..29K”) compra(X, “PC”) [suporte = 2%, confiancia = 60%]
Introdução 12/ Funcionalidades da mineração de dados Classificação e previsão Construir modelos (funções) que descrevem e distinguem classes ou conceitos para previsões futuras modelos: redes neurais, arvores de decisão, regras de classificação Previsão: prever valores numéricos ausentes ou desconhecidos
Introdução 13/ Funcionalidades da mineração de dados Análise de cluster os rótulos das classes são desconhecidos agrupar dados para formar novas classes O agrupamento é baseado em: maximizar a similaridade intra-classe e minimizar a similaridade inter-classe
Introdução 14/ Funcionalidades da mineração de dados Análise de valores aberrantes (outliers) Outilier : um dado que diverge do comportamento geral dos dados Pode ser considerado ruido ou exceção comum em detecção de fraudes e análise de eventos raros
Introdução 15/ Funcionalidades da mineração de dados Análise de tendência e evolução tendência e desvio: análise de regressão Mineração de padrões seqüenciais: análise de periodicidade análise baseada em similaridade
Introdução 16/ Interesse dos padrões descobertos Um sistema de mineração de dados pode gerar centenas de padrões nem todos são de interesse Um padrão é interessante, se ele é facilmente entendido pelos humanos, validado em dados independentes, potencialmente útil, novo, ou valida alguma hipótese que o usuário procurava confirmar
Introdução 17/ Interesse dos padrões descobertos Medidas de interesse de um padrão objetivas: baseadas em estatísticas e estruturas dos padrões (suporte, confiança) subjetivas: baseadas nas crenças do usuário nos dados (novidade inesperada)
Mineração de Dados: Confluencia de Multiplas Disciplinas Tecnologia de Bases de Dados Estatística Mineração de Dados Aprendizagem de Máquina Visualização Ciências da Informação Outras Disciplinas
Introdução 19/ Mineração de Dados: Classificação Funcionalidade geral Mineração de dados descritiva Mineração de dados preditiva Outros critérios tipo de base de dados a ser minerada tipo de conhecimento a ser descoberto tipo de técnica a ser utilizada tipo de aplicações
Introdução 20/ Mineração de Dados: Classificação Base de dados a ser minerada relacional, transacional, orientada objeto, objeto-relacional, espacial, temporal, textual, multimídia, heterogênea, WWW Conhecimento a ser minerado Caracterização, descriminação, associação, classificação, clustering, tendência e análise de desvio Funções múltiplas e integradas e mineração a níveis múltiplos
Introdução 21/ Mineração de Dados: Aplicações potenciais Análise de bases de dados e suporte a decisão análise de mercado alvo de campanhas, análise de compras, segmentação do mercado, gerencia de relações com clientes, vendas cruzadas análise de risco fidelização de clientes, controle de qualidade, análise de competitividade detecção de fraude
Introdução 22/ Mineração de Dados: Aplicações potenciais Análise de bases de dados e suporte a decisão detecção de fraude Outras aplicações Mineração de texto (email, documentos) e web analise
Introdução 23/ Análise de Mercado Fontes de dados para análise transações de cartão, cartões de fidelidade, cupons de desconto, queixas de clientes, estudos de estilos de vida Alvo de campanhas encontrar grupos de clientes que partilham as mesmas características: interesse, nível de renda, hábitos de consumo
Introdução 24/ Análise de Mercado padrões de compras de clientes no tempo conversão para uma conta conjunta: casamento Análise cruzada de mercado associações/correlações entre vendas de produtos previsão baseada nas informações de associação
Introdução 25/ Análise de Mercado perfil de consumidores que tipo de consumidores compra que tipo de produto Identificação das exigências dos consumidores identificação dos melhores produtos para diferentes tipos de clientes encontrar que fatores atrairão novos clientes
Introdução 26/ Análise de Mercado sumários relatários muti-dimensionais sumários estatísticos (medidas de tendência central e de dispersão)
Introdução 27/ Análise de Risco Plano financeiro e avaliação de recursos análise de fluxo de caixa Planificação de receitas sumário e comparação de receitas e despesas Competição agrupar clientes em classes e oferecer preços baseados em classes
Introdução 28/ Detecção de fraudes aplicações planos de saúde, varejo, cartões de crédito, fraude em cartões telefônicos Abordagem uso de dados históricos para construir modelos de comportamento fraudulento e uso de mineração de dados para ajudar a identificar instancias similares
Introdução 29/ Detecção de fraudes Exemplos seguro de carros transações monetárias fraudulentas seguro de saúde detecção de tratamento médico inapropriado detecção de fraude telefônica varejo
Introdução 30/ Tendências em Mineração metodologia de mineração e iteração com o usuário desempenho e escalabilidade diversidade de tipos de dados aplicações e impactos sociais