Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados
Ricardo Bezerra de Andrade e Silva

Exemplo preliminar Roteiro Exemplo preliminar Motivação
Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão Exemplo preliminar

Problema Um problema do mundo dos negócios: entender o perfil dos clientes para desenvolvimento de novos produtos; para controle de estoque em postos de distribuição; propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; Quais são meus clientes típicos? Prólogo

Situação A empresa possui registro de todas as transações efetuadas;
O conteúdo desse banco de dados possui informação suficiente para categorizar diferentes comportamentos; Mas como aproveitar este conteúdo? “Afogados em dados, mas mendigando por informação”; Solução: apoio em ferramentas de análise automatizada; Prólogo

Definição da tarefa Tarefa escolhida: segmentação de mercado consumidor para auxílio a marketing; Categorias (classes): produtos de esporte; equipamentos de exercício; eletrodomésticos; produtos de entretenimento; produtos para o lar; Prólogo

Seleção de dados Utilizando o conhecimento que dispõe do domínio, o analista responsável decide que todas as informações necessárias encontram-se nas seguintes tabelas: clientes: nome, identificação, idade, sexo, estado civil, endereço, renda, proprietário da casa; produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada; transações: identificador de cliente, identificador de produto, data e hora, quantidade; Prólogo

Seleção de Dados (II) Agrupando informações em uma única tabela;
Prólogo

Aplicação de algoritmo
Decidiu-se aplicar um algoritmo de aprendizado para agrupar os clientes em quatro conjuntos ex.: rede de Kohonen do tipo vector quantization; A idéia do algoritmo é dispor, em conjuntos, clientes que apresentem aspectos similares; Posteriormente, os dados são organizados em uma planilha, onde o número do grupo (1, 2, 3, ou 4) é utilizado como chave primária; A planilha calcula estatísticas de cada grupo, comparando-as com toda população; Prólogo

Alguns resultados (I) Prólogo

Alguns resultados (II)
Prólogo

Motivação Roteiro Exemplo preliminar Motivação Conceitos básicos
Métodos de mineração de dados Exemplos de aplicação Conclusão Motivação

Motivação A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: Transações eletrônicas; Novos equipamentos científicos e industriais para observação e controle; Dispositivos de armazenamento em massa; O uso adequado da informação permite ganho de competitividade: conhecimento é poder, Motivação

Motivação Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: processo iterativo de criação, teste e refinamento de hipóteses; Tornam-se necessários novos métodos capazes de automatizar parte deste processo busca em um espaço de hipóteses; Motivação

Descoberta de Conhecimento em Bancos de Dados
“O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; “Torture os dados até eles confessarem”; Envolve a etapa de mineração de dados: a aplicação de algoritmos de análise de dados; Motivação

Interesse em Ascensão International Conference on Knowledge Discovery and Data Mining Junho de 1998: ACM SIGKDD Algumas companhias envolvidas: IBM Microsoft SAS Institute Silicon Graphics Motivação

Conceitos básicos Roteiro Exemplo preliminar Motivação
Métodos de mineração de dados Exemplos de aplicação Conclusão Conceitos básicos

O Que é Um Padrão Interessante?
Válido; Novo; Útil; Interpretável; Conhecimento, sobre a ótica de KDD (Fayyad et al., 1996): Conhecimento ={ X | f(X, V, N, U, I) > T}

KDD x Data Mining Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos

Processo Conceitos Compreensão do domínio e dos objetivos da tarefa;
Criação do conjunto de dados envolvendo as variáveis necessárias; Interpretação dos resultados, com possível retorno aos passos anteriores; Escolha e execução do algoritmo de acordo com a tarefa a ser cumprida Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Redução de dimensionalidade, combinação de atributos; Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados; Conceitos

Métodos de data mining Roteiro Exemplo preliminar Motivação
Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão Métodos de data mining

Métodos de mineração de dados: campos relacionados (I)
Inteligência Artificial aprendizado de máquina; representação de conhecimento e inferência; Estatística inferência estatística; análise exploratória de dados; Computação gráfica visualização de dados; Métodos

Métodos de mineração de dados: campos relacionados (II)
Bancos de dados linguagens de consulta o que é uma descoberta, afinal? Exibir todos os empregados que ganham dentro de uma determinada faixa salarial é uma descoberta? armazém de dados (data warehousing); processamento analítico on-line (OLAP); paralelização de processos; tendências: consultas por similaridade; consultas de classificadores, grupos e outros objetos; Métodos

Métodos de mineração de dados
Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos

Tarefas básicas Previsão
Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; É comumente visada em aprendizado de máquina/estatística; Exemplos: classificação e regressão; Métodos

Tarefas básicas Descrição
Reportar relações entre as variáveis do modelo de forma simétrica; À princípio, está mais relacionada ao processo de KDD; Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos

Exemplo de previsão (I)
Análise de crédito Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: se a renda é menor que t, então o crédito não deve ser liberado Exemplo: árvores de decisão; indução de regras renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos

Exemplo de previsão (II)
Análise de crédito Hiperplano oblíquo: melhor separação: Exemplos: regressão linear; perceptron; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos

Exemplo de previsão (III)
Análise de crédito Superfície não linear: melhor poder de classificação, pior interpretação; Exemplos: perceptrons multicamadas; regressão não-linear; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos

Exemplo de previsão (IV)
Análise de crédito Métodos baseado em exemplos; Exemplos: k-vizinhos mais próximos; raciocínio baseado em casos; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos

Exemplo de descrição (I)
Análise de crédito Agrupamento Exemplo: vector quantization; renda débito + t +: exemplo Métodos

Exemplo de descrição (II)
Regras de associação “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; descoberta simétrica de relações, ao contrário de métodos de classificação qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos

Exemplo de descrição (III)
Previsão de séries temporais Identificação dos investimentos mais promissores nos próximos 30 dias; Métodos

Garimpando resultados
Transformar de registros em mil regras é bom, mas... o que fazer com estas 1000 regras? Medidas de utilidade subjetivas dependentes de domínio demanda especialistas com tempo livre; objetivas mais independentes; um dos pontos chaves de KDD; Métodos

Medidas objetivas de utilidade: grau de surpresa
Validade utilizando limiares de confiança, apenas as regras (por exemplo) mais importantes seriam apresentadas; E as exceções? informações úteis não estão simplesmente nas regularidade mais comuns. Padrões inesperados podem também ser úteis; Exemplo de método: visualização de grupos de outliers; Métodos

Exemplo: algoritmo para regras de pequeno alcance (I)
São regras que cobrem apenas uma pequena quantidade de dados: potencial para descrever relações interessantes e anteriormente despercebidas; porém, são facilmente descartadas em filtragens por limiar de grau de cobertura; como distingui-las de ruído? Idéia do algoritmo: criar pequenas generalizações das regras em estudo e comparar a cobertura obtida; Métodos

Exemplo: algoritmo para regras de pequeno alcance (II)
para cada antecedente a de uma regra se a é categórico, retire-o da regra; se a é contínuo, aumente o intervalo no qual o antecedente é válido; conte o número D de vezes em que a classe obtida é diferente da classe da regra original; calcule uma medida M em função de D e do total de antecedentes N. exemplo: M = D/N; valores altos de M tenderão a capturar as relações mais úteis; Métodos

Escalabilidade técnicas para acelerar um processo KDD
Amostragem redução de precisão; Algoritmos distribuídos particionar o banco de dados em p partições; utilizar um processador diferente para cada partição; utilizar um método de combinação de resultados; Paralelismo (intra-algorítimico) Métodos

O perigo da falta de análise: paradoxo de Simpson (I)
Hospital A Hospital B Morreram Sobreviveram 63 2037 16 784 3% 2% O hospital A parece ser o menos adequado. Total 2100 800 Métodos

O perigo da falta de análise: paradoxo de Simpson (II)
Boas condições Hosp. A Hosp. B O hospital A é melhor! Morreram Sobreviveram 6 594 8 592 1% 1.3% 3.8% 4% Números x Bom-senso: “Lies, Damned Lies, and Statistics” Total 600 600 Hosp. A Hosp. B Más condições Morreram Sobreviveram 57 1443 8 192 ...and data mining? Total 1500 200 Métodos

A busca por causalidade
Correlação não é o mesmo que causalidade “lama” e “chuva” são dois conceitos relacionados, mas como inferir que um é causa do outro? A média de idade da Flórida é grande. O clima da Flórida faz as pessoas viverem mais? Explicação plausível: muitas pessoas mudam-se pra lá quando se aposentam; Experimentos controlados Métodos

Exemplos de aplicação Roteiro Exemplo preliminar Motivação
Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão Exemplos de aplicação

SKICAT (Sky Image Cataloging and Analysis Tool)
Digital Palomar Observatory Sky Survey banco de dados com três terabytes de imagens da ordem de dois bilhões de objetos celestes; Tarefas: diferenciar estrelas de galáxias uma vez classificadas, análise científicas mais específicas são aplicadas; classificar objetos de brilho fraco Aplicações

SKICAT: algoritmo de aprendizado
Regras extraídas de algoritmos de geração de árvores originam-se de uma única árvore; RULER alternativa: geração de várias árvores. Somente as melhores regras de cada árvore são mantidas; Divide-se a base de dados em vários conjuntos treinamento (para árvores) e teste (para regras); Podando regras: calcula-se a chance de que uma dada premissa esteja correlacionada com a classe especificada por pura sorte; Produz-se, assim, uma base robusta de regras; Redução da base por um algoritmo de cobertura de conjuntos; Aplicações

SKICAT: pré-processamento
“Em problemas de classificação, a escolha dos atributos utilizados para definir exemplos é o fator mais determinante do sucesso ou fracasso do processo de aprendizado” garbage in, garbage out; Uso de um programa público de processamento de imagens: baseado nos agrupamentos de pixels constituindo cada objeto detectado, produzem-se os atributos básicos discriminadores ex,: brilho e orientação; Aplicações

SKICAT: Gerenciando o conhecimento
Catálogo de objetos on-line utilizando-se um gerenciador de banco de dados permitir ao usuário localizar corpos celestes e consultar informações dos mesmos; Casamento de objetos obtidos de fontes diferentes; Aplicações

Kefir (Key Findings Reporter)
Análise de desvios descoberta de diferenças significativas entre valores medidos e valores anteriores ou padrões; Funções do Kefir descobrir, explicar e relatar derivações chave; Finding Conjunto de valores relacionados (atual, anteriores, padrão) de uma dada medida; Aplicações

Health-Kefir Motivação: organizações precisam controlar gastos com saúde, planejando medidas que venham a diminuir gastos futuros. MAS,... gasta-se muito tempo preparando-se relatórios, perdendo-se oportunidade importantes; Oportunidade para análise automática de dados: métodos do mercado de saúde baseiam-se em medidas padrões de vários aspectos, como preço, uso e qualidade; dimensões principais: população: empregados de uma empresa, moradores de um bairro...; área de estudo: nascimentos prematuros, internações...; medidas: tempo de internação... Aplicações

Health-Kefir O grau de interesse em um desvio está diretamente relacionado ao benefício atingível através das ações possíveis; os desvios interessantes são aqueles que indicam problemas que podem ser corrigidos; significância estatística; Pagamentos_por_caso desvios crescentes desta medida são altamente relevantes para o sistema Health-Kefir; como reduzir custos futuros; Aplicações

Health-Kefir Cálculo de desvio para cada setor e subsetor;
extrapolação linear; 92 93 94 95 valores padrões valores reais desvio tempo medida Aplicações

Health-Kefir Explicações
identificação do subsetor(es) mais responsável(is) pelo desvio encontrado; recursivo; internação morte admissão cirurgia clínica mental gravidez Aplicações

Health-Kefir Recomendação
os relatórios preparados precisam indicar soluções; uso de conhecimento de domínio para realizar tal tarefa: SE medida = admissão_por_1000 E setor = partos_prematuros E percentagem_mudança > 0.10 RECOMENDE “Iniciar um programa de acompanhamento pré-natal” COM percentagem_de_economia = 0.6 Aplicações

Health-Kefir: exemplo de saída
Admissões médicas O tempo médio de permanência nesta área de estudo cresceu 22,6%, de 4,1 a 5,1. Em torno de $ poderiam ser economizados se o tempo médio de permanência se mantivesse no valor esperado de 4,9. Se esta tendência permanecer, resultará em gastos adicionais de $ de despesas adicionais. Explicações: o aumento desta medida está relacionada ao aumento do tempo médio de permanência, no Medical Nervous System, em 247,9%, de 4.4 para 15.2. Recomendação: ... Economia prevista: $79.000 Aplicações

Conclusão Roteiro Exemplo preliminar Motivação Conceitos básicos
Métodos de mineração de dados Exemplos de aplicação Conclusão Conclusão

Diretrizes Onde o processo de descoberta de conhecimento deve ser aplicado? A tarefa é propícia ao estudo de novos experimentos; não há nenhuma outra boa alternativa de análise de dados; disponibilidade de dados suficientes; com nível aceitável de ruído; sem problemas de ordem jurídica; especialistas disponíveis para avaliação do grau de interesse das descobertas obtidas; seleção de atributos; descrição de conhecimento a priori em geral; Conclusão

Sumário das aplicações apresentadas
Marketing agrupamento SKICAT classificação Health-Kefir análise de desvio com sistema baseado em conhecimento; Conclusão

Endereços interessantes
KDNuggets Directory The Data Mine Microsoft Decision Theory and Adaptive Systems DBMiner: demonstração Conclusão

Referências Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill. Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data Analysis: Issues and Examples”. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço ~fayyad. Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). “From Data Mining to Knowledge Discovery: An Overview”, em Advances in Knowledge Discovery and Data Mining. AAAI Press. Freitas, A. A. (1997). “On objective measures of rule surprisingness”. Em Proceedings of the 2nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço

Referências Imielinski, T; Mannila, H. (1996). “A Database Perspective on Knowledge Discovery”. Communications of the ACM, volume 39, número 11. Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). ”Selecting and Reporting What is Interesting”. Em Advances in Knowledge Discovery and Data Mining. AAAI Press. Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço philosophy/TETRAD.BOOK/book.html

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Apresentações semelhantes

Apresentação em tema: "Descoberta de Conhecimento em Bases de Dados e Mineração de Dados"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Apresentações semelhantes

Apresentação em tema: "Descoberta de Conhecimento em Bases de Dados e Mineração de Dados"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback