Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouNicolas Fortuna Alterado mais de 10 anos atrás
1
Descoberta de Conhecimento em Bases de Dados e Mineração de Dados
Ricardo Bezerra de Andrade e Silva
2
Exemplo preliminar Roteiro Exemplo preliminar Motivação
Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão Exemplo preliminar
3
Problema Um problema do mundo dos negócios: entender o perfil dos clientes para desenvolvimento de novos produtos; para controle de estoque em postos de distribuição; propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; Quais são meus clientes típicos? Prólogo
4
Situação A empresa possui registro de todas as transações efetuadas;
O conteúdo desse banco de dados possui informação suficiente para categorizar diferentes comportamentos; Mas como aproveitar este conteúdo? “Afogados em dados, mas mendigando por informação”; Solução: apoio em ferramentas de análise automatizada; Prólogo
5
Definição da tarefa Tarefa escolhida: segmentação de mercado consumidor para auxílio a marketing; Categorias (classes): produtos de esporte; equipamentos de exercício; eletrodomésticos; produtos de entretenimento; produtos para o lar; Prólogo
6
Seleção de dados Utilizando o conhecimento que dispõe do domínio, o analista responsável decide que todas as informações necessárias encontram-se nas seguintes tabelas: clientes: nome, identificação, idade, sexo, estado civil, endereço, renda, proprietário da casa; produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada; transações: identificador de cliente, identificador de produto, data e hora, quantidade; Prólogo
7
Seleção de Dados (II) Agrupando informações em uma única tabela;
Prólogo
8
Aplicação de algoritmo
Decidiu-se aplicar um algoritmo de aprendizado para agrupar os clientes em quatro conjuntos ex.: rede de Kohonen do tipo vector quantization; A idéia do algoritmo é dispor, em conjuntos, clientes que apresentem aspectos similares; Posteriormente, os dados são organizados em uma planilha, onde o número do grupo (1, 2, 3, ou 4) é utilizado como chave primária; A planilha calcula estatísticas de cada grupo, comparando-as com toda população; Prólogo
9
Alguns resultados (I) Prólogo
10
Alguns resultados (II)
Prólogo
11
Motivação Roteiro Exemplo preliminar Motivação Conceitos básicos
Métodos de mineração de dados Exemplos de aplicação Conclusão Motivação
12
Motivação A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: Transações eletrônicas; Novos equipamentos científicos e industriais para observação e controle; Dispositivos de armazenamento em massa; O uso adequado da informação permite ganho de competitividade: conhecimento é poder, Motivação
13
Motivação Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: processo iterativo de criação, teste e refinamento de hipóteses; Tornam-se necessários novos métodos capazes de automatizar parte deste processo busca em um espaço de hipóteses; Motivação
14
Descoberta de Conhecimento em Bancos de Dados
“O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; “Torture os dados até eles confessarem”; Envolve a etapa de mineração de dados: a aplicação de algoritmos de análise de dados; Motivação
15
Interesse em Ascensão International Conference on Knowledge Discovery and Data Mining Junho de 1998: ACM SIGKDD Algumas companhias envolvidas: IBM Microsoft SAS Institute Silicon Graphics Motivação
16
Conceitos básicos Roteiro Exemplo preliminar Motivação
Métodos de mineração de dados Exemplos de aplicação Conclusão Conceitos básicos
17
O Que é Um Padrão Interessante?
Válido; Novo; Útil; Interpretável; Conhecimento, sobre a ótica de KDD (Fayyad et al., 1996): Conhecimento ={ X | f(X, V, N, U, I) > T}
18
KDD x Data Mining Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos
19
Processo Conceitos Compreensão do domínio e dos objetivos da tarefa;
Criação do conjunto de dados envolvendo as variáveis necessárias; Interpretação dos resultados, com possível retorno aos passos anteriores; Escolha e execução do algoritmo de acordo com a tarefa a ser cumprida Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Redução de dimensionalidade, combinação de atributos; Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados; Conceitos
20
Métodos de data mining Roteiro Exemplo preliminar Motivação
Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão Métodos de data mining
21
Métodos de mineração de dados: campos relacionados (I)
Inteligência Artificial aprendizado de máquina; representação de conhecimento e inferência; Estatística inferência estatística; análise exploratória de dados; Computação gráfica visualização de dados; Métodos
22
Métodos de mineração de dados: campos relacionados (II)
Bancos de dados linguagens de consulta o que é uma descoberta, afinal? Exibir todos os empregados que ganham dentro de uma determinada faixa salarial é uma descoberta? armazém de dados (data warehousing); processamento analítico on-line (OLAP); paralelização de processos; tendências: consultas por similaridade; consultas de classificadores, grupos e outros objetos; Métodos
23
Métodos de mineração de dados
Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos
24
Tarefas básicas Previsão
Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; É comumente visada em aprendizado de máquina/estatística; Exemplos: classificação e regressão; Métodos
25
Tarefas básicas Descrição
Reportar relações entre as variáveis do modelo de forma simétrica; À princípio, está mais relacionada ao processo de KDD; Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos
26
Exemplo de previsão (I)
Análise de crédito Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: se a renda é menor que t, então o crédito não deve ser liberado Exemplo: árvores de decisão; indução de regras renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos
27
Exemplo de previsão (II)
Análise de crédito Hiperplano oblíquo: melhor separação: Exemplos: regressão linear; perceptron; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos
28
Exemplo de previsão (III)
Análise de crédito Superfície não linear: melhor poder de classificação, pior interpretação; Exemplos: perceptrons multicamadas; regressão não-linear; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos
29
Exemplo de previsão (IV)
Análise de crédito Métodos baseado em exemplos; Exemplos: k-vizinhos mais próximos; raciocínio baseado em casos; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos
30
Exemplo de descrição (I)
Análise de crédito Agrupamento Exemplo: vector quantization; renda débito + t +: exemplo Métodos
31
Exemplo de descrição (II)
Regras de associação “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; descoberta simétrica de relações, ao contrário de métodos de classificação qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos
32
Exemplo de descrição (III)
Previsão de séries temporais Identificação dos investimentos mais promissores nos próximos 30 dias; Métodos
33
Garimpando resultados
Transformar de registros em mil regras é bom, mas... o que fazer com estas 1000 regras? Medidas de utilidade subjetivas dependentes de domínio demanda especialistas com tempo livre; objetivas mais independentes; um dos pontos chaves de KDD; Métodos
34
Medidas objetivas de utilidade: grau de surpresa
Validade utilizando limiares de confiança, apenas as regras (por exemplo) mais importantes seriam apresentadas; E as exceções? informações úteis não estão simplesmente nas regularidade mais comuns. Padrões inesperados podem também ser úteis; Exemplo de método: visualização de grupos de outliers; Métodos
35
Exemplo: algoritmo para regras de pequeno alcance (I)
São regras que cobrem apenas uma pequena quantidade de dados: potencial para descrever relações interessantes e anteriormente despercebidas; porém, são facilmente descartadas em filtragens por limiar de grau de cobertura; como distingui-las de ruído? Idéia do algoritmo: criar pequenas generalizações das regras em estudo e comparar a cobertura obtida; Métodos
36
Exemplo: algoritmo para regras de pequeno alcance (II)
para cada antecedente a de uma regra se a é categórico, retire-o da regra; se a é contínuo, aumente o intervalo no qual o antecedente é válido; conte o número D de vezes em que a classe obtida é diferente da classe da regra original; calcule uma medida M em função de D e do total de antecedentes N. exemplo: M = D/N; valores altos de M tenderão a capturar as relações mais úteis; Métodos
37
Escalabilidade técnicas para acelerar um processo KDD
Amostragem redução de precisão; Algoritmos distribuídos particionar o banco de dados em p partições; utilizar um processador diferente para cada partição; utilizar um método de combinação de resultados; Paralelismo (intra-algorítimico) Métodos
38
O perigo da falta de análise: paradoxo de Simpson (I)
Hospital A Hospital B Morreram Sobreviveram 63 2037 16 784 3% 2% O hospital A parece ser o menos adequado. Total 2100 800 Métodos
39
O perigo da falta de análise: paradoxo de Simpson (II)
Boas condições Hosp. A Hosp. B O hospital A é melhor! Morreram Sobreviveram 6 594 8 592 1% 1.3% 3.8% 4% Números x Bom-senso: “Lies, Damned Lies, and Statistics” Total 600 600 Hosp. A Hosp. B Más condições Morreram Sobreviveram 57 1443 8 192 ...and data mining? Total 1500 200 Métodos
40
A busca por causalidade
Correlação não é o mesmo que causalidade “lama” e “chuva” são dois conceitos relacionados, mas como inferir que um é causa do outro? A média de idade da Flórida é grande. O clima da Flórida faz as pessoas viverem mais? Explicação plausível: muitas pessoas mudam-se pra lá quando se aposentam; Experimentos controlados Métodos
41
Exemplos de aplicação Roteiro Exemplo preliminar Motivação
Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão Exemplos de aplicação
42
SKICAT (Sky Image Cataloging and Analysis Tool)
Digital Palomar Observatory Sky Survey banco de dados com três terabytes de imagens da ordem de dois bilhões de objetos celestes; Tarefas: diferenciar estrelas de galáxias uma vez classificadas, análise científicas mais específicas são aplicadas; classificar objetos de brilho fraco Aplicações
43
SKICAT: algoritmo de aprendizado
Regras extraídas de algoritmos de geração de árvores originam-se de uma única árvore; RULER alternativa: geração de várias árvores. Somente as melhores regras de cada árvore são mantidas; Divide-se a base de dados em vários conjuntos treinamento (para árvores) e teste (para regras); Podando regras: calcula-se a chance de que uma dada premissa esteja correlacionada com a classe especificada por pura sorte; Produz-se, assim, uma base robusta de regras; Redução da base por um algoritmo de cobertura de conjuntos; Aplicações
44
SKICAT: pré-processamento
“Em problemas de classificação, a escolha dos atributos utilizados para definir exemplos é o fator mais determinante do sucesso ou fracasso do processo de aprendizado” garbage in, garbage out; Uso de um programa público de processamento de imagens: baseado nos agrupamentos de pixels constituindo cada objeto detectado, produzem-se os atributos básicos discriminadores ex,: brilho e orientação; Aplicações
45
SKICAT: Gerenciando o conhecimento
Catálogo de objetos on-line utilizando-se um gerenciador de banco de dados permitir ao usuário localizar corpos celestes e consultar informações dos mesmos; Casamento de objetos obtidos de fontes diferentes; Aplicações
46
Kefir (Key Findings Reporter)
Análise de desvios descoberta de diferenças significativas entre valores medidos e valores anteriores ou padrões; Funções do Kefir descobrir, explicar e relatar derivações chave; Finding Conjunto de valores relacionados (atual, anteriores, padrão) de uma dada medida; Aplicações
47
Health-Kefir Motivação: organizações precisam controlar gastos com saúde, planejando medidas que venham a diminuir gastos futuros. MAS,... gasta-se muito tempo preparando-se relatórios, perdendo-se oportunidade importantes; Oportunidade para análise automática de dados: métodos do mercado de saúde baseiam-se em medidas padrões de vários aspectos, como preço, uso e qualidade; dimensões principais: população: empregados de uma empresa, moradores de um bairro...; área de estudo: nascimentos prematuros, internações...; medidas: tempo de internação... Aplicações
48
Health-Kefir O grau de interesse em um desvio está diretamente relacionado ao benefício atingível através das ações possíveis; os desvios interessantes são aqueles que indicam problemas que podem ser corrigidos; significância estatística; Pagamentos_por_caso desvios crescentes desta medida são altamente relevantes para o sistema Health-Kefir; como reduzir custos futuros; Aplicações
49
Health-Kefir Cálculo de desvio para cada setor e subsetor;
extrapolação linear; 92 93 94 95 valores padrões valores reais desvio tempo medida Aplicações
50
Health-Kefir Explicações
identificação do subsetor(es) mais responsável(is) pelo desvio encontrado; recursivo; internação morte admissão cirurgia clínica mental gravidez Aplicações
51
Health-Kefir Recomendação
os relatórios preparados precisam indicar soluções; uso de conhecimento de domínio para realizar tal tarefa: SE medida = admissão_por_1000 E setor = partos_prematuros E percentagem_mudança > 0.10 RECOMENDE “Iniciar um programa de acompanhamento pré-natal” COM percentagem_de_economia = 0.6 Aplicações
52
Health-Kefir: exemplo de saída
Admissões médicas O tempo médio de permanência nesta área de estudo cresceu 22,6%, de 4,1 a 5,1. Em torno de $ poderiam ser economizados se o tempo médio de permanência se mantivesse no valor esperado de 4,9. Se esta tendência permanecer, resultará em gastos adicionais de $ de despesas adicionais. Explicações: o aumento desta medida está relacionada ao aumento do tempo médio de permanência, no Medical Nervous System, em 247,9%, de 4.4 para 15.2. Recomendação: ... Economia prevista: $79.000 Aplicações
53
Conclusão Roteiro Exemplo preliminar Motivação Conceitos básicos
Métodos de mineração de dados Exemplos de aplicação Conclusão Conclusão
54
Diretrizes Onde o processo de descoberta de conhecimento deve ser aplicado? A tarefa é propícia ao estudo de novos experimentos; não há nenhuma outra boa alternativa de análise de dados; disponibilidade de dados suficientes; com nível aceitável de ruído; sem problemas de ordem jurídica; especialistas disponíveis para avaliação do grau de interesse das descobertas obtidas; seleção de atributos; descrição de conhecimento a priori em geral; Conclusão
55
Sumário das aplicações apresentadas
Marketing agrupamento SKICAT classificação Health-Kefir análise de desvio com sistema baseado em conhecimento; Conclusão
56
Endereços interessantes
KDNuggets Directory The Data Mine Microsoft Decision Theory and Adaptive Systems DBMiner: demonstração Conclusão
57
Referências Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill. Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data Analysis: Issues and Examples”. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço ~fayyad. Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). “From Data Mining to Knowledge Discovery: An Overview”, em Advances in Knowledge Discovery and Data Mining. AAAI Press. Freitas, A. A. (1997). “On objective measures of rule surprisingness”. Em Proceedings of the 2nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço
58
Referências Imielinski, T; Mannila, H. (1996). “A Database Perspective on Knowledge Discovery”. Communications of the ACM, volume 39, número 11. Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). ”Selecting and Reporting What is Interesting”. Em Advances in Knowledge Discovery and Data Mining. AAAI Press. Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço philosophy/TETRAD.BOOK/book.html
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.