A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Ricardo Bezerra de Andrade e Silva

Apresentações semelhantes


Apresentação em tema: "Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Ricardo Bezerra de Andrade e Silva"— Transcrição da apresentação:

1 Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Ricardo Bezerra de Andrade e Silva

2 Exemplo preliminar Roteiro 4 Exemplo preliminar 4 Motivação 4 Conceitos básicos 4 Métodos de mineração de dados 4 Exemplos de aplicação 4 Conclusão

3 Problema 4 Um problema do mundo dos negócios: entender o perfil dos clientes –para desenvolvimento de novos produtos; –para controle de estoque em postos de distribuição; –propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; 4 Quais são meus clientes típicos? Prólogo

4 Situação 4 A empresa possui registro de todas as transações efetuadas; 4 O conteúdo desse banco de dados possui informação suficiente para categorizar diferentes comportamentos; 4 Mas como aproveitar este conteúdo? –Afogados em dados, mas mendigando por informação; 4 Solução: apoio em ferramentas de análise automatizada; Prólogo

5 Definição da tarefa 4 Tarefa escolhida: segmentação de mercado consumidor para auxílio a marketing; 4 Categorias (classes): –produtos de esporte; –equipamentos de exercício; –eletrodomésticos; –produtos de entretenimento; –produtos para o lar; Prólogo

6 Seleção de dados 4 Utilizando o conhecimento que dispõe do domínio, o analista responsável decide que todas as informações necessárias encontram-se nas seguintes tabelas: –clientes: nome, identificação, idade, sexo, estado civil, endereço, renda, proprietário da casa; –produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada; –transações: identificador de cliente, identificador de produto, data e hora, quantidade; Prólogo

7 Seleção de Dados (II) 4 Agrupando informações em uma única tabela; Prólogo

8 Aplicação de algoritmo 4 Decidiu-se aplicar um algoritmo de aprendizado para agrupar os clientes em quatro conjuntos –ex.: rede de Kohonen do tipo vector quantization; 4 A idéia do algoritmo é dispor, em conjuntos, clientes que apresentem aspectos similares; 4 Posteriormente, os dados são organizados em uma planilha, onde o número do grupo (1, 2, 3, ou 4) é utilizado como chave primária; 4 A planilha calcula estatísticas de cada grupo, comparando-as com toda população;

9 Alguns resultados (I) Prólogo

10 Alguns resultados (II) Prólogo

11 Motivação Roteiro 4 Exemplo preliminar 4 Motivação 4 Conceitos básicos 4 Métodos de mineração de dados 4 Exemplos de aplicação 4 Conclusão

12 Motivação 4 A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: –Transações eletrônicas; –Novos equipamentos científicos e industriais para observação e controle; –Dispositivos de armazenamento em massa; 4 O uso adequado da informação permite ganho de competitividade: conhecimento é poder, Motivação

13 4 Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: –processo iterativo de criação, teste e refinamento de hipóteses; 4 Tornam-se necessários novos métodos capazes de automatizar parte deste processo –busca em um espaço de hipóteses; Motivação

14 Descoberta de Conhecimento em Bancos de Dados 4 O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados; 4 Torture os dados até eles confessarem; 4 Envolve a etapa de mineração de dados: a aplicação de algoritmos de análise de dados; Motivação

15 Interesse em Ascensão 4 International Conference on Knowledge Discovery and Data Mining 4 Junho de 1998: ACM SIGKDD 4 Algumas companhias envolvidas: –IBM –Microsoft –SAS Institute –Silicon Graphics Motivação

16 Conceitos básicos Roteiro 4 Exemplo preliminar 4 Motivação 4 Conceitos básicos 4 Métodos de mineração de dados 4 Exemplos de aplicação 4 Conclusão

17 Conhecimento, sobre a ótica de KDD (Fayyad et al., 1996): Conhecimento ={ X | f(X, V, N, U, I) > T} O Que é Um Padrão Interessante? 4 Válido; 4 Novo; 4 Útil; 4 Interpretável;

18 KDD x Data Mining 4 Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; 4 KDD utiliza algoritmos de data mining para extrair padrões classificados como conhecimento. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos

19 Processo Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Redução de dimensionalidade, combinação de atributos; Escolha e execução do algoritmo de acordo com a tarefa a ser cumprida Interpretação dos resultados, com possível retorno aos passos anteriores; Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados; Conceitos

20 Métodos de data mining Roteiro 4 Exemplo preliminar 4 Motivação 4 Conceitos básicos 4 Métodos de mineração de dados 4 Exemplos de aplicação 4 Conclusão

21 Métodos de mineração de dados: campos relacionados (I) 4 Inteligência Artificial –aprendizado de máquina; –representação de conhecimento e inferência; 4 Estatística –inferência estatística; –análise exploratória de dados; 4 Computação gráfica –visualização de dados; Métodos

22 Métodos de mineração de dados: campos relacionados (II) 4 Bancos de dados –linguagens de consulta o que é uma descoberta, afinal? Exibir todos os empregados que ganham dentro de uma determinada faixa salarial é uma descoberta? –armazém de dados (data warehousing); –processamento analítico on-line (OLAP); –paralelização de processos; –tendências: consultas por similaridade; consultas de classificadores, grupos e outros objetos; Métodos

23 Métodos de mineração de dados 4 Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; 4 Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos

24 Tarefas básicas 4 Previsão –Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; –É comumente visada em aprendizado de máquina/estatística; –Exemplos: classificação e regressão; Métodos

25 Tarefas básicas 4 Descrição –Reportar relações entre as variáveis do modelo de forma simétrica; –À princípio, está mais relacionada ao processo de KDD; –Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos

26 Exemplo de previsão (I) 4 Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: –se a renda é menor que t, então o crédito não deve ser liberado 4 Exemplo: –árvores de decisão; –indução de regras renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Análise de crédito Métodos

27 Exemplo de previsão (II) 4 Hiperplano oblíquo: melhor separação: 4 Exemplos: –regressão linear; –perceptron; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

28 Exemplo de previsão (III) 4 Superfície não linear: melhor poder de classificação, pior interpretação; 4 Exemplos: –perceptrons multicamadas; –regressão não-linear; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

29 Exemplo de previsão (IV) 4 Métodos baseado em exemplos; 4 Exemplos: –k-vizinhos mais próximos; –raciocínio baseado em casos; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

30 Exemplo de descrição (I) 4 Agrupamento 4 Exemplo: –vector quantization; renda débito t + +: exemplo Análise de crédito Métodos

31 Exemplo de descrição (II) 4 Regras de associação –98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos; –descoberta simétrica de relações, ao contrário de métodos de classificação qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos

32 Exemplo de descrição (III) 4 Previsão de séries temporais Identificação dos investimentos mais promissores nos próximos 30 dias;

33 Garimpando resultados 4 Transformar de registros em mil regras é bom, mas... –o que fazer com estas 1000 regras? 4 Medidas de utilidade –subjetivas dependentes de domínio demanda especialistas com tempo livre; –objetivas mais independentes; um dos pontos chaves de KDD; Métodos

34 Medidas objetivas de utilidade: grau de surpresa 4 Validade –utilizando limiares de confiança, apenas as regras (por exemplo) mais importantes seriam apresentadas; 4 E as exceções? –informações úteis não estão simplesmente nas regularidade mais comuns. Padrões inesperados podem também ser úteis; –Exemplo de método: visualização de grupos de outliers; Métodos

35 Exemplo: algoritmo para regras de pequeno alcance (I) 4 São regras que cobrem apenas uma pequena quantidade de dados: –potencial para descrever relações interessantes e anteriormente despercebidas; –porém, são facilmente descartadas em filtragens por limiar de grau de cobertura; como distingui-las de ruído? 4 Idéia do algoritmo: –criar pequenas generalizações das regras em estudo e comparar a cobertura obtida;

36 Exemplo: algoritmo para regras de pequeno alcance (II) 4 Algoritmo: –para cada antecedente a de uma regra se a é categórico, retire-o da regra; se a é contínuo, aumente o intervalo no qual o antecedente é válido; conte o número D de vezes em que a classe obtida é diferente da classe da regra original; –calcule uma medida M em função de D e do total de antecedentes N. exemplo: M = D/N; –valores altos de M tenderão a capturar as relações mais úteis; Métodos

37 Escalabilidade técnicas para acelerar um processo KDD 4 Amostragem –redução de precisão; 4 Algoritmos distribuídos –particionar o banco de dados em p partições; –utilizar um processador diferente para cada partição; –utilizar um método de combinação de resultados; 4 Paralelismo (intra-algorítimico) Métodos

38 O perigo da falta de análise: paradoxo de Simpson (I) Hospital AHospital B Morreram Sobreviveram Total Métodos 3%2% O hospital A parece ser o menos adequado.

39 O perigo da falta de análise: paradoxo de Simpson (II) 4 Números x Bom-senso: Lies, Damned Lies, and Statistics Métodos...and data mining? Hosp. AHosp. B Morreram Sobreviveram Total Hosp. AHosp. B Morreram Sobreviveram Total %1.3% 3.8%4% Boas condições Más condições O hospital A é melhor!

40 A busca por causalidade 4 Correlação não é o mesmo que causalidade –lama e chuva são dois conceitos relacionados, mas como inferir que um é causa do outro? –A média de idade da Flórida é grande. O clima da Flórida faz as pessoas viverem mais? Explicação plausível: muitas pessoas mudam-se pra lá quando se aposentam; 4 Experimentos controlados Métodos

41 Exemplos de aplicação Roteiro 4 Exemplo preliminar 4 Motivação 4 Conceitos básicos 4 Métodos de mineração de dados 4 Exemplos de aplicação 4 Conclusão

42 SKICAT (Sky Image Cataloging and Analysis Tool) 4 Digital Palomar Observatory Sky Survey –banco de dados com três terabytes de imagens da ordem de dois bilhões de objetos celestes; 4 Tarefas: –diferenciar estrelas de galáxias uma vez classificadas, análise científicas mais específicas são aplicadas; –classificar objetos de brilho fraco Aplicações

43 SKICAT: algoritmo de aprendizado 4 Regras extraídas de algoritmos de geração de árvores originam-se de uma única árvore; 4 RULER –alternativa: geração de várias árvores. Somente as melhores regras de cada árvore são mantidas; –Divide-se a base de dados em vários conjuntos treinamento (para árvores) e teste (para regras); –Podando regras: calcula-se a chance de que uma dada premissa esteja correlacionada com a classe especificada por pura sorte; –Produz-se, assim, uma base robusta de regras; –Redução da base por um algoritmo de cobertura de conjuntos; Aplicações

44 SKICAT: pré-processamento 4 Em problemas de classificação, a escolha dos atributos utilizados para definir exemplos é o fator mais determinante do sucesso ou fracasso do processo de aprendizado –garbage in, garbage out; 4 Uso de um programa público de processamento de imagens: –baseado nos agrupamentos de pixels constituindo cada objeto detectado, produzem-se os atributos básicos discriminadores ex,: brilho e orientação; Aplicações

45 SKICAT: Gerenciando o conhecimento 4 Catálogo de objetos on-line utilizando-se um gerenciador de banco de dados –permitir ao usuário localizar corpos celestes e consultar informações dos mesmos; 4 Casamento de objetos obtidos de fontes diferentes; Aplicações

46 Kefir (Key Findings Reporter) 4 Análise de desvios –descoberta de diferenças significativas entre valores medidos e valores anteriores ou padrões; 4 Funções do Kefir –descobrir, explicar e relatar derivações chave; 4 Finding –Conjunto de valores relacionados (atual, anteriores, padrão) de uma dada medida; Aplicações

47 Health-Kefir 4 Motivação: organizações precisam controlar gastos com saúde, planejando medidas que venham a diminuir gastos futuros. MAS,... –gasta-se muito tempo preparando-se relatórios, perdendo-se oportunidade importantes; 4 Oportunidade para análise automática de dados: –métodos do mercado de saúde baseiam-se em medidas padrões de vários aspectos, como preço, uso e qualidade; –dimensões principais: população: empregados de uma empresa, moradores de um bairro...; área de estudo: nascimentos prematuros, internações...; medidas: tempo de internação... Aplicações

48 Health-Kefir 4 O grau de interesse em um desvio está diretamente relacionado ao benefício atingível através das ações possíveis; –os desvios interessantes são aqueles que indicam problemas que podem ser corrigidos; –significância estatística; Pagamentos_por_caso –desvios crescentes desta medida são altamente relevantes para o sistema Health-Kefir; –como reduzir custos futuros; Aplicações

49 Health-Kefir 4 Cálculo de desvio para cada setor e subsetor; –extrapolação linear; valores padrões valores reais desvio tempo medida Aplicações

50 Health-Kefir 4 Explicações –identificação do subsetor(es) mais responsável(is) pelo desvio encontrado; –recursivo; internação morteadmissão cirurgiaclínicamentalgravidez

51 Health-Kefir 4 Recomendação –os relatórios preparados precisam indicar soluções; –uso de conhecimento de domínio para realizar tal tarefa: SE medida = admissão_por_1000 E setor = partos_prematuros E percentagem_mudança > 0.10 RECOMENDE Iniciar um programa de acompanhamento pré-natal COM percentagem_de_economia = 0.6 Aplicações

52 Health-Kefir: exemplo de saída Aplicações Admissões médicas O tempo médio de permanência nesta área de estudo cresceu 22,6%, de 4,1 a 5,1. Em torno de $ poderiam ser economizados se o tempo médio de permanência se mantivesse no valor esperado de 4,9. Se esta tendência permanecer, resultará em gastos adicionais de $ de despesas adicionais. Explicações: o aumento desta medida está relacionada ao aumento do tempo médio de permanência, no Medical Nervous System, em 247,9%, de 4.4 para Recomendação:... Economia prevista: $79.000

53 Conclusão Roteiro 4 Exemplo preliminar 4 Motivação 4 Conceitos básicos 4 Métodos de mineração de dados 4 Exemplos de aplicação 4 Conclusão

54 Diretrizes 4 Onde o processo de descoberta de conhecimento deve ser aplicado? –A tarefa é propícia ao estudo de novos experimentos; –não há nenhuma outra boa alternativa de análise de dados; –disponibilidade de dados suficientes; com nível aceitável de ruído; sem problemas de ordem jurídica; –especialistas disponíveis para avaliação do grau de interesse das descobertas obtidas; seleção de atributos; descrição de conhecimento a priori em geral; Conclusão

55 Sumário das aplicações apresentadas 4 Marketing –agrupamento 4 SKICAT –classificação 4 Health-Kefir –análise de desvio com sistema baseado em conhecimento; Conclusão

56 Endereços interessantes 4 KDNuggets Directory –http://www.kdnuggets.comhttp://www.kdnuggets.com 4 The Data Mine –http://www.cs.bham.ac.uk/~anp/TheDataMine.htmlhttp://www.cs.bham.ac.uk/~anp/TheDataMine.html 4 Microsoft Decision Theory and Adaptive Systems –http://research.microsoft.com/dtas/http://research.microsoft.com/dtas/ 4 DBMiner: demonstração –http://db.cs.sfu.ca/DBMiner/dbmdemo.htmlhttp://db.cs.sfu.ca/DBMiner/dbmdemo.html Conclusão

57 Referências 4 Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill. 4 Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data Analysis: Issues and Examples. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço ~fayyad. 4 Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). From Data Mining to Knowledge Discovery: An Overview, em Advances in Knowledge Discovery and Data Mining. AAAI Press. 4 Freitas, A. A. (1997). On objective measures of rule surprisingness. Em Proceedings of the 2nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço

58 Referências 4 Imielinski, T; Mannila, H. (1996). A Database Perspective on Knowledge Discovery. Communications of the ACM, volume 39, número Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). Selecting and Reporting What is Interesting. Em Advances in Knowledge Discovery and Data Mining. AAAI Press. 4 Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço philosophy/TETRAD.BOOK/book.html


Carregar ppt "Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Ricardo Bezerra de Andrade e Silva"

Apresentações semelhantes


Anúncios Google