A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki Marcela Fontes Lima Guerra

Apresentações semelhantes


Apresentação em tema: "Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki Marcela Fontes Lima Guerra"— Transcrição da apresentação:

1 Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki Marcela Fontes Lima Guerra

2 Roteiro W Motivação W Exemplo preliminar W Conceitos básicos W Processo de kdd W Métodos de mineração de dados W Técnicas W Exemplos W Referências

3 Motivação W A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: –Transações eletrônicas; –Novos equipamentos científicos e industriais para observação e controle; –Dispositivos de armazenamento em massa; W Aproveitamento da informação permite ganho de competitividade: conhecimento é poder (e poder = $$!) Motivação

4 Motivação W Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução W Morrendo de sede por conhecimento em um oceano de dados Motivação

5 Motivação W Solução: –ferramentas de automatização das tarefas repetitivas e sistemática de análise de dados –ferramentas de auxílio para as tarefas cognitivas da análise –integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão Motivação

6 Exemplo Preliminar W Um problema do mundo dos negócios: entender o perfil dos clientes –desenvolvimento de novos produtos; –controle de estoque em postos de distribuição; –propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; W Quais são meus clientes típicos? Exemplo

7 Descoberta de Conhecimento em Bancos de Dados W O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados; W Torture os dados até eles confessarem; W O que é um padrão interessante ? (válido, novo, útil e interpretável) Conceitos

8 KDD x Data Mining W Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; W KDD utiliza algoritmos de data mining para extrair padrões classificados como conhecimento. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos

9 Etapas do Processo W Seleção W Pré-processamento W Transformação W Data mining (aprendizagem) W Interpretação e Avaliação Processo

10 Processo mínimo de descoberta do conhecimento Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Processo

11 11 Seleção de Dados W Selecionar ou segmentar dados de acordo com critérios definidos: l Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. Processo

12 Processo mínimo Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Processo

13 13 Pré-Processamento W Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. W Reconfiguração dos dados para assegurar formatos consistentes (identificação) –Ex. : sexo = F ou M sexo = M ou H Processo

14 Processo mínimo Redução de dimensionalidade, combinação de atributos; Processo

15 15 Transformação W Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. W Disponibilizar os dados de maneira usável e navegável. Processo

16 Processo mínimo Escolha e execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida Processo

17 17 Data Mining W É a verdadeira extração dos padrões de comportamento dos dados (exemplos) Processo

18 Processo mínimo Interpretação dos resultados, com possível retorno aos passos anteriores; Processo Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados;

19 19 Interpretação e Avaliação W Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Processo

20 Métodos de mineração de dados W Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; W Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos

21 Tarefas básicas W Previsão –Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; –É comumente visada em aprendizado de máquina/estatística; –Exemplos: classificação e regressão; Métodos

22 Tarefas básicas W Descrição –Reportar relações entre as variáveis do modelo de forma simétrica; –À princípio, está mais relacionada ao processo de KDD; –Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos

23 Exemplo de previsão (I) W Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: –se a renda é menor que t, então o crédito não deve ser liberado W Exemplo: –árvores de decisão; –indução de regras renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Análise de crédito Métodos

24 Exemplo de previsão (II) W Hiperplano oblíquo: melhor separação: W Exemplos: –regressão linear; –perceptron; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

25 Exemplo de previsão (III) W Superfície não linear: melhor poder de classificação, pior interpretação; W Exemplos: –perceptrons multicamadas; –regressão não-linear; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

26 Exemplo de previsão (IV) W Métodos baseado em exemplos; W Exemplos: –k-vizinhos mais próximos; –raciocínio baseado em casos; Análise de crédito renda débito x x x x x x x o o o o o o o o o t sem crédito o o: exemplo aceito x: exemplo recusado Métodos

27 Exemplo de descrição (I) W Agrupamento W Exemplo: –vector quantization; renda débito t + +: exemplo Análise de crédito Métodos

28 Exemplo de descrição (II) W Regras de associação –98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos; –descoberta simétrica de relações, ao contrário de métodos de classificação W qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos

29 W Revisão geral de Aprendizagem: Técnicas CBR

30 Exemplos W Áreas de aplicações potenciais: –Vendas e Marketing l Identificar padrões de comportamento de consumidores l Associar comportamentos à características demográficas de consumidores l Campanhas de marketing direto (mailing campaigns) l Identificar consumidores leais Exemplos

31 Exemplos W Áreas de aplicações potenciais: –Bancos l Identificar padrões de fraudes (cartões de crédito) l Identificar características de correntistas l Mercado Financeiro ($$$) Exemplos

32 Exemplos W Áreas de aplicações potenciais –Médica l Comportamento de pacientes l Identificar terapias de sucessos para diferentes tratamentos l Fraudes em planos de saúdes l Comportamento de usuários de planos de saúde Exemplos

33 Introdução W Exemplo (1) - Fraldas e cervejas –O que as cervejas tem a ver com as fraldas ? –homens casados, entre 25 e 30 anos; –compravam fraldas e/ou cervejas às sextas- feiras à tarde no caminho do trabalho para casa; –Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; –Resultado: o consumo cresceu 30%. Exemplos

34 Exemplos W Exemplo (2) - Lojas Brasileiras (Info 03/98) –Aplicou 1 milhão de dólares em técnicas de data mining –Reduziu de produtos para produtos oferecidos em suas lojas. –Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste – Batedeiras 110v a venda em SC onde a corrente elétrica é 220v Exemplos

35 Exemplos W Exemplo (3) - Bank of America (Info 03/98) –Selecionou entre seus 36 milhões de clientes l Aqueles com menor risco de dar calotes l Tinham filhos com idades entre 18 e 21 anos l Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Exemplos

36 Exemplos W Empresas de software para Data mining: –SAShttp://www.sas.com –Information Havestinghttp://www.convex.com –Red Brickhttp://www.redbrick.com –Oraclehttp://www.oracle.com –Sybasehttp://www.sybase.com –Informixhttp://www.informix.com –IBMhttp://www.ibm.com Exemplos

37 Conclusões l Data mining é um processo que permite compreender o comportamento dos dados. l Data mining analisa os dados usando técnicas de aprendizagem para encontrar padrões e regulariedades nestes conjuntos de dados. l É um problema pluridisciplinar, envolve Inteligência Artificial, Estatística, Computação Gráfica, Banco de Dados. l Pode ser bem aplicado em diversas áreas de negócios Conclusões

38 Referências –Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press. –Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for Knowledge in Databases, –http://www-pcc.qub.ac.uk/tec/courses/datamining –http://www.rio.com.br/~extended –http://www.datamining.com –http://www.santafe.edu/~kurt –http://www.datamation.com –http://www-dse.doc.ic.ac.uk/~kd –http://www.cs.bham.ac.uk/~anp –http://www.dbms.com –http://www.infolink.com.br/~mpolito/mining/mining.html –http://www.lci.ufrj.br/~labbd/semins/grupo1 Referências


Carregar ppt "Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki Marcela Fontes Lima Guerra"

Apresentações semelhantes


Anúncios Google