A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Data Mining Paulo Abadie Guedes Eduardo Aranha. Introdução n Aplicação de processos de análise inteligentes visando manipulação automática de quantidades.

Apresentações semelhantes


Apresentação em tema: "Data Mining Paulo Abadie Guedes Eduardo Aranha. Introdução n Aplicação de processos de análise inteligentes visando manipulação automática de quantidades."— Transcrição da apresentação:

1 Data Mining Paulo Abadie Guedes Eduardo Aranha

2 Introdução n Aplicação de processos de análise inteligentes visando manipulação automática de quantidades imensas de dados n Larga aplicação nos mais variados ramos da indústria, comércio, medicina, governo, administração, etc.

3 Mineração de Dados: Exemplo 1 n Fraldas e cervejas homens casados, entre 25 e 30 anos compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa Wal-Mart otimizou as gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas Resultado: o consumo cresceu 30%

4 Mineração de Dados: Exemplo 2 n Bank of America – Selecionou entre seus 36 milhões de clientes n Aqueles com menor risco de dar calotes n Resultado: em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.

5 Motivação n Quantidades imensas de dados n Necessidade de transformar dados em informação útil n Análise de Mercado n Sistemas de Suporte à Decisão n Gerência Empresarial n Análise de tendências, etc.

6 Knowledge Discovery n Processo de filtragem de conhecimento útil n Necessidade de compreender e utilizar de forma efetiva os dados disponíveis para a tomada de decisões n Integra várias técnicas e tecnologias, incluindo estatística, visualização de dados, IA, BD / OLAP / data warehouse, processamento de sinais e supercomputação

7 Data Mining: Definição n Processo de explicitar o conhecimento interessante de uma grande massa de dados – Padrões e relações entre os dados – Alterações e anomalias – Estruturas significantes – Fenômenos periódicos ou desconhecidos – Apresentar de forma sucinta e compreensível o conhecimento obtido n É parte do processo de descoberta de conhecimento

8 Análise de Dados X Data Mining n Análise de dados – Orientado a suposições – Formula-se uma hipótese – Esta é validada contra os dados n Data mining – Orientada a descoberta – Padrões são automaticamente extraídos – Usa técnicas de IA para reconhecimento e análise do que é interessante ou não – Requer muito poder computacional

9 Knowledge Discovery Process l Data cleaning l Data integration l Data selection l Data transformation n Data mining n Pattern evaluation n Knowledge presentation

10 Pré - processamento l Data Cleaning – Eliminaçao de ruído: – Dados inválidos – Dados incompletos – Dados irrelevantes l Data Integration – Integração de dados de múltiplas fontes heterogêneas

11 Pré - processamento l Data Selection – Dados relevantes à análise são recuperados l Data transformation – Transformação e consolidação dos dados em um formato apropriado para a mineração – Operações de agregação e resumo – Processamento analítico (OLAP)

12 Data Mining (ML em BD) n Algoritmos de aprendizagem de máquina (ID3, version space, Redes neurais, redes bayesianas,...) são aplicados para extrair padrões dos dados pré-processados n Reconhecimento de grupos, propriedades, relações, estruturas, anomalias, etc. n Depende diretamente da tarefa desejada

13 Avaliação e Apresentação n Avaliação de Padrões – Padrões realmente interessantes são identificados – Representam o conhecimento desejado – Processo baseado em medidas de interesse n Apresentação do conhecimento obtido – Técnicas de visualização e representação – O conhecimento minerado é apresentado ao usuário de forma compreensível e concisa

14 Data Mining Tasks n Class Description – Caracterização – Comparação ou discriminação – Propriedades resumidas – Quantidade, totais, médias e análise estatística n Exemplo – Comparar as vendas de uma empresa na Europa e na Ásia, identificando fatores discriminativos importantes e expondo uma visão global da situação

15 Data Mining Tasks n Associação – Descoberta de relacionamentos entre um conjunto de dados – Expresso por regras atributo-valor de condições que ocorrem freqüentemente juntas – x(A) y(A) se satisfaz x, tende a satisfazer y n Exemplo – cerveja(x) fraldas(x)

16 Data Mining Tasks n Classificação – Processa um conjunto de treinamento (classe) – Constrói um modelo para cada classe – Gera a árvore de decisão ou conjunto de regras – Usada para compreender cada classe e classificação posterior de novos dados – Estatística, BD, redes neurais, aprendizado, etc. n Ex.: Análise de crédito, modelagem de empreendimentos, etc.

17 Data Mining Tasks n Previsão – Prevê os valores possíveis ou a distribuição destes a partir de certos atributos do BD – Encontrar os atributos relevantes para o atributo de interesse – Previsão baseada no conjunto de dados mais similar ao escolhido – Análise de regressão, de correlação, árvores de decisão – Algoritmos genéticos e redes neurais – Data mining preditivo n Ex.: Previsão de qualidade

18 Data Mining Tasks n Agregação (Clustering) – Identifica grupos escondidos nos dados – Grupo objetos similares – Expressa por funções de distância – Relação de similaridade conhecida a priori por especialistas ou usuários – Alta similaridade no grupo, baixa entre grupos

19 Data Mining Tasks n Análise de séries temporais – Identifica regularidades e características temporais interessantes escondidas nos dados – Analisa padrões seqüenciais, periódicos, tendências e desvios – Busca seqüências similares ou subseqüências n Exemplo – Previsão da tendência de variação das quantidades em estoque de uma empresa, baseado no histórico do estoque, situação financeira, atuação da concorrência e situação do mercado

20 Mining Complex Data n Dados espaciais n Texto n Multimídia n Séries temporais n Dados complexos n Dados heterogêneos n Semi-estruturados ou desestruturados

21 Outras áreas de aplicação n Vendas e Marketing n Identificar padrões de comportamento de consumidores n Associar comportamentos à características demográficas de consumidores n Campanhas de marketing direto (mailing campaigns) n Identificar consumidores leais

22 Áreas de aplicações potenciais n Bancos n Identificar padrões de fraudes (cartões de crédito) n Identificar características de correntistas n Mercado Financeiro n Minimizar prejuízos através de crédito a clientes de confiança

23 Áreas de aplicações potenciais n Médica – Comportamento de pacientes – Identificar terapias de sucessos para diferentes tratamentos – Fraudes em planos de saúdes – Comportamento de usuários de planos de saúde – Planos diferenciados por perfil

24 Empresas de software para Data mining: n SAS – n Information Havesting - – n Red Brick – n Oracle – n Sybase – n Informix – n IBM –

25 Conclusão - Diretrizes n Onde o processo de descoberta de conhecimento deve ser aplicado? – Estudo de novos experimentos – disponibilidade de dados suficientes n com nível aceitável de ruído n sem problemas de ordem jurídica – especialistas disponíveis para: n avaliação do grau de interesse das descobertas obtidas n seleção de atributos n descrição de conhecimento a priori em geral

26 On-Line Analytical Processing (OLAP) n OLAP descreve uma classe de tecnologia que são designadas para livres acessos e análises ad hoc. n OLAP tem sido considerado um sinônimo de visões multidimensionais de dados de negócio. Estas visões multidimensionais são suportadas por uma tecnologia multidimensional de bando de dados.

27

28 On-Line Analytical Processing (cont.) n Aplicações OLTP (On-Line Transaction Processing) caracterizadas por vários usuários criando, atualizando ou acessando registros individuais. n Aplicações OLAP são usados por analistas e gerentes que frequentemente desejam uma visão agregada de alto nível dos dados, como total de vendas por produto, por região, etc.

29 On-Line Analytical Processing (cont.) n Aplicações OLAP usualmente atualizadas em batch, a partir de múltiplas fontes. n Banco de dados relacionais são bons para retornar um pequeno número de registro rapidamente. n Regiões de venda por produtos pode levar horas (segundos em um BD OLAP)

30 On-Line Analytical Processing (cont.)

31

32 Referências n KDNuggets Directory – n The Data Mine – n Microsoft Decision Theory and Adaptive Systems – n DBMiner: demonstração –

33 Referências n n n n n n n n n n

34 Referências n Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill. n Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data Analysis: Issues and Examples. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço n Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). From Data Mining to Knowledge Discovery: An Overview, em Advances in Knowledge Discovery and Data Mining. AAAI Press.

35 Referências n Imielinski, T; Mannila, H. (1996). A Database Perspective on Knowledge Discovery. Communications of the ACM, volume 39, número 11. n Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). Selecting and Reporting What is Interesting. Em Advances in Knowledge Discovery and Data Mining. AAAI Press.

36 Referências n Freitas, A. A. (1997). On objective measures of rule surprisingness. Em Proceedings of the 2nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço n Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço philosophy/TETRAD.BOOK/book.html


Carregar ppt "Data Mining Paulo Abadie Guedes Eduardo Aranha. Introdução n Aplicação de processos de análise inteligentes visando manipulação automática de quantidades."

Apresentações semelhantes


Anúncios Google