A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS

Apresentações semelhantes


Apresentação em tema: "Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS"— Transcrição da apresentação:

1 Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS

2 Sumário Introdução Conceito de DCBD Tipos de descobertas Processo de DCBD Bibliografia

3 Introdução Grande quantidade de informações armazenadas em muitas áreas: comércio,indústria, governo, etc. Exemplos: –cada compra em um supermercado fica registrada em um arquivo (código de barra) –todas as chamadas telefônicas (origem, destino, horário, duração,...) –o SUS mantém registro magnético de todos os atendimentos realizados (hospital, data, médico, diagnóstico, procedimentos realizados,...)

4 Exemplo de uso de conhecimento Michael Dell: venda de assinaturas de jornais

5 BDs atuais BDs atuais são feitos para armazenar e recuperar rápida e eficientemente dados operacionais BDs atuais são úteis para recuperar dados específicos, mas não são capazes de extrair conhecimento genérico Exemplo: um sistema bancário recupera rapidamente as últimas movimentações ou o saldo de uma conta, mas teria dificuldade em descrever o perfil do cliente em relação a outros clientes ou determinar se ele seria um bom pagador em caso de fazer um empréstimo

6 Introdução Conceito de DCBD Tipos de descobertas Processo de DCBD Bibliografia

7 Descoberta de conhecimento em bases de dados Objetivo: estudar e desenvolver um processo capaz de extrair conhecimento novo, útil e interessante implícito em coleções de dados (BD) e representá-lo de forma acessível para o usuário.

8 Descoberta de conhecimento em bases de dados Objetivo: –descoberta de conhecimento a partir de dados existentes –identificar relacionamentos entre os dados e gerar regras para aplicar em casos futuros

9 Relações da DCBD com outras áreas O processo de DCBD utiliza conhecimento de várias áreas: –BD –IA: aprendizagem de máquina, redes neurais, representação de conhecimento,... –estatística

10 DCBD: Exemplo Predição de consumo de água: Dados: –consumo diário de água –aspectos do tempo (temperatura, umidade do ar, …) –dia da semana e do mês, feriado, férias,... Objetivo: minimizar o consumo de energia elétrica no bombeamento

11 Introdução Conceito de DCBD Tipos de descobertas Processo de DCBD Bibliografia

12 Tipos de descobertas Os dois principais objetivos de alto nível da DCBD são a descrição e a previsão a descrição se concentra em encontrar padrões que descrevem os dados de forma compreensível para o usuário a previsão envolve usar valores conhecidos de campos ou variáveis para prever o valor desconhecido ou futuro de variáveis de interesse para isso, utiliza-se vários tipos de descoberta ou tarefas de DCBD

13 Tipos de descobertas Dependência (associação) entre atributos (o valor de um influencia o outro) Exemplos: –determinados procedimentos médicos aparecem sempre juntos –determinados procedimento médicos aparecem sempre associados a homens e outros a mulheres –compradores de leite geralmente compram pão na mesma transação –em 80% das transações em que é comprada cerveja, também é comprada batata frita

14 Exemplo: vendas casadas PRODUTO A PRODUTO B Oferta de produto relacionado Compra de produto

15 Tipos de descobertas (cont.) Formação de agrupamentos: é uma tarefa descritiva onde se procura identificar um conjunto finito de categorias ou agrupamentos que descrevem os dados Renda Dívida Agrupamento 3 Agrupamento 1 Agrupamento 2

16 Tipos de descobertas (cont.) Detecção de seqüências: detecção de dependências em relação ao tempo, em uma ordem determinada. Exemplo: –determinado procedimento médico sempre precede outro –determinado procedimento só pode ser repetido após um intervalo mínimo de tempo

17 Tipos de descobertas (cont.) Detecção de desvios: utilizada para detectar anomalias em bases de dados. Pode evidenciar problemas na qualidade dos dados, fraudes ou descobrir eventos raros Exemplos: –um paciente foi submetido a três cirurgias para extração de rim –um homem submetido à cesariana –a incidência da doença x é bem maior no município y do que nos municípios vizinhos

18 Exemplos de aplicações Cartões de crédito Empresas de energia elétrica e água SUS

19 exemplo: sistema de mortalidade Doenças P – Algumas afecções originadas no período perinatal: –Uruguaiana apresenta um desvio significativo em relação a esta doença, pois foram registrados muito mais casos de morte do que o esperado. – Porto Alegre registrou menos mortes do que a quantidade esperada, para esta doença. Caxias do Sul apresenta um desvio em relação às doenças Q- malformação congênita, deformidades e anomalias cromossômicas. Foi registrado um número de mortes significantemente maior do que o esperado para a cidade.

20 Tipos de descobertas (cont.) Classificação ou descrição de conceitos (aprendizado supervisionado) : dado um atributo que indique a classe, o algoritmo monta uma descrição para cada classe, identificando características comuns entre os membros da classe exemplo: –se tem salário alto, é casado, tem conta no banco e o valor da prestação é baixo então é bom pagador –se tem salário baixo e a prestação é alta então é mau pagador

21 Exemplos de uso Upgrade de pacotes de TV por assinatura Cancelamento de assinaturas Análise para concessão de empréstimos bancários

22 Introdução Conceito de DCBD Tipos de descobertas Processo de DCBD Bibliografia

23 O processo de DCBD Pouco explorado na bibliografia Longo Trabalhoso Muito dependente do usuário

24 Metodologia CRISP-DM CRISP-DM = CRoss – Industry Standard Process for Data Mining (projeto ESPRIT com vários parceiros industriais) Geral - não se restringe a ferramenta ou tecnologia específica

25 Fases do CRISP-DM

26 Entendimento do Negócio (ou do domínio do problema) Identificação dos objetivos do usuário sob o ponto de vista de DCBD e preparação de um plano inicial Determinar os objetivos Avaliar a situação: disponibilidade de recursos, limitações, etc. Determinar os objetivos da DC: objetivo, tipo de problema (classificação, clustering,...), critérios para avaliação do modelo. Produzir plano do projeto

27 Entendimento dos Dados A partir da coleta inicial, explorar os dados, verificando suas propriedades e qualidade Coletar dados iniciais Descrever os dados –Número de atributos e instâncias em cada arquivo –Tipos e faixas de valores dos atributos –Significado de cada atributo e sua importância para o objetivo –Estatísticas básicas para alguns atributos(média, DP, máximo, mínimo, etc.) –Relações entre os atributos-chave Explorar os dados Verificar qualidade dos dados

28 Preparação de Dados Produção de um conjunto de dados adequado aos algoritmos de mineração Selecionar os dados Limpar os dados Construir dados Integrar dados: combinar múltiplas tabelas ou outras fontes Formatar dados: modificações sintáticas nos dados, sem alterar o seu significado. Ex: –Primeiro atributo tem que ser uma chave única –O arquivo tem que estar em uma ordem determinada –Retirar vírgulas dos campos para gerar um arquivo com atributos separados por vírgulas

29 Preparação de dados – seleção de dados Seleção de atributos motivos: –Requisitos de tempo e espaço –Simplicidade do modelo gerado –Relevância dos atributos –Redundância entre atributos –Acurácia pode ser aumentada forma: –Manual –Por algoritmos: mais de 30 algoritmos

30 Preparação de dados – seleção de dados Seleção de instâncias (exemplos, registros) –Manual –Por algoritmos

31 Preparação de dados – Limpeza dos dados Visa garantir a qualidade dos dados Eliminação de dados errôneos – Padronização de dados: formato de datas, abreviaturas, valores de atributos (ex. sexo: M ou F, 0 ou 1, Mas e Fem,...) Eliminação de duplicatas Tratamento de valores ausentes –Excluir instâncias –Completar valores ausentes Complemento manual Complemento com valor constante global: ex: desconhecido Complementar com o valor mais provável Complementar com o valor médio do atributo

32 Preparação de dados – Construir dados Transformação de dados –Normalização –Transformação de valores simbólicos para numéricos –Discretização de atributos Criação de novos atributos. Ex: área = comprimento x largura

33 CabeçaCorpoSorriSeguraClasse Triangular SimBalãoAmigo QuadradaQuadradoSimBalãoAmigo RedondaRedondoSimBandeiraAmigo QuadradaTriangularNãoEspadaInimigo TriangularRedondoSimEspadaInimigo RedondaQuadradoNãoBandeiraInimigo inimigo sorri segura amigoinimigo sim não balãoespada inimigo bandeira ou

34 CabeçaCorpoSorriSeguraMesma formaClasse Triangular SimBalãoSimAmigo QuadradaQuadradoSimBalãoSimAmigo RedondaRedondoSimBandeiraSimAmigo QuadradaTriangularNãoEspadaNãoInimigo TriangularRedondoNãoEspadaNãoInimigo RedondaQuadradoNãoBandeiraNãoInimigo mesma-forma amigoinimigo simnão mesma-forma amigoinimigo simnão

35 Modelagem Corresponde a fase de Mineração de Dados utilizada por outros autores Selecionar a técnica de modelagem Gerar projeto de teste Construir modelo: mineração propriamente dita (aplicação do algoritmo) Avaliar modelo

36 Avaliação Interpretar e avaliar os resultados em relação aos objetivos do usuário Avaliar resultados Revisar o processo Determinar próximos passos: ir para a fase final de disponibilização ou voltar para alguma etapa anterior

37 Disponibilização Planejar disponibilização: decidir a estratégia para a integração dos resultados obtidos no ambiente da organização Planejar monitoramento e manutenção: Produzir relatório final Revisar o projeto: avaliar pontos positivos e negativos do projeto, problemas e sugestões

38 DESAFIOS: Descoberta de Conhecimento em Bases de Dados Esforço (%) Etapa Fonte: Adriaans

39 Introdução Conceito de DCBD Tipos de descobertas Processo de DCBD Bibliografia

40 ADRIAANS, Pieter, ZANTINGE, Dolf. Data Mining. Harlow : Addison-Wesley, p. FAYYAD, Usama M. et al. Advances in Knowledge Discovery and Data Mining. Califórnia : American Association for Artificial Intelligence, p. BERRY, Michael J. A.; LINOFF, Gordon. Data Mining techniques for marketing, sales and custumer support. New York: John Wiley, p. PYLE, Dorian. Data preparation for data mining. San Diego: Academic Press, p.


Carregar ppt "Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS"

Apresentações semelhantes


Anúncios Google