Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouTheo Abril Alterado mais de 10 anos atrás
1
Mineração de Dados ou Descoberta de conhecimento em BDs
Márcia Jacyntha N. Rodrigues Anne Magaly Canuto
2
Indice Introdução Definição Processo de Mineração
Identificação do Problema, Pré-processamento, Extração de padrões, Pós-processamento Tecnologias de Suporte Perspectivas Futuras
3
Introdução Informatização dos meios produtivos permitiu a geração de grandes volumes de dados: Transações eletrônicas; Novos equipamentos científicos e industriais para observação e controle; Dispositivos de armazenamento em massa; Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder Recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: processo iterativo de criação, teste e refinamento de hipóteses;
4
Introdução Análise de dados para tomada de decisão: Solução:
Morrendo de sede por conhecimento em um oceano de dados” Análise de dados para tomada de decisão: BD da Wal-Mart: 20 milhões de transações por dia BD da NASA: recebe de satélites 50 GB por hora Solução: ferramentas de automatização das tarefas repetitivas e sistemática de análise de dados ferramentas de auxílio para as tarefas cognitivas da análise integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão
5
Exemplo Problema do mundo dos negócios, entender o perfil dos clientes: desenvolvimento de novos produtos; para controle de estoque em postos de distribuição; propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; Situação: empresa possui registro de todas as transações efetuadas; mas como aproveitar dessa riqueza de dados? Categorias: produtos de esporte; eletrodomésticos; produtos de entretenimento; produtos para o lar;
6
Exemplo Analistas precisam de ferramentas capazes de responder a perguntas como: “Qual produto de alta lucratividade venderia mais com a promoção de um item de baixa lucratividade?” Um Datawarehouse(DW) é utilizado por ferramentas OLAp e f. de mineração de dados F. OLAp direcionada a consultas de usuários Esta abordagem impedi que padrões escondidos sejam encontrados por isso a existência de técnicas de análise dirigidas por computador q possibilitem extração de conhecimento
7
Definição “Extração de conhecimento de BD é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados” Fayyad, Shapiro e Smyth Dados: fatos ou casos em um repositório de dados Padrões: abstração de um subconjunto de dados em alguma ling. descritiva de conceitos Processo: Extração de conhecimento de base de dados envolvendo diversas etapas; Válido: padroes descobertos devem possuir algum grau de certeza Novos: um padrão encontrado deve fornecer novas informações sob
8
Processo de Mineração de Dados
Pós-processamento Extração de Padrões Pré-processamento Identificação do Problema
9
Processo de Mineração de Dados
Processo Iterativo e Interativo Usuário: especialista do domínio, analista (conhece as etapas do processo), usuário final (utiliza o conhecimento) Identificação do Problema definição de objetivos e metas a serem alcançados Sucesso depende da participação dos especialistas do domínio da aplicação no fornecimento de conhecimento sobre o domínio e apoio aos analistas em sua tarefa de encontrar padrões No pré-processamento, esta etapa ajuda o analista na escolha do melhor conjunto de dados para realizar extrações
10
Pré-Processamento Extração e Integração: obter dados de diversas fontes e realizar sua unificação Transformação: agrupar dados em forma de resumos, transformação de tipos para adequação do algoritmo Limpeza: erros de digitação, leitura dos dados pelos sensores. Atributos incompletos. Limpeza dependente e independente de domínio Seleção e Redução de Dados: redução do número de exemplo, número de atributos, número de valores de um atributo
11
Exemplo de Pré-processamento
Com seu conhecimento do domínio, analista humano decide: que as informações relevantes a-priori encontram-se nas seguintes tabelas: clientes: nome, identificação, idade, sexo, estado civil, endereço, renda, proprietário da casa; produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada; transações: identificador de cliente, identificador de produto, data e hora, quantidade; Eliminar registros incompletos, inconsistentes, etc.
12
Transformação de dados
13
Extração de Padrões Escolha de tarefas – é feita de acordo com os objetivo desejáveis para a solução a ser encontrada: atividades preditivas ou descritivas Escolha do algoritmo Extração de Padrões Técnicas usadas em MD: Algoritmo Genético, arvores e regras de decisão, redes neurais, lógica fuzzy, clustering
14
Pós-Processamento O conhecimento extraído representa o conhecimento do especialista? De que maneira o conhecimento do especialista difere do conhecimento extraído?
15
Tecnologias de Suporte
If ... Then Árvore de Decisão Conhecimento OLAP Informação MD DW MD Dados
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.