Descoberta de Conhecimento em Bases de Dados e Mineração de Dados

Slides:



Advertisements
Apresentações semelhantes
SISTEMAS DE INFORMAÇÕES GERENCIAIS
Advertisements

Teoria e Prática Prof.Ms. Nilson Aguilar
Sistemas de Informação
Fernando Augusto Silva Marins
Administração de Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
Aplicações Estatísticas na Área de Inteligência de Mercado
SIM- Sistemas de Informação de Marketing
Felipe Carvalho – UFES 2009/2
Planejamento Estratégico de TI
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (
Segmentação de mercado
Universidade Federal do Paraná
Mineração de Dados ou Descoberta de conhecimento em BDs
Redes Neurais (Conceitos Fundamentais)
Descoberta de Conhecimento em BD Jacques Robin e Ricardo Bezerra.
Mineração de Dados Introdução.
Descoberta de Conhecimento em Bases de Dados e Mineração de Dados
Paulo Abadie Guedes Eduardo Aranha
DATA MINING Disciplina Banco de Dados 1998 Alunos
FACENS – Engenharia da Computação Inteligência Artificial
Aula 4 – Inteligência de Negócios (Business Intellingence)
Agrupamento de padrões Métodos hierárquicos
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
DATA MINING Inteligência Artificial
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
Mineração de Dados: Conceitos, Aplicações e Experimentos com Weka
Aprendizado de Máquina
Data Mining, Data Warehousing e OLAP
Data Warehouse & Data Mining
Dos dados ao Conhecimento: O Papel da Estatística no Marketing de Resultados UFRJ - 31/03/2005.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Universidade São Marcos Curso: Gestão de Negócios Internacionais
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Gerhard M¨unz, Sa Li, Georg Carle Computer Networks and Internet Wilhelm Schickard Institute for Computer Science University of Tuebingen, Germany Traffic.
Análise e Projeto de Sistemas Levantamento de Requisitos
SIM - Sistema de Informações de Marketing
Gerenciamento de Dados
Pesquisas e Sistemas de Informação de Marketing
Tecnologia da informação e estado
Tecnologia da Informação
4.2. Data Mining (Mineração de Dados)
Tecnologia da informação
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Profª. Selma Maria da Silva
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
Métodos e Técnicas de Inteligência Competitiva (parte II) Ponto II.2
Sistemas de Informação e as decisões gerenciais na era da Internet
Volume de dados / filtragem – auxiliar na tomada de decisão Tempo x dinheiro / uso de informações Otimização e organização / investimento.
Sistemas Baseados em Aprendizado (Aprendizado de Máquina)
TECNOLOGIA DA INFORMAÇÃO
DATA MINING Fabiany Lamboia Luciano Machado Pereira Fabiany Lamboia Luciano Machado Pereira.
Administração 2°semestre - Aula 1
O paradigma Indutivo Álvaro Degas
Métodos e Técnicas de Inteligência Competitiva Tema 2 – Aula 2
Prof. Ana Martins – UCB Unidade 02 Aula 03
Mineração de Dados: Introdução
Descoberta de Conhecimento em BD Jacques Robin e Ricardo Bezerra.
SIM - (Sistema de Informação em MKT)
Universidade Federal do Paraná
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
O PROCESSO DE KDD Elaborado por: Jader Gustavo de Campos Santos Rhafael Freitas da Costa.
B. I., DATAMINING e OLAP Henrique Liduario Joab Esequiel
Segmentação Prof. Eduardo Vilela.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Sistemas de Informações Sistemas Informações Empresariais 4. SIG Marketing e Vendas Márcio Aurélio Ribeiro Moreira
Transcrição da apresentação:

Descoberta de Conhecimento em Bases de Dados e Mineração de Dados Eduardo Massao Arakaki (ema@di.ufpe.br) Marcela Fontes Lima Guerra (mflg@di.ufpe.br)

Roteiro Motivação Exemplo preliminar Conceitos básicos Processo de kdd Métodos de mineração de dados Técnicas Exemplos Referências

Motivação A informatização dos meios produtivos permitiu a geração de grandes volumes de dados: Transações eletrônicas; Novos equipamentos científicos e industriais para observação e controle; Dispositivos de armazenamento em massa; Aproveitamento da informação permite ganho de competitividade: “conhecimento é poder (e poder = $$!)” Motivação

Motivação Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução “Morrendo de sede por conhecimento em um oceano de dados” Motivação

Motivação Solução: ferramentas de automatização das tarefas repetitivas e sistemática de análise de dados ferramentas de auxílio para as tarefas cognitivas da análise integração das ferramentas em sistemas apoiando o processo completo de descoberta de conhecimento para tomada de decisão Motivação

Exemplo Preliminar Um problema do mundo dos negócios: entender o perfil dos clientes desenvolvimento de novos produtos; controle de estoque em postos de distribuição; propaganda mal direcionada gera maiores gastos e desestimula o possível interessado a procurar as ofertas adequadas; Quais são meus clientes típicos? Exemplo

Descoberta de Conhecimento em Bancos de Dados “O processo não trivial de extração de informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”; “Torture os dados até eles confessarem”; O que é um padrão interessante ? (válido, novo, útil e interpretável) Conceitos

KDD x Data Mining Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável; KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados; Conceitos

Etapas do Processo Seleção Pré-processamento Transformação Data mining (aprendizagem) Interpretação e Avaliação Processo

Processo mínimo de descoberta do conhecimento Compreensão do domínio e dos objetivos da tarefa; Criação do conjunto de dados envolvendo as variáveis necessárias; Processo

Seleção de Dados Selecionar ou segmentar dados de acordo com critérios definidos: Ex.: Todas as pessoas que são proprietárias de carros é um subconjunto de dados determinado. Processo

Processo mínimo Processo Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc. Processo

Pré-Processamento Estágio de limpeza dos dados, onde informações julgadas desnecessárias são removidas. Reconfiguração dos dados para assegurar formatos consistentes (identificação) Ex. : sexo = “F” ou “M” sexo = “M” ou “H” Processo

Processo mínimo Processo Redução de dimensionalidade, combinação de atributos; Processo

Transformação Transformam-se os dados em formatos utilizáveis. Esta depende da técnica data mining usada. Disponibilizar os dados de maneira usável e navegável. Processo

Processo mínimo Processo Escolha e execução do algoritmo de aprendizagem de acordo com a tarefa a ser cumprida Processo

Data Mining É a verdadeira extração dos padrões de comportamento dos dados (exemplos) Processo

Processo mínimo Processo Interpretação dos resultados, com possível retorno aos passos anteriores; Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados; Processo

Interpretação e Avaliação Identificado os padrões pelo sistema, estes são interpretados em conhecimentos, os quais darão suporte a tomada de decisões humanas Processo

Métodos de mineração de dados Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais; Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva; Métodos

Tarefas básicas Previsão Cálculo de variáveis de interesse a partir dos valores de um conjunto de variáveis de explicação; É comumente visada em aprendizado de máquina/estatística; Exemplos: classificação e regressão; Métodos

Tarefas básicas Descrição Reportar relações entre as variáveis do modelo de forma simétrica; À princípio, está mais relacionada ao processo de KDD; Exemplos: agrupamento, sumarização (incluindo sumário de textos), dependências, análise de desvio; Métodos

Exemplo de previsão (I) Análise de crédito Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra: se a renda é menor que t, então o crédito não deve ser liberado Exemplo: árvores de decisão; indução de regras renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos

Exemplo de previsão (II) Análise de crédito Hiperplano oblíquo: melhor separação: Exemplos: regressão linear; perceptron; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos

Exemplo de previsão (III) Análise de crédito Superfície não linear: melhor poder de classificação, pior interpretação; Exemplos: perceptrons multicamadas; regressão não-linear; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos

Exemplo de previsão (IV) Análise de crédito Métodos baseado em exemplos; Exemplos: k-vizinhos mais próximos; raciocínio baseado em casos; renda débito x o t sem crédito o: exemplo aceito x: exemplo recusado Métodos

Exemplo de descrição (I) Análise de crédito Agrupamento Exemplo: vector quantization; renda débito + t +: exemplo Métodos

Exemplo de descrição (II) Regras de associação “98% dos consumidores que adquiriram pneus e acessórios de automóveis também se interessaram por serviços automotivos”; descoberta simétrica de relações, ao contrário de métodos de classificação qualquer atributo pode ser uma classe ou um atributo de discriminação; Métodos

Técnicas Revisão geral de Aprendizagem: CBR

Exemplos Áreas de aplicações potenciais: Vendas e Marketing Identificar padrões de comportamento de consumidores Associar comportamentos à características demográficas de consumidores Campanhas de marketing direto (mailing campaigns) Identificar consumidores “leais” Exemplos

Exemplos Áreas de aplicações potenciais: Bancos Identificar padrões de fraudes (cartões de crédito) Identificar características de correntistas Mercado Financeiro ($$$) Exemplos

Exemplos Áreas de aplicações potenciais Médica Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de saúdes Comportamento de usuários de planos de saúde Exemplos

Introdução Exemplo (1) - Fraldas e cervejas O que as cervejas tem a ver com as fraldas ? homens casados, entre 25 e 30 anos; compravam fraldas e/ou cervejas às sextas-feiras à tarde no caminho do trabalho para casa; Wal-Mart otimizou às gôndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas; Resultado: o consumo cresceu 30% . Exemplos

Exemplos Exemplo (2) - Lojas Brasileiras (Info 03/98) Aplicou 1 milhão de dólares em técnicas de data mining Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas. Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente elétrica é 220v Exemplos

Exemplos Exemplo (3) - Bank of America (Info 03/98) Selecionou entre seus 36 milhões de clientes Aqueles com menor risco de dar calotes Tinham filhos com idades entre 18 e 21 anos Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos. Exemplos

Exemplos Empresas de software para Data mining: SAS http://www.sas.com Information Havesting http://www.convex.com Red Brick http://www.redbrick.com Oracle http://www.oracle.com Sybase http://www.sybase.com Informix http://www.informix.com IBM http://www.ibm.com Exemplos

Conclusões Data mining é um processo que permite compreender o comportamento dos dados. Data mining analisa os dados usando técnicas de aprendizagem para encontrar padrões e regulariedades nestes conjuntos de dados. É um problema pluridisciplinar, envolve Inteligência Artificial, Estatística, Computação Gráfica, Banco de Dados. Pode ser bem aplicado em diversas áreas de negócios Conclusões

Referências Referências Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press. Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for Knowledge in Databases, 1994. http://www-pcc.qub.ac.uk/tec/courses/datamining http://www.rio.com.br/~extended http://www.datamining.com http://www.santafe.edu/~kurt http://www.datamation.com http://www-dse.doc.ic.ac.uk/~kd http://www.cs.bham.ac.uk/~anp http://www.dbms.com http://www.infolink.com.br/~mpolito/mining/mining.html http://www.lci.ufrj.br/~labbd/semins/grupo1 Referências