Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia
Mestrado em Ciencia da Computacao 2008 Contexto e Motivação Mineração de dados: Por que ? O que é ? O processo de descoberta de conhecimento Tarefas de mineração: preditivas, descritivas 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mineração de Dados: Por que ? Ponto de Vista Comercial Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc Dados de comércio eletrônico, Dados de navegação na internet Dados de compras de clientes em grandes lojas de departamentos, supermercados, Dados de transações bancárias, ou de cartão de crédito Computadores mais baratos e mais potentes Pressão da Competição 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mineração de Dados: Por que ? Ponto de Vista Cientifico : Medicina, Biologia, Engenharia Dados coletados e armazenados a velocidades enormes (GB/hora) Sensores remotos em satélites Telescópios Microarrays gerando dados de expressões de genes Simulações científicas gerando terabytes de dados. Técnicas tradicionais não apropriadas para analisar tais dados: ruídos e grande dimensionalidade 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mineração de Dados - Por que ? Frequentemente existe informação “escondida” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais. Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados. Boa parte dos dados nunca é analisado: “cemitério” de dados. 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mineração de Dados: Por que ? Técnicas de Mineração podem ajudar analistas: Entender e prever as necessidades dos clientes Descobrir fraudes Descobrir perfis de comportamento de clientes Técnicas de Mineração podem ajudar cientistas: Classificar e segmentar dados Formular hipóteses 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mineração de Dados: O que é ? Não Fazer uma consulta no Google sobre “Data Mining ” Procurar um nome numa lista telefônica Fazer uma consulta SQL a um banco de dados. Sim Agrupar documentos similares retornados pelo Google de acordo com seu contexto. Descobrir se certos nomes aparecem com mais frequência em determinadas regiões da cidade (periferia, centro, bairros abastados,…) 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mestrado em Ciencia da Computacao 2008 Exemplos Qual o perfil do cliente que consome mais ? Que produtos são comprados conjuntamente ? E em sequência ? Meu site web tem uma boa estrutura ? Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ? Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, enchentes ? 25/03/2017 Mestrado em Ciencia da Computacao 2008
Etapas do Processo de KDD Limpeza dos Dados Integração dos Dados Seleção Transformação Mineração Avaliação ou Pós-Processamento Visualização dos Resultados 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mestrado em Ciencia da Computacao 2008 Conhecimento Análise do Resultado Mineração: Etapa central do processo de Descoberta de Conhecimento Mineração Dados Relevantes Data Warehouse Seleção Limpeza Integração dos Dados Banco de Dados 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mestrado em Ciencia da Computacao 2008 Tarefas de Mineração Tarefa ato de descobrir um certo tipo de padrão Regras de Associação Análise de Sequências Classificação Agrupamento Outliers 25/03/2017 Mestrado em Ciencia da Computacao 2008
Tarefas de Mineração de Dados Tarefas Preditivas predizer o valor de um determinado atributo baseado nos valores de outros atributos Classificação – Predição Tarefas Descritivas Derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados. Regras de Associação – Padrões Sequenciais – Agrupamentos - Anomalias 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mestrado em Ciencia da Computacao 2008 O que é Mineração ? Mineração de Dados Descoberta de Conhecimento (KDD) KDD = Knowledge Discovery in Databases 25/03/2017 Mestrado em Ciencia da Computacao 2008
Mestrado em Ciencia da Computacao 2008 Sistemas de Mineração Intelligent Miner (IBM) DBMiner Enterprise Miner Clementine MineSet Genamics Expressions 25/03/2017 Mestrado em Ciencia da Computacao 2008
Um tópico atual Mineração de Preferências
Consulta Quais os pacotes turísticos de menos de 15 dias que você pode me propor em 2011 ? Resposta
Minhas Preferências ... Prefiro estadias mais curtas (menos de duas semanas) do que estadias longas (de duas semanas ou mais). Prefiro viajar durante as férias de verão. Para estadias curtas prefiro aquelas nas grandes cidades, pois gosto de ir a museus, bons restaurantes e shows. Para minhas viagens durante as férias de verão, prefiro viajar para a praia, caso eu viaje com a família. Caso eu viajo sozinho, je prefiro ir para uma cidade histórica.
Problemas a resolver Como modelar as preferências do usuário ? Usar regras ? Usar scores ? 2. Como obter as preferências do usuário ? 3. Como utilizar as preferências do usuário para “personalizar” as respostas ?
1) Como modelizar preferências Conjunto de regras Regras SE a viagem é durante minhas férias de verão e eu vou viajar com minha família ENTÃO eu prefiro ir para uma praia do que para uma cidade histórica. SE a viagem é durante minhas férias de verão e eu vou viajar sozinho ENTÃO eu prefiro ir para uma cidade histórica do que para uma praia.
2) Como obter as preferências do usuário ? Perguntar ao usuário ? Mostrar algumas respostas e pedir um feedback do usuário se gostou ou não ? Utilizar métodos automáticos ? Mineração de Preferências
3) Como colher as amostras de preferências do usuário Sistema de Amostragem de NOTAS (scores) Sistema de Amostragem de Pares Sistema de Amostragem de Listas (muito usado em Information Retrieval) 25/03/2017 Mestrado em Ciencia da Computacao 2008
Exemplo Internet Movie Database Dados Coletados
Pequena amostragem de filmes classificados por um usuário ID Genero Diretor Ano Ator Rating 1 comedy Woody Allen 80 Charlotte Rampling 8 2 Mia Farrow 7 3 romance Joel Coen Charlote Rampling 4 drama 70 5 6
ID Genero Directo Ano Ator Nota 1 comedy Woody Allen 80 Charlotte Rampling 7 2 Mia Farrow 6 3 romance Joel Coen Charlote Rampling ? 4 drama 70 5
Comparando dois filmes pela nota dada ... Genre Director ANO Actor ID Director' Pref 1 comedy W Allen 80 C.Rampling 2 W. Allen Mia Farrow W.Allen 4 drama 70 6 romanc Joel Coen 7 C. Rampling J.Coen
ID GEN Diretor ANO Ator ID' GE' Diretor' Ator' Pref 1 comedy Woody Allen 80 Charlotte Rampling 3 romance Joel Coen Charlote Rampling ? 5 Mia Farrow 2 4 drama 70 6
Temas de Pesquisa Como “descobrir” as preferências de um usuário a partir de uma amostra de preferências capturada na internet ? Como “descobrir” as preferências comuns a um perfil de usuários ?
Mineração de Preferências
Pesquisa em desenvolvimento 2 métodos desenvolvidos dentro do grupo de Banco de Dados Método 1: CprefMiner (tese de Mestrado) Método 2: ProfMiner (em colaboração com pesquisadores da Université de Tours (França)