A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia.

Apresentações semelhantes


Apresentação em tema: "Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia."— Transcrição da apresentação:

1 Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia

2 18/2/2014Mestrado em Ciencia da Computacao Contexto e Motivação Mineração de dados: Por que ? O que é ? Mineração de dados: Por que ? O que é ? O processo de descoberta de conhecimento O processo de descoberta de conhecimento Tarefas de mineração: preditivas, descritivas Tarefas de mineração: preditivas, descritivas

3 18/2/2014Mestrado em Ciencia da Computacao Mineração de Dados: Por que ? Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc Dados de comércio eletrônico, Dados de comércio eletrônico, Dados de navegação na internet Dados de navegação na internet Dados de compras de clientes em grandes lojas de departamentos, supermercados, Dados de compras de clientes em grandes lojas de departamentos, supermercados, Dados de transações bancárias, ou de cartão de crédito Dados de transações bancárias, ou de cartão de crédito Computadores mais baratos e mais potentes Computadores mais baratos e mais potentes Pressão da Competição Pressão da Competição Ponto de Vista Comercial

4 18/2/2014Mestrado em Ciencia da Computacao Mineração de Dados: Por que ? Dados coletados e armazenados Dados coletados e armazenados a velocidades enormes (GB/hora) a velocidades enormes (GB/hora) Sensores remotos em satélites Sensores remotos em satélites Telescópios Telescópios Microarrays gerando dados de expressões de genes Microarrays gerando dados de expressões de genes Simulações científicas gerando terabytes de dados. Simulações científicas gerando terabytes de dados. Técnicas tradicionais não apropriadas para analisar tais dados: Técnicas tradicionais não apropriadas para analisar tais dados: ruídos e grande dimensionalidade ruídos e grande dimensionalidade Ponto de Vista Cientifico : Medicina, Biologia, Engenharia

5 18/2/2014Mestrado em Ciencia da Computacao Mineração de Dados - Por que ? Frequentemente existe informa ç ão escondida nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais. Frequentemente existe informa ç ão escondida nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais. Analistas humanos podem levar semanas para correlacionar e descobrir alguma informa ç ão útil dentro de uma grande massa de dados. Analistas humanos podem levar semanas para correlacionar e descobrir alguma informa ç ão útil dentro de uma grande massa de dados. Boa parte dos dados nunca é analisado: cemit é rio de dados. Boa parte dos dados nunca é analisado: cemit é rio de dados.

6 18/2/2014Mestrado em Ciencia da Computacao Mineração de Dados: Por que ? Técnicas de Mineração podem ajudar analistas: Técnicas de Mineração podem ajudar analistas: Entender e prever as necessidades dos clientes Entender e prever as necessidades dos clientes Descobrir fraudes Descobrir fraudes Descobrir perfis de comportamento de clientes Descobrir perfis de comportamento de clientes Técnicas de Mineração podem ajudar cientistas: Técnicas de Mineração podem ajudar cientistas: Classificar e segmentar dados Classificar e segmentar dados Formular hipóteses Formular hipóteses

7 18/2/2014Mestrado em Ciencia da Computacao Mineração de Dados: O que é ? l Sim 1.Agrupar documentos similares retornados pelo Google de acordo com seu contexto. 2. Descobrir se certos nomes aparecem com mais frequência em determinadas regiões da cidade (periferia, centro, bairros abastados,…) l Não 1.Fazer uma consulta no Google sobre Data Mining 2.Procurar um nome numa lista telefônica 3.Fazer uma consulta SQL a um banco de dados.

8 18/2/2014Mestrado em Ciencia da Computacao Exemplos Qual o perfil do cliente que consome mais ? Qual o perfil do cliente que consome mais ? Que produtos são comprados conjuntamente ? E em sequência ? Que produtos são comprados conjuntamente ? E em sequência ? Meu site web tem uma boa estrutura ? Meu site web tem uma boa estrutura ? Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ? Como as chuvas, variação de temperatura, aplicação de pesticidas afetam as colheitas ? Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, enchentes ? Existe uma relação entre o aquecimento global e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, enchentes ?

9 18/2/2014Mestrado em Ciencia da Computacao Etapas do Processo de KDD Limpeza dos Dados Integração dos Dados Seleção Transformação Mineração Avaliação ou Pós-Processamento Visualização dos Resultados

10 18/2/2014Mestrado em Ciencia da Computacao Mineração: Etapa central do processo de Descoberta de Conhecimento Limpeza Integração dos Dados Banco de Dados Data Warehouse Dados Relevantes Seleção Mineração Análise do Resultado

11 18/2/2014Mestrado em Ciencia da Computacao Tarefas de Mineração Tarefa ato de descobrir um certo tipo de padrão Regras de Associação Regras de Associação Análise de Sequências Análise de Sequências Classificação Classificação Agrupamento Agrupamento Outliers Outliers

12 18/2/2014Mestrado em Ciencia da Computacao Tarefas de Mineração de Dados Tarefas Preditivas Tarefas Preditivas predizer o valor de um determinado atributo baseado nos valores de outros atributos predizer o valor de um determinado atributo baseado nos valores de outros atributos Classificação – Predição Tarefas Descritivas Tarefas Descritivas Derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados. Derivar « padrões » : correlações, tendências, anomalias, agrupamentos dentro de uma grande massa de dados. Regras de Associação – Padrões Sequenciais – Agrupamentos - Anomalias

13 18/2/2014Mestrado em Ciencia da Computacao O que é Mineração ? Mineração de Dados Mineração de Dados Descoberta de Conhecimento (KDD) Descoberta de Conhecimento (KDD) KDD = Knowledge Discovery in Databases KDD = Knowledge Discovery in Databases

14 18/2/2014Mestrado em Ciencia da Computacao Sistemas de Mineração Intelligent Miner (IBM) Intelligent Miner (IBM) DBMiner DBMiner Enterprise Miner Enterprise Miner Clementine Clementine MineSet MineSet Genamics Expressions Genamics Expressions

15 Um tópico atual Mineração de Preferências

16 Consulta Quais os pacotes turísticos de menos de 15 dias que você pode me propor em 2011 ? Quais os pacotes turísticos de menos de 15 dias que você pode me propor em 2011 ? Resposta

17 Minhas Preferências... Prefiro estadias mais curtas (menos de duas semanas) do que estadias longas (de duas semanas ou mais). Prefiro estadias mais curtas (menos de duas semanas) do que estadias longas (de duas semanas ou mais). Prefiro viajar durante as férias de verão. Prefiro viajar durante as férias de verão. Para estadias curtas prefiro aquelas nas grandes cidades, pois gosto de ir a museus, bons restaurantes e shows. Para estadias curtas prefiro aquelas nas grandes cidades, pois gosto de ir a museus, bons restaurantes e shows. Para minhas viagens durante as férias de verão, prefiro viajar para a praia, caso eu viaje com a família. Caso eu viajo sozinho, je prefiro ir para uma cidade histórica. Para minhas viagens durante as férias de verão, prefiro viajar para a praia, caso eu viaje com a família. Caso eu viajo sozinho, je prefiro ir para uma cidade histórica.

18 Problemas a resolver 1.Como modelar as preferências do usuário ? Usar regras ? Usar scores ? 2. Como obter as preferências do usuário ? 3. Como utilizar as preferências do usuário para personalizar as respostas ?

19 1) Como modelizar preferências Conjunto de regras Regras SE a viagem é durante minhas férias de verão e eu vou viajar com minha família ENTÃO eu prefiro ir para uma praia do que para uma cidade histórica. SE a viagem é durante minhas férias de verão e eu vou viajar sozinho ENTÃO eu prefiro ir para uma cidade histórica do que para uma praia.

20 2) Como obter as preferências do usuário ? Perguntar ao usuário ? Perguntar ao usuário ? Mostrar algumas respostas e pedir um feedback do usuário se gostou ou não ? Mostrar algumas respostas e pedir um feedback do usuário se gostou ou não ? Utilizar métodos automáticos ? Utilizar métodos automáticos ? Mineração de Preferências

21 3 ) Como colher as amostras de preferências do usuário Sistema de Amostragem de NOTAS (scores) Sistema de Amostragem de NOTAS (scores) Sistema de Amostragem de Pares Sistema de Amostragem de Pares Sistema de Amostragem de Listas (muito usado em Information Retrieval) Sistema de Amostragem de Listas (muito usado em Information Retrieval) 18/2/2014Mestrado em Ciencia da Computacao

22 Exemplo Internet Movie Database Internet Movie Database Dados Coletados

23 IDGeneroDiretorAnoAtorRating 1comedyWoody Allen80Charlotte Rampling8 2comedyWoody Allen80Mia Farrow7 3romanceJoel Coen80Charlote Rampling7 4dramaWoody Allen70Charlote Rampling5 5comedyWoody Allen80Mia Farrow3 6romanceJoel Coen70Charlote Rampling6 7comedyWoody Allen80Mia Farrow3 Pequena amostragem de filmes classificados por um usuário

24 IDGeneroDirectoAnoAtorNota 1comedyWoody Allen80Charlotte Rampling7 2comedyWoody Allen80Mia Farrow6 3romanceJoel Coen80Charlote Rampling ? 4dramaWoody Allen70Charlote Rampling4 5comedyWoody Allen80Mia Farrow ? 6romanceJoel Coen70Charlote Rampling5 7comedyWoody Allen80Mia Farrow3

25 IGenreDirectorANOActorIDGenreDirector'ANOActorPref 1comedyW Allen80C.Rampling2comedyW. Allen80Mia Farrow1 1comedyW.Allen80C.Rampling4dramaW.Allen70C.Rampling1 1comedyW. Allen80C.Rampling6romancJoel Coen70C.Rampling1 1comedyW.Allen80C.Rampling7comedyW.Allen80Mia Farrow1 2comedyW.Allen80Mia Farrow4dramaW.Allen70C.Rampling1 2comedyW.Allen80Mia Farrow6romancJoel Coen70C.Rampling1 2comedyW. Allen80Mia Farrow7comedyW. Allen80Mia Farrow1 4dramaW.Allen70C. Rampling6romancJoel Coen70C.Rampling0 4dramaW.Allen70C.Rampling7comedyW.Allen80Mia Farrow1 6romancJ.Coen70C.Rampling7comedyW.Allen80Mia Farrow1 Comparando dois filmes pela nota dada...

26 IDID GENDiretorANOAtorID'GE'Diretor'ANOAtor'Pref 1come d y Woody Allen 80Charlotte Rampling 3romanceJoel Coen80Charlote Ramplin g ? 1come d y Woody Allen 80Charlotte Rampling 5comedyWoody Allen 80Mia Farrow? 2come d y Woody Allen 80Mia Farrow3romanceJoel Coen80Charlote Ramplin g ? 2come d y Woody Allen 80Mia Farrow5comedyWoody Allen 80Mia Farrow? 4dram a Woody Allen 70Charlote Rampling 3romanceJoel Coen80Charlote Ramplin g ? 4dram a Woody Allen 70Charlote Rampling 5comedyWoody Allen 80Mia Farrow? 6roma n c e Joel Coen70Charlote Rampling 3romanceJoel Coen80Charlote Ramplin g ? 6roma n c e Joel Coen70Charlote Rampling 5comedyWoody Allen 80Mia Farrow?

27 Temas de Pesquisa Como descobrir as preferências de um usuário a partir de uma amostra de preferências capturada na internet ? Como descobrir as preferências de um usuário a partir de uma amostra de preferências capturada na internet ? Como descobrir as preferências comuns a um perfil de usuários ? Como descobrir as preferências comuns a um perfil de usuários ?

28 Mineração de Preferências

29 Pesquisa em desenvolvimento 2 métodos desenvolvidos dentro do grupo de Banco de Dados Método 1: CprefMiner (tese de Mestrado) Método 1: CprefMiner (tese de Mestrado) Método 2: ProfMiner (em colaboração com pesquisadores da Université de Tours (França) Método 2: ProfMiner (em colaboração com pesquisadores da Université de Tours (França)


Carregar ppt "Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia."

Apresentações semelhantes


Anúncios Google