A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Tópicos Especiais Mineração de Dados

Apresentações semelhantes


Apresentação em tema: "Tópicos Especiais Mineração de Dados"— Transcrição da apresentação:

1 Tópicos Especiais Mineração de Dados
Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia

2 Plano – Aula 1 Apresentação Geral do Curso
Mineração de Dados: uma visão geral Mineração de Regras de Associação 21/09/2018 JAI - SBC 2004

3 Apresentação Geral do Curso
Bibliografia Material de Suporte Conteúdo Avaliação Projeto Temas de Seminários 21/09/2018 JAI - SBC 2004

4 Bibliografia e Material de Suporte
Notas de aula Slides Minicurso JAI-2004 (Congresso da Sociedade Brasileira de Computação – Salvador 2004). Artigos Outras informações 21/09/2018 JAI - SBC 2004

5 Bibliografia e Material de Suporte
Introduction to Data Mining – P-N. Tan, M. Steinbach, V.Kumar – Addison Wesley 2005. Data Mining: Concepts and Tecniques - J.Han, M. Kamber - Morgan Kaufmann, 2001. Principles of Data Mining - D. Hand, H. Mannila, P. Smith, MIT Press, 2001 Data Mining: Practical Machine Learning – Tools and Techniques with Java Implementations.- I. H. Witten, E. Frank - Morgan Kaufmann, 2000. 21/09/2018 JAI - SBC 2004

6 Conteúdo do Curso O processo de Data Mining Regras de Associação
Sequências Classificação Agrupamento Outliers Mineração de Estruturas Complexas: Arvores e Grafos Web Mining Descoberta de Padrões em Biosequências 21/09/2018 JAI - SBC 2004

7 Projeto Implementação do Algoritmo de Mineração de Sequências Prefix-Span Interface de Mineração Testes em Dados Sintéticos Testes em Dados Reais: UCI Repository Comparação de Performance: Prefix-Span versus GSP 21/09/2018 JAI - SBC 2004

8 Critério de Avaliação Prova 1 : 25 pontos Prova 2 : 25 pontos
Projeto : 30 pontos Seminários : 20 pontos 21/09/2018 JAI - SBC 2004

9 Temas dos Seminários Mineração de Preferências dos Usuarios
Privacidade e Segurança Paralelismo e Distribuição Mineração de Dados Multimidia e Textos Mapeamento de Gens utilizando Mineração de Arvores Algoritmos de Pré-Processamento dos Dados Mineração Incremental 21/09/2018 JAI - SBC 2004

10 Visão Geral de « Mineração de Dados »
Por que ? Como surgiu ? O que é « Mineração de Dados » Descoberta de Conhecimento: etapas do processo Tipos de Tarefas de Mineração Como avaliar padrões ? Sistemas de Mineração de Dados 21/09/2018 JAI - SBC 2004

11 Mineração de Dados – Por que ?
Grandes volumes de dados disponiveis Muitos dados mas pouca informação Decisões são tomadas utilizando intuição. Necessidade de transformar dados em informação util Ferramentas de Mineração podem descobrir padrões interessantes « escondidos » nos dados. 21/09/2018 JAI - SBC 2004

12 Consulta versus Mineração
O que é Mineração de Dados Que produtos são comprados por clientes Classe A ? Cliente Produto Classe Social Tempo 1 Vinho A T1 2 Açúcar B T2 Queijo 3 Pão C T3 Leite T4 4 T5 21/09/2018 JAI - SBC 2004

13 Consulta e Resultado Select Clientes.Prod From Clientes
Where Clientes. Faixa = ‘A’ Resposta : Vinho, Queijo 21/09/2018 JAI - SBC 2004

14 Consulta versus Mineração
Existe ligação entre a classe social e produtos comprados numa mesma transação ? Cliente Produto Classe Social Tempo 1 Vinho A T1 2 Açúcar B T2 Queijo 3 Pão C T3 Leite T4 4 T5 21/09/2018 JAI - SBC 2004

15 Resultado da Mineração
Padrões Classe A -> vinho, queijo Classe C -> pão, leite 21/09/2018 JAI - SBC 2004

16 O que é Mineração ? Mineração de Dados
Descoberta de Conhecimento (KDD) KDD = Knowledge Discovery in Databases 21/09/2018 JAI - SBC 2004

17 Etapas do Processo de KDD
Limpeza dos Dados Integração dos Dados Seleção Transformação Mineração Avaliação ou Pós-Processamento Visualização dos Resultados 21/09/2018 JAI - SBC 2004

18 Tarefas de Mineração Tarefa ato de descobrir um certo tipo de padrão
Regras de Associação Análise de Sequências Classificação Agrupamento Outliers 21/09/2018 JAI - SBC 2004

19 Como avaliar padrões ? O que significa um padrão ser interessante ?
Facil de ser entendido Inesperado Potencialmente util Confirma uma hipotese feita pelo usuario Tipos de medidas Subjetivas : esperadas, inesperadas Acontece com um certo grau de segurança Objetivas : suporte, confiança 21/09/2018 JAI - SBC 2004

20 Sistemas de Mineração Intelligent Miner (IBM) DBMiner Enterprise Miner
Clementine MineSet Genamics Expressions 21/09/2018 JAI - SBC 2004

21 Critérios de Avaliação de Sistemas
Tipo de dados em que se aplica a mineração Tipo de conhecimento minerado Tipo de técnicas de mineração utilizadas Tipo de aplicação a que se destina 21/09/2018 JAI - SBC 2004

22 Regras de Associação O que é ? Formalização do Problema
Algoritmo Apriori para Mineração de Itemsets Mineração de Regras de Associação Exemplos Exercicio 21/09/2018 JAI - SBC 2004

23 Regras de Associação Itens = {Pão, Leite, Açúcar, ... }
Pão, Leite Manteiga Vinho Queijo ITEM, ITEM, ITEM ITEM 21/09/2018 JAI - SBC 2004

24 Medidas de Interesse Suporte de A, B , C D Confiança de A, B , C D
número de clientes que compraram A,B,C,D Total de clientes número de clientes que compraram A,B,C,D número de clientes que compraram A,B,C 21/09/2018 JAI - SBC 2004

25 Preparação dos Dados ID Compras 1 2 3 4 Pão, , ,Açucar
Manteiga, Açúcar Leite Manteiga Leite Manteiga Leite Suporte = 50% Leite, Manteiga Confiança = 66,6% 21/09/2018 JAI - SBC 2004

26 Tarefa de Mineração Dados : BD de transações, N, M
Retorna : regras de associação r Sup(r) ≥ N Conf(r) ≥ M 21/09/2018 JAI - SBC 2004

27 Algoritmo: duas etapas
Encontrar todos os I frequentes suporte(I) ≥ N Itemset = conjunto de itens Conf(A, B C) = suporte(A,B,C) ≥ M suporte(A,B) Itemsets = 21/09/2018 JAI - SBC 2004

28 Propriedade Importante
Algoritmo Apriori Propriedade Importante 1 2 1 2 4 1 2 4 5 5 Se um itemset é frequente Todo subitemset é frequente !! 21/09/2018 JAI - SBC 2004

29 Apriori – Fase da Geração
1 3 5 1 3 5 2 3 5 2 3 5 2 4 6 3 5 6 F3 1 3 4 1 3 4 2 3 6 2 3 6 3 4 6 1 4 5 2 3 4 2 3 4 2 5 6 C4 1 3 4 5 1 3 4 5 2 3 4 5 2 3 4 5 2 3 5 6 2 3 5 6 2 3 4 6 2 3 4 6 21/09/2018 JAI - SBC 2004

30 Apriori – Fase da Poda F3 C4 C4 1 3 5 2 3 5 2 3 5 2 4 6 2 4 6 3 5 6 3
21/09/2018 JAI - SBC 2004

31 Apriori – Fase de Validação
Suporte Mínimo: 50% Banco de Dados 8 Candidatos Contagem Suporte 2 3 5 6 2 3 5 6 2 3 4 5 6 2 3 4 6 2 3 4 6 F4 = 2 3 4 6 21/09/2018 JAI - SBC 2004

32 Algoritmo Apriori Entrada : BD de transações, N Saida : F1, F2, F3, …
C1 = Itemsets de tamanho 1 F1 = Itemsets frequentes de C1 k : = 1 While Fk não for vazio Ck+1 := Junta(Fk, Fk) Ck+1 := Poda(Ck, Fk) Fk+1 : = Valida(BD,Ck+1, N) k : = k+1 21/09/2018 JAI - SBC 2004

33 Um Exemplo L1 = {1}, {2}, {3},{5} Id Compras 1 1,3,5 2 1,2,3,5,7 3 1,2,4,9 4 1,2,3,5,9 5 1,3,4,5,6,8 6 2,7,8 {1,3} C2 = {1,2} {1,5} {2,3} {3,5} {2,5} L2 = {1,2} {1,3} {1,5} {3,5} C3 = {1,2,3} {1,2,5} {1,3,5} L3 = {1,3,5} Suporte minimo = 50% 21/09/2018 JAI - SBC 2004

34 Mineração de Regras de Associação
Dado um limite minimo de confiança M A regra X  Y é minerada se : Suporte(X,Y) / Suporte(X) >= M 21/09/2018 JAI - SBC 2004

35 Exercicio 1 {1,3,5,7,8} {3,4,5,7} {2,3,5,6} {2,4,5,8,9} {2,3,5,11} {1,2,3,7,9} C1 = {1}, {2}, {3}, {4} ,{5}, {6 },{7}, {8}, {9},{11} F1 = {2}, {3}, {5}, {7} C2 = {2 3}, {2 5}, {2 7}, {3 5}, {3 7}, {5 7} F2 = {2,3}, {2 5}, {3 5}, {3 7} C3 = {2,3,5}, {3,5,7} Apos a poda : C3 = {2,3,5} Suporte = 50% F3 = vazio 21/09/2018 JAI - SBC 2004

36 Exercicio 2 Dado :confiança minima = 73% {2}  {3} {2}  {5} {3}  {5}
{5}  {3} {7}  {3} {2} {3} {5} {7} 75% 0% 70% 93,2% 100% 21/09/2018 JAI - SBC 2004

37 Fim da Aula 1 Perguntas ? 21/09/2018 JAI - SBC 2004


Carregar ppt "Tópicos Especiais Mineração de Dados"

Apresentações semelhantes


Anúncios Google