A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

6/7/2014 Mestrado em Ciencia da Computacao - 2012 1 Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4.

Apresentações semelhantes


Apresentação em tema: "6/7/2014 Mestrado em Ciencia da Computacao - 2012 1 Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4."— Transcrição da apresentação:

1 6/7/2014 Mestrado em Ciencia da Computacao Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4

2 6/7/2014Mestrado em Ciencia da Computacao Maneiras de Otimizar Otimização 1 : reduzir Otimização 1 : reduzir numero de testes durante a fase de geracao numero de testes durante a fase de geracao numero de testes durante a fase da poda numero de testes durante a fase da poda numero de testes durante a fase do calculo du suporte numero de testes durante a fase do calculo du suporte Otimização 2 : reduzir o tamanho da base de dados Otimização 2 : reduzir o tamanho da base de dados Otimização 3 : reduzir o numero de varridas do BD Otimização 3 : reduzir o numero de varridas do BD Otimização 4 : reduzir o numero de candidatos gerados Otimização 4 : reduzir o numero de candidatos gerados

3 6/7/2014Mestrado em Ciencia da Computacao Otimização 1 - Arvore Hash Tabelas Hash Folhas : itemsets estocados

4 6/7/2014Mestrado em Ciencia da Computacao Como estocar os candidatos na árvore hash ? Pao, Leite Pao, Acucar Pao, Manteiga Leite, Acucar Leite, Manteiga Acucar, Manteiga Pao, Leite Pao, Acucar Pao, Manteiga Acucar, Manteiga Leite, Acucar Leite, Manteiga h(i 1 ) = 2 h(i 1 ) = 1 h(Pao) = h(Acucar) = 1 h(Manteiga) = h(Leite) = 2 N = N. maximal de itemsets nas folhas = 3

5 6/7/2014Mestrado em Ciencia da Computacao Como estocar os candidatos na árvore hash ? Pao, Leite Pao, Manteiga Acucar, Manteiga Leite, Acucar Leite, Manteiga h(i 1 ) = 2 h(i 1 ) = 1 Pao, Acucar h(i 2 ) = 1 h(i 2 ) = 2 h(Pao) = h(Acucar) = 1 h(Manteiga) = h(Leite) = 2 N = N. maximal de itemsets nas folhas = 3 Pao, Leite Pao, Acucar Pao, Manteiga Acucar, Manteiga

6 6/7/2014Mestrado em Ciencia da Computacao Geração dos Candidatos x y x xxxx Não são testados !

7 6/7/2014Mestrado em Ciencia da Computacao Poda dos Candidatos 1 { 1, 4, 8 } { 3, 6, 8 } { 1, 2, 4 } { 1, 2, 5 } { 2, 4, 7 } { 6, 8, 10 } { 2, 4, 6 } { 6, 8, 9 } 1 { 1, 2, 5, 6 } Candidato: sub-itemset : { 1, 2, 5 } { 2, 4, 7 } { 1, 2, 5 } { 1, 2, 6 } h(n) = 1 se n é impar h(n) = 2 se n é par Folhas : 3 itemsets no máximo Não são testados !

8 6/7/2014Mestrado em Ciencia da Computacao Cálculo do Suporte 1 { 1, 4, 8 } - 0 { 3, 6, 8 } - 0 { 1, 2, 6 } { 1, 2, 5 } - 0 { 2, 4, 7 } - 0 { 6, 8, 10 } - 0 { 2, 4, 6 } - 0 { 6, 8, 9 } { 1, 2, 5, 6 } Transação no BD { 1, 5, 9 } - 0 { 2, 5, 6 } - 0 { 1, 2, 5, 6 } { 1, 2, 5 } - 1 { 2, 4, 7 } - 0 { 1, 2, 5 } - 1 { 2, 4, 7 } - 0 { 1, 4, 8 } - 0 { 3, 6, 8 } - 0 { 1, 2, 6 } - 1 { 1, 4, 8 } - 0 { 3, 6, 8 } - 0 { 1, 2, 6 } - 1 { 1, 2, 5, 6 } { 2, 5, 6 } - 1 Não são testados !

9 6/7/2014Mestrado em Ciencia da Computacao Otimização 2 Redução do tamanho do BD Iteração k t : transação do BD nao contém nenhum candidato de tamanho k Iteração k+1 t pode ser eliminada do BD t pode ser eliminada do BD t nao conterá nenhum candidato de tamanho t nao conterá nenhum candidato de tamanho k +1

10 6/7/2014Mestrado em Ciencia da Computacao Otimização 3 Redução das varridas do BD Método convencional Método convencional N varridas na base N varridas na base N = Número de iterações do algoritmo N = Número de iterações do algoritmo Método do Particionamento [Savarese+ 1995] Método do Particionamento [Savarese+ 1995] O número de varridas na la base é = 2

11 6/7/2014Mestrado em Ciencia da Computacao Método do Particionamento Executa Apriori na memória principal Encontra os itemsets localmente frequentes Frequente local Teste os itemsets localmente frequentes Globalmente Frequente Localmente Frequente em pelo menos uma das partições BD

12 6/7/2014Mestrado em Ciencia da Computacao Otimização 4 Redução do Número de Candidatos Gerados Restrições sobre os padrões : regras devem satisfazer uma expressão booleana dada Restrições sobre os padrões : regras devem satisfazer uma expressão booleana dada Itemsets: restrição de items (Agrawal-Srikant 1997) Itemsets: restrição de items (Agrawal-Srikant 1997) (Pão AND Leite) OR (Açucar AND Café AND ¬ Sal)

13 6/7/2014 Mestrado em Ciencia da Computacao Constraint Mining Algoritmo DIRECT

14 Mestrado em Ciencia da Computacao /7/2014 Restrição de Itens Uma fórmula proposicional em Forma Normal Disjuntiva B = D1 OR D2 OR …. OR Dn Di = p1 AND p2 AND … AND pm pj = item pj = ¬ item Exemplo: B = (Pão AND Manteiga) OR (Café AND ¬ Sal) Itemset I = (Café, Açúcar, Trigo) satisfaz a fórmula B

15 Mestrado em Ciencia da Computacao /7/2014 Problema de Mineração Dados Banco de dados de transações Uma restrição de itens B B = D1 AND D2 AND …. AND Dn Minerar todos os itemsets frequentes e que satisfazem a restrição B A fórmula B serve como um molde para guiar o processo de mineração

16 Mestrado em Ciencia da Computacao /7/2014 Algoritmo DIRECT Fase da Geração Ideia Principal do algoritmo Se um itemset I de tamanho k+1 satisfaz B então uma das duas condições se verifica: Todos os Di verificados por I tem exatamente k+1 elementos positivos Existe ao menos um k-subitemset de I que satisfaz B

17 Mestrado em Ciencia da Computacao /7/2014 Prova da propriedade Seja I = {a1,….,ak,ak+1} que satisfaz B Se existe um Di satisfeito por I, com m <= k elementos positivos: Di = a1 AND a2 AND …. am AND ¬ B1 AND ¬ B2 AND … ¬ Bp I = {a1,…,am,am+1,…,ak,ak+1} Não aparecem entre os negativos de Di Logo qualquer subitemset de I contendo a1,…,am satisfaz Di

18 Mestrado em Ciencia da Computacao /7/2014 Fase da Geração de DIRECT Itemset de tamanho k+1 frequente que satisfaz B 1 a possibilidade : A1,…,Ak, Ak+1 Satisfaz B É frequente Deve ser frequente Logo um bom conjunto de CANDIDATOS DE TAMANHO k+1 = C b K+1 = F b k x F onde F = conjunto de items frequentes F b k = k-itemsets frequentes e que satisfazem B

19 Mestrado em Ciencia da Computacao /7/2014 Fase da Geração Gera C b k+1 Elimina-se de C b k+1 todos os itemsets que não satisfazem B

20 Mestrado em Ciencia da Computacao /7/2014 Fase da Poda Dispomos do conjunto F b k da fase anterior = Frequentes e que satisfazem B Se um itemset I= (a1,…,ak,ak+1) contiver um subitemset J de tamanho k que satisfaz B e que não esteja em F b k então com certeza J não será frequente, portanto I poderá ser podado.

21 Mestrado em Ciencia da Computacao /7/2014 Fase da Geração- complemento 2 a Possibilidade de se obter candidatos de tamanho k+1 potencialmente frequentes e satisfazendo B. Adicionar todos os k+1-itemsets correspondendo aos Di com exatamente k+1 items positivos e frequentes.

22 Mestrado em Ciencia da Computacao /7/2014 Resumo da etapa k+1 do algoritmo Fase da Geração e Poda 1. F b k x F 2. Elimina os itemsets que não satisfazem B 3. Poda os que possuem k-subitemsets que satisfazem B e que não estão em F b k 4. Junta-se os obtidos dos Di com k+1 elementos positivos e frequentes Fase do Cálculo do Suporte 5. Varre banco de dados e calcula suporte dos candidatos restantes.

23 Mestrado em Ciencia da Computacao /7/2014 Exercicio Gerar C b 2 sabendo que : O conjunto dos items frequentes = {1, 2, 3, 4, 5} B = (1 AND 2) OR (4 AND ¬5)

24 F b 1 = {4} 1. C b 2 = { {1,4}, {2,4}, {3,4}, {4,5}} 2. Elimina os que não satisfazem B C b 2 = { {1,4}, {2,4}, {3,4}} 3. Poda os que possuem 1-subitemset que satisfaz B e que não está em F b 1 : único 1-subitemset que satisfaz B é {4} 4. Junta os Di com exatamente 2 elementos positivos e frequentes. C b 2 = { {1,4}, {2,4}, {3,4}, {1,2} } Mestrado em Ciencia da Computacao /7/2014


Carregar ppt "6/7/2014 Mestrado em Ciencia da Computacao - 2012 1 Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4."

Apresentações semelhantes


Anúncios Google