Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouRyan Parras Alterado mais de 10 anos atrás
1
Mining Frequent Patterns without Candidate Generation
Jiawei Han, Jian Pei, and Yiwen Yin School of Computing Science Simon Fraser University Alberto Bisognin
2
Introdução Algoritmo Apriori bastante usado
Boa performance com conjuntos reduzidos de candidatos Custoso com grande número de candidatos
3
Principais problemas Apriori
Geração de grande conjunto de candidatos Várias verificações do banco de dados Checagem de grande conjunto de candidatos
4
Algoritmo proposto Composto de 3 aspectos:
Estrutura de dados mais compacta denominada FP-tree Desenvolvida árvore baseada nos fragmentos dos padrões Geração ascendente de itens frequentes
5
Frequent Pattern Tree – FP-tree
Armazena informações cruciais Dados são compactados numa estrutura de dados bem menor Reduz o espaço de busca Somente itens frequentes de comprimento 1 tem nodo na árvore Disposição dos nós permite que nós mais frequentes sejam melhor compartilhados Cada nodo contem 3 campos: nome do item, contador e nodo link
6
Projeto e Construção da FP-tree
Dado um banco de dados e considerando um suporte mínimo Varrer o banco de dados para encontrar o conjunto de itens frequentes que superam o suporte Armazenar o conjunto de itens frequentes em uma estrutura compacta (evitar verificação do banco de dados) Ordenar os itens frequentes em ordem decrescente Criar a raiz da árvore, denominada null Examinar a primeira transação para construir o primeiro ramo da árvore, seguindo sempre a ordem decrescente dos itens frequentes Na próxima transação, se esta tiver itens semelhantes já apresentados na árvore, o contador do mesmo item deve ser incrementado e se apresentar nodos diferentes, estes devem ser incluídos no ramo da árvore Se próxima transação tiver itens diferentes da anterior, novo ramo será criado
7
Exemplo FP-tree Suporte=3
8
Alguns detalhes Cada transição do banco de dados é mapeada para um caminho na árvore Frequencia dos itens são armazenados na árvore O tamanho é limitado pela ocorrência dos itens frequentes no banco de dados A altura de uma árvore é limitada ao número máximo de itens de uma transação do banco de dados Um caminho pode representar itens frequentes em múltiplas transações
9
Comparativo com FP-tree
Teste com base de dados Connect-4 usado em MaxMiner Contém transações com 43 itens Suporte de 50% Número total de ocorrência de itens frequentes: Número total de nodos numa árvore FP-tree:13449 Relação de redução de 165,04 vezes
10
Gerando padrões frequentes através da FP-tree
Para qualquer item freqüente ai, todos os possíveis padrões que contem ai podem ser obtidos seguindo os nó-links de ai, a partir de ai na estrutura da FP-tree. Procura de padrões frequentes associados a um item Padrões de caminhos simples são gerados pela combinação dos itens deste ramo Caminhos compostos é gerada uma árvore de padrão base para cada item
11
Árvore condicional de m
12
Árvores condicionais
13
Algoritmo FP-growth
14
Avaliação experimental do algoritmo
Comparação entre os métodos FP-growth, Apriori e TreeProjection Computador Pentium 450MHz 128Mbytes Ram Windows NT Programas escritos em Microsoft Visual C++6.0 Banco de dados: D1-T25.I10.D10K itens transações D2-T25.I20.D100K itens
15
Avaliação FP-growth e Apriori
16
Tempo de execução FP-growth
17
Avaliação FP-growth e Apriori
18
Avaliação FP-growth e TreeProjection
19
Avaliação FP-growth e TreeProjection
20
Conclusão Gera uma árvore bastante compacta
Reduz a geração de candidatos Redução do tamanho das bases subsequentes de padrões condicionais e das árvores condicionais Muito eficiente para banco de dados com grande número de transações e suportes baixos
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.