A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Mining Frequent Patterns without Candidate Generation Alberto Bisognin Jiawei Han, Jian Pei, and Yiwen Yin School of Computing Science Simon Fraser University.

Apresentações semelhantes


Apresentação em tema: "Mining Frequent Patterns without Candidate Generation Alberto Bisognin Jiawei Han, Jian Pei, and Yiwen Yin School of Computing Science Simon Fraser University."— Transcrição da apresentação:

1 Mining Frequent Patterns without Candidate Generation Alberto Bisognin Jiawei Han, Jian Pei, and Yiwen Yin School of Computing Science Simon Fraser University

2 Introdução –Algoritmo Apriori bastante usado –Boa performance com conjuntos reduzidos de candidatos –Custoso com grande número de candidatos

3 Principais problemas Apriori –Geração de grande conjunto de candidatos –Várias verificações do banco de dados –Checagem de grande conjunto de candidatos

4 Algoritmo proposto –Composto de 3 aspectos: –Estrutura de dados mais compacta denominada FP-tree –Desenvolvida árvore baseada nos fragmentos dos padrões –Geração ascendente de itens frequentes

5 Frequent Pattern Tree – FP-tree –Armazena informações cruciais –Dados são compactados numa estrutura de dados bem menor –Reduz o espaço de busca –Somente itens frequentes de comprimento 1 tem nodo na árvore –Disposição dos nós permite que nós mais frequentes sejam melhor compartilhados –Cada nodo contem 3 campos: nome do item, contador e nodo link

6 Projeto e Construção da FP-tree Dado um banco de dados e considerando um suporte mínimo –Varrer o banco de dados para encontrar o conjunto de itens frequentes que superam o suporte –Armazenar o conjunto de itens frequentes em uma estrutura compacta (evitar verificação do banco de dados) –Ordenar os itens frequentes em ordem decrescente –Criar a raiz da árvore, denominada null –Examinar a primeira transação para construir o primeiro ramo da árvore, seguindo sempre a ordem decrescente dos itens frequentes –Na próxima transação, se esta tiver itens semelhantes já apresentados na árvore, o contador do mesmo item deve ser incrementado e se apresentar nodos diferentes, estes devem ser incluídos no ramo da árvore –Se próxima transação tiver itens diferentes da anterior, novo ramo será criado

7 Exemplo FP-tree Suporte=3

8 Alguns detalhes –Cada transição do banco de dados é mapeada para um caminho na árvore –Frequencia dos itens são armazenados na árvore –O tamanho é limitado pela ocorrência dos itens frequentes no banco de dados –A altura de uma árvore é limitada ao número máximo de itens de uma transação do banco de dados –Um caminho pode representar itens frequentes em múltiplas transações

9 Comparativo com FP-tree Teste com base de dados Connect-4 usado em MaxMiner Contém transações com 43 itens Suporte de 50% Número total de ocorrência de itens frequentes: Número total de nodos numa árvore FP-tree:13449 Relação de redução de 165,04 vezes

10 Gerando padrões frequentes através da FP-tree –Para qualquer item freqüente a i, todos os possíveis padrões que contem a i podem ser obtidos seguindo os nó- links de a i, a partir de a i na estrutura da FP-tree. –Procura de padrões frequentes associados a um item –Padrões de caminhos simples são gerados pela combinação dos itens deste ramo –Caminhos compostos é gerada uma árvore de padrão base para cada item

11 Árvore condicional de m

12 Árvores condicionais

13 Algoritmo FP-growth

14 Avaliação experimental do algoritmo Comparação entre os métodos FP-growth, Apriori e TreeProjection Computador Pentium 450MHz 128Mbytes Ram Windows NT Programas escritos em Microsoft Visual C++6.0 Banco de dados: D1-T25.I10.D10K 1000 itens transações D2-T25.I20.D100K itens

15 Avaliação FP-growth e Apriori

16 Tempo de execução FP-growth

17 Avaliação FP-growth e Apriori

18 Avaliação FP-growth e TreeProjection

19

20 Conclusão –Gera uma árvore bastante compacta –Reduz a geração de candidatos –Redução do tamanho das bases subsequentes de padrões condicionais e das árvores condicionais –Muito eficiente para banco de dados com grande número de transações e suportes baixos


Carregar ppt "Mining Frequent Patterns without Candidate Generation Alberto Bisognin Jiawei Han, Jian Pei, and Yiwen Yin School of Computing Science Simon Fraser University."

Apresentações semelhantes


Anúncios Google