Artigo: ‘Mining Frequent Patterns without Candidate Generation’

Artigo: ‘Mining Frequent Patterns without Candidate Generation’
Jiawei Han, Jian Pei, and Yiwen Yin Resumo: Davis Ant. Peñaranda Zárate, Bolsista da CAPES/CNPq – IEL Nacional - Brasil

Sumário Algoritmo A priori Solução proposta Algoritmo Propriedades
Execução Propriedades Desempenho

Algoritmo A priori É cansativo escanear repetidamente a base de dados e verificar um conjunto grande de candidatos usando ‘Pattern matching’. Congestionamento acontece na geração de conjunto de candidatos e os testes. Se fosse possível evitar gerar um conjunto grande de candidatos, o desempenho pode ser muito melhor.

Solução proposta Frequent pattern tree (FP-tree), para armazenar informação quantitativa sobre padrões frequentes. O crescimento é atingido com a concatenação do padrão sufixo com os nodos gerados de um FP-tree condicional. A técnica utilizada na mineração é baseada em partições e dividir-e-conquistar e não como o Apriori que é bottom-up na geração de combinações de itemset frequentes.

O algoritmo em termos formais
Criar a raiz da árvore FP e cujo valor seja null. E para cada transação na BD fazer o seguinte. Seja [p|P], onde p é o primeiro elemento e P é o resto da lista. Executar com insertar_FP ([p|P], T) Definição de insertar_FP ([p|P], T): Se T tem um filho N e N.nome = p.nome, Então imcrementar a conta de N em 1. Sçenão criar novo nodo N com conta de 1. O enlace do pai ser enlaçado a T, e o enlace do nodo será enlaçado aos nodos com o mesmo nome. Se P não é vazio, chamar insertar_FP(P, N) recursivamente.

Execução do algoritmo Soporte mínimo= 3 Itemes
Itens frequentes ordenados f, a, c, d, g, i, m, p f, c, a, m, p a, b, c, f, l, m, o f, c, a, b, m b, f, h, j, o f, b b, c, k, s, p c, b, p a, f, c e, l, p, m, n Item Soporte f 4 c a 3 b m p Item Soporte d 1 g i l 2 o h Item Soporte k 1 s e n j Soporte mínimo= 3

f, c, a, m, p f:1 c:1 Itens frequentes ordenados f, c, a, b, m f, b
c, b, p null f:1 c:1 a:1 m:1 p:1

f, c, a, b, m f:2 c:2 Itens frequentes ordenados f, c, a, m, p f, b
c, b, p null f:2 c:2 a:2 m:1 b:1 p:1 m:1

f, b Itens frequentes ordenados f, c, a, m, p f, c, a, b, m c, b, p
null f:3 c:2 b:1 a:2 m:1 b:1 p:1 m:1

c, b, p Itens frequentes ordenados f, c, a, m, p f, c, a, b, m f, b
null f:3 c:1 c:2 b:1 b:1 a:2 p:1 m:1 b:1 p:1 m:1

Itens frequentes ordenados f, c, a, m, p f, c, a, b, m f, b c, b, p
null f:4 c:1 c:3 b:1 b:1 a:3 p:1 m:2 b:1 p:2 m:1

Completitude Uma rota na árvore representa conjuntos de dados frequentes em multiplas transações sem ambiguidade.

Compactness Existe uma alta probabilidade de compartilhar os Itens por que os mais frequentes estão mais perto da raiz. O tamanho da árvore é muito menor que a base de dados original.

Propriedade: enlace-nodo
Para cada qualquer item frequente a, todos os possíveis padrões frequentes que contem a podem ser obtidos seguindo os enlaces do nodo. Padrão condicional base, é o conjunto de rotas na árvore que estão antes de um item.

Propriedade: enlace-nodo
null c:3 a:3 f:4 m:2 p:2 b:1 m:1 p:1 c:1 Item Padrão condicional base Árvore FP condicional p {(f:2, c:2, a:2, m:2), (c:1, b:1)} ({c:3}) m {(f:2, c:2, a:2), (f:1, c:1, a:1, b:1)} {(f:3, c:3, a:3)} b {(f:1, c:1, a:1), (f:1), (c:1)}  a {(f:3, c:3)} c {(f:3)} f

Comparação A priori-FP

Comparação TreeProjection-FP

Artigo: ‘Mining Frequent Patterns without Candidate Generation’

Apresentações semelhantes

Apresentação em tema: "Artigo: ‘Mining Frequent Patterns without Candidate Generation’"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Artigo: ‘Mining Frequent Patterns without Candidate Generation’

Apresentações semelhantes

Apresentação em tema: "Artigo: ‘Mining Frequent Patterns without Candidate Generation’"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback