A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

2/18/2014 Mestrado em Ciência da Computação 2008 1 Padrões Sequenciais Aula 5 Sandra de Amo.

Apresentações semelhantes


Apresentação em tema: "2/18/2014 Mestrado em Ciência da Computação 2008 1 Padrões Sequenciais Aula 5 Sandra de Amo."— Transcrição da apresentação:

1 2/18/2014 Mestrado em Ciência da Computação Padrões Sequenciais Aula 5 Sandra de Amo

2 22/18/2014 Mestrado em Ciência da Computação 2008 Padrões Estruturados: Porque ? Dados científicos não podem ser vistos como simples itemsets Dados científicos apresentam estruturas mais complexas Hierarquias Propriedades geométricas Exemplos Moléculas – Estruturas das proteínas Controle de tráfico, workflow Documentos XML, Logs de navegação na Web, Redes sociais.

3 32/18/2014 Mestrado em Ciência da Computação 2008 Padrões Estruturados : Sequências Base de dados = conjunto de sequências sequência de artigos comprados um cliente durante um periodo de tempo. sequência de sintomas de um paciente durante um periodo de tempo. sequência de ações para evacuar uma cidade em caso de radiação atômica. sequência de páginas web visitadas por um internauta sequência de nucleotídeos (DNA) Padrão Sequencial Lista de items ou itemsets (artigos, sintomas) que aparecem em diversas sequências de dados.

4 42/18/2014 Mestrado em Ciência da Computação 2008 Exemplo Padrão Sequencial = Conjunto de items + estrutura de ordem total (linear) 1,player}, 2 {Computador} 3, {player, 4 {player}, {Computador} 5 {Computador}, {Impressora} {TV}DVD} {TV{DVD} Padrão Sequencial Sequência de itemsets

5 52/18/2014 Mestrado em Ciência da Computação 2008 Conceitos de Base Padrão Sequencial = s i = itemset = {a 1,…,a k } Seja S = uma sequência de dados P = padrão sequencial = S contém P se : S 1, … S i, … S j, …, S u, …, S m p 1,…, p l, …, p n

6 62/18/2014 Mestrado em Ciência da Computação 2008 Suporte de um padrão sequencial D : Base de Dados de Sequências, P = Padrão Sequencial Nb de sequências S em D tais que S contem P Total de sequências em D Tamanho de um padrão sequencial = nb de items do padrão tem 6 items = 6-padrão Suporte (P) =

7 72/18/2014 Mestrado em Ciência da Computação 2008 Exemplo Suporte(P) = 2/5 = 40% 1, Player}, 2 {Computador} 3, {Player, 4 {Player}, {Computador} 5 {Computador}, {Impressora} {TV}DVD} {TV{DVD} Base de Dados D Padrão P {Scanner},

8 82/18/2014 Mestrado em Ciência da Computação 2008 Problema: Mineração de Padrões Sequenciais Dados: 1. Uma base de dados de sequências 2. Um nível mínimo de suporte, 1 > 0 Encontrar todos os padrões sequenciais frequentes em D com respeito a.

9 92/18/2014 Mestrado em Ciência da Computação 2008 Algoritmos de Mineração de Sequências Técnica Apriori – Busca em Largura Apriori-All [Agrawal - Srikant 1995] GSP [Agrawal – Srikant 1996] Classes dEquivalência – Busca em Profundidade SPADE [M. Zaki, 2001] Sem geração de candidatos PrefixSpan [Han+, 2001]

10 102/18/2014 Mestrado em Ciência da Computação 2008 Algoritmo GSP dcbahgfelkjidcbhgfelkjimdcbhgfelkjima Frequente Fr e quentes Propriedade Importante: Antimonotonia

11 112/18/2014 Mestrado em Ciência da Computação 2008 Propriedade da Antimonotonia Se S = é frequente k = tamanho de S, então : S = S – primeiro item de s 1 e S= S – último item de s n S e S são padrões frequentes de tamanho k- 1.

12 122/18/2014 Mestrado em Ciência da Computação 2008 Como combinar dois padrões sequenciais ? a cbfedihg cbfedihg cbfedihg jcbfedihg a j Padrão Resultante

13 132/18/2014 Mestrado em Ciência da Computação 2008 GSP – Geração dos candidatos F3F3 C4C4 < {1,2}, {3} > < {2}, {3,4} > < {2}, {3}, {5} > < {1,2}, {3,4} >

14 142/18/2014 Mestrado em Ciência da Computação 2008 GSP – Poda F3F3 C4C4 C 4 =

15 152/18/2014 Mestrado em Ciência da Computação 2008 GSP – Cálculo do Suporte Cálculo do Suporte Candidatos Suporte Mínimo : 50% Base de Dados F 4 =

16 162/18/2014 Mestrado em Ciência da Computação 2008 ] Algoritmo GSP [EDBT 1996] Entrada : Entrada : BD de sequências, 1 N 0 Saida : Saida : Todos os padrões frequentes na BD C 1 = Padrões sequenciais de tamanho 1 F 1 = Padrões sequenciais frequentes de C 1 k : = 1 While F k não vazio Combina C k+1 := Combina(F k, F k ) Poda C k+1 := Poda(C k, F k ) Calcula-suporte F k+1 : = Calcula-suporte(BD,C k+1, N ) k : = k+1

17 172/18/2014 Mestrado em Ciência da Computação 2008 Exemplo completo simples Base de dados suporte = 2/3 C1 = F1 =,, C2 = {,, F2 = C3 = F3 = C4 = vazio

18 182/18/2014 Mestrado em Ciência da Computação 2008 Referências Artigos: Agrawal, R., Srikant, R. : Mining Sequential Patterns : Generalizations and Performance Improvements. Proc. 5th EDBT, 3-17, Agrawal, R., Srikant, R. : Mining Sequential Patterns. Proc. ICDE 1995, pages Implementações: Christian Borgelt's Webpages Referências PáginaSrikant Página Agrawal


Carregar ppt "2/18/2014 Mestrado em Ciência da Computação 2008 1 Padrões Sequenciais Aula 5 Sandra de Amo."

Apresentações semelhantes


Anúncios Google