Mestrado em Ciência da Computação 2008

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

2º Semestre 2009 > PUCPR > Design Digital
Introdução à Programação Funções Matemáticas
Componentes ASP.NET Validação – Parte 2
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Mineração de Dados Algoritmo APRIORI
SCC Bancos de Dados e Suas Aplicações
Profa. Sandra de Amo Mestrado em Ciência da Computação 2013 – 2
UFES CC/EC/Mestrado Teoria dos Grafos Árvores. UFES CC/EC/Mestrado Teoria dos Grafos Árvores Grafo Acíclico: não possui ciclos.
TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS ESTRUTURAS DE DADOS AVANÇADAS Aula /08/2011 Professor Leomir J. Borba-
Modelos de Mineração de Dados
Uma das tarefas descritivas da
Outliers Detecção de Anomalias
RESUMO DA AULA 5 Profa. Sandra de Amo GBC053 – BCC
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
Mineração de Padrões Arborescentes
Gerenciamento de Arquivos, Páginas e Registros RESUMO DA AULA 3 Profa. Sandra de Amo GBC053 – BCC
Organização de Arquivos Introdução RESUMO DA AULA 4 Profa. Sandra de Amo GBC053 – BCC
Gerenciamento do Disco Gerenciamento do Buffer
Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo.
Algoritmo IPM2 Interaction Pattern Mining AULA 21 DATA MINING.
Classificação Arvores de Decisão
Mineração de Traços de Execução
Correção – Completude – Performance – Escalabilidade
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
Classificadores em Dados não Balanceados
Gerenciamento de Arquivos, Páginas e Registros
Mineração de Dados Temporais Introdução
Teoria da Computação Profa. Sandra de Amo Bacharelado em CC Mestrado em CC 2008 – 1.
Mineração dePreferências Contextuais A. Soulet et al AULA 19 Data Mining Profa. Sandra de Amo.
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Árvores.
Medida do Tempo de Execução de um Programa
Artigo: ‘Mining Frequent Patterns without Candidate Generation’
A FAST APRIORI implementation
CLOSET: An Efficiet Algorithm for Mining Frequent Closed Itemsets
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets Jian Pei, Jiawei Han e Runying Mao Apresentação preparada por Alexandre Lorenzatti.
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets
Mineração de Padrões Sequenciais
Mining Frequent Patterns without Candidate Generation
Tele-Processamento e Redes (Redes de Computadores) Prof. Fábio Moreira Costa Universidade Federal de Goiás Instituto de Informática Curso de Ciência da.
S TÉFANI P IRES Mineração de Dados – Trimestre Prof. Marcus Sampaio 02/12/2008 Mineração de Dados.
Experiments with Strassen’s Algorithm: from sequential to parallel
Paulo J Azevedo Departamento de Informática
II. M o d e l o s d e C o n h e c i m e n t o
Grafos Msc. Cintia Carvalho Oliveira Doutoranda em Computação – UFU
Desenvolvimento de Projetos e Aplicações Web
Emanuel Teixeira Nº24924 Bioengenharia
R ESOLUÇÃO DE E NTIDADES Ricardo Prudêncio. L INK M INING - T AREFAS Relacionadas a Objetos Relacionadas a Arestas Relacionadas a Grafos Ranking de Nós.
PROGRAMAÇÃO LINEAR EXERCÍCIOS PROPOSTOS.
Introdução ao Desenvolvimento Web
6/7/2014 Mestrado em Ciencia da Computacao Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4.
Lígia Maria Soares Passos Aluna Stéphane Julia Orientador
Sistema Recomendador para Comércio Eletrônico
Tópicos de Sistemas de Informação A
Tópicos avançados em internet A Carlos Oberdan Rolim Ciência da Computação Sistemas de Informação.
Redes Neurais Prof. Alex F. V. Machado.
Aula T06 – BCC202 Análise de Algoritmos (Parte 4) Túlio Toffolo
Aula 3 Vetores e Listas. Arrays (vetores) Array – sequência de elementos do mesmo tipo. Tamanho do Array – seu número de elementos (número fixo) Consequência:
1 1.
DC - UFC Copyright © 2003 Misael Santos e Rossana Andrade 1 Padrões de Projeto para Sistemas Web Misael Santos e Rossana Andrade Universidade.
Técnicas e Projeto de Sistemas
DESENVOLVIMENTO WEB I HTML Tabelas. Tabelas servem para organizar!!!  Usamos tabelas para organizar conteúdos que tenham relação entre si, procurando.
Ferramentas para Sistema Web Sistemas de Informação Aula /03/2013.
Msc. Daniele Carvalho Oliveira
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
Trabalho de Seminários em Informática
Mineração de Dados Profa. Sandra de Amo
Tópicos Especiais Mineração de Dados
Transcrição da apresentação:

Mestrado em Ciência da Computação 2008 Padrões Sequenciais Aula 5 Sandra de Amo 3/25/2017 Mestrado em Ciência da Computação 2008

Padrões Estruturados: Porque ? Dados científicos não podem ser vistos como simples itemsets Dados científicos apresentam estruturas mais complexas Hierarquias Propriedades geométricas Exemplos Moléculas – Estruturas das proteínas Controle de tráfico, workflow Documentos XML, Logs de navegação na Web, Redes sociais. 3/25/2017 Mestrado em Ciência da Computação 2008

Padrões Estruturados : Sequências Base de dados = conjunto de sequências sequência de artigos comprados um cliente durante um periodo de tempo. sequência de sintomas de um paciente durante um periodo de tempo. sequência de ações para evacuar uma cidade em caso de radiação atômica. sequência de páginas web visitadas por um internauta sequência de nucleotídeos (DNA) Padrão Sequencial Lista de items ou itemsets (artigos, sintomas) que aparecem em diversas sequências de dados. 3/25/2017 Mestrado em Ciência da Computação 2008

Exemplo Padrão Sequencial Padrão Sequencial = Conjunto de items + 1 ,player} , 2 {Computador} 3 , {player, 4 {player} , {Computador} 5 {Computador} , {Impressora} {TV {DVD} Padrão Sequencial < {TV}, {DVD} > {TV} DVD} Sequência de itemsets Padrão Sequencial = Conjunto de items + estrutura de ordem total (linear) 3/25/2017 Mestrado em Ciência da Computação 2008

Mestrado em Ciência da Computação 2008 Conceitos de Base Padrão Sequencial = < s1,… sn > si = itemset = {a1,…,ak} Seja S = < s1,… sm > uma sequência de dados P = padrão sequencial = < p1,… pn > S contém P se : S1 , … Si, … Sj, … , Su, … , Sm p1,…, pl, …, pn 3/25/2017 Mestrado em Ciência da Computação 2008

Suporte de um padrão sequencial D : Base de Dados de Sequências, P = Padrão Sequencial Suporte (P) = Nb de sequências S em D tais que S contem P Total de sequências em D Tamanho de um padrão sequencial = nb de items do padrão < {a,b}, {c,d}, {a,c} > tem 6 items = 6-padrão 3/25/2017 Mestrado em Ciência da Computação 2008

Exemplo Suporte(P) = 2/5 = 40% Base de Dados D 1 2 3 4 5 {TV {DVD} Player} , 2 {Computador} 3 , {Player, 4 {Player} , {Computador} 5 {Computador} , {Impressora} {TV {DVD} {Scanner} , {TV} DVD} Padrão P Suporte(P) = 2/5 = 40% < {TV} , {DVD} > 3/25/2017 Mestrado em Ciência da Computação 2008

Problema: Mineração de Padrões Sequenciais Dados: Uma base de dados de sequências Um nível mínimo de suporte , 1 ≥  > 0 Encontrar todos os padrões sequenciais frequentes em D com respeito a . 3/25/2017 Mestrado em Ciência da Computação 2008

Algoritmos de Mineração de Sequências Técnica Apriori – Busca em Largura Apriori-All [Agrawal - Srikant 1995] GSP [Agrawal – Srikant 1996] Classes d’Equivalência – Busca em Profundidade SPADE [M. Zaki, 2001] Sem geração de candidatos PrefixSpan [Han+, 2001] 3/25/2017 Mestrado em Ciência da Computação 2008

Mestrado em Ciência da Computação 2008 Algoritmo GSP Propriedade Importante: Antimonotonia Frequente d c b h g f e l k j i m a d c b a h g f e l k j i d c b h g f e l k j i m Frequentes 3/25/2017 Mestrado em Ciência da Computação 2008

Propriedade da Antimonotonia Se S = <s1, …, sn> é frequente k = tamanho de S, então : S’ = S – primeiro item de s1 e S’’= S – último item de sn S’ e S’’ são padrões frequentes de tamanho k-1. 3/25/2017 Mestrado em Ciência da Computação 2008

Como combinar dois padrões sequenciais ? f e d i h g c b f e d i h g c b f e d i h g c b f e d i h g j j Padrão Resultante 3/25/2017 Mestrado em Ciência da Computação 2008

GSP – Geração dos candidatos < {1,2}, {3} > < {1,3}, {5} > F3 < {1,2}, {4} > < {2}, {3,4} > < {1}, {3,4} > < {2}, {3}, {5} > < {1,2}, {3,4} > C4 < {1,2}, {3}, {5} > 3/25/2017 Mestrado em Ciência da Computação 2008

Mestrado em Ciência da Computação 2008 GSP – Poda < {1,2}, {3} > < {1,3}, {5} > F3 < {1,2}, {4} > < {2}, {3,4} > < {1}, {3,4} > < {2}, {3}, {5} > < {1,2}, {3,4} > < {1,2}, {3,4} > < {1,2}, {3,4} > < {1,2}, {3,4} > < {1,2}, {3,4} > C4 C4 = < {1,2}, {3,4} > < {1,2}, {3}, {5} > < {1,2}, {3}, {5} > 3/25/2017 Mestrado em Ciência da Computação 2008

GSP – Cálculo do Suporte Suporte Mínimo: 50% Base de Dados 1 2 3 4 Candidatos Cálculo do Suporte < {3,1,5,2}, {5}, {3,5,4} > < {3,1,5,2}, {5}, {3,5,4} > < {1,2}, {3,4} > < {2}, {3,4} > < {4,5}, {1,3,2}, {3,5,4,7} > < {4,5}, {1,3,2}, {3,5,4,7} > < {3}, {2,5} > F4 = < {1,2}, {3,4} > 3/25/2017 Mestrado em Ciência da Computação 2008

Mestrado em Ciência da Computação 2008 Algoritmo GSP [EDBT 1996] Entrada : BD de sequências, 1 ≥ N ≥ 0 Saida : Todos os padrões frequentes na BD C1 = Padrões sequenciais de tamanho 1 F1 = Padrões sequenciais frequentes de C1 k : = 1 While Fk não vazio Ck+1 := Combina(Fk, Fk) Ck+1 := Poda(Ck, Fk) Fk+1 : = Calcula-suporte(BD,Ck+1, N) k : = k+1 3/25/2017 Mestrado em Ciência da Computação 2008

Exemplo completo simples Base de dados suporte = 2/3 <{a,b}, {f}> <{a}, {b}, {c}> <{d}, {a,e}, {b} ,{e,c} > C1 = <a> <b> <c> <d> <e> <f> F1 = <a>, <b>, <c> C2 = <{a},{a}> <{a,b}> <{a},{b}> {<{b},{a}> <{b},{b}> <{a},{c}> <{c},{a}> <{a,c}> <{b,c}> <{b},{c}>, <{c},{c}> , <{c},{b}> F2 = <{a},{b}> <{a},{c}> <{b},{c}> C3 = <{a},{b},{c}> F3 = <{a},{b},{c}> C4 = vazio 3/25/2017 Mestrado em Ciência da Computação 2008

Mestrado em Ciência da Computação 2008 Referências Artigos: Agrawal, R., Srikant, R. :  Mining Sequential Patterns : Generalizations and Performance Improvements.  Proc. 5th EDBT, 3-17, 1996. Agrawal, R., Srikant, R. :  Mining Sequential Patterns. Proc. ICDE 1995, pages 1-14. Implementações: Christian Borgelt's Webpages http://www.borgelt.net//software.html Referências PáginaSrikant http://www.rsrikant.com/publications.html#conf Página Agrawal http://rakesh.agrawal-family.com/pubs.html/ 3/25/2017 Mestrado em Ciência da Computação 2008