Correção – Completude – Performance – Escalabilidade

Slides:



Advertisements
Apresentações semelhantes
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Advertisements

Algoritmos em Grafos.
AULA 01 PROGRAMAÇÃO DINÂMICA
Algoritmos para Geração de Variáveis Aleatórias
SpringerLink. 2 Home Page A caixa de login está disponível em todas as páginas. Não é mais necessário voltar para a home page para fazer um login. A nova.
Solved Exercises 1. Finding the Peak. Let A= a1,…,an be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
6 Outubro de 2005Trajectória de um Projéctil1 Jorge Cruz DI/FCT/UNL Introdução aos Computadores e à Programação 1º Semestre 2005/2006.
Gerenciamento de Projetos de Software Prof. Eduardo Meira Peres
Uma das tarefas descritivas da
Por que Construir um Data Warehouse ?
Método K-medóides Algoritmos PAM e CLARA
Outliers Detecção de Anomalias
Mineração de Padrões Arborescentes
Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo.
Algoritmo IPM2 Interaction Pattern Mining AULA 21 DATA MINING.
Mineração de Traços de Execução
Algoritmos para Operações de Conjuntos AULA 19 Profa. Sandra de Amo GBC053 – BCC
AULA 23 Profa. Sandra de Amo GBC053 – BCC
Mineração de Dados Temporais Introdução
Mineração dePreferências Contextuais A. Soulet et al AULA 19 Data Mining Profa. Sandra de Amo.
Mestrado em Ciência da Computação 2008
Programação Dinâmica Dual (Modelo Newave)
Inteligência Artificial
PROBLEMA DE ROTEAMENTO DE VEíCULOS COM DIVISÃO DE ENTREGA
Árvore Binária de Busca
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Operadores Especiais da SQL
Artigo: ‘Mining Frequent Patterns without Candidate Generation’
A FAST APRIORI implementation
CLOSET: An Efficiet Algorithm for Mining Frequent Closed Itemsets
LCM: na efficient algorithm for enumerating frequent closed item sets T. Uno, T. Asai, H. Arimura Apresentação: Luiz Henrique Longhi Rossi.
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets Jian Pei, Jiawei Han e Runying Mao Apresentação preparada por Alexandre Lorenzatti.
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets
Mineração de Padrões Sequenciais
Mining Frequent Patterns without Candidate Generation
Classificação e Pesquisa de Dados
S TÉFANI P IRES Mineração de Dados – Trimestre Prof. Marcus Sampaio 02/12/2008 Mineração de Dados.
Métodos de Classificação por Seleção: HeapSort
Janett Aparecida Xavier Átila Prescione F. Machado
Missionários e Canibais
Ambiente de simulação Os algoritmos previamente discutidos foram analisados usando um simulador de mobilidade. Ele modela uma cidade de 20 Km de raio,
Visão Geral do Desenvolvimento de Sistemas e Papéis no Desenvolvimento de Software Marcely Dias
II. M o d e l o s d e C o n h e c i m e n t o
CAPÍTULO I- TEORIA DAS PROBABILIDADE
Data Warehouse & Data Mining
ME623A Planejamento e Pesquisa
Exercícios PAA- Grafos
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
6/7/2014 Mestrado em Ciencia da Computacao Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4.
Sistema Recomendador para Comércio Eletrônico
Cálculo Numérico / Métodos Numéricos
Banco de Dados II Prof. Antônio Cordeiro.
Quais são, suas médias, medianas e modas?
Ordenação Externa de Arquivos – Um exemplo
Avaliação de Clusteres Parte II
Introdução e Busca Cega
Data Mining: A arte de minerar conhecimento. Roteiro Visão do Problema –Introdução 1 –Motivação 2 Desafios Tecnologias: –Algoritmos de otimização de mineração.
Abordagens para problemas NP-completos
Fundamentos de Programação
Técnicas e Projeto de Sistemas
1.
BCC 101 – Matemática Discreta I
Abr-17 Atividades, Artefatos e Responsáveis da Disciplina de Análise e Projeto Fluxo de análise e projeto.
AULA 20 Profa. Sandra de Amo GBC053 – BCC
Disciplina Análise de Algoritmos Bacharelado em CC
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
O PROCESSO DE KDD Elaborado por: Jader Gustavo de Campos Santos Rhafael Freitas da Costa.
DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando.
Curso de verão Data Mining Web Mining. O que é Web Mining?  Web Mining é o uso de técnicas de data mining para descobrir e extrair automaticamente informações.
Tópicos Especiais Mineração de Dados
Transcrição da apresentação:

Correção – Completude – Performance – Escalabilidade PrefixSpan e GSP Correção – Completude – Performance – Escalabilidade

Propriedades de um algoritmo Seja A um algoritmo que tem como objetivo calcular um conjunto de objetos F F = conjunto de todos os objetos satisfazendo um determinada propriedade P. Exemplos Algoritmo que retorna todos os números primos aparecendo num conjunto input N. Algoritmo Apriori que retorna todos os itemsets frequentes aparecendo num banco de transações D

Propriedades de um algoritmo Corretude : Todo output de A satisfaz a propriedade P que caracteriza os elementos de F ? Completude: Para todo objeto O de F existe uma execução de A que retorna O ?

Como mostrar que GSP é correto ? Seja s = (I1, I2, ..., In) um padrão sequencial retornado por GSP. S é frequente ? Prova : Os padrões retornados por GSP são testados na fase do cálculo du suporte que garante que o padrão retornado é frequente.

Como mostrar que PrefixSpan é correto ? Seja s um padrão sequencial retornado por PrefixSpan Pergunta: s é frequente com relação ao banco de dados de sequências D original dado como input ? Prova: s é retornado por PrefixSpan como sendo frequente em relação a um banco de dados projetado D|σ Neste caso σ é prefixo de s s é suportado por pelo menos N sequências no banco projetado D|σ Estas N sequências projetadas são subsequências de sequências do banco de dados original D. Logo s é suportado por pelo menos N sequências do banco de dados original D. Portanto, s é frequente com relação a D.

Como mostrar que GSP é completo ? Seja S um padrão sequencial frequente de tamanho k S é retornado por GSP ? Prova: por indução sobre k Base da indução k = 1 : se S é frequente de tamanho 1 então S é retornado na primeira iteração de GSP. Hipótese de indução : suponhamos que todos os padrões frequentes de tamanho inferior a k são retornados por GSP. Como S = (s1,....,sn) é frequente, então s’ = S – (primeiro item do primeiro itemset) s’’ = S – (último item do último itemset) São padrões frequentes de tamanho k-1. Por hipótese de indução, s’ e s’’ são retornados por GSP. Neste caso, s’ e s’’ são retornados na iteração k-1 Portanto, S será gerado na iteração k de GSP, ao se juntar s’ e s’’ obtidos na iteração precedente. Como S é frequente, S será “aprovado” na fase do cálculo do suporte, e portanto será retornado por GSP.

Como mostrar que PrefixSpan é completo ? Seja S = (s1,...,sn) um padrão sequencial frequente de tamanho k S é retornado por PrefixSpan ? Prova: por indução sobre k Base da indução k = 1 : se S é frequente de tamanho 1 então S é retornado na primeira iteração de PrefixSpan Hipótese de indução : suponhamos que todos os padrões frequentes de tamanho inferior a k são retornados por PrefixSpan Seja b = último item do último itemset de S S = α . b α’ é frequente de tamanho k-1 Por hipótese de indução, α é retornado por PrefixSpan. O banco projetado D| α será considerado em seguida. S é frequente em D, logo é frequente em D| α Portanto b é frequente em D| α Portanto S será obtido expandido-se α com o b e será retornado ao final da etapa D| α

Performance Pontos positivos de PrefixSpan Não existe fase de geração de candidatos Padrões são estendidos com o acrescimo de um item frequente obtido varrendo-se o banco projetado No caso de GSP, os candidatos são gerados sem levar em conta o banco de dados. Somente após a geração, durante o teste do suporte, o banco de dados é levado em conta. Os bancos de dados que são varridos são os projetados, que diminuem a cada etapa. Pontos negativos de PrefixSpan Construção dos bancos projetados

Estudos comparativos – GSP e PrefixSpan PC AMD 750MHz, 512 Mb Ram, plataforma Windows 2000, Visual C++ 6.0 Suporte = 1% PrefixSpan : 6,8 seg GSP : 772,82 seg SPADE: 20 seg Suporte entre 0.5 e 0.75% : PrefixSpan é 2 a 3 vezes mais perfomante que GSP e Spade.

Performance DB- C10T8S8I8 10k Clients – 8 items per itemset – 8 itemsets per client (avg). Average pattern: 4 itemsets, 8 items per itemset

Aplicação: Mineração de padrões de navegação na Web (Web Mining) O que faz ? Extrai padrões que representam comportamento de navegação na web. Para que ? Melhorar a arquitetura de um site Distribuir material publicitário no site de forma optimal

Web Mining Dados: u1 p1 t1 u2 p2 t2 u3 p3 t3 < p1, p2, p3, ... > Arquivo de logs de navegação Log = sequência de páginas visitadas u1 p1 t1 u2 p2 t2 u3 p3 t3 IdUser (IP) Tempo Página < p1, p2, p3, ... >

Exemplo – um arquivo de logs

Mineração de Sequências de Sessões Dados: Web click-streams (sequências de clicks) Para cada usuário é associada uma sessão Uma sessão = sequência de páginas visitadas (tempo inicial – tempo final) Dados: conjunto de sessões Sessões  sequência de páginas Páginas  items

Sequências de Páginas Web Visitadas = Uma sessão 1 12 11 B O 2 14 6 13 15 5 C E U V 3 4 7 D G 8 10 9 H W < A B C D C B E G H G W A O U O V >

Transformação de uma Sessão Conjunto de Sequências Maximais < A B C D > < A B E G H > < A B E G W > < A O U > < A O V > Arquivo de Logs Sequências Maximais

Intelligent Miner – Janela Principal

Mineração

Resultados da Mineração

Referências Artigos: J. Han, J. Pei, B. Mortazavi-Asl, H. Pinto, U. Dayal: Mining Sequential Patterns by Pattern-Grouwth: The Prefix-Span Approach. IEEE Transactions on Knowledge and Data Engineering, Vol. 16, n. 11, 2004. M.S. Chen,  J. S. Park, P.S. Yu : Efficient Data Mining for Path Traversal Patterns. IEEE Transactions on Knowledge Discovery and Data Engineering 10(2), 209-221, Mars 1998. /