Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo.

Slides:



Advertisements
Apresentações semelhantes
GEOMETRIA DESCRITIVA A
Advertisements

GEOMETRIA DESCRITIVA A
Árvores 2010/1 Teoria dos Grafos (INF 5037/INF2781)
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Teste de Software 11: Teste baseado em falhas
Celso C. Ribeiro Caroline T. Rocha
Lei de Little.
AULA 5 PGC Sistemas de Banco de Dados Profa. Sandra de Amo
Introdução à Programação
AULA 8 Profa. Sandra de Amo GBC053 – BCC
Sincronização em Sistemas Distribuídos
APSOO Aula 05.
UFES CC/EC/Mestrado Teoria dos Grafos Árvores. UFES CC/EC/Mestrado Teoria dos Grafos Árvores Grafo Acíclico: não possui ciclos.
© Marcelo Bezerra de AlcântaraBanco de Dados II – Controle de Concorrência - 1 Disciplina Banco de Dados II Introdução ao Controle de Concorrência Msc,
Especificações de Filtros
TEORIA DOS AUTÓMATOS FINITOS E DAS SUAS LINGUAGENS
Uma das tarefas descritivas da
Lógica de Predicados Sintaxe. O que não é possível expressar em Lógica Prop. Todo tricolor é um campeão. Roberto é tricolor. Logo Roberto é um campeão.
Sincronização em Sistemas Distribuídos
Arquitetura de Sistemas Distribuídos - Módulo 3: Sincronização em Sistemas Distribuídos 1 Sincronização em Sistemas Distribuídos Módulo 4 [C10,C13,T3]
Cálculo de Custos de Operações I/O – Arquivos Ordenados
Método Hierárquico Aglomerativo de Clusterização Algoritmo CURE
Bulk Loading – Algoritmo AULA 12 - COMPLEMENTO Profa. Sandra de Amo GBC053 – BCC Sandra de Amo.
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO
Mineração de Padrões Arborescentes
Cálculo Relacional Datalog não-recursivo
Complexidade de Linguagens Influência do Modelo de Computação
Algoritmos de Junção – Sort-Merge Join Hash Join
Algoritmo IPM2 Interaction Pattern Mining AULA 21 DATA MINING.
Teorema da Recursão Teoria da Computação
Mineração de Traços de Execução
Correção – Completude – Performance – Escalabilidade
Gerenciamento de Arquivos, Páginas e Registros
Mineração de Preferências (a partir de amostras superiores e inferiores) J.Pei et al. KDD 2008 AULA 18 Data Mining Profa. Sandra de Amo.
Mineração de Dados Temporais Introdução
Algoritmos para Projeção e Operações de Conjuntos AULA 22 Profa. Sandra de Amo GBC053 – BCC
Mineração dePreferências Contextuais A. Soulet et al AULA 19 Data Mining Profa. Sandra de Amo.
Mestrado em Ciência da Computação 2008
Profa. Aline Vasconcelos
A FAST APRIORI implementation
CLOSET: An Efficiet Algorithm for Mining Frequent Closed Itemsets
Análise de Desempenho Analíticos Simulação Implementação real
Árvore Geradora Mínima
II. M o d e l o s d e C o n h e c i m e n t o
Complexidade de Algoritmos
CAPÍTULO 05 Listas.
Colégio da Imaculada Curso Técnico em Informática Álgebra Relacional
Exercícios PAA- Grafos
1 / 23 Controle de ações É o gerenciamento ativo, diário, dos riscos Ocorre ao mesmo tempo do gerenciamento do projeto Inclui a implementação do plano.
6/7/2014 Mestrado em Ciencia da Computacao Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4.
Arquivos Estruturados por Ordenação– Custos I/O AULA 5 Profa. Sandra de Amo GBC053 – BCC.
ENGENHARIA DE AUTOMAÇÃO INDUSTRIAL
Algoritmos 1º Semestre Materia: Informática Profº: Cristiano.
Avaliação de Clusteres Parte II
Algoritmos de Junção – Sort-Merge Join Otimizado Hash Join
Lógica de Predicados Sintaxe.
Abordagens para problemas NP-completos
Conceitos básicos em grafos
PADRÃO COMMAND João Paulo Paschoal Arnaldo Correia Eric Carvalho.
Lógica para Computação Prof. Celso Antônio Alves Kaestner, Dr. Eng. celsokaestner (at) utfpr (dot) edu (dot) br.
1 Sincronização em Sistemas Distribuídos Alcides Calsavara.
Como analisar um algoritmo
Resolução de Problemas de Busca
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
Teste de Software 15: Geração randômica de teste Marcelo d’Amorim
Algoritmos FPT para o Problema da k-Cobertura por Vértices
Descoberta em múltiplos níveis conceituais
INTRODUÇÃO THOBER CORADI DETOFENO, MSC. Aula 01 JOINVILLE 2015 Universidade do Estado de Santa Catarina – CCT/UDESC.
Abordagens para Problemas Intratáveis Katia S. Guimarães
Transcrição da apresentação:

Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo

Definição dos Conceitos relacionados à tarefa de mineração Como são os padrões ? –Itemsets, Sequências, Árvores, Grafos,... Como são os elementos do Banco de Dados onde se vai descobrir padrões ? –Estrutura compatível com a linguagem de padrões Noções importantes relacionando padrões e elementos do banco de dados. –Quando um elemento do banco de dados suporta um padrão ? –Suporte(P) = porcentagem de elementos do banco de dados que suporta P –Subpadrão: quando P é subpadrão de P ? –Relação de Ordem Parcial no conjunto dos Padrões P1 < P2 : P2 é mais específico do que P1. -Padrão P2 imediatamente mais específico que P1 -P2 > P1 -Não existe P diferente de P2 e de P1 tal que P2 > P > P1

Formalização do Problema de Mineração de Padrões Dados –Um banco de dados BD –Um limite minimo de suporte N Encontrar todos os padrões P com suporte(P) >= N.

Técnica de Mineração (Levelwise) Iteração k Fase da Geração –Constrói Ck = todos os padrões imediatamente mais específicos do que os padrões Fk Fase da Poda –Remove de Ck padrões que contém um subpadrão imediatamente menos específico e que não esteja em Fk Fase do Cálculo do Suporte –Para cada elemento t do BD varre todos os padrões de Ck Incrementa o contador daqueles que são suportados por t.

Problema da Mineração de Episódios – [Mannila et al 1997] Base de dados = uma única sequência longa de eventos (série temporal simbólica) disparos de um alarme –sequência de disparos de um alarme em um sistema de telecomunicações. de ações de um usuário –sequência de ações de um usuário sobre uma interface. de crimes –sequência de crimes ocorridos em uma determinada região. de doenças –sequência de doenças ocorridas em uma determinada região. Padrão = Episódio –Um conjunto parcialmente ordenado de eventos.

Exemplo A B C DADO DE INPUT : uma única sequência longa de eventos Padrão = episódio EBECEEABDCEAEAFDBBACAC

Conceitos de Base E = conjunto de tipos de eventos Ex: {alarme A, alarme B, alarme C} Evento = (A,t), onde A E, t = instante Sequência de eventos = uma tripla (s, Ti, Tf) onde : –s = lista ordenada de eventos = [(A1, t1), (A2, t2),..., (A, tn) ], Ti t1 < t2 <... < tn < Tf –Ti = tempo inicial, Tf = tempo final Ex: ( [ (A,1), (B,3), (C,5), (A,7) ], 1, 8 ) Episódio: tripla (V,, g), onde –V = conjunto de vértices – = relação de ordem parcial em V –g: V E

Exemplo EBECEEABDCEAEAFD A B C BBACAC DADO DE INPUT : uma única sequência longa de eventos Representação formal = ([(E,30), (D,31), (F, 32), (B,33), (E,35),...., (E,48)], 30, 49) Representação formal = ({1,2,3},, g) 1 3, 2 3 g(1) = A, g(2) = B, g(C) = 3

Como medir o interesse de um episódio ? Janela de uma sequência de eventos (s,Ti,Tf) = sequência de eventos (w,ti,tf) onde : –w = lista de pares (A,t n ) de s onde ti t < tf –ti Ti Largura de uma janela (w,ti,tf) = |tf – ti| Win(s,n) = conjunto de todas as janelas de s com largura n. Número de janelas de Win(s,n) = Tf – Ti – n + 1

Exemplo DADO DE INPUT : uma única sequência longa de eventos EBECEEABDCEAEAFDBBACAC Janela ([(B,33), (E,35), (A,36), (C,37)], 33, 38)

Medida de Interesse = Suporte Episódio E = (V,, g) ocorre numa janela (w,t i,t f ) onde w = [(A 1,t 1 ), (A 2,t 2 ),..., (A n,t n )], se existe uma função injetiva f: V {1,...,n} tal que: –g(x) = A f(x) para todo x V –se x < y então t f(x) < t f(y) Isto é: Os vértices de E são mapeados em eventos de w, de tal modo que a ordem verificada entre os vértices em E corresponde à ordem dos eventos mapeados.

Exemplo EBECEEABDCEAEAFDBBACAC DADO DE INPUT : uma única sequência longa de eventos A B C Episódio ocorre em w1 Episódio ocorre em w2 w1 w2

Medida de Interesse = Suporte Dada uma sequência de eventos s Parâmetros : largura de janela = n, suporte mínimo = α Episódio E Suporte(E,s,n) = Tt de janelas onde E ocorre Total de janelas E é frequente se Suporte(E,s,n) > α

Exemplo EBECEEABDCEAEAFDBBACAC DADO DE INPUT : uma única sequência longa de eventos A B C w1 w2 Total de janelas de tamanho 5 = 49 – – 1 = 23 Suporte(E,s,5) = 3/23 = 0.11 episódio E Largura da janela = 5 Suporte mínimo = 5% Logo episódio E é frequente w3

Formulação do Problema: Mineração de Episódios Entrada: uma longa sequência de eventos S, N > 0, 0 M 1 Saída: todos os episódios com suporte M, com relação a janelas de largura N.