Mineração dePreferências Contextuais A. Soulet et al. 2012 AULA 19 Data Mining Profa. Sandra de Amo.

Slides:



Advertisements
Apresentações semelhantes
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Advertisements

Mineração de Dados Algoritmo APRIORI
UFES CC/EC/Mestrado Teoria dos Grafos Árvores. UFES CC/EC/Mestrado Teoria dos Grafos Árvores Grafo Acíclico: não possui ciclos.
Algoritmos de Busca CONTEÚDO (1) Motivação (2) Busca Linear
Sinais e Sistemas – Capítulo 4
Uma das tarefas descritivas da
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Modelagem Orientada a Objetos Relacionamentos. Conteúdo n Ligação entre objetos n Associação entre classes n Agregação n Multiplicidade e Papel n Atributo.
Modelos de Preferências em Inteligência Artificial CP-Nets
PREDIÇÃO DATA MINING AULA 13 SANDRA DE AMO
Mineração de Padrões Arborescentes
Cálculo Relacional Datalog não-recursivo
Modelos de Preferências em Inteligência Artificial TCP-Nets AULA 6 SISTEMAS DE BANCO DE DADOS.
Modelos de Preferências AULA 15 DATA MINING Sandra de Amo.
Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo.
Fórmulas de Preferências Condicionais [Wilson 2004] AULA 15 Data Mining Sandra de Amo.
Correção – Completude – Performance – Escalabilidade
Mineração de Preferências (a partir de amostras superiores e inferiores) J.Pei et al. KDD 2008 AULA 18 Data Mining Profa. Sandra de Amo.
Mineração de Dados Temporais Introdução
Mestrado em Ciência da Computação 2008
Inteligência Artificial
Universidade Federal do Paraná
Mineração de Dados ou Descoberta de conhecimento em BDs
A FAST APRIORI implementation
CLOSET: An Efficiet Algorithm for Mining Frequent Closed Itemsets
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets Jian Pei, Jiawei Han e Runying Mao Apresentação preparada por Alexandre Lorenzatti.
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets
Mining Frequent Patterns without Candidate Generation
Rejane Sobrino Pinheiro Tania Guillén de Torres
WAR STORY Stripping Triangulations Luciana Oliveira e Silva
Projeto e Análise de Algoritmo Prof. Diane Castonguay
Métodos de Classificação por Seleção: HeapSort
Descoberta de Padrões usando Conhecimento Prévio
Anderson Berg Orientador: Prof. Fernando Buarque
Data Mining como ferramenta de Gestão
Algoritmos em Grafos Conceitos principais Prof. André Renato
T ÓPICOS DE I.A. Métodos de Busca Busca em Espaços de Estado Prof. Mário Dantas.
6/7/2014 Mestrado em Ciencia da Computacao Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4.
Sistema Recomendador para Comércio Eletrônico
Ordenação Externa de Arquivos – Um exemplo
Tecnologia da informação e estado
BI - Conceito É o conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nos mesmos, apóia a tomada de decisões.
Sistemas Especialistas
Controle Distribuído da Concorrência
Exercícios SGBD - CESPE
Controle de concorrência
Banco de dados.
André Luiz da Costa Carvalho
UML Diagrama de classes.
Disciplina Análise de Algoritmos BCC-UFU Profa. Sandra de Amo
Campus de Caraguatatuba Aula 2: Introdução a Tecnologia de BD
Sistemas de Recomendação – Filtragem Colaborativa
LIG - Université Grenoble Mineração de Preferências Contextuais sobre dados de preferência “pairwise” Data Mining AULA 19 – Parte I Sandra de Amo.
Conexidade 1.
Distância Mínima de Edição Profa. Sandra de Amo Bacharelado em Ciência da Computação - UFU.
Como analisar um algoritmo
A Classe NP Teoria da Computação Profa. Sandra de Amo.
Programação Dinâmica.
Problemas NP-completos e Programação Dinâmica
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
Exercícios de Fluxo em Redes
Universidade Federal do Paraná
Descoberta em múltiplos níveis conceituais
Universidade Federal de Pernambuco Anjolina Grisi de Oliveira 2007
Projeto de Banco de Dados
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Jorge Manuel da Rocha Santos Sessão Controlo Tese 2º Semestre 2007/2008.
/ de Julho de UFPE - Universidade Federal de Pernambuco CIn - Centro de Informática Pós-Graduação em Ciência da Computação Tópicos Avançados.
Análise do Sistema Alexandre Mota
Transcrição da apresentação:

Mineração dePreferências Contextuais A. Soulet et al AULA 19 Data Mining Profa. Sandra de Amo

Motivação Action, Tom Hanks, War Action, Stieve Spieberg, War

Motivação Notação: A: Action B: Tom Hanks C: Steve Spielberg D: War E: Leonardo di Caprio ….

Motivação

Objetivo Dado um conjunto de pares de transações (amostragem fornecida pelo usuário) Descobrir regras que permitam decidir as preferências do usuário sobre pares de transações. No exemplo: Uma transação corresponde a uma classe de filmes.

Formalização do Problema Items (tags) Itemset (ou transação)= conjunto de items Uma preferência = (t1,t2), onde t1, t2 são itemsets Um banco de dados de Preferências: conjunto finito de preferências fornecidas pelo usuário através de cliques. Regra de Preferência Contextual : Sintaxe : i+ > i- | X i+, i- são items distintos X = itemset i+ e i- não estão contidos em X Semântica : entre duas transações contendo X, prefiro aquela que contém i+ do que aquela que contém i- X = Contexto da regra

Exemplo t1 = A C D t2 = A B C E r: D > E | A Logo: t1 >r t2 t1 é preferido a t2 de acordo com a regra r

Medidas de utilidade das regras t1, t2: transações r: regra de preferência (t1,t2) satisfaz r se t1 >r t2 (t1,t2) contradiz r se t2 >r t1 Suporte de uma regra r com relação a um conjunto de preferências P Sup(r,P) = porcentagem de bi-tuplas (t1,t2) de P que satisfazem r Dizemos que (t1,t2) satisfaz a regra r se t1 >r t2 Confiança de uma regra r com relação a um conjunto de preferências P. Conf(r,P) = Porcentagem de bi-tuplas (t1,t2) de P que satisfazem r, dentre todas as que satisfazem ou contradizem r

Minimalidade Uma regra i+ > i- | X é dita minimal com relação a um banco de preferências P se não existe Y X tal que: sup(i+ > i- | Y, P) = sup(i+ > i- | X, P) e conf(i+ > i- | Y, P) = conf(i+ > i- | X, P) Propriedades importantes de antimonotonia: se Y X e sup(i+ > i- | Y, P) N então sup(i+ > i- | X, P) N se Y X e i+ > i- | Y não é minimal então i+ > i- | X não é minimal

Problema de Mineração (1) Input: Banco de dados de preferências P N: nível minimo de suporte M: nível minimo de confiança Output: todas as regras de preferência r, minimais, com suporte N e confiança M Método ContPrefMiner: adaptação do algoritmo Apriori para minerar regras de preferência. (poderia ser qualquer algoritmo de mineração de regras de associação)

Algoritmo ContPrefMiner

Problemas a resolver : Como usar o conjunto de regras minerado por ContPrefMiner para prever a preferência do usuário sobre duas transações quaisquer ? Cada regra tem sua opinião a respeito da preferência entre duas transações. Opiniões podem ser contraditórias Ordenação por regras individuais pode não ser transitiva. O conjunto de regras pode ser muito grande.

Como definir uma ordem de preferência ? O que significa duas transações serem comparáveis por um conjunto S de regras de preferências ? t1, t2 são comparáveis por S se t1 >r t2, onde r = a melhor regra de preferência de S. Estamos adotando uma política de autoridade para agregar preferências de S : a melhor regra decide !

Como ordenar regras de preferência Trata-se de uma ordem total !

Exemplo : minsup = 0.2, minconf= 0.6

Como avaliar um ordenador S ? S = conjunto de regras de preferências P = banco de dados de preferências Precisão(S,P) = porcentagem de pares (t,u) em P com t > S u dentre todos os pares em P comparáveis por S Recall(S,P) = porcentagem de pares (t,u) em P com t>s u dentre todos os pares em P

Problema de Mineração (2) Input: Banco de dados de preferências P Conjunto de regras de Preferência S Output: Um subconjunto S de S que maximize a precisão e o recall e que seja tão pequeno quanto se queira. Problema NP-completo : problema do red-blue set cover (que é NP-completo) se reduz a este problema de mineração. Solução proposta: algoritmo ProfMiner enfoque heurístico – solução não é exata

Idéia geral A cada iteração R = { r0 }, r0 = melhor regra de S P = P – {(t,u) que não satisfazem r0} S = conjunto das regras de S que são satisfeitas por pelo menos k pares de P Repete o processo até S seja vazio. Coeficiente k : controla o tamanho do R retornado R retornado = Perfil do usuário

Algoritmo ProfMiner

Exemplo (k = 1)

Resultados Experimentais Foram usados 3 bancos de preferências sobre filmes (imdb.com e MovieLens preparados pelo grupo de BD-UFU e Université de Versailles). P301, P3000, P30000 Atributos: Gênero, Ator, Diretor, Ano Atributos multivalorados: Gênero, Diretor, Ator Ator: consideramos só o principal Gênero, Diretor: valores múltiplos são transformados num único item ContPrefMiner: executado com minsup= 0,001 e minconf = 0,5 Processador Intel 3 GHz, 1 GB de RAM, Windows XP

Redução do conjunto de regras ProfMiner reduz drasticamente o conjunto de regras retornado por ContPrefMiner Tamanho do conjunto de regras diminui quando k aumenta Mesmo para k = 1 há uma redução no número de regras: P301 : de P3000 : de P30000: de

Variação do número de regras em relação ao K

Coeficiente de Redução do Perfil Seja Rk: perfil retornado para k Q = Coeficiente de redução de Rk Q = (|R1| - |Rk|) / |R1|

Gráfico da Precisão com respeito ao Q

Gráfico Recall com respeito ao Q

Gráfico da F-Mesure com respeito ao Q

Algumas regras de preferência extraídas

Trabalhos em Andamento Estudar outras maneiras de construir o perfil do usuário – outras politicas de ordenação das regras retornadas por ContPrefMiner Algoritmo CPrefMiner: baseado em outra metodologia: Extração de uma rede de preferências R R é uma espécie de CP-Net probabilistica R faz o papel do conjunto S de regras retornado por ProfMiner (= perfil do usuário)