Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.

Slides:



Advertisements
Apresentações semelhantes
Mineração de Dados Algoritmo APRIORI
Advertisements

Introdução a Algoritmos
INTELIGÊNGIA COMPUTACIONAL
Mineração de Dados: caso da editora E-papers
O Modelo E-R Definição: Características
Projeto conceitual Mostra ao cliente exatamente o que o sistema fará
Prof.: Bruno Rafael de Oliveira Rodrigues
Felipe Carvalho – UFES 2009/2
Modelos de Mineração de Dados
Uma das tarefas descritivas da
1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (
Modelos de Preferências em Inteligência Artificial CP-Nets
Mineração de Padrões Arborescentes
Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo.
Correção – Completude – Performance – Escalabilidade
Mineração de Dados Temporais Introdução
Inteligência Artificial
Universidade Federal do Paraná
Classificação de Requisitos
Reconhecimento de Padrões Teoria da Decisão Bayesiana
Artigo: ‘Mining Frequent Patterns without Candidate Generation’
A FAST APRIORI implementation
CLOSET: An Efficiet Algorithm for Mining Frequent Closed Itemsets
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets Jian Pei, Jiawei Han e Runying Mao Apresentação preparada por Alexandre Lorenzatti.
Mining Frequent Patterns without Candidate Generation
Modelagem de Sistemas de Informação
S TÉFANI P IRES Mineração de Dados – Trimestre Prof. Marcus Sampaio 02/12/2008 Mineração de Dados.
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
AGRADECIMENTOS: MOTIVAÇÃO: OPC é um padrão industrial aberto para transmissão de dados em tempo real, esse padrão está sendo adotado pela maioria dos fabricantes.
Linguagens de Programação
Gestão de Estoque na Cadeia de Logística Integrada Trabalho 10
II. M o d e l o s d e C o n h e c i m e n t o
3. Árvore de Decisão.
Data Mining como ferramenta de Gestão
SQL Server 2012 Introdução a Modelagem de Dados
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Inteligência Artificial
6/7/2014 Mestrado em Ciencia da Computacao Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4.
Sistema Recomendador para Comércio Eletrônico
Tecnologia da informação
Inteligência Artificial
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
Marcus Sampaio DSC/UFCG Mineração de Dados Marcus Sampaio Pós-Graduação em Informática da UFCG
Extração de Regras de RNA Wilian Soares Lacerda Fevereiro de 2003.
Experimentação Algorítmica
2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
A Planejamento de Tecnologia da Informação nas Empresas – 3ª Fase continuação Diagrama de Entidade - Relacionamento Representa o relacionamento de todas.
Orientador: Prof. Msc. Silvio César Cazella Um protótipo de aplicação para recomendação de produtos baseado no interesse e comportamento de consumo do.
(OU) Hardware da Rede Implementacao da rede
FACULDADE DE CIÊNCIAS SOCIAIS E TECNOLÓGICAS Tecnologia em Redes de Computadores Algoritmos e linguagens de programação 1 (aula 11) Prof. Alessandro Bernardo.
Ferramentas apresentadas
AULA 20 Profa. Sandra de Amo GBC053 – BCC
Testes Baseados Em Riscos: Uma revisão do Estado-da- Arte Nielson Pontes Outubro, 2010.
Estruturas Organizacionais
Programação Dinâmica.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG A Lógica dos Algoritmos “Covering” A estratégia é selecionar cada classe do conjunto- treinamento, e.
1. I n t r o d u ç ã o Vários slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
Mecanismo de sugestão e processo de caracterização de redes sociais
Introdução a Mineração de Dados
Sumário 1 SQL Embutida 2 Processamento de Consultas
Complexidade de Computação Katia Guimarães. Avaliando a Qualidade de um Algoritmo É preciso ter bem definido –O que é dado de entrada e –O que é esperado.
Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Descoberta em múltiplos níveis conceituais
Elaine Teixeira de Oliveira
Professora: Kelly de Paula Cunha
Mineração de Dados Felipe Carvalho – UFES 2009/2.
INTELIGÊNCIA EMPRESARIAL Aula 6 – Componentes dos Sistemas de Apoio à Decisão.
Felipe do Espírito Santo Análise de sistemas - AS Conceito de Engenharia de Sistemas.
Transcrição da apresentação:

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar todas as regras X => Y que associam um conjunto de ítens X com outro conjunto de ítens Y, com um certo grau de confiabilidade –Exemplo: 98% das pessoas que compram fraldas e comidas infantis também compram cerveja

Marcus Sampaio DSC/UFCG O Modelo de Regras de Associação Regras do tipo Se X então Y –Outra representação: X  Y –… X  Y =  Qualquer número de ítens no conseqüente ( Y ) Qualquer número de ítens no antecedente ( X ) Cláusulas conjuntivas –Antecedente e conseqüente Uma generalização de regras de classificação

Marcus Sampaio DSC/UFCG Aplicações Perfis de compra de clientes (“Market basket analysis”) “Merchandizing” Organização de produtos em vitrines de lojas

Marcus Sampaio DSC/UFCG Métricas de Desempenho Um modelo induzido de Regras de Associação deve ser avaliado Duas métricas de desempenho –Suporte –Confiança

Marcus Sampaio DSC/UFCG Confiança Uma regra deve ter uma confiança (“confidence”) mínina, especificada pelo usuário –1 & 2 => 3  outra representação de regra de associação  tem 90% de confiabilidade se quando um cliente comprou 1 e 2, em 90% dos casos, ele também comprou 3 Só Confiança não é suficiente –Problema: poucas regras – sem validade estatística –Solução: a métrica suporte, junto com confiança

Marcus Sampaio DSC/UFCG Suporte Uma regra deve ter um suporte (“support”) mínimo especificado pelo usuário –1 & 2 => 3 1, 2 e 3 devem aparecer em pelo menos uma quantidade mínima de transações de compra

Marcus Sampaio DSC/UFCG Exemplos Exemplo 1 Para suporte mínimo = 50%, e confiança mínima = 50%, temos as seguintes regras –1 => 3 com 50% de suporte e 66% de confiança –3 => 1 com 50% de suporte e 100% de confiança

Marcus Sampaio DSC/UFCG Regras de Associação não são comutativas! –O usuário especificou 40% de suporte mínimo, e 85% de confiança mínima Somente a regra 3 => 1 0,5 1,0 é válida –Note esta outra representação de regra de associação, com seu suporte e sua confiança –Na WEKA, a representação é ainda um pouco diferente

Marcus Sampaio DSC/UFCG Exemplo 2 Para suporte mínimo = 50%, e confiança mínima = 90%, temos as seguintes regras –3 => 1 com 50% de suporte e 100% de confiança

Marcus Sampaio DSC/UFCG O Algortimo Apriori de Regras de Associação Há dois motivos fortes para mostrar como funciona um algoritmo de regras de associação, ou como funciona qualquer algoritmo de Mineração de Dados –Os usuários do algoritmo ganham confiança –Algoritmos de mineração de dados geralmente são muito simples, não requerendo técnologias de inteligência artificial, como linguagens indutivas do tipo Prolog Resultados inteligentes Algoritmos tradicionais, e mais importante, com bom desempenho

Marcus Sampaio DSC/UFCG Algoritmo Apriori –Etapa 1: Encontrar todos os conjuntos de ítens com suporte  mínimo — conjuntos de ítens freqüentes Fase mais pesada, em termos de custos Muitos trabalhos de pesquisa em otimização –Etapa 2: Uso dos conjuntos de ítens freqüentes para induzir as regras de associação, com suporte e confinaça acima dos mínimos especificados Fase leve, em termos de custos

Marcus Sampaio DSC/UFCG Suporte mínimo = 50% Confiança mínima = 50% Para a regra 1 => 3: Suporte = Suporte({1, 3}) = 50% Confiança = Suporte({1,3}) / Suporte({1}) = 66%

Marcus Sampaio DSC/UFCG Regra geral para o cálculo da confiança, em termos de suporte –X  Y Confiança = Suporte (XY) / Suporte (X) XY  X, Y  X AND Y Confiança e Probabilidade Condicional –Confiança = P(Y|X) –Interpretação Probabilidade de Y acontecer, se X acontecer

Marcus Sampaio DSC/UFCG Apriori - Etapa 1 F k : Conjuntos de ítens freqüentes de tamanho k C k : Conjuntos de ítens candidatos de tamanho k F 1 = {conjuntos de ítens de tamanho 1} Para ( k=1; F k !=  ; k++) faça { C k+1 = Novos candidatos gerados de F k Para cada transação t no banco de dados faça Incremente o contador de todos os candidatos em C k+1 que estão contidos em t F k+1 = Candidatos em C k+1 com suporte mínimo } Saída:  k F k

Marcus Sampaio DSC/UFCG Apriori - Etapa 2 Entrada:  k F k Para cada  F k   1 –Para cada X, Y  F k Se (Suporte(F k ) / Suporte(X))  Confiança Mínima então seleciona a regra X  Y

Marcus Sampaio DSC/UFCG Otimização Cada subconjunto do um conjunto de ítens freqüente é também um conjunto de ítens freqüente Um conjunto candidato de ítens deve ser removido (“pruned”) se qualquer um dos seus subconjuntos não for um F k

Marcus Sampaio DSC/UFCG Uma Instanciação do Apriori Banco de Transações (BD) C1C1 F1F1 C2C2 F2F2 Varre BD Suporte > 50% Etapa 1: Suporte > 50%

Marcus Sampaio DSC/UFCG Etapa 2 –Entrada: {2,5} 2 => 5? –Suporte {2,5} / Suporte {2} = 3 / 3 = 100% 5 => 2? –Suporte {2,5} / Suporte {5} = 3 / 3 = 100% –Regras Induzidas 2 => 5 1,0 1,0 5 => 2 1,0 1,0

Marcus Sampaio DSC/UFCG A Família Apriori O algoritmo Apriori é *seminal* –Inspirou muitos outros algoritmos de regra de associação –Essas variações constituem a família de algoritmos Apriori Algumas variações diferem do Apriori com relação à abordagem –Apriori: consulta aberta –Variações: consultas semi-abertas Algoritmos parametrizados Outras variações exploram o caráter temporal das transações

Marcus Sampaio DSC/UFCG Regras de Associação Generalizadas Hierarquias de ítens Associações através de hierarquias –A regra vestuário => calçados pode ser válida mesmo que vestuário => botas não seja válida vestuário outwear camisas jaquetascalças calçados sapatosbotas

Marcus Sampaio DSC/UFCG Regras de Associação com Restrições Restrições são especificadas para focar somente em partes de interesse –Exemplo: encontrar regras de associação em que os preços dos ítens são no máximo 200 reais

Marcus Sampaio DSC/UFCG Regras de Associação Temporais Descrevem o rico caráter temporal dos dados Exemplo –{fralda}  {cerveja} (suporte = 5%, confiabilidade = 87%) –O suporte desta regra pode saltar para 25% aos sábados de manhã

Marcus Sampaio DSC/UFCG Padrões de Seqüência Dadas –Uma seqüência de transações de clientes –Cada transação é um conjunto de ítens Encontrar os padrões das seqüências de transações desses clientes Exemplo: 10% dos clientes que compraram um PC fizeram um “upgrade” da memória do PC em uma transação subsequente –10% é o suporte dos padrões de seqüência