II. M o d e l o s d e C o n h e c i m e n t o

Slides:



Advertisements
Apresentações semelhantes
Mineração de Dados Algoritmo APRIORI
Advertisements

Agenda Introdução Justificativa Objetivo Detecção de Spam
INTELIGÊNGIA COMPUTACIONAL
Aplicações Estatísticas na Área de Inteligência de Mercado
Mineração de Dados: caso da editora E-papers
O Modelo E-R Definição: Características
Ronaldo Gilberto de Oliveira
Felipe Carvalho – UFES 2009/2
Modelos de Mineração de Dados
Uma das tarefas descritivas da
1 Mineração de Dados - Trabalho Final junho/julho de 2008 Selecionar um arquivo de dados entre os sugeridos no repósitório UCI (
Método de Clusterização baseado em Densidade Algoritmo DBSCAN
Otimização de Consultas em SQL Parte I - Planos de Execução e Equivalências de Expressões da Álgebra Relacional AULA 19 Profa. Sandra de Amo Programa.
Mineração de Padrões Arborescentes
Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo.
Correção – Completude – Performance – Escalabilidade
Mineração de Dados Temporais Introdução
Mestrado em Ciência da Computação 2008
Teste em Esquemas de Dados Maria Cláudia Figueiredo Pereira Emer Universidade Federal do Paraná Departamento de Informática Seminário.
Universidade Federal do Paraná
Classificação de Requisitos
Mineração de Dados ou Descoberta de conhecimento em BDs
Mineração de Dados Introdução.
Avaliação de Desempenho Planejamento de Experimentos 1
Inteligência Artificial
Artigo: ‘Mining Frequent Patterns without Candidate Generation’
A FAST APRIORI implementation
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets Jian Pei, Jiawei Han e Runying Mao Apresentação preparada por Alexandre Lorenzatti.
CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets
Mineração de Padrões Sequenciais
Mining Frequent Patterns without Candidate Generation
Modelagem de Sistemas de Informação
S TÉFANI P IRES Mineração de Dados – Trimestre Prof. Marcus Sampaio 02/12/2008 Mineração de Dados.
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
AGRADECIMENTOS: MOTIVAÇÃO: OPC é um padrão industrial aberto para transmissão de dados em tempo real, esse padrão está sendo adotado pela maioria dos fabricantes.
34 © 2004 by Pearson Education Liquidez Liquidez é um conceito econômico que considera a facilidade com que um ativo pode ser convertido no meio de troca.
Jackson D. N. Mourão Pietrângelo V. Ferronato
Aprendizado de Máquina
3. Árvore de Decisão.
Cadastro de produtos por referência
Data Mining como ferramenta de Gestão
SQL Server 2012 Introdução a Modelagem de Dados
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Inteligência Artificial
Orientações sobre usabilidade
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
6/7/2014 Mestrado em Ciencia da Computacao Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4.
Sistema Recomendador para Comércio Eletrônico
Data Mining Técnicas não supervisionadas
Aprendizado de Máquina - Introdução
Algoritmos Crescimento de Funções
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
Marcus Sampaio DSC/UFCG Mineração de Dados Marcus Sampaio Pós-Graduação em Informática da UFCG
2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
A Planejamento de Tecnologia da Informação nas Empresas – 3ª Fase continuação Diagrama de Entidade - Relacionamento Representa o relacionamento de todas.
Orientador: Prof. Msc. Silvio César Cazella Um protótipo de aplicação para recomendação de produtos baseado no interesse e comportamento de consumo do.
(OU) Hardware da Rede Implementacao da rede
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Mineração de Dados: Introdução
Medidas de Interesse Mineração de Dados Aluno: Thiago José Marques Moura.
Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.
Universidade Federal do Paraná
Modelagem Conceitual descreve a informação que o sistema vai gerenciar.
Modelagem Conceitual Descreve a informação que o sistema vai gerenciar.
Mineração de Dados Felipe Carvalho – UFES 2009/2.
Data Warehouse Introdução ao Data Warehouse Introdução ao Data Warehouse Sistemas de Apoio à Decisão Sistemas de Apoio à Decisão Conceituação de Data Warehouse.
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Conceitos e Técnicas de Mineração de Dados (Data Mining) André O. Victor
Transcrição da apresentação:

II. M o d e l o s d e C o n h e c i m e n t o

II.1 Regras de Associação

O Modelo Dados: Um banco de dados de transações de compra Cada transação é um conjunto de ítens comprados Encontrar todas as regras X => Y que associam um conjunto de ítens X com outro conjunto de ítens Y Exemplo: 98% das pessoas que compram fraldas e comidas infantis também compram cerveja. Qualquer número de ítens no consequente Y / antecedente X de uma regra Regras com restrições (i.e., encontrar somente regras envolvendo produtos importados caros)

Aplicações Perfis de clientes (“Market basket analysis”) “Merchandizing” Detecção de fraudes em seguros de saúde Organização de produtos em vitrines de lojas

Confiança e Suporte Uma regra deve ter uma confiabilidade mínina (confidence), especificada pelo usuário 1 & 2 => 3 tem 90% de confiabilidade se quando um cliente comprou 1 e 2, em 90% dos casos, ele também comprou 3 Problema: poucas regras – sem validade estatística Solução: o conceito de suporte Uma regra deve ter um suporte (support) mínimo especificado 1 & 2 => 3 1, 2 e 3 devem aparecer em pelo menos uma quantidade mínima

Exemplo Exemplo 1 Para suporte mínimo = 50%, e confiabilidade mínima = 50%, temos as seguintes regras 1 => 3 com 50% de suporte e 66% de confiabilidade 3 => 1 com 50% de suporte e 100% de confiabilidade

Exemplo (2) Exemplo 2 Para suporte mínimo = 50%, e confiabilidade mínima = 90%, temos as seguintes regras 1 => 3 com 50% de suporte e 66% de confiabilidade – excluída 3 => 1 com 50% de suporte e 100% de confiabilidade Conclusão: regras de associação não são comutativas

O Algortimo Apriori de Regras de Associação Há dois motivos fortes para mostrar como funciona um algoritmo de regras de associação Os usuários do algoritmo ganham confiança Algoritmos de mineração de dados geralmente são muito simples, não requerendo técnicas de inteligência artificial, como linguagens indutivas do tipo Prolog Resultados inteligentes Algoritmos tradicionais, e mais importante, com bom desempenho Veremos o seminal algoritmo Apriori

Apriori (2) Algoritmo Apriori Etapa 1: Encontrar todos os conjuntos de ítens com suporte mínimo — conjuntos de ítens freqüentes Fase mais pesada, em termos de custos Muitos trabalhos de pesquisa em otimização Etapa 2: Uso dos conjuntos de ítens freqüentes para gerar as regras Fase leve, em termos de custos

Apriori (3) Suporte mínimo = 50% Confiabilidade mínima = 50% Para a regra 1 => 3: Suporte = Suporte({1, 3}) = 50% Confiabilidade = Suporte({1,3})/Suporte({1}) = 66%

Apriori - Etapa 1 Fk : Conjuntos de ítens freqüentes de tamanho k Ck : Conjuntos de ítens candidatos de tamanho k F1 = {conjuntos de ítens de tamanho 1} Para ( k=1; Fk != ; k++) faça { Ck+1 = Novos candidatos gerados de Fk Para cada transação t no banco de dados faça Incremente o contador de todos os candidatos em Ck+1 que estão contidos em t Fk+1 = Candidatos em Ck+1 com suporte mínimo } Saída: k Fk

Apriori - Etapa 2 Entrada: k Fk Para cada Fk Para cada X, Y  Fk Se (Suporte(Fk) / Suporte(X))  Confiança então seleciona a regra X  Y

Otimização Cada subconjunto do um conjunto de ítens freqüente é também um conjunto de ítens freqüente Um conjunto de ítens candidato – Fk – em Ck+1 deve ser removido (“pruned”) se qualquer um dos seus subconjuntos não estiver contido em Fk

Exemplo Banco de Dados BD C1 F1 Varre BD Suporte > 50% C2 F2

Regras de Associação Generalizadas Hierarquias de ítens Associações através de hierarquias A regra vestuário => calçados pode ser válida mesmo que vestuário => botas não seja válida vestuário outwear camisas jaquetas calças calçados sapatos botas

Regras de Associação Quantitativas Atributos numéricos (i.e. idade, rendimentos) Atributos nominais ou categóricos (i.e. temperatura alta) [Idade: 30..39] e [Casado: Sim] => [NumCarros:2] suporte mínimo = 40% confiabilidade mínima = 50%

Regras de Associação com Restrições Restrições são especificadas para focar somente em partes do BD de interesse Exemplo: encontrar regras de associação em que os preços dos ítens são no máximo 200 reais

Regras de Associação Temporais Pode descrever o rico caráter temporal dos dados Exemplo {fralda}  {cerveja} (suporte = 5%, confiabilidade = 87%) O suporte desta regra pode saltar para 25% aos sábados de manhã

Padrões de Seqüência Dadas Uma seqüência de transações de clientes Cada transação é um conjunto de ítens Encontrar os padrões das seqüências de transações desses clientes Exemplo: 10% dos clientes que compraram um PC fizeram um “upgrade” da memória do PC em uma transação subsequente 10% é o suporte dos padrões de seqüência