Tópicos Especiais Mineração de Dados

Slides:



Advertisements
Apresentações semelhantes
Administração de Sistemas de Informação
Advertisements

Tópicos Avançados em Banco de Dados
Felipe Carvalho – UFES 2009/2
Modelos de Mineração de Dados
Mineração de Padrões Arborescentes
Generalização da Técnica Levelwise para Mineração de Padrões Sandra de Amo.
Correção – Completude – Performance – Escalabilidade
2/18/2014Mestrado em Ciencia da Computacao Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade.
Mestrado em Ciência da Computação 2008
Using Concept Hierarchies in Knowledge Discovery
DATA MINING Inteligência Artificial
Paulo J Azevedo Departamento de Informática
6/7/2014 Mestrado em Ciencia da Computacao Otimização da Técnica Apriori Sandra de Amo Data Mining AULA 4.
Sistema Recomendador para Comércio Eletrônico
Marcus Vinicius Silva Soares Orientador: Luiz Merschmann Outubro / 2010.
Mineração de Dados e Aprendizado de Máquina Marcilio Souto DIMAp/UFRN.
1 Gerenciamento da Informação O que é gerenciamento? O que é gerenciamento? Como uma idéia geral, gerenciamento, gestão ou administração é a atividade.
INE5644 – Data Mining Profa Vania Bogorny
24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.
Mineração de Dados: Introdução
O PROCESSO DE KDD Elaborado por: Jader Gustavo de Campos Santos Rhafael Freitas da Costa.
Mineração de Dados Profa. Sandra de Amo
DATA MINING: Conceitos e Principais Técnicas Seminário da disciplina IN940 - Banco de Dados Estudante: João Sedraz Professores: Ana Carolina | Fernando.
GOVERNO DO ESTADO DE MATO GROSSO SECRETARIA DE ESTADO DE CIÊNCIA E TECNOLOGIA UNIVERSIDADE DO ESTADO DE MATO GROSSO CAMPUS UNIVERSITÁRIO DE BARRA DO BUGRES.
Prêmios Santander  Lançados em 2005, os Prêmios estão em sua 4ª Edição.  Iniciativa do Santander Universidades. Gestão e desenvolvimento do Universia.
REGRAS DE ASSOCIAÇÃO NA DISSEMINAÇÃO DA INFORMAÇÃO DA BIBLIOTECA UNIVERSITÁRIA DA FURB: ENFOQUE NAS NOVAS AQUISIÇÕES DO ACERVO UNIVERSIDADE REGIONAL DE.
Tecnologias para Internet Thyago Maia Tavares de Farias Aula 19.
Escola Superior de Agricultura “Luiz de Queiroz” Universidade de São Paulo LCE5801 – Regressão e Covariância Taciana Villela Savian Sala 304, pav. Engenharia,
SISTEMA TUTOR INTELIGENTE PARA ENSINO SQL Acadêmico: Sandro Oscar Bugmann Orientador: Alexander Roberto Valdameri.
Gestão da Tecnologia da Informação Fundamentos de Sistemas de Banco de Dados Faculdade de Tecnologia Senac Jaraguá do Sul.
Texto dissertativo-argumentativo O desenvolvimento
Processo de Fábrica de Software
CONTEÚDO PROGRAMÁTICO O que são Finanças?
DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO
Tecnologias e Sistemas de Informação
Tecnologias e Sistemas de Informação
Montes Claros, 12 a 15 de Outubro 2016
Seleção de Atributos.
FRANCISCO JUSCELINO DA SILVA MARTINS
Gerência de Projetos 4º Semestre Aula 12 – Parte 2 Prof
Associação: algoritmos (parte 2) prof. Luis Otavio Alvares INE/UFSC
Sala 1004 – Prédio da Expansão 9h às 15h 28/09/2017
Figura 1 Etapa 1 Etapa 2 Etapa 3 Etapa 4 Etapa 5 Etapa 6 Etapa 7
Roger Nkoa, Micheal D. K. Owen, e Clarence J. Swanto
Algoritmos e Estruturas de Dados I
ENGENHARIA DE PRODUÇÃO
APLICAÇÃO DO ALGORITMO K-MEANS EM BASES DE DADOS DE MICROARRANJOS
O USO DA REALIDADE AUMENTADA NO ENSINO DA ASTRONOMIA
Estatística Descritiva
Análise e Seleção de uma Solução de e-procurement para a Empresa
Universidade Federal do Paraná
EEEM Profª Salomé Carvalho
Aula 08 – CMMI® versus PMBOK
Joinville - SC, mês de ano
Logomarca da sua Instituição TITULO EM ARIAL E MAIÚSCULO FIGURA
Resultado e Discussões Considerações Finais Referências
TCC Aula 2 Caroline Petian.
Integração de Informações, Gerência de Armazenamento e Otimizações em Aplicações Não Convencionais Projeto de Pesquisa DIA/UNIRIO Fernanda Baião
Meio Ambiente & Sociedade - Prof. Dr. Evandro Sathler
Logomarca da sua Instituição TITULO EM ARIAL E MAIÚSCULO
Trabalho de Conclusão de Curso I
INE5644 – Data Mining Profa Vania Bogorny
Descoberta de Conhecimento em Bancos de Dados
Profa. Andréia Adami Escola Superior de Agricultura “Luiz de Queiroz” Universidade de São Paulo LCE0211 – Estatística Geral Profa.
Logomarca da sua Instituição
Geometria Computacional
Titulo do trabalho AUTORES do autor principal
Metodologia da Pesquisa em Ensino de Ciências I
Leonardo M G Gallardo Trilha: DevTest
Testes de Significância
Transcrição da apresentação:

Tópicos Especiais Mineração de Dados Profa. Sandra de Amo Mestrado em Ciência da Computação Faculdade de Computação Universidade Federal de Uberlândia

Plano – Aula 1 Apresentação Geral do Curso Mineração de Dados: uma visão geral Mineração de Regras de Associação 21/09/2018 JAI - SBC 2004

Apresentação Geral do Curso Bibliografia Material de Suporte Conteúdo Avaliação Projeto Temas de Seminários 21/09/2018 JAI - SBC 2004

Bibliografia e Material de Suporte http://www.deamo.prof.ufu.br/CursoDM2006.html Notas de aula Slides Minicurso JAI-2004 (Congresso da Sociedade Brasileira de Computação – Salvador 2004). Artigos Outras informações 21/09/2018 JAI - SBC 2004

Bibliografia e Material de Suporte Introduction to Data Mining – P-N. Tan, M. Steinbach, V.Kumar – Addison Wesley 2005. Data Mining: Concepts and Tecniques - J.Han, M. Kamber - Morgan Kaufmann, 2001. Principles of Data Mining - D. Hand, H. Mannila, P. Smith, MIT Press, 2001 Data Mining: Practical Machine Learning – Tools and Techniques with Java Implementations.- I. H. Witten, E. Frank - Morgan Kaufmann, 2000. 21/09/2018 JAI - SBC 2004

Conteúdo do Curso O processo de Data Mining Regras de Associação Sequências Classificação Agrupamento Outliers Mineração de Estruturas Complexas: Arvores e Grafos Web Mining Descoberta de Padrões em Biosequências 21/09/2018 JAI - SBC 2004

Projeto Implementação do Algoritmo de Mineração de Sequências Prefix-Span Interface de Mineração Testes em Dados Sintéticos Testes em Dados Reais: UCI Repository Comparação de Performance: Prefix-Span versus GSP 21/09/2018 JAI - SBC 2004

Critério de Avaliação Prova 1 : 25 pontos Prova 2 : 25 pontos Projeto : 30 pontos Seminários : 20 pontos 21/09/2018 JAI - SBC 2004

Temas dos Seminários Mineração de Preferências dos Usuarios Privacidade e Segurança Paralelismo e Distribuição Mineração de Dados Multimidia e Textos Mapeamento de Gens utilizando Mineração de Arvores Algoritmos de Pré-Processamento dos Dados Mineração Incremental 21/09/2018 JAI - SBC 2004

Visão Geral de « Mineração de Dados » Por que ? Como surgiu ? O que é « Mineração de Dados » Descoberta de Conhecimento: etapas do processo Tipos de Tarefas de Mineração Como avaliar padrões ? Sistemas de Mineração de Dados 21/09/2018 JAI - SBC 2004

Mineração de Dados – Por que ? Grandes volumes de dados disponiveis Muitos dados mas pouca informação Decisões são tomadas utilizando intuição. Necessidade de transformar dados em informação util Ferramentas de Mineração podem descobrir padrões interessantes « escondidos » nos dados. 21/09/2018 JAI - SBC 2004

Consulta versus Mineração O que é Mineração de Dados Que produtos são comprados por clientes Classe A ? Cliente Produto Classe Social Tempo 1 Vinho A T1 2 Açúcar B T2 Queijo 3 Pão C T3 Leite T4 4 T5 21/09/2018 JAI - SBC 2004

Consulta e Resultado Select Clientes.Prod From Clientes Where Clientes. Faixa = ‘A’ Resposta : Vinho, Queijo 21/09/2018 JAI - SBC 2004

Consulta versus Mineração Existe ligação entre a classe social e produtos comprados numa mesma transação ? Cliente Produto Classe Social Tempo 1 Vinho A T1 2 Açúcar B T2 Queijo 3 Pão C T3 Leite T4 4 T5 21/09/2018 JAI - SBC 2004

Resultado da Mineração Padrões Classe A -> vinho, queijo Classe C -> pão, leite … 21/09/2018 JAI - SBC 2004

O que é Mineração ? Mineração de Dados Descoberta de Conhecimento (KDD) KDD = Knowledge Discovery in Databases 21/09/2018 JAI - SBC 2004

Etapas do Processo de KDD Limpeza dos Dados Integração dos Dados Seleção Transformação Mineração Avaliação ou Pós-Processamento Visualização dos Resultados 21/09/2018 JAI - SBC 2004

Tarefas de Mineração Tarefa ato de descobrir um certo tipo de padrão Regras de Associação Análise de Sequências Classificação Agrupamento Outliers 21/09/2018 JAI - SBC 2004

Como avaliar padrões ? O que significa um padrão ser interessante ? Facil de ser entendido Inesperado Potencialmente util Confirma uma hipotese feita pelo usuario Tipos de medidas Subjetivas : esperadas, inesperadas Acontece com um certo grau de segurança Objetivas : suporte, confiança 21/09/2018 JAI - SBC 2004

Sistemas de Mineração Intelligent Miner (IBM) DBMiner Enterprise Miner Clementine MineSet Genamics Expressions 21/09/2018 JAI - SBC 2004

Critérios de Avaliação de Sistemas Tipo de dados em que se aplica a mineração Tipo de conhecimento minerado Tipo de técnicas de mineração utilizadas Tipo de aplicação a que se destina 21/09/2018 JAI - SBC 2004

Regras de Associação O que é ? Formalização do Problema Algoritmo Apriori para Mineração de Itemsets Mineração de Regras de Associação Exemplos Exercicio 21/09/2018 JAI - SBC 2004

Regras de Associação Itens = {Pão, Leite, Açúcar, ... } Pão, Leite Manteiga Vinho Queijo ITEM, ITEM, ITEM ITEM 21/09/2018 JAI - SBC 2004

Medidas de Interesse Suporte de A, B , C D Confiança de A, B , C D número de clientes que compraram A,B,C,D Total de clientes número de clientes que compraram A,B,C,D número de clientes que compraram A,B,C 21/09/2018 JAI - SBC 2004

Preparação dos Dados ID Compras 1 2 3 4 Pão, , ,Açucar Manteiga, Açúcar Leite Manteiga Leite Manteiga Leite Suporte = 50% Leite, Manteiga Confiança = 66,6% 21/09/2018 JAI - SBC 2004

Tarefa de Mineração Dados : BD de transações, N, M Retorna : regras de associação r Sup(r) ≥ N Conf(r) ≥ M 21/09/2018 JAI - SBC 2004

Algoritmo: duas etapas Encontrar todos os I frequentes suporte(I) ≥ N Itemset = conjunto de itens Conf(A, B C) = suporte(A,B,C) ≥ M suporte(A,B) Itemsets = 21/09/2018 JAI - SBC 2004

Propriedade Importante Algoritmo Apriori Propriedade Importante 1 2 1 2 4 1 2 4 5 5 Se um itemset é frequente Todo subitemset é frequente !! 21/09/2018 JAI - SBC 2004

Apriori – Fase da Geração 1 3 5 1 3 5 2 3 5 2 3 5 2 4 6 3 5 6 F3 1 3 4 1 3 4 2 3 6 2 3 6 3 4 6 1 4 5 2 3 4 2 3 4 2 5 6 C4 1 3 4 5 1 3 4 5 2 3 4 5 2 3 4 5 2 3 5 6 2 3 5 6 2 3 4 6 2 3 4 6 21/09/2018 JAI - SBC 2004

Apriori – Fase da Poda F3 C4 C4 1 3 5 2 3 5 2 3 5 2 4 6 2 4 6 3 5 6 3 21/09/2018 JAI - SBC 2004

Apriori – Fase de Validação Suporte Mínimo: 50% Banco de Dados 1 3 5 7 8 1 7 8 2 3 4 5 7 8 1 9 Candidatos Contagem Suporte 2 3 5 6 2 3 5 6 2 3 4 5 6 2 3 4 6 2 3 4 6 2 3 4 6 2 3 4 6 F4 = 2 3 4 6 21/09/2018 JAI - SBC 2004

Algoritmo Apriori Entrada : BD de transações, N Saida : F1, F2, F3, … C1 = Itemsets de tamanho 1 F1 = Itemsets frequentes de C1 k : = 1 While Fk não for vazio Ck+1 := Junta(Fk, Fk) Ck+1 := Poda(Ck, Fk) Fk+1 : = Valida(BD,Ck+1, N) k : = k+1 21/09/2018 JAI - SBC 2004

Um Exemplo L1 = {1}, {2}, {3},{5} Id Compras 1 1,3,5 2 1,2,3,5,7 3 1,2,4,9 4 1,2,3,5,9 5 1,3,4,5,6,8 6 2,7,8 {1,3} C2 = {1,2} {1,5} {2,3} {3,5} {2,5} L2 = {1,2} {1,3} {1,5} {3,5} C3 = {1,2,3} {1,2,5} {1,3,5} L3 = {1,3,5} Suporte minimo = 50% 21/09/2018 JAI - SBC 2004

Mineração de Regras de Associação Dado um limite minimo de confiança M A regra X  Y é minerada se : Suporte(X,Y) / Suporte(X) >= M 21/09/2018 JAI - SBC 2004

Exercicio 1 {1,3,5,7,8} {3,4,5,7} {2,3,5,6} {2,4,5,8,9} {2,3,5,11} {1,2,3,7,9} C1 = {1}, {2}, {3}, {4} ,{5}, {6 },{7}, {8}, {9},{11} F1 = {2}, {3}, {5}, {7} C2 = {2 3}, {2 5}, {2 7}, {3 5}, {3 7}, {5 7} F2 = {2,3}, {2 5}, {3 5}, {3 7} C3 = {2,3,5}, {3,5,7} Apos a poda : C3 = {2,3,5} Suporte = 50% F3 = vazio 21/09/2018 JAI - SBC 2004

Exercicio 2 Dado :confiança minima = 73% {2}  {3} {2}  {5} {3}  {5} {5}  {3} {7}  {3} {2} {3} {5} {7} 75% 0% 70% 93,2% 100% 21/09/2018 JAI - SBC 2004

Fim da Aula 1 Perguntas ? 21/09/2018 JAI - SBC 2004