2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Slides:



Advertisements
Apresentações semelhantes
Um pouco mais de cardinalidade e Relacionamentos
Advertisements

CONCEITOS DE DECISÃO E O ENFOQUE GERENCIAL DA PESQUISA OPERACIONAL
Agenda Introdução Justificativa Objetivo Detecção de Spam
Complexidade de Algoritmos
Administração de Sistemas de Informação
INTELIGÊNGIA COMPUTACIONAL
UNIVERSIDADE ESTADUAL DE MATO GROSSO DO SUL SISTEMAS DE INFORMAÇÃO ENGENHARIA DE SOFTWARE Métricas de Software Prof.ª Adriana dos Santos Caparróz Carvalho.
QUESTIONÁRIOS Prof. Adalberto.
Aprendizado de Máquina
Redes Neurais Artificiais
2. O Processo de Mineração de Dados
Universidade Federal do Paraná
Mineração de Dados ou Descoberta de conhecimento em BDs
Reconhecimento de Padrões Dissimilaridade
Mineração de Dados Introdução.
Jacques Robin, Francisco Carvalho, Flávia Barros
KDD + IA Técnicas de IA em Descoberta de Conhecimento em Bancos de Dados set/2002.
Paulo J Azevedo Departamento de Informática
Engenharia de Software
INF 1771 – Inteligência Artificial
II. M o d e l o s d e C o n h e c i m e n t o
3. Árvore de Decisão.
Aprendizado de Máquina
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
1 Descoberta de Conhecimento em Bases de Dados por Algoritmos Genéticos Prof. Marco Aurélio C. Pacheco.
Análise Estruturada.
Sistema Recomendador para Comércio Eletrônico
Mini testes A apresentar na aula da semana a seguir à data descrito em cada teste. As respostas não devem exceder mais do que duas páginas A4.
Introdução à Qualidade
Capacidades do Data Warehouse
Aprendizado de Máquina - Introdução
J OÃO C ARVALHO Data Warehouses. D EFINIÇÃO Um Data Warehouse é um sistema de computação utilizado para armazenar informações relativas às actividades.
Análise e Projeto de Sistemas
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
Marcus Sampaio DSC/UFCG Mineração de Dados Marcus Sampaio Pós-Graduação em Informática da UFCG
Extração de Regras de RNA Wilian Soares Lacerda Fevereiro de 2003.
DATA MINING Fabiany Lamboia Luciano Machado Pereira Fabiany Lamboia Luciano Machado Pereira.
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Laboratório de Programação
7. Mineração de Texto ("Text Mining")
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
A Systematic Approach for Inducing Reliable Classifiers From Data Mines David Moises Barreto dos Santos Universidade Federal de Campina Grande Programa.
Integração de Ferramentas CASE
Universidade Federal de Lavras Departamento de Ciência da Computação
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG A Lógica dos Algoritmos “Covering” A estratégia é selecionar cada classe do conjunto- treinamento, e.
MSCC - Introdução Baseado no capítulo 1 do livro Performance Evalution of Computer and Communication Systems, de Jean-Yves Le Boudec (EPFL)
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
1. I n t r o d u ç ã o Vários slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
Mineração de Dados: Introdução
Introdução a Mineração de Dados
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG URL: Função: Classificação Técnica: Árvore de Decisão.
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Universidade Federal do Paraná
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Aprendizado da rede O aprendizado, na maioria das vezes, constitui no ajuste do conjunto de pesos de modo que a rede consiga executar uma tarefa específica.
Aplicações em Redes Neurais Artificiais De acordo com Turbam, McLean e Wetherbe (2004), “a computação neural também pode ser combinada com outros sistemas.
Classificação de Textos
Algoritmos e Programação I
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Mineração de Dados (Data Mining)
Questionário (Básico) Autor: Skyup Informática. Atividade - Questionário O módulo permite criar uma série de questões, que deverão ser respondida pelos.
Testes de Unidade. 2 Pauta Testes de Unidade; Testes de Unidade; Desenvolvimento orientado a testes; Desenvolvimento orientado a testes; Testes unitários.
Transcrição da apresentação:

2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

O Que É / Não É Mineração de Dados? Achar um número de telefone em um catálogo Procurar numa máquina de busca informação sobre “Amazônia” O que é? Certos nomes são mais freqüentes em certas regiões do Brasil (Cacciola, Armani, Gutierrez… na Grande São Paulo) - Probabilidade Agrupar documentos por similaridade de contexto (p.e. Amazônia) – Reconhecimento de Padrões (“Pattern Recognition”)

Confluência de várias disciplinas Machine Learning Probability / Pattern Recognition Data Mining Database

Machine Learning O conhecimento é induzido (treinado) de um conjunto de dados de treinamento (ctrein) O histórico de mudanças de classes de software é um exemplo de conjunto de treinamento O conhecimento induzido é validado com o auxílio de um conjunto de teste (ctest)  ctrein  ctest =  Se X  Y foi induzido de um conjunto de treinamento, esta regra deve ser confirmada por um conjunto de teste Uma vez validado, o conhecimento pode ser usado em diferentes aplicações Análise de Impacto de Mudança de Software

Padrão (“Pattern”) Banco de Dados (BD) A regra X  Y é um padrão A qualidade de um padrão é diretamente proporcional a seu suporte (repetição) Banco de Dados (BD) Desnormalizados A repetição facilita o reconhecimento de padrões O histórico de mudanças de classes de software é um BD desnormalizado A conclusão é que os BDs relacionais normalizados não podem ser usados diretamente em MD

Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

Um robot que prescreve lentes de contato Oftalmologista: quais as condições gerais – padrões – pelas quais eu sempre tenho receitado lentes de contato duras? ou gelatinosas? ou não tenho recomendo o uso de lentes? 4

Caracterização do Problema: Classificatório categórico categórico categórico classe Conj. Teste Clasificador Induzido Modelo Conj. Treinamento

Conjunto de Treinamento idade acuidade visual astigmatismo taxa de produção de lágrima tipo de lente jovem míope não reduzida nenhum normal gelatinosa sim dura hipermétrope

jovem hipermétrope sim reduzida nenhum normal dura maduro míope não gelatinosa

maduro hipermétrope não normal gelatinosa sim reduzida nenhum idoso míope dura

idoso hipermétrope não reduzida nenhum normal gelatinosa sim

Conhecimento Induzido se taxa_de_produção_de_lágrima = ‘reduzida’ então tipo_de_lente = ‘nenhum’ Padrão expressado em forma de regra de classificação se ... então classe Regra de Classificação é um dentre outros modelos de conhecimento Um outro: Regra de Associação A regra se verifica em todos os casos em que a taxa de produção de lágrima é reduzida? Via de regra, não há certeza, apenas probabilidade Quantas e quais são as outras regras para não receitar lente de contato (somente do ctrein, podemos extrair mais três regras – verifique)

Quão confiável é uma regra de classificação? se idade = ‘maduro’ e acuidade_visual = ‘hipermétrope’ e astigmatismo = ‘sim’ e taxa_de_produção_de_lágrima = ‘normal’ então tipo_de_lente = ‘nenhum’ Ela se verifica em somente um caso do ctrein Provavelmente, não tem validade estatística Qual a freqüência mínima estatisticamente aceitável? O conhecimento deve ser validado via o conjunto de teste

Sobre os Conjuntos de Treinamento e Teste Note que os conjuntos de treinamento e teste apresentados certamente não têm validade estatística Um exemplo de ‘brincadeira’ Necessidade de um processo rigoroso de MD Último item da disciplina

Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

Tipos de modelo Preditivo Descritivo Faz predição acerca de valores de dados usando resultados conhecidos de outros dados Em geral, a modelagem é baseada em dados históricos, para fazer predição (ou previsão) sobre novos dados Descritivo Identifica padrões ou relacionamentos em dados, históricos ou não Importante para se conhecer os dados

Modelo Preditivo Descritivo Clustering Síntese Classificação Série Temporal Regressão Descoberta de Seqüência Regra de Associação Modelos em verde: o foco da disciplina

Modelos de classificação que serão vistos Regra de Classificação Árvore de Decisão Bayes Simples (“Naive Bayes”) Modelos de Classificação que não serão vistos Rede Neural . . . Modelo de Regra de Associação

Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

Os algoritmos diferem segundo os modelos de conhecimento que eles induzem Regra de Associação Apriori Árvore de Decisão Id3, J48 Naive Bayes NaiveBayeSimple Regra de Classificação Prism 5

Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

Qual o melhor processo de MD para o problema? Dado um problema de mineração, há potencialmente uma grande quantidade de processos de MD que podem resolver o problema Um processo de MD é, simplificadamente, uma tripla <preparação de dados, execução de um algoritmo de mineração de dados, avaliação dos resultados> Processo de MD será visto no final da disciplina Total possível de processos: No. de técnicas de preparação X no. de algoritmos de MD Qual o melhor processo de MD para o problema? A resposta depende das métricas de desempenho escolhidas

Métricas As tradicionais, como as de espaço e tempo, baseadas em análise de complexidade de algoritmo Para algoritmos de classificação, a acurácia do conhecimento induzido Acurácia de uma regra = No.de acertos treinamento (teste) / No. de casos cobertos de treinamento (teste) Acurácia de um modelo (conjunto de regras) = No.de acertos treinamento (teste) / Tamanho do conjunto de treinamento (teste) Precisão “Recall” Para algoritmos de análise de associação Suporte Confiança

Sumário Contexto Outro Exemplo de Motivação Modelos de Conhecimento Algoritmos de Mineração de Dados Métricas de Mineração de Dados Questões em Aberto

Integração com SGBDs Os algoritmos de MD não lêem diretamente de SGBDs Dados são extraídos de um BD, via comandos SQL, e armazenados em um arquivo "flat", desnormalizado O arquivo "flat"é a entrada para os algoritmos de mineração Note que desnormalização (repetição) favorece a descoberta de padrões BDOR é desnormalizado  implicações? Termos relacionais (<atributo1> <opcomp> <atributo2>) Os termos dos modelos de MD são da forma <atributo> <opcomp> valor Uma enorme simplificação Objetivo: produzir algoritmos de complexidade baixa Porém, limitados

Minas de Dados são Impuras Escala Algoritmos de MD sem escala são de limitada utilidade Minas de Dados são Impuras Dados do mundo real têm muita ‘sujeira’, e muito valor faltando (“null values”). Algoritmos de MD têm que ser capazes de trabalhar com minas impuras Dinâmica dos Dados Muitos algoritmos de MD trabalham com dados estáticos (comportamento invariável, ao longo do tempo). Isto pode não ser um modus operandi realista

Facilidade de Assimilação Embora alguns algoritmos possam trabalhar bem, eles podem induzir modelos muito complexos, de difícil assimilação mesmo por especialistas Conhecimento inútil misturado com conhecimento útil Padrões complexos Padrões não sintetizados