Marcus Sampaio DSC/UFCG Vários slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Slides:



Advertisements
Apresentações semelhantes
Intervalos de Confiança
Advertisements

INTELIGÊNGIA COMPUTACIONAL
Mineração de Dados Avaliação de Classificadores
Engenharia de Software
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Redes Neurais Artificiais
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
2. O Processo de Mineração de Dados
Mineração de Dados ou Descoberta de conhecimento em BDs
Estrutura e movimento a partir de imagens
Jacques Robin, Francisco Carvalho, Flávia Barros
1 Projeto Filtragem de Mensagens Eletrônicas Disciplina: Inteligência Artificial Simbólica Professores: Geber Ramalho e Jacques Robin.
Data Mining com a Ferramenta Weka
INF 1771 – Inteligência Artificial
Introdução a Programação
3. Árvore de Decisão.
Controle de parâmetros em algoritmos evolucionários
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Aula Prática Classificação
Aprendizado Baseado em Instâncias – Algoritmo k-NN
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Sistema Recomendador para Comércio Eletrônico
Treinamento do Microsoft® Access® 2010
DISTRIBUIÇÕES AMOSTRAIS
Mini testes A apresentar na aula da semana a seguir à data descrito em cada teste. As respostas não devem exceder mais do que duas páginas A4.
Métodos Quantitativos II
Sistemas Inteligentes
Aprendizado de Máquina - Introdução
Preparação dos Dados Marcilio Souto DIMAp/UFRN. Preparação dos Dados ● Compreensão dos dados ● Limpeza – Metadado – Valores Perdidos – Formato de data.
Aula 6 - Método não-experimental ou de seleção não-aleatória
Análise e Projeto de Sistemas
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Classificação: avaliação de modelos
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
Estatística e Probabilidade
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Mineração de Dados: Classificação e Predição
7. Mineração de Texto ("Text Mining")
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
A Systematic Approach for Inducing Reliable Classifiers From Data Mines David Moises Barreto dos Santos Universidade Federal de Campina Grande Programa.
Probabilidade e Estatística para Avaliação de Desempenho
Classificação/Categorização Christian Diego – cdad Icamaan Viegas – ibvs.
MSCC - Introdução Baseado no capítulo 1 do livro Performance Evalution of Computer and Communication Systems, de Jean-Yves Le Boudec (EPFL)
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Regressão e Previsão Numérica.
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros.
1. I n t r o d u ç ã o Vários slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
Software Weka Waikato 2004, Witten & Frank 2000.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG CEAPE-PB Centro de Apoio aos Pequenos EMPREENDIMENTOS – CEAPE-PB, com sede na Cidade de Campina Grande.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
Classificação de Textos
Metodologia da Pesquisa em Ensino de Ciências I
Tecnologias e Sistemas de Informação
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes
Department of Computer Science, University of Waikato, New Zealand Eibe Frank WEKA: Ferramenta para Aprendizado de Máquina O Explorer Classificação e Regressão.
Detecção de tráfego Skype na Web através de Redes Neurais Artigo Original: Freire, P. E., Ziviani, A., and Salles, R. M. (2008). Detecting skype flows.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
Conselhos para a aplicação de aprendizagem de máquinas
Estimação: Estimativa Pontual Estimativa Intervalar
Mineração de Dados (Data Mining)
ERROS E TRATAMENTO DE DADOS ANALÍTICOS
Camilo Daleles Rennó Estatística: Aplicação ao Sensoriamento Remoto SER ANO 2016 Técnicas.
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
CONCEITOS IMPORTANTES
Transcrição da apresentação:

Marcus Sampaio DSC/UFCG Vários slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)

Marcus Sampaio DSC/UFCG Etapas do Processo

Marcus Sampaio DSC/UFCG Seleção Pré-Processamento Transformação Garimpagem Análise e Assimilação

Marcus Sampaio DSC/UFCG Seleção + Pré-processamento Macro etapa Preparação de Dados –Seleção Identificação dos bancos de dados Seleção de atributos ‘Discretização’ de valores de atributos numéricos –Pré-processamento Limpeza Amostragem

Marcus Sampaio DSC/UFCG Seleção de Atributos Existem algoritmos que selecionam automaticamente, de um banco de dados, os atributos relevantes para compor as instâncias ou exemplos de mineração –Para Seleção de Atributos, consultar o livro texto, ou qualquer bom livro de MD Banco de Dados, no contexto de MD, é qualquer coleção desnormalizada de documentos –MD e BD Relacional: “Impedance mismatching”

Marcus Sampaio DSC/UFCG ‘Discretização’ de Atributos Para diminuir a complexidade de um modelo de conhecimento, atributos com domínio  devem ser ‘discretizados’ –WEKA possui vários algoritmos de ‘discretização’ –Alguns algoritmos de MD simplesmente não trabalham com domínios  –Algoritmos que ‘trabalham’ com domínios  na verdade embutem algoritmos de ‘discretização’

Marcus Sampaio DSC/UFCG Uma verdadeira ‘praga’ em aplicações de mineração de dados é a pobre qualidade dos dados de entrada dos algoritmos Uma maneira de resolver ou minimizar o problema é fazer uma inspeção manual nos arquivos de dados. Para arquivos grandes, isto pode ser impraticável Pré-Processamento: Limpeza

Marcus Sampaio DSC/UFCG Felizmente, as próprias técnicas de mineração de dados podem ajudar a resolver o problema Considere um problema de classificação, e duas espécies de ‘sujeira’: no atributo de classificação, e nos atributos que não são de classificação ‘Sujeira’ em atributos de classificação –Remover as instâncias concernentes do conjunto de treinamento. Como? Rodando um algoritmo de classificação que procure ser espelho do conjunto de treinamento  100% de acurácia de treinamento –As instâncias que caem em classes ‘sujas’ são identificadas, podendo ser fisicamente retiradas

Marcus Sampaio DSC/UFCG ’Sujeira’ em atributos que não são de classificação –Alguns algoritmos são capazes de descobrir atributos não confiáveis, logicamente removendo a ‘sujeira’ do conjunto de treinamento Exemplo: algoritmo WEKA J48 (Árvores de Decisão) –Pressuposição: ‘sujeiras’ são pouco freqüentes, comparadas com valores ‘limpos’ Existem diversas ferramentas para limpeza automática –Remoção lógica –Remoção física

Marcus Sampaio DSC/UFCG Amostragem A idéia é escolher somente uma parte do conjunto de treinamento ou corpus, mas que seja representativa do conjunto inteiro Estado-da-arte em amostragem –Diversas técnicas –Tecnologia relativamente consolidada –Diversas ferramentas existentes no mercado

Marcus Sampaio DSC/UFCG Etapas do Processo Seleção Pré-Processamento Transformação Garimpagem Análise e Assimilação

Marcus Sampaio DSC/UFCG Cada algoritmo de mineração de dados necessita de uma entrada específica A finalidade da transformação é então de transformar os dados preparados, de modo a torná-los compatíveis com as entradas dos diversos algoritmos de mineração de dados Exemplo 1 –Gerar arquivos.arff para usar os algoritmos da biblioteca WEKA Transformação

Marcus Sampaio DSC/UFCG WEKA only deals with “flat” age sex { female, chest_pain_type { typ_angina, asympt, non_anginal, cholesterol exercise_induced_angina { no, class { present, 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present...

Marcus Sampaio DSC/UFCG Exemplo 2 –A maioria dos algoritmos de MD implementa consultas abertas, ou não parametrizadas Vantagens: o minerador pode dizer “algoritmo, vire-se: não vou ajudá-lo em nada!” Desvantagens: muitas vezes, restrições  ou parâmetros  são importantes –O minerador pode querer rodar um algoritmo indutor de um modelo descritivo, para descrever os exemplos de treinamento somente de uma certa classe X Restrições ou parâmetros podem ser simulados com uma conveniente transformação dos arquivos de entrada

Marcus Sampaio DSC/UFCG Etapas do Processo Seleção Pré-Processamento Transformação Garimpagem Análise e Assimilação

Marcus Sampaio DSC/UFCG Uma vez os dados preparados e transformados, aplicam-se os algoritmos de mineração de dados, dependendo do problema –Associação –Classificação Supervisionada –Classificação Não-Supervisionada –Série Temporal –Regressão –... Análise estatística da qualidade dos modelos induzidos (ver adiante) Garimpagem ou Mineração

Marcus Sampaio DSC/UFCG Etapas do Processo Seleção Pré-Processamento Transformação Garimpagem Análise e Assimilação

Marcus Sampaio DSC/UFCG Nesta etapa, a seguinte questão deve ser respondida: o conhecimento induzido é relevante e acionável? –Relevância: conhecimento não trivial –Modelo acionável: que não seja muito complexo, ou que possa ser assimilado por um especialista Se a resposta não for satisfatória, então será necessário repetir todo ou parte do processo de MD (processo iterativo) –Por exemplo, usar um outro algoritmo de indução de conhecimento Análise e Assimilação

Marcus Sampaio DSC/UFCG Métricas de Desempenho dos Algoritmos Indutores “Underfitting” e “Overfitting” de Modelos Fragmentação: Geração de Conjunto- treinamento e Conjunto-teste Valores Faltando em Dados para Mineração Análise Estatística da Qualidade dos Modelos Induzidos

Marcus Sampaio DSC/UFCG Métricas de Desempenho Acurácia –Aplicável a problemas de classificação –Sinônimo de taxa de acerto (ou de erro) –Em geral, um algoritmo é treinado com um conjunto-treinamento Acurácia de treinamento (ac trein ) –O modelo induzido é testado com um conjunto- teste Acurácia de teste (ac teste ) –O modelo aprovado é usado para predição Acurácia de execução estimada, e função da acurácia de teste (ac exec )

Marcus Sampaio DSC/UFCG “Overfitting” e “Underfitting” Um bom modelo deve ter –Alta acurácia de treinamento –Alta acurácia de teste Pode ocorrer que alta ac trein  baixa ac teste –“Overfitting” “Underfitting” de um modelo –Baixa ac trein e baixa ac teste Modelos com “underfitting” e “overfitting” devem ser descartados –Obs: note a importância de ac teste

Marcus Sampaio DSC/UFCG Overfitting Underfitting: quando o modelo é muito simples, tanto as acurácias de treinamento quanto as de teste são baixas Number of nodes indica o tamanho do modelo induzido Underfitting

Marcus Sampaio DSC/UFCG Vamos raciocinar agora com taxas de acerto: Quais as causas de “underfitting” e “overfitting”? Note que um e outro conduzem a baixas acurácias de teste Considere que um algoritmo trabalha para obter, se for possível, 100% de ac trein –Má distribuição das classes –Ruído ou ‘sujeira’ –Falta de representatividade das classes Conjunto de Treinamento

Marcus Sampaio DSC/UFCG Duas classes Representações Pontos circulares Pontos triangulares Má Distribuição Conjunto de Treinamento Pode conduzir a padrões muito dispersos para as classes (várias regiões azuis)  pouco valor estatístico

Marcus Sampaio DSC/UFCG Pouca Representatividade Nome Temp. do Corpo Nasc. Uterino 4 Pernas Hiber- na Classe Salaman dra frianãosim Não mamífero “Guppy”friasimnão Não mamífero Águiaquentenão Não mamífero “Poorwill”quentenão simNão mamífero “Platypus ” quentenãosim Mamífero

Marcus Sampaio DSC/UFCG No exemplo, o conjunto de treinamento não tem erro Um classificador* poderia induzir a regra se temperatura do corpo é quente e não hiberna então não é mamífero –Assim, humanos, elefantes e golfinhos seriam classificados como não mamíferos! –O problema é a falta de representatividade da regra: só casa com as águias –Assim, teríamos por exemplo 100% de ac trein e 70% de ac teste, caracterizando “overfitting” *- Um algoritmo indutor de modelos de classificação

Marcus Sampaio DSC/UFCG Note que um padrão para o ponto ‘sujo’ não tem valor estatístico Ruído ou ‘Sujeira’

Marcus Sampaio DSC/UFCG Solução para “Underfitting” O problema de “underfitting” pode ser resolvido com um conjunto de treinamento de bom tamanho –Técnicas de amostragem ajudam

Marcus Sampaio DSC/UFCG “Overfitting” resulta de modelos de treinamento que são mais complexos do que o necessário –Regras sem valor estatístico Acurácia de treinamento deve ser vista com muita reserva Necessidade de novos métodos de estimar acurácia –Acurácia de teste –Acurácia de execução “Overfitting”: Algumas Conclusões

Marcus Sampaio DSC/UFCG Conjunto de Treinamento –Treina um algoritmo de mineração –Acurácia de Treinamento Conjunto de Teste –Testa o modelo induzido pelo algoritmo –Acurácia de Teste Conjunto de Execução (também, Previsão) –Conjunto sobre o qual o modelo é aplicado, para fazer previsão –Acurácia de Execução (também, Previsão) Acurácia de Execução –Acurácia de Execução (estimativa) = f(Acurácia de Teste) Acurácia Revisitada

Marcus Sampaio DSC/UFCG Como a acurácia de execução é diretamente proporcional à acurácia de teste, sua estimativa de cálculo pode ser esquecida

Marcus Sampaio DSC/UFCG “Holdout” Validação Cruzada (Cross-validation”) “Bagging” Métodos de Fragmentação de Amostra

Marcus Sampaio DSC/UFCG “Holdout” –Partição de uma amostra em conjunto de treinamento e conjunto de teste Tipicamente, 2/3 para treinamento e 1/3 para teste –O modelo é induzido do conjunto de treinamento –O modelo induzido é testado com o conjunto de teste –Principal problema Uma classe pode ficar super-representada em um conjunto, e sub-representada em outro; ou O modelo pode ser fortemente dependente da composição dos conjuntos

Marcus Sampaio DSC/UFCG Validação Cruzada (“Cross Validation”) treinamento testetreinamento

Marcus Sampaio DSC/UFCG –O algoritmo é treinado com todos os dados O modelo a ser considerado, se passar pelos testes –Para calcular a acurácia de teste Calcula-se a média  ou a soma  dos acertos dos três testes realizados Note que os modelos podem variar  pouco, ou até muito! , em relação ao modelo induzido para todos os dados Usa-se cada vez mais "stratified ten-fold cross- validation“ –Estratificação: classes igualmente representadas em todos os fragmentos –Os dados são aleatoria e estratificadamente divididos em dez fragmentos –Como consequência da estratificação, os 10 modelos da iteração são supostamente iguais ao modelo do treinamento do algoritmo

Marcus Sampaio DSC/UFCG “Bagging” – Técnica de Meta Modelagem –Usa um modelo classificador de modelos Indução dos Modelos Para cada uma das t iterações (“stratified t-fold cross- validation”) Aplique um algoritmo Salve o modelo induzido pelo algoritmo Previsão (ou Predição) Para cada um dos modelos aprovados Classificar uma instância de execução Retornar a classe mais votada

Marcus Sampaio DSC/UFCG PREDICTED CLASS ACTUAL CLASS Class=YesClass=No Class=Yesa (TP) b (FN) Class=Noc (FP) d (TN) Mais Sobre Acurácia

Marcus Sampaio DSC/UFCG Note que o cálculo da acurácia no slide anterior é limitado ao caso de duas classes  “two-class problem” É comum um conjunto de treinamento ter muitas classes De qualquer maneira, o valor da acurácia se confunde sempre com a taxa de acerto

Marcus Sampaio DSC/UFCG Considere um “2-class problem” –Número de instâncias (ou exemplos) de treinamento da Classe 0 = 9990 –Número de exemplos da Classe 1 = 10 Se um modelo prediz que tudo é da Classe 0   instância de execução  0 , então a acurácia é 9990/10000 = 99.9 % –O valor é enganoso porque o modelo não prevê qualquer exemplo da Classe 1 Acurácia: Limitações

Marcus Sampaio DSC/UFCG For large test sets (N > 30), –acc has a normal distribution with mean p and variance p(1-p)/N Confidence Interval for p: Area = 1 -  Z  /2 Z 1-  /2 Intervalo de Confiança para Acurácia

Marcus Sampaio DSC/UFCG Consider a model that produces an accuracy of 80% when evaluated on 100 test instances: –N=100, acc = 0.8 –Let 1-  = 0.95 (95% confidence) –From probability table, Z  /2 =  Z N p(lower) p(upper)

Marcus Sampaio DSC/UFCG Outras Métricas de Desempenho

Marcus Sampaio DSC/UFCG Exemplos –A percentagem de todas as instâncias da classe esporte que foram classificadas corretamente é o “recall”, ou a cobertura –A percentagem de instâncias corretamente classificadas como esporte é a precisão –F-measure: média harmônica de precisão e “recall” Alta precisão é sempre muito importante, mas muitas instâncias esporte podem ser deixadas de lado (isto é medido por “recall”) –Programa que identifica “spam ” com alta precisão e baixo “recall Deixa “spam” na caixa de entrada (baixo “recall”) Geralmente acerta quando joga um “spam” no lixo (alta precisão) –Minha experiência com Google: alta média harmônica Alta precisão e alta cobertura

Marcus Sampaio DSC/UFCG Considere que um sistema de marcou corretamente 20 s como spam, mas não detectou 5 s que são spams –Precisão = 20 / 20 = 100% –Recall = 20 / 25 = 80% –F-measure = 2 / (1 + 1 / 0,8) = 0,89 Interpretação de F-measure –Valor alto: altas precisão e cobertura –Valor baixo: pelo menos uma das medidas componentes é baixa, comparativamente

Marcus Sampaio DSC/UFCG Valores faltando são valores NULL Convivência com valores NULL –Diversos algoritmos trabalham com valores NULL É preciso saber como –Por exemplo, alguns algoritmos smplesmente removem logicamente atributos com pelo menos um valor NULL Não convivência com valores NULL –A solução ‘crua’ é remover aquelas instâncias do conjunto de treinamento com valores NULL Pode ser muito restritiva, ou mesmo inviável –Soluções mais sofisticadas permitem estimar os valores faltando de atributos Valores Faltando

Marcus Sampaio DSC/UFCG Refund YesNo Refund YesNo Probability that Refund=Yes is 3/9 Probability that Refund=No is 6/9 Assign record to the left child with weight = 3/9 and to the right child with weight = 6/9 Estimativa de Valor