Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.

Slides:



Advertisements
Apresentações semelhantes
Aprendizado de Máquina
Advertisements

Mineração de Dados Avaliação de Classificadores
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendizado de Máquina
Perceptron Simples Algoritmo do Bolso com catraca
Aprendem a partir de seus vizinhos AULA 9 DATA MINING Sandra de Amo
Classificadores em Dados não Balanceados
2. O Processo de Mineração de Dados
Analise e Seleção de Variáveis
Aprendizado de Máquinas
Jacques Robin, Francisco Carvalho, Flávia Barros
FACENS – Engenharia da Computação Inteligência Artificial
RIPPER Fast Effective Rule Induction
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
Sistemas Inteligentes
II. M o d e l o s d e C o n h e c i m e n t o
3. Árvore de Decisão.
Aprendizado de Máquina
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.
Aula Prática Classificação
Aprendizado de Árvores de Decisão
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Sistema Recomendador para Comércio Eletrônico
Gestão de Projetos Ms. Karine R. de Souza
Métodos de Classificação por Árvores de Decisão
Mini testes A apresentar na aula da semana a seguir à data descrito em cada teste. As respostas não devem exceder mais do que duas páginas A4.
Sistemas Inteligentes
Indução de Árvore de Decisão
Aprendizado de Máquina - Introdução
Sistemas Inteligentes
Árvores de Decisão: supervisionado, simbólico, não incremental (?)
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Classificação: avaliação de modelos
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Etapas do Processo.
Matemática e suas Tecnologias - Matemática PROBABILIDADE CONDICIONAL
2. Visão Geral de MD Alguns slides foram adaptados, traduzidos ou copiados de Pang-Ning Tan (ver Bibliografia)
Fontes de Erros Aula 1 Introdução; Erros em processos numéricos;
Árvores de Decisão Valmir Macário.
Estatística e Probabilidade
Projeto Final MCI 2004 Filtragem de s Agente de Classificação de SPAM.
Ferramentas apresentadas
Mineração de Dados: Classificação e Predição
7. Mineração de Texto ("Text Mining")
Uma Introdução a SVM Support Vector Machines
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG O Problema Dados –Um banco de transações de compra –Cada transação é um conjunto de ítens comprados Encontrar.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG A Lógica dos Algoritmos “Covering” A estratégia é selecionar cada classe do conjunto- treinamento, e.
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Classificação: conceitos básicos e árvores de decisão
Inteligência Artificial I
Marcus Sampaio DSC/UFCG Os slides 3-15 foram copiados de Pang-Ning Tan.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
HAC 1 MD - junho/2008 Tecnologias de suporte à Mineração de Dados Gerenciamento de dados Data Warehouse OLAP Arquiteturas Visualização Sistemas de Suporte.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG CEAPE-PB Centro de Apoio aos Pequenos EMPREENDIMENTOS – CEAPE-PB, com sede na Cidade de Campina Grande.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes.
Paradigmas de Mineração de Dados
Descoberta em múltiplos níveis conceituais
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG A Lógica dos Algoritmos “Covering” A estratégia é selecionar cada classe do conjunto-treinamento, e procurar.
Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Não Supervisionada As instâncias não são previamente classificadas Um algoritmo de classificação.
Testes de Hipóteses.
Tecnologias e Sistemas de Informação
Aprendizagem Simbólica
Classificadores Bayesianos Classificadores Bayesianos são classificadores estatísticos que classificam um objeto numa determinada classe baseando-se na.
Mineração de Dados Classificação Felipe Carvalho – UFES 2009/2.
Probabilidade Teste de hipóteses para uma média populacional:
Mineração de Dados (Data Mining)
NOÇÕES DE INFERÊNCIA ESTATÍSTICA
Inferência 1:Estimação de Parâmetros Relembrando o Teorema Central do Limite Da aula anterior: a) Os estimadores da média e da s 2 são não viciados e de.
Transcrição da apresentação:

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG Classificação Supervisionada Entrada –Um BD de tuplas, cada uma com um valor (classe) de um atributo de classificação Saída: um modelo / perfil para cada classe –Classe crédito bom –(25 10k) ou (casado = SIM) Aplicações –Análise de crédito (bom para concessão, ruim para concessão) –Perfil de cliente usuário de crédito (adimplemte, inadimplente)

Marcus Sampaio DSC/UFCG Organização prévia de dados em classes – supervisão –Dados: conjunto de casos, ou instâncias –Classe: valor de um atributo de classificação Divisão dos dados em conjunto de treinamento (conjunto-treinamento) e conjunto de teste (conjunto- teste) Um algoritmo de classificação induz (infere, aprende) padrões de classificação – modelo – do conjunto de treinamento O modelo é testado com o conjunto de testes O modelo aprovado é usado para classificar novos casos conjunto de execução. Classificação Supervisionada (2)

Marcus Sampaio DSC/UFCG Acurácia, desempenho e taxa de erro são sinônimos Um algoritmo de classificação classifica ou prediz a classe de cada instância de teste, utilizando o modelo inferido no treinamento –Se a classificação for correta, então sucesso senão erro –A taxa de erro é justamente a proporção de erros sobre o conjunto total de instâncias testadas, ou simplesmente, taxa de erro –O complemento da taxa de erro é a taxa de acerto –É mais comum referir-se a acurácia como sendo a taxa de acerto Qualidade de um Modelo

Marcus Sampaio DSC/UFCG É interessante também medir a taxa de erro (acerto) da aplicação do modelo ao conjunto de treinamento –Baixas taxas de erro significam que o modelo é um espelho do conjunto-treinamento Síntese do conjunto-treinamento (importante) –'Altas' taxas de erro não significam necessariamente que o modelo é ruim O modelo não é uma síntese perfeita do conjunto- treinamento, mas possivelmente Baixas taxas de erro nos testes Qualidade de um Modelo (2)

Marcus Sampaio DSC/UFCG Em resumo –Alta acurácia de treinamento Bom para conhecer os dados –Alta acurácia de teste Importante para acertar como o conjunto de execução –Numa análise comparativa, é comum situações como Qualidade de um Modelo (3)

Marcus Sampaio DSC/UFCG ID3J48Análise acurácia de treina- mento altamédia ID3 para conhecer os dados acurácia de teste médiaalta J48 é melhor para o conj. de exec. acurácia de execu- ção J48 é mais confiável que ID3

Marcus Sampaio DSC/UFCG Árvores 1R Árvores de decisão com um só nível (fora a raiz) árvores 1R O interessante e surpreendente é que árvores 1R podem alcançar um nível de acurácia muito bom

Marcus Sampaio DSC/UFCG EstadoTempUmidVentoJogo ensolquentealtafalsonão ensolquentealtaverdadenão nubladoquentealtafalsosim chuvosoamenaaltafalsosim chuvosofrianormalfalsosim chuvosofrianormalverdadenão nubladofrianormalverdadesim ensolamenaaltafalsonão ensolfrianormalfalsosim

Marcus Sampaio DSC/UFCG chuvosoamenanormalfalsosim ensolamenanormalverdadesim nubladoamenaaltaverdadesim nubladoquentenormalfalsosim chuvosoamenaaltaverdadenão

Marcus Sampaio DSC/UFCG Chuvoso Estado Ensolarado Nublado SimNãoSim

Marcus Sampaio DSC/UFCG Algoritmo de Indução de Árvores 1R Para cada atributo Para cada valor do atributo, faça Conte quantas vezes cada classe aparece Encontre a classe mais freqüente Forme um ramo da árvore Calcule a taxa de erro da árvore Escolha a árvore com a menor taxa de erro

Marcus Sampaio DSC/UFCG atributoregraserrostotal de erros 1estado ensolarado não nublado sim chuvoso sim 2/5 0/4 2/5 4/14 2temperatur a quente não* amena sim fria sim 2/4 2/6 1/4 5/14 3umidade alta não normal sim 3/7 1/7 4/14 4ventania falso sim verdade não* 2/8 3/6 5/14 *- Escolha aleatória

Marcus Sampaio DSC/UFCG Algoritmo (3) Interpretação da árvore –Aparentemente, existe jogo quando o tempo está nublado ou chuvoso (vocês estão percebendo que isto é coisa de inglês ou da "commonwealth"!), mas não quando está ensolarado

Marcus Sampaio DSC/UFCG Árvores de Decisão aceitorejeitado salário < graduado aceito educação Análise de Crédito < graduado

Marcus Sampaio DSC/UFCG Construção de Árvores Problema recursivo –Seleciona-se um atributo para ser o atributo-raiz da árvore –Cada valor do atributo é um ramo da árvore Decompõe o conjunto-treinamento em sub-conjuntos, um para cada valor do atributo (intervalo, às vezes) –Em princípio, quando todas as instâncias em um ramo tiverem a mesma classificação, o processo de decomposição pára Como determinar cada atributo-raiz?

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG Construção de Árvores (3) O primeiro atributo-raiz a ser escolhido é Estado –Menor entropia (entropia: grau de desordem)

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG Construção de Árvores (5) Umidade é o segundo nodo do primeiro ramo da árvore –Note que não há necessidade de dividir os conjuntos de instâncias deste nodo A aplicação recursiva da mesma idéia conduz à árvore final para o problema do tempo

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG Construção de Árvores (7) Exercício –Verifique se a árvore é perfeita, isto é, todos os nós folhas são puros – uma única classe

Marcus Sampaio DSC/UFCG Construção de Árvores (8) Idealmente, o processo termina quando todos os nós-folhas são puros, isto é, todos os conjuntos de instâncias têm a mesma classe Entretanto, pode não ser possível alcançar esta 'feliz' situação –Podemos ter duas instâncias do conjunto- treinamento com os mesmos valores do conjunto de atributos, porém com classes diferentes –Algoritmos sofisticados, como o J48, preferem errar no treinamento para acertar no teste!

Marcus Sampaio DSC/UFCG Um conjunto puro pode não ser significativo –Pouco freqüente, ou estatisticamente inválido (overfitting) Como conseqüência de overfitting, a árvore pode ser larga e profunda –Pouco legível Overfitting se dá geralmente em atributos com muitos valores. III.3 Construção de Árvores

Marcus Sampaio DSC/UFCG III.4 Algoritmos de Árvores ID3 –Bom para conhecer o conjunto de treinamento C4.5 –Produz modelos mais confiáveis que o ID3 –Pode se afastar do conjunto de treinamento Mecanismo de poda (pruning) J.48 –Versão WEKA do C4.5 C5.0 (See5) –Versão comercial do C4.5 Outros algoritmos

Marcus Sampaio DSC/UFCG Poda ("Pruning")

Marcus Sampaio DSC/UFCG Poda ("Pruning") (2)

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes um do outro, dada uma classe Apesar desta suposição irrealista, ela conduz a um esquema bastante simples, com resultados surpreendentemente bons A idéia é contar quantas vezes cada par atributo-valor ocorre com cada valor do atributo-classe Este método simples e intuitivo é baseado na Regra de Bayes, de probabilidade condicional

Marcus Sampaio DSC/UFCG Estado/Temperatura simnão simnão ensolarado23quente22 nublado40amena42 chuvoso32fria31 ensolarado2/93/5quente2/92/5 nublado4/90/5amena4/92/5 chuvoso3/92/5fria3/91/5

Marcus Sampaio DSC/UFCG /Umidade /Ventania Jogo simnão simnão simnão alta34falso62 95 normal61verdade33 alta3/94/5falso6/92/5 normal6/91/5verdade3/93/5 9/145/14

Marcus Sampaio DSC/UFCG EstadoTemp.UmidadeVentaniaJogo ensol.friaaltaverdade?

Marcus Sampaio DSC/UFCG Probabilidade de ter jogo (tem_jogo = 'sim') –2/9 x 3/9 x 3/9 x 3/9 x 9/14 = Probabilidade de não ter jogo (tem_jogo = 'não') –3/5 x 1/5 x 4/5 x 3/5 x 5/14 = Conclusão: para o dia testado, ensolarado, frio, ventoso e com umidade alta, é quatro vezes mais provável que não haja jogo NaïveBayes (5)

Marcus Sampaio DSC/UFCG Probabilidades em percentagem –sim = / ( ) = 20.5% –não = / ( ) = 79.5% NaïveBayes (6)