Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.

Marcus Sampaio DSC/UFCG

Marcus Sampaio DSC/UFCG Classificação Supervisionada Entrada –Um BD de tuplas, cada uma com um valor (classe) de um atributo de classificação Saída: um modelo / perfil para cada classe –Classe crédito bom –(25 10k) ou (casado = SIM) Aplicações –Análise de crédito (bom para concessão, ruim para concessão) –Perfil de cliente usuário de crédito (adimplemte, inadimplente)

Marcus Sampaio DSC/UFCG Organização prévia de dados em classes – supervisão –Dados: conjunto de casos, ou instâncias –Classe: valor de um atributo de classificação Divisão dos dados em conjunto de treinamento (conjunto-treinamento) e conjunto de teste (conjunto- teste) Um algoritmo de classificação induz (infere, aprende) padrões de classificação – modelo – do conjunto de treinamento O modelo é testado com o conjunto de testes O modelo aprovado é usado para classificar novos casos conjunto de execução. Classificação Supervisionada (2)

Marcus Sampaio DSC/UFCG Acurácia, desempenho e taxa de erro são sinônimos Um algoritmo de classificação classifica ou prediz a classe de cada instância de teste, utilizando o modelo inferido no treinamento –Se a classificação for correta, então sucesso senão erro –A taxa de erro é justamente a proporção de erros sobre o conjunto total de instâncias testadas, ou simplesmente, taxa de erro –O complemento da taxa de erro é a taxa de acerto –É mais comum referir-se a acurácia como sendo a taxa de acerto Qualidade de um Modelo

Marcus Sampaio DSC/UFCG É interessante também medir a taxa de erro (acerto) da aplicação do modelo ao conjunto de treinamento –Baixas taxas de erro significam que o modelo é um espelho do conjunto-treinamento Síntese do conjunto-treinamento (importante) –'Altas' taxas de erro não significam necessariamente que o modelo é ruim O modelo não é uma síntese perfeita do conjunto- treinamento, mas possivelmente Baixas taxas de erro nos testes Qualidade de um Modelo (2)

Marcus Sampaio DSC/UFCG Em resumo –Alta acurácia de treinamento Bom para conhecer os dados –Alta acurácia de teste Importante para acertar como o conjunto de execução –Numa análise comparativa, é comum situações como Qualidade de um Modelo (3)

Marcus Sampaio DSC/UFCG ID3J48Análise acurácia de treinamento altamédia ID3 para conhecer os dados acurácia de teste médiaalta J48 é melhor para o conj. de exec. acurácia de execu- ção J48 é mais confiável que ID3

Marcus Sampaio DSC/UFCG Árvores 1R Árvores de decisão com um só nível (fora a raiz) árvores 1R O interessante e surpreendente é que árvores 1R podem alcançar um nível de acurácia muito bom

Marcus Sampaio DSC/UFCG EstadoTempUmidVentoJogo ensolquentealtafalsonão ensolquentealtaverdadenão nubladoquentealtafalsosim chuvosoamenaaltafalsosim chuvosofrianormalfalsosim chuvosofrianormalverdadenão nubladofrianormalverdadesim ensolamenaaltafalsonão ensolfrianormalfalsosim

Marcus Sampaio DSC/UFCG chuvosoamenanormalfalsosim ensolamenanormalverdadesim nubladoamenaaltaverdadesim nubladoquentenormalfalsosim chuvosoamenaaltaverdadenão

Marcus Sampaio DSC/UFCG Chuvoso Estado Ensolarado Nublado SimNãoSim

Marcus Sampaio DSC/UFCG Algoritmo de Indução de Árvores 1R Para cada atributo Para cada valor do atributo, faça Conte quantas vezes cada classe aparece Encontre a classe mais freqüente Forme um ramo da árvore Calcule a taxa de erro da árvore Escolha a árvore com a menor taxa de erro

Marcus Sampaio DSC/UFCG atributoregraserrostotal de erros 1estado ensolarado não nublado sim chuvoso sim 2/5 0/4 2/5 4/14 2temperatur a quente não* amena sim fria sim 2/4 2/6 1/4 5/14 3umidade alta não normal sim 3/7 1/7 4/14 4ventania falso sim verdade não* 2/8 3/6 5/14 *- Escolha aleatória

Marcus Sampaio DSC/UFCG Algoritmo (3) Interpretação da árvore –Aparentemente, existe jogo quando o tempo está nublado ou chuvoso (vocês estão percebendo que isto é coisa de inglês ou da "commonwealth"!), mas não quando está ensolarado

Marcus Sampaio DSC/UFCG Árvores de Decisão aceitorejeitado salário 20.000 < 20.000 graduado aceito educação Análise de Crédito < graduado

Marcus Sampaio DSC/UFCG Construção de Árvores Problema recursivo –Seleciona-se um atributo para ser o atributo-raiz da árvore –Cada valor do atributo é um ramo da árvore Decompõe o conjunto-treinamento em sub-conjuntos, um para cada valor do atributo (intervalo, às vezes) –Em princípio, quando todas as instâncias em um ramo tiverem a mesma classificação, o processo de decomposição pára Como determinar cada atributo-raiz?

Marcus Sampaio DSC/UFCG Construção de Árvores (3) O primeiro atributo-raiz a ser escolhido é Estado –Menor entropia (entropia: grau de desordem)

Marcus Sampaio DSC/UFCG Construção de Árvores (5) Umidade é o segundo nodo do primeiro ramo da árvore –Note que não há necessidade de dividir os conjuntos de instâncias deste nodo A aplicação recursiva da mesma idéia conduz à árvore final para o problema do tempo

Marcus Sampaio DSC/UFCG Construção de Árvores (7) Exercício –Verifique se a árvore é perfeita, isto é, todos os nós folhas são puros – uma única classe

Marcus Sampaio DSC/UFCG Construção de Árvores (8) Idealmente, o processo termina quando todos os nós-folhas são puros, isto é, todos os conjuntos de instâncias têm a mesma classe Entretanto, pode não ser possível alcançar esta 'feliz' situação –Podemos ter duas instâncias do conjunto- treinamento com os mesmos valores do conjunto de atributos, porém com classes diferentes –Algoritmos sofisticados, como o J48, preferem errar no treinamento para acertar no teste!

Marcus Sampaio DSC/UFCG Um conjunto puro pode não ser significativo –Pouco freqüente, ou estatisticamente inválido (overfitting) Como conseqüência de overfitting, a árvore pode ser larga e profunda –Pouco legível Overfitting se dá geralmente em atributos com muitos valores. III.3 Construção de Árvores

Marcus Sampaio DSC/UFCG III.4 Algoritmos de Árvores ID3 –Bom para conhecer o conjunto de treinamento C4.5 –Produz modelos mais confiáveis que o ID3 –Pode se afastar do conjunto de treinamento Mecanismo de poda (pruning) J.48 –Versão WEKA do C4.5 C5.0 (See5) –Versão comercial do C4.5 Outros algoritmos

Marcus Sampaio DSC/UFCG Poda ("Pruning")

Marcus Sampaio DSC/UFCG Poda ("Pruning") (2)

Marcus Sampaio DSC/UFCG NaïveBayes Na modelagem estatística, todos os atributos são considerados igualmente importantes e independentes um do outro, dada uma classe Apesar desta suposição irrealista, ela conduz a um esquema bastante simples, com resultados surpreendentemente bons A idéia é contar quantas vezes cada par atributo-valor ocorre com cada valor do atributo-classe Este método simples e intuitivo é baseado na Regra de Bayes, de probabilidade condicional

Marcus Sampaio DSC/UFCG Estado/Temperatura simnão simnão ensolarado23quente22 nublado40amena42 chuvoso32fria31 ensolarado2/93/5quente2/92/5 nublado4/90/5amena4/92/5 chuvoso3/92/5fria3/91/5

Marcus Sampaio DSC/UFCG /Umidade /Ventania Jogo simnão simnão simnão alta34falso62 95 normal61verdade33 alta3/94/5falso6/92/5 normal6/91/5verdade3/93/5 9/145/14

Marcus Sampaio DSC/UFCG EstadoTemp.UmidadeVentaniaJogo ensol.friaaltaverdade?

Marcus Sampaio DSC/UFCG Probabilidade de ter jogo (tem_jogo = 'sim') –2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0.0053 Probabilidade de não ter jogo (tem_jogo = 'não') –3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.0206 Conclusão: para o dia testado, ensolarado, frio, ventoso e com umidade alta, é quatro vezes mais provável que não haja jogo NaïveBayes (5)

Marcus Sampaio DSC/UFCG Probabilidades em percentagem –sim = 0.0053 / (0.0053 + 0.0206) = 20.5% –não = 0.0206 / (0.0053 + 0.0206) = 79.5% NaïveBayes (6)

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.

Apresentações semelhantes

Apresentação em tema: "Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG.

Apresentações semelhantes

Apresentação em tema: "Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback