A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Supervisionada Entrada –Um BD de tuplas, cada uma com um valor (classe) de um atributo.

Apresentações semelhantes


Apresentação em tema: "Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Supervisionada Entrada –Um BD de tuplas, cada uma com um valor (classe) de um atributo."— Transcrição da apresentação:

1 Marcus Sampaio DSC/UFCG

2 Marcus Sampaio DSC/UFCG Classificação Supervisionada Entrada –Um BD de tuplas, cada uma com um valor (classe) de um atributo de classificação Saída: um modelo / perfil para cada classe –Classe crédito bom (25 10k) crédito bom casado crédito bom Aplicações –Análise de crédito (bom para concessão, ruim para concessão) –Perfil de cliente usuário de crédito (adimplemte, inadimplente)

3 Marcus Sampaio DSC/UFCG Organização prévia de dados em classes – supervisão –Dados: conjunto de casos, ou instâncias –Classe: valor de um atributo de classificação Um algoritmo de classificação induz (infere, aprende) padrões de classificação – modelo – dos dados Confiabilidade do modelo –Divisão dos dados em conjunto de treinamento (conjunto- treinamento) e conjunto de teste (conjunto-teste) –Um algoritmo de classificação induz (infere, aprende) padrões de classificação – modelo – de conjuntos de treinamento (depende da técnica utilizada) –O modelo é testado com o conjunto de testes O modelo aprovado é usado para classificar novos casos conjunto de execução Classificação Supervisionada (2)

4 Marcus Sampaio DSC/UFCG Acurácia, desempenho e taxa de erro são sinônimos Um algoritmo de classificação classifica ou prediz a classe de cada instância de teste, utilizando o modelo inferido no treinamento –Se a classificação for correta, então sucesso senão erro –A taxa de erro é justamente a proporção de erros sobre o conjunto total de instâncias testadas, ou simplesmente, taxa de erro –O complemento da taxa de erro é a taxa de acerto –É mais comum referir-se a acurácia como sendo a taxa de acerto Qualidade de um Modelo

5 Marcus Sampaio DSC/UFCG É interessante também medir a taxa de erro (acerto) da aplicação do modelo aos dados minerados –Baixas taxas de erro significam que o modelo é um espelho dos dados Síntese dos dados (importante) –'Altas' taxas de erro não significam necessariamente que o modelo é ruim O modelo não é uma síntese perfeita dos dados, mas possivelmente Baixas taxas de erro nos testes Qualidade de um Modelo (2)

6 Marcus Sampaio DSC/UFCG Em resumo –Modelo-espelho Bom para conhecer os dados –Alta acurácia de teste Importante para acertar com o o conjunto de execução –Estimativa da acurácia de execução –Numa análise comparativa, é comum situações como Qualidade de um Modelo (3)

7 Marcus Sampaio DSC/UFCG ID3J48Análise espelho altamédia ID3 para conhecer os dados acurácia de teste médiaalta J48 é melhor para o conj. de exec. acurácia de execu- ção J48 é mais confiável que ID3

8 Marcus Sampaio DSC/UFCG Árvores 1R Árvores de decisão com um só nível (fora a raiz) árvores 1R O interessante e surpreendente é que árvores 1R podem alcançar um nível de acurácia muito bom

9 Marcus Sampaio DSC/UFCG EstadoTempUmidVentoJogo ensolquentealtafalsonão ensolquentealtaverdadenão nubladoquentealtafalsosim chuvosoamenaaltafalsosim chuvosofrianormalfalsosim chuvosofrianormalverdadenão nubladofrianormalverdadesim ensolamenaaltafalsonão ensolfrianormalfalsosim

10 Marcus Sampaio DSC/UFCG chuvosoamenanormalfalsosim ensolamenanormalverdadesim nubladoamenaaltaverdadesim nubladoquentenormalfalsosim chuvosoamenaaltaverdadenão

11 Marcus Sampaio DSC/UFCG Chuvoso Estado Ensolarado Nublado SimNãoSim

12 Marcus Sampaio DSC/UFCG Algoritmo de Indução de Árvores 1R Para cada atributo Para cada valor do atributo, faça Conte quantas vezes cada classe aparece Encontre a classe mais freqüente Forme um ramo da árvore Calcule a taxa de erro da árvore Escolha a árvore com a menor taxa de erro

13 Marcus Sampaio DSC/UFCG atributoregraserrostotal de erros 1estado ensolarado não nublado sim chuvoso sim 2/5 0/4 2/5 4/14 2temperatur a quente não* amena sim fria sim 2/4 2/6 1/4 5/14 3umidade alta não normal sim 3/7 1/7 4/14 4ventania falso sim verdade não* 2/8 3/6 5/14 *- Escolha aleatória

14 Marcus Sampaio DSC/UFCG Algoritmo (3) Interpretação da árvore –Aparentemente, existe jogo quando o tempo está nublado ou chuvoso (vocês estão percebendo que isto é coisa de inglês ou da "commonwealth"!), mas não quando está ensolarado

15 Marcus Sampaio DSC/UFCG Árvores de Decisão aceitorejeitado salário < graduado aceito educação Análise de Crédito < graduado

16 Marcus Sampaio DSC/UFCG Construção de Árvores Problema recursivo –Seleciona-se um atributo para ser o atributo-raiz da árvore –Cada valor do atributo é um ramo da árvore Decompõe o conjunto-treinamento em sub-conjuntos, um para cada valor do atributo (intervalo, às vezes) –Em princípio, quando todas as instâncias em um ramo tiverem a mesma classificação, o processo de decomposição pára Como determinar cada atributo-raiz?

17 Marcus Sampaio DSC/UFCG

18 Marcus Sampaio DSC/UFCG Construção de Árvores (3) O primeiro atributo-raiz a ser escolhido é Estado –Menor entropia (entropia: grau de desordem) Ver, no livro-texto, como a entropia é calculada –A olho nu, podia ser também Umidade

19 Marcus Sampaio DSC/UFCG

20 Marcus Sampaio DSC/UFCG Construção de Árvores (5) Umidade é o segundo nodo do primeiro ramo da árvore –Note que não há necessidade de dividir os conjuntos de instâncias deste nodo Induzir uma árvore-espelho não necessariamente leva à melhor acurácia de execução A aplicação recursiva da mesma idéia conduz à árvore final para o problema do tempo

21 Marcus Sampaio DSC/UFCG

22 Marcus Sampaio DSC/UFCG Construção de Árvores (7) Exercício –Verifique se a árvore é perfeita, isto é, todos os nós folhas são puros – uma única classe

23 Marcus Sampaio DSC/UFCG Construção de Árvores (8) Idealmente, o processo termina quando todos os nós-folhas são puros, isto é, todos os conjuntos de instâncias têm a mesma classe Entretanto, pode não ser possível alcançar esta 'feliz' situação –Podemos ter duas instâncias do conjunto- treinamento com os mesmos valores do conjunto de atributos, porém com classes diferentes Um tipo de sujeira –Algoritmos sofisticados, como o J48, preferem errar no treinamento para acertar no teste!

24 Marcus Sampaio DSC/UFCG Um conjunto puro pode não ser significativo –Pouco freqüente, ou estatisticamente inválido (overfitting) Como conseqüência de overfitting, a árvore pode ser larga e profunda –Pouco legível Overfitting se dá geralmente em atributos com muitos valores –Atributos numéricos Discretização Construção de Árvores (9)

25 Marcus Sampaio DSC/UFCG Algoritmos de Árvores ID3 –Bom para conhecer o conjunto de treinamento C4.5 –Produz modelos mais confiáveis que o ID3 –Pode se afastar do conjunto de treinamento Mecanismo de poda (pruning) J.48 –Versão WEKA do C4.5 C5.0 (See5) –Versão comercial do C4.5 Outros algoritmos

26 Marcus Sampaio DSC/UFCG Poda ("Pruning")

27 Marcus Sampaio DSC/UFCG Poda ("Pruning") (2)


Carregar ppt "Marcus Sampaio DSC/UFCG. Marcus Sampaio DSC/UFCG Classificação Supervisionada Entrada –Um BD de tuplas, cada uma com um valor (classe) de um atributo."

Apresentações semelhantes


Anúncios Google