Árvores de Decisão Valmir Macário.

Árvores de Decisão Valmir Macário

Introdução Seres humanos manipulam símbolos em alto nível
Tomamos decisões a partir de regras e modelos que generalizamos Realizamos inferências a partir dos dados que temos e do nosso conhecimento explícito

Relembrando... Aprendizagem Indutiva
Inferência de uma regra geral (hipótese) a partir de exemplos particulares Precisão diretamente proporcional à quantidade / qualidade dos exemplos

Conhecimento Simbólico
Conhecimento adquirido pode ser representado em linguagens de alto nível De forma legível e interpretável por humanos Motivações Compreender um problema (mais do que obter modelos precisos) Justificar decisões Incorporar novo conhecimento

Aprendizagem Indutiva Classificação
Incremental: atualiza hipótese a cada novo exemplo Mais flexível A ordem de apresentação é importante Não incremental: gerada a partir de todo conjunto de exemplo. Mais eficiente e prática

Árvore de Decisão Entrada: Saída Conjunto de atributos Uma “decisão”
Discretos Contínuos Saída Uma “decisão”

Árvore de Decisão Uma árvore de decisão utiliza uma estratégia de dividir-para-conquistar: Um problema complexo é decomposto em sub- problemas mais simples. Recursivamente a mesma estratégia é aplicada a cada sub-problema. A capacidade de discriminação de uma árvore tem origem na: Divisão do espaço definido pelos atributos em sub-espaços. A cada sub-espaço é associada uma classe.

Árvores de Decisão Cada nó interno (não-terminal) contém um teste sobre os valores de um dado atributo Folhas da árvore (nós terminais) são associadas às classes Comumente, acompanhadas com graus de confiança Novas instâncias classificadas percorrendo a árvore a partir da raiz até as folhas Cores Não Sim Filme Ruim (p = 0.7) Gênero Musical Ação Drama Filme Ruim (p = 1.0) Filme Bom (p = 0.8) Filme Ruim (p = 0.6)

Árvores de Decisão - Construção
Árvore de decisão construída de forma recursiva da raiz para as folhas (top-down) A cada nó, é escolhido um teste que separe melhor os exemplos de classes diferentes Maximização de critério de separação Nós terminais são criados ao atingir um critério de parada Ex.: todos os exemplos do nó pertencem à uma só classe

Árvores de Decisão - Construção
AD(Exemplos:E; Atributos:A; Alvo:C) Crie nó_raiz SE Critério_de_Parada ENTÃO Crie nó terminal associada à classe mais freqüente SENÃO Encontre atributo aj cujo teste de decisão maximize a separação dos exemplos que atinjem o nó - PARA CADA valor v do teste adicione nova sub-árvore - Sub_arvore = AE(E[aj = v], A – {aj}, C)

Exemplo: Play Tennis

Árvore de Decisão de Classificação
Próximos Dias Aprendizado Dados (dias anteriores) Classificador Play Tennis?

Árvore de Decisão: Play Tennis
Tempo Ensolarado Chuvoso Nublado Humidade Yes Vento Fraco Alta Normal Forte Não Sim Não Sim

Atributos Tempo Ensolarado Chuvoso Nublado Humidade Yes Vento Forte Fraco Alta Normal Não Sim Não Sim

Tempo Valores Ensolarado Chuvoso Nublado Humidade Yes Vento Forte Fraco Alta Normal Não Sim Não Sim

Tempo Ensolarado Chuvoso Nublado Humidade Yes Vento Forte Fraco Alta Normal Não Sim Não Sim Classificação

Play Tennis Cada percurso na árvore (da raiz à folha) corresponde a uma regra de classificação Se: (Tempo = Ensolarado  Humidade = Normal)  (Tempo = Nublado)  (Tempo = Chuvoso  Vento = Fraco) Então: Play Tennis? Sim

Regras Na forma: if-then
IF Outlook=Sunny  Humidity=Normal THEN PlayTennis=Yes IF Outlook=Overcast THEN PlayTennis=Yes IF Outlook=Rain  Wind=Weak THEN PlayTennis=Yes IF Outlook=Sunny  Humidity=High THEN PlayTennis=No IF Outlook=Rain  Wind=Strong THEN PlayTennis=Yes

Árvores de Decisão Escolha de testes de atributos
Como escolher o melhor atributo? Quantidade de Informações (Shannon Weaver – 1949) Entropia(S) = especifica o número mínimo de bits de informação necessário para codificar uma classificação de um membro arbitrário de S.

Entropia(S)= - p log2 p - p⊝ log2 p⊝
S é uma amostra dos exemplos de treinamento p é a proporção de exemplos positivos em S p⊝ é a proporção de exemplos negativos em S Entropia mede a “impureza” de S: Entropia(S)= - p log2 p - p⊝ log2 p⊝

Quantidade de Informações de um problema que pode tomar n valores: Exemplo: no caso do lançamento de uma moeda: bit

Para uma árvore de decisão com 2 possibilidades de resposta: Teste em um único atributo não nos dará informações suficientes A construção de uma árvore de decisão é guiada pelo objetivo de diminuir a aleatoriedade ou dificuldade de previsão, da variável que define as classes.

Um atributo escolhido A divide o conjunto de treinamento em sub-conjuntos E1, E2,..Ev de acordo com seus valores para A, onde A tem v valores distintos Ganho: Melhor atributo Maior Ganho

Ganho de Informação (Information Gain) O ganho de um atributo/teste é definido pela redução de Entropia proporcionada após a separação dos exemplos do nó Entropia do nó pai Entropia do nó filho ponderada pelo número de exemplos do nó

Propriedades da Entropia: Se todos os exemplos de E são da mesma classe então entropia assume valor mínimo Ent(C,E) = 0 Se todos as classes têm o mesmo número de exemplos em E então entropia assume valor máximo Qual o melhor atributo? Ganho(exemplos,Tempo)= MAX ! Ganho(exemplos,Humidade)=0.151 Ganho(exemplos,Vento)=0.048 Ganho(exemplos,Temperatura)=0.029

Lidando com atributos numéricos: Testes são da forma: atributo > valor Procedimento: Ordene os valores do atributo observados no conjunto de treinamento Considere a média de valores adjacentes como possíveis testes Por eficiência, considere apenas os valores onde são observadas mudanças de classe 54 95 Valores candidatos Temperatura: Classe: A A B B B A

Árvores de Decisão - Exemplo
Raíz: [9+; 5-] Entropia = - 9/14*log2(9/14) - 5/14*log2(5/14) = 0.940 Considerando teste com atributo Outlook Outlook = Sunny: [2+;3-] Entropia = - 2/5*log2(2/5) - 3/5*log2(3/5) = 0.971 Outlook = Overcast: [4+;0-] Entropia = - 4/4*log2(4/4) - 0/4*log2(0/4) = 0.0 Outlook = Rain: [3+;2-] Entropia = - 3/5*log2(3/5) - 2/5*log2(2/5) = 0.971 Média: 5/14* /14* /14*0.971 = 0.694 Ganho de Informação: = 0.246

Considerando os outros atributos: Ganho(Outlook, D) = 0.246 Ganho(Humit., D) = 0.151 Ganho(Wind, D) = 0.048 Ganho(Temp., D) = 0.029 Atributo Outlook é o escolhido na raíz

[9+; 5-] Entropia: 0.940 Outlook Sunny Rain Overcast [2+; 3-] Entropia: 0.971 [3+; 2-] Entropia: 0.971 Yes [4+; 0-] ? ? Humit.? Temp.? Wind? Humit.? Temp.? Wind?

Próximos atributos a serem testados Ganho(exemplossol, Humidade) = 0.97-(3/5)0-(2/5)0 = MAX ! Ganho(exemplossol,Temperatura) = 0.97-(2/5)0-(2/5)1-(1/5)0 = 0.570 Ganho(exemplossol,Vento) = 0.97-(2/5)1-(3/5)0.918 = 0.019 Chuvoso {D4,D5,D6,D10,D14} [3+, 2-] E > 0 ??? Tempo Nublado {D3,D7,D12,D13} [4+, 0-] E = 0 OK – Classif.: Sim Sol {D1,D2,D8,D9,D11} [2+, 3-] E > 0 ??? I(2/5, 3/5) = 0,97

Árvores de Decisão – Critérios de Parada
Totalidade (ou alternativamente, a maioria) do exemplos do nó pertencem a mesma classe Profundidade máxima para o nó Número mínimo de exemplos no nó Ganho pouco significativo no critério de separação Obs.: valores definidos como parâmetros do aprendizado

Avaliação do desempenho do algoritmo de aprendizagem
Curva de Aprendizado:

Critérios para escolha da melhor árvore
Obter estimativas confiáveis do erro a partir do conjunto de treinamento. Otimizar o erro num conjunto de validação independente do utilizado para construir a árvore. Minimizar: erro no treinamento dimensão da árvore

Ruído e Superadaptação
Algoritmo tenta modelar ruído nos dados Árvore gerada não funciona bem com dados não conhecidos Não é suficientemente generalizada Solução: Poda de atributos irrelevantes

Superadaptação (overfitting)
O algoritmo de partição recursiva do conjunto de dados gera estruturas que podem obter um ajuste aos exemplos de treinamento perfeito. Em domínios sem ruído o número de erros no conjunto de treinamento pode ser 0. Em problemas com ruído esta capacidade é problemática: A partir de uma certa profundidade as decisões tomadas são baseadas em pequenos conjuntos de exemplos. A capacidade de generalização para exemplos não utilizados no crescimento da árvore diminui.

Variação do erro com o número de nós

Superadaptação (overfitting)
Ockham’s razor: preferência pela hipótese mais simples. Existem menos hipóteses simples do que complexas. Se uma hipótese simples explica os dados é pouco provável que seja uma coincidência. Uma hipótese complexa pode explicar os dados apenas por coincidência.

Poda (Prunning) Forma de simplificar a árvore Duas possibilidades:
Pre-pruning Parar o crescimento da árvore mais cedo Post-pruning Costruir uma árvore completa e podar a árvore “Growing and pruning is slower but more reliable”

Algoritmo básico de poda
Percorre a árvore em profundidade Para cada nó de decisão calcula: Erro no nó Soma dos erros nos nós descendentes Se o erro no nó é menor ou igual à soma dos erros dos nós descendentes, o nó é transformado em folha.

Um algoritmo básico de pruning
Exemplo do nó B: Erro no nó = 2 Soma dos erros nos nós descendentes: 2 + 0 Transforma o nó em folha Elimina os nós descendentes. Exemplo do nó B: Erro no nó = 2 Soma dos erros nos nós descendentes: 2 + 0 Transforma o nó em folha Elimina os nós descendentes.

Utilização Prática As arvores de decisão costumam ser o primeiro método experimentado quando o método de classificação tem de ser extraído de um conjunto de dados. A saída de uma árvore de decisão é de fácil entendimento para um ser humano. Exigência legal para decisões financeiras. Propriedade não compartilhada por redes neurais.

Casos de sucesso Sistema GASOIL (BP)
Usado para determinar sistemas de separação de gás, óleo e água Aproximadamente 2500 regras Se tivesse sido feito manualmente levaria 10 pessoa-anos Levou 100 pessoa-dias utilizando árvore de decisão

Casos de sucesso Pilotos Automáticos
Mapeamentos de estados do sistema para as ações corretas Testes realizados com simuladores do Cessna exemplos criados a partir da observação de pilotos treinados utilizando o simulador O sistema gerado a partir da árvore de decisão cometia menos erros que pilotos humanos

Árvores de Decisão - Discussão
Vantagens: Geram modelos dos dados (i.e., método eager) Conhecimento interpretável Pouca sensibilidade a atributos irrelevantes Uma vez que implementam seleção de atributos Desvantagens: Em geral, menos precisos comparados com algoritmos como redes neurais e SVMs

Árvores de Decisão Diferentes versões de algoritmos podem ser encontradas na literatura Algoritmo ID3 – versão básica de AD para atributos categóricos, com InfoGain Algoritmo C4.5 – extensão do ID3 para atributos categóricos e numéricos, com GainRatio

Árvores de Decisão - no WEKA

Parâmetros Importantes confidenceFactor: ????? minNumObj: número mínimo de exemplos em uma folha numFold: controla a quantidade de exemplos de validação usados para poda

Árvore Gerada

Referências T. Mitchell, Machine Learning, Cap. 3, 1997.
M. Monard, J. Baranauskas, Indução de Regras e Árvores de Decisão, Sistemas Inteligentes, Cap. 5, 2005. J. R. Quinlan, Induction of Decision Trees, Machine Learning, Vol.1, N.1, 1986.

Árvores de Decisão Valmir Macário.

Apresentações semelhantes

Apresentação em tema: "Árvores de Decisão Valmir Macário."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Árvores de Decisão Valmir Macário.

Apresentações semelhantes

Apresentação em tema: "Árvores de Decisão Valmir Macário."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback