A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

FACENS – Engenharia da Computação Inteligência Artificial

Apresentações semelhantes


Apresentação em tema: "FACENS – Engenharia da Computação Inteligência Artificial"— Transcrição da apresentação:

1 FACENS – Engenharia da Computação Inteligência Artificial
Árvores de Decisão

2 Aprendizado de Máquina – Tópicos
Definições Algoritmos Exemplo

3 Árvores de Decisão - Definições
Uma árvore de decisão utiliza uma estratégia de dividir-para-conquistar: um problema complexo é decomposto em sub-problemas mais simples. recursivamente a mesma estratégia é aplicada a cada subproblema. Discriminação de uma árvore vem da: Divisão do espaço definido pelos atributos em sub-espaços. A cada sub-espaço é associada uma classe. Algoritmos ID3, CART, C4.5

4 Árvores de Decisão - Definições
Possui regras para classificar dados usando atributos. A árvore possui nós de decisão e nós folhas. Um nó de decisão é basicamente uma escolha entre N possibilidades (arcos). Cada um destes arcos possui um dos possíveis valores do atributo. Um nó folha é um resultado da classificação da árvore.

5 Árvores de Decisão - Exemplo
Jogar Tenis? Tempo ensolarado nublado chuvoso Umidade Não Vento alta normal forte fraco Não Sim Não Sim

6 Árvores de Decisão – ID3 Um algoritmo para construir uma árvore de decisão. Proposto por J. Ross Quinlan in 1979. Utiliza da Teoria da Informação de Shannon (1948). Constrói a árvore em uma estrutura top down. O conceito de ganho de informação é usado para selecionar os atributos mais significativos para a classificação.

7 Árvores de Decisão – ID3 Um algoritmo para construir uma árvore de decisão. Proposto por J. Ross Quinlan in 1979. Utiliza da Teoria da Informação de Shannon (1948). Constrói a árvore em uma estrutura top down. O conceito de ganho de informação é usado para selecionar os atributos mais significativos para a classificação.

8 Árvores de Decisão – Entropia
Uma fórmula para calcular o quanto uma amostra é homogênea. Uma amostra completamente homogênia tem entropia zero. Uma amostra completamente heterogência tem entropia 1. A fórmula da entropia é:

9 Árvores de Decisão – Ganho de Informação
Uma fórmula para calcular o quanto uma amostra é homogênea. Uma amostra completamente homogênia tem entropia zero. Uma amostra completamente heterogência tem entropia 1. A fórmula da entropia é:

10 Árvores de Decisão – Ganho de Informação
O ganho de informação é baseado na redução de entropia depois que um conjunto de dados é dividido a partir de um atributo. Qual atributo gera os ramos mais homogêneos? Primeira calcula-se a entropia total do conjunto de dados O conjunto de dados é então dividido usando os diferentes atributos A entropia de cada ramo é calculada e subtraída da entropia total antes da divisão O resultado é o ganho de informação (IG) O atributo com o maior IG é escolhido como nó de decisão Se o ramo tiver entropia zero, ele é um nó folha O processo se repete recursivamente

11 Árvores de Decisão – Exemplo
Pessoa Cabelo (cm) Peso Idade Classe Homer 100 36 M Marge 25 60 34 F Bart 5 20 10 Lisa 50 8 Maggie 1 Abe 3 70 Selma 80 41 Otto 65 38 Krusty 15 90 45 Comic 8” 290 38 ?

12 não sim Dividindo por Cabelo
E(4F,5M) = -(4/9)log2(4/9) - (5/9)log2(5/9) = sim não Cabelo <= 12? Dividindo por Cabelo E(1F,3M) = -(1/4)log2(1/4) - (3/4)log2(3/4) = E(3F,2M) = -(3/5)log2(3/5) - (2/5)log2(2/5) = Ganho(Cabelo <= 12) = – (4/9 * /9 * ) =

13 não sim Dividindo por Peso
E(4F,5M) = -(4/9)log2(4/9) - (5/9)log2(5/9) = sim não Peso <= 60? Dividindo por Peso E(4F,1M) = -(4/5)log2(4/5) - (1/5)log2(1/5) = E(0F,4M) = -(0/4)log2(0/4) - (4/4)log2(4/4) = 0 Ganho(Peso <= 60) = – (5/9 * /9 * 0 ) =

14 não sim Dividindo por Idade
E(4F,5M) = -(4/9)log2(4/9) - (5/9)log2(5/9) = sim não Idade <= 40? Dividindo por Idade Entropy(3F,3M) = -(3/6)log2(3/6) - (3/6)log2(3/6) = 1 Entropy(1F,2M) = -(1/3)log2(1/3) - (2/3)log2(2/3) = Ganho(Idade <= 40) = – (6/9 * 1 + 3/9 * ) =

15 Árvores de Decisão – Exemplo
Dos três atributos, peso foi o melhor. Entretanto, nem todos foram classificados corretamente. Sendo assim, rodamos o processo de novo para o subconjunto da esquerda! Como classificar estes novos casos? sim não Peso <= 60? sim não Cabelo <= 12?

16 We need don’t need to keep the data around, just the test conditions.
Weight <= 160? yes no How would these people be classified? Hair Length <= 2? Male yes no Male Female

17 Referências Quinlan, J.R. 1986, Machine Learning, 1, 81
Professor Sin-Min Lee, SJSU. ID3 Algorithm. Allan Neymark. CS157B – Spring 2007.


Carregar ppt "FACENS – Engenharia da Computação Inteligência Artificial"

Apresentações semelhantes


Anúncios Google