A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Apresentações semelhantes


Apresentação em tema: "Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast."— Transcrição da apresentação:

1 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast YesTrueNormalMildSunny YesFalseNormalMildRainy YesFalseNormalCoolSunny NoFalseHighMildSunny YesTrueNormalCoolOvercast NoTrueNormalCoolRainy YesFalseNormalCoolRainy YesFalseHighMildRainy YesFalseHighHotOvercast NoTrueHighHotSunny NoFalseHighHotSunny PlayWindyHumidityTempOutlook Do livro: Data Mining: Practical Machine Learning Tools and Techniques

2 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 2 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast YesTrueNormalMildSunny YesFalseNormalMildRainy YesFalseNormalCoolSunny NoFalseHighMildSunny YesTrueNormalCoolOvercast NoTrueNormalCoolRainy YesFalseNormalCoolRainy YesFalseHighMildRainy YesFalseHighHotOvercast NoTrueHighHotSunny NoFalseHighHotSunny PlayWindyHumidityTempOutlook Do livro: Data Mining: Practical Machine Learning Tools and Techniques

3 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 3 Construindo Árvores de Decisão Estratégia: top-down Aplica recursivamente a estratégia de divisão e conquista: –Seleciona o atributo para o nó raiz e cria um ramo para cada possível valor do atributo –Divide as instâncias em subconjuntos, sendo um para cada ramo originado no nó –Repetir o processo recursivamente para cada ramo, usando apenas as instâncias que atinjam aquele ramo –Parar se todas as instâncias forem da mesma classe

4 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 4 Construindo Árvores de Decisão Selecionando o atributo Do livro: Data Mining: Practical Machine Learning Tools and Techniques

5 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 5 Construindo Árvores de Decisão Selecionando o atributo –Qual o melhor atributo? Deseja-se obter a menor árvore possível Heurística: escolher o atributo que gere os nós mais puros –Uma medida bastante utilizada para se medir a impureza de um nó é a information gain, ou ganho de informação –Estratégia: escolher o atributo que apresente o maior ganho de informação

6 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 6 Construindo Árvores de Decisão Computando informação –Medida de informação: bits Dada uma probabilidade de distribuição, a informação requerida para predizer um evento é a chamada entropia da distribuição A entropia dá essa informação requerida em bits (podendo ter valores fracionados) –Fórmula para a entropia: –Obs: Entropia Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem. Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit: Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular. Entropia Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem. Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit: Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular.

7 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 7 Construindo Árvores de Decisão Computando informação –Exemplo para o atributo outlook: Outlook = Sunny Outlook = Overcast Outlook = Rainy Informação esperada para o atributo Normalmente é indefinido

8 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 8 Construindo Árvores de Decisão Computando o ganho de informação –Ganho de informação = informação antes da divisão – informação depois da divisão –Ganho de informação para os atributos

9 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 9 Construindo Árvores de Decisão Continuando a construção...

10 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 10 Construindo Árvores de Decisão Árvore Final Obs: nem toda folha necessita ser pura, fazendo com que algumas vezes, instâncias idênticas possam ter classes diferentes As divisões param quando os dados não puderem mais ser divididos

11 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 11 Construindo Árvores de Decisão Características desejadas para uma medida de pureza: –Quando um nó é puro, a medida deve ser zero; –Quando a impureza é máxima (classes igualmente prováveis), a medida deve ser máxima (um); –A medida deve obedecer à propriedade multiestágio, isto é, as decisões podem ser feitas em diversos estágios diferentes: Entropia é a única medida que satisfaz as 3 propriedades

12 Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 12 Construindo Árvores de Decisão Propriedades da Entropia –Propriedade Multiestágio: –Simplificação de Computação: –Obs: ao invés de maximizar o ganho de informação, poderíamos minimizar a informação


Carregar ppt "Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast."

Apresentações semelhantes


Anúncios Google