Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast.

Slides:



Advertisements
Apresentações semelhantes
Árvores CC/EC/Mestrado Teoria dos Grafos ‏ 1.
Advertisements

Software Básico Silvio Fernandes
Inteligência Artificial
Indução de Árvores de Decisão
Solved Exercises 1. Finding the Peak. Let A= a1,…,an be a sequence of n numbers with the following property: there is p in {1,…,n} for which (i) the.
Mineração de Dados Avaliação de Classificadores
Modelos de Mineração de Dados
Sistemas de Apoio à Decisão (SAD) Helena Galhardas
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
Aprendizado de Máquinas
Geometria Computacional Interseção de Segmentos
Reconhecimento de Padrões Teoria da Decisão Bayesiana
Medida do Tempo de Execução de um Programa
Capítulo 7 Teste de Hipóteses
INSTITUTO TECNOLÓGICO DE AERONÁUTICA MESTRADO PROFISSIONAL EM PRODUÇÃO
APRENDIZAGEM COM CONHECIMENTO A PRIORI
FACENS – Engenharia da Computação Inteligência Artificial
Aprendizagem a partir de observações
DATA MINING Inteligência Artificial
Instituto Tecnológico da Aeronáutica – ITA Divisão de Ciência de Engenharia Eletrônica e Computação EE-09 Inteligência Artificial Prof. Adilson Marques.
TEORIA DAS RESTRIÇÕES Prof Samir Silveira.
Sistemas Inteligentes
3. Árvore de Decisão.
CAPÍTULO I- TEORIA DAS PROBABILIDADE
T ÓPICOS DE I.A. Métodos de Busca Busca em Espaços de Estado Prof. Mário Dantas.
Aprendizado de Máquina Aula 13
Aprendizado de Árvores de Decisão
Informática Teórica Engenharia da Computação
Prof. Sergio Queiroz CIn-UFPE
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
Avaliação da Viabilidade Econômico-Financeira em Projetos
VALORES ESPERADOS.
Função de uma Variável Aleatória
Coordenação Geral de Ensino da Faculdade
DISTRIBUIÇÕES AMOSTRAIS
Universidade Católica de Pelotas Mestrado em Ciência da Computação
Uma ação muito comum em relação ao tratamento de uma distribuição de dados é agrupamento, que consiste em agrupar conjuntos grandes de dados antes de efetuar.
Introdução e Busca Cega
Sistemas Inteligentes
Indução de Árvore de Decisão
Sistemas Inteligentes
Redes Bayesianas - Aplicação em Risco Operacional
UML Significado da Associação entre Classes
Inferência Estatística
Aula 5 - Método experimental ou de seleção aleatória
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
Árvores de Decisão Valmir Macário.
1 Naïve Bayesian Learning Marcílo Souto DIMAp/UFRN.
1 Árvores de Decisão Marcílio Souto DIMAp/UFRN. 2 Árvores de Decisão – ADs (1/4) zForma mais simples: yLista de perguntas  respostas “sim” ou “não” yHierarquicamente.
Economia e Gestão ESAPL - IPVC
Intervalo de Confiança para Proporção
Mineração de Dados: Classificação e Predição
Estratégia empresarial de TI Aula 1 – Decisão sob incerteza Prof. E. A. Schmitz.
Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde Materno-Infantil 2011 BIOESTATÍSTICA-aula 2 Prof. Cristina Ortiz Valete.
24/4/2015IA - Prof. Paulemir Campos1 WEKA UPE – Caruaru – Sistemas de Informação Disciplina: Inteligência Artificial Prof.: Paulemir G. Campos.
Classificação: conceitos básicos e árvores de decisão
Prof. Alexandre Monteiro Recife
Aprendizagem de regras proposicionais de classificação e associação TAIAS 2 Ivan Teixeira João Batista.
Inteligência Artificial I
Regras. Regras Rudimentarias 1R: aprende uma regra por atributo  atribuí a classe mais freqüente  taxa de erro: proporção de instâncias que não pertence.
Aprendizado Baseado em Instancias. Introdução Em contraste aos métodos de aprendizado que constroem uma descrição explicita genérica da função alvo. Os.
Paradigmas de Mineração de Dados
Aprendizado de Máquinas
Disciplina Engenharia da Qualidade II
Aprendizagem Simbólica
FEATURE SELECTION. Introdução  Estudo de metodologias relacionadas a seleção de atributos  Maldição da dimensionalidade  O número de atributos do desenvolvedor.
Aula Pratica Aprendizagem WEKA Prof. Ivan Gesteira Costa Filho Centro de Informática Universidade Federal de Pernambuco.
Mineração de Dados (Data Mining)
Conceitos básicos da teoria da informação e as medidas de desigualdade de Theil Cap. 4 – Distribuição de renda – Medidas de desigualdade e Pobreza – Rodolfo.
Conceitos básicos da teoria da informação e as medidas de desigualdade de Theil (1967) Cap. 4 – Distribuição de renda – Medidas de desigualdade e Pobreza.
Transcrição da apresentação:

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 1 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast YesTrueNormalMildSunny YesFalseNormalMildRainy YesFalseNormalCoolSunny NoFalseHighMildSunny YesTrueNormalCoolOvercast NoTrueNormalCoolRainy YesFalseNormalCoolRainy YesFalseHighMildRainy YesFalseHighHotOvercast NoTrueHighHotSunny NoFalseHighHotSunny PlayWindyHumidityTempOutlook Do livro: Data Mining: Practical Machine Learning Tools and Techniques

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 2 Construindo Árvores de Decisão NoTrueHighMildRainy YesFalseNormalHotOvercast YesTrueHighMildOvercast YesTrueNormalMildSunny YesFalseNormalMildRainy YesFalseNormalCoolSunny NoFalseHighMildSunny YesTrueNormalCoolOvercast NoTrueNormalCoolRainy YesFalseNormalCoolRainy YesFalseHighMildRainy YesFalseHighHotOvercast NoTrueHighHotSunny NoFalseHighHotSunny PlayWindyHumidityTempOutlook Do livro: Data Mining: Practical Machine Learning Tools and Techniques

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 3 Construindo Árvores de Decisão Estratégia: top-down Aplica recursivamente a estratégia de divisão e conquista: –Seleciona o atributo para o nó raiz e cria um ramo para cada possível valor do atributo –Divide as instâncias em subconjuntos, sendo um para cada ramo originado no nó –Repetir o processo recursivamente para cada ramo, usando apenas as instâncias que atinjam aquele ramo –Parar se todas as instâncias forem da mesma classe

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 4 Construindo Árvores de Decisão Selecionando o atributo Do livro: Data Mining: Practical Machine Learning Tools and Techniques

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 5 Construindo Árvores de Decisão Selecionando o atributo –Qual o melhor atributo? Deseja-se obter a menor árvore possível Heurística: escolher o atributo que gere os nós mais puros –Uma medida bastante utilizada para se medir a impureza de um nó é a information gain, ou ganho de informação –Estratégia: escolher o atributo que apresente o maior ganho de informação

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 6 Construindo Árvores de Decisão Computando informação –Medida de informação: bits Dada uma probabilidade de distribuição, a informação requerida para predizer um evento é a chamada entropia da distribuição A entropia dá essa informação requerida em bits (podendo ter valores fracionados) –Fórmula para a entropia: –Obs: Entropia Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem. Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit: Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular. Entropia Na Teoria da Informação, a entropia da informação, ou entropia de Shannon, é uma medida da incerteza associada a uma variável aleatória. Quantifica a informação contida em uma mensagem, usualmente em bits ou bits/símbolo. É o tamanho mínimo da mensagem para comunicar informação, isto é, para conter todos os valores ou significados desta mensagem. Ex: para uma variável que representa o sexo de uma pessoa, a entropia é 1, pois tal conceito pode ser expresso em 1 bit: Na Física, entropia é um conceito da Termodinâmica que está associado à desordem molecular.

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 7 Construindo Árvores de Decisão Computando informação –Exemplo para o atributo outlook: Outlook = Sunny Outlook = Overcast Outlook = Rainy Informação esperada para o atributo Normalmente é indefinido

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 8 Construindo Árvores de Decisão Computando o ganho de informação –Ganho de informação = informação antes da divisão – informação depois da divisão –Ganho de informação para os atributos

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 9 Construindo Árvores de Decisão Continuando a construção...

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 10 Construindo Árvores de Decisão Árvore Final Obs: nem toda folha necessita ser pura, fazendo com que algumas vezes, instâncias idênticas possam ter classes diferentes As divisões param quando os dados não puderem mais ser divididos

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 11 Construindo Árvores de Decisão Características desejadas para uma medida de pureza: –Quando um nó é puro, a medida deve ser zero; –Quando a impureza é máxima (classes igualmente prováveis), a medida deve ser máxima (um); –A medida deve obedecer à propriedade multiestágio, isto é, as decisões podem ser feitas em diversos estágios diferentes: Entropia é a única medida que satisfaz as 3 propriedades

Departamento de Informática – Marcos Henrique Fonseca Ribeiro – Slide 12 Construindo Árvores de Decisão Propriedades da Entropia –Propriedade Multiestágio: –Simplificação de Computação: –Obs: ao invés de maximizar o ganho de informação, poderíamos minimizar a informação