Aprendizagem de Máquina

Slides:



Advertisements
Apresentações semelhantes
«Forte do Bom Sucesso (Lisboa) – Lápides 1, 2, 3» «nomes gravados, 21 de Agosto de 2008» «Ultramar.TerraWeb»
Advertisements

AULA 02 PROGRAMAÇÃO LINEAR INTEIRA
Inteligência Artificial
UNICAMP Universidade Estadual de Campinas Centro Superior de Educação Tecnológica Divisão de Telecomunicações Propagação de Ondas e Antenas Prof.Dr. Leonardo.
INFORMAÇÕES COMPLEMENTARES
AULA 8 Profa. Sandra de Amo GBC053 – BCC
O Modelo de Jesus para Crescimento e Serviço
A busca das mulheres para alcançar seu espaço dentro das organizações
Material pedagógico Multiplicar x 5 Clica!
Vamos contar D U De 10 até 69 Professor Vaz Nunes 1999 (Ovar-Portugal). Nenhuns direitos reservados, excepto para fins comerciais. Por favor, não coloque.
Capa Disciplina: Ajustamento de Observações
Exercício do Tangram Tangram é um quebra-cabeças chinês no qual, usando 7 peças deve-se construir formas geométricas.
Nome : Resolve estas operações começando no centro de cada espiral. Nos rectângulos põe o resultado de cada operação. Comprova se no final.
Sumário Bem ou serviço compósito = dinheiro Exercícios 2 Exercícios 3.
HAC MD -junho/ Noções de algoritmos e estudo de casos das principais tarefas de Mineração de dados.
O padrão de gerenciamento de projetos de um projeto
Curso de ADMINISTRAÇÃO
Aprendizado de Máquina
Método de Acesso Dinâmico - B-Tree AULA 14 Profa. Sandra de Amo Programa de Pós-Graduação em CC - UFU Sistemas de Banco de Dados
Revisão Prova 2 Métodos de Acesso: BTree e Hash AULA 20 Profa. Sandra de Amo GBC053 – BCC
Relações Adriano Joaquim de O Cruz ©2002 NCE/UFRJ
1 Complexidade de Algoritmos Complexidade de pior caso Complexidade de melhor caso de uso bem menos freqüente em algumas situações específicas Complexidade.
Árvores.
EXPRESSÕES ARITMÉTICAS
Reconhecimento de Padrões Seleção de Características
Rodrigo Geraldo Ribeiro Denis Pinto Pinheiro Camila Leles Rezende
FACENS – Engenharia da Computação Inteligência Artificial
Crescimento Econômico Brasileiro : Uma Visão Comparada de Longo Prazo Prof. Giácomo Balbinotto Neto UFRGS.
FUNÇÃO MODULAR.
Aula 4 Nomes, Vinculações, Tipos e Escopos
O que é 5(S)? ? 5(S) É a prática de hábitos que permitem mudanças nas relações... É a base de qualquer programa de qualidade. 1.
Mecânica dos Sólidos não Linear
INF 1771 – Inteligência Artificial
Provas de Concursos Anteriores
Davyd Bandeira de Melo Um Sistema de Reconhecimento de Comandos de Voz Utilizando a Rede Neural ELM Junho 2011.
APRESENTAÇÃO Está prevista a utilização de 6 aulas (6 blocos de 90 minutos) para o ensino do Subtema das Funções Quadráticas. Todas as aulas servirão.
Problemas Numéricos com Representação por Números Reais
Renda até 2 SM.
MECÂNICA - ESTÁTICA Cabos Cap. 7.
Diagnósticos Educativos = Diagnósticos Preenchidos 100% = 1.539
ESTATÍSTICA.
Aprendizado de Máquina Aula 13
(CESPE/ Técnico Judiciário do TRT 17ª Região/ES) O Superior Tribunal de Justiça entende que o candidato aprovado em concurso público dentro do limite.
MECÂNICA - DINÂMICA Exercícios Cap. 13, 14 e 17. TC027 - Mecânica Geral III - Dinâmica © 2013 Curotto, C.L. - UFPR 2 Problema
Inteligência Artificial
1 CENTRO DE DESENVOLVIMENTO E PLANEJAMENTO REGIONAL – 2006 P Ó S-GRADUA Ç ÃO EM ECONOMIA Microeconomia I Prof.: Edson Domingues Cap í tulo II: Escolha.
Classificação. Classificação: Atribuição a uma classe (rótulo de um atributo categórico). Classifica dados (constrói um modelo) baseado em um conjunto.
CATÁLOGO GÉIA PÁG. 1 GÉIA PÁG. 2 HESTIA PÁG. 3.
Estruturas de Dados com Jogos
Estruturas de Dados com Jogos
Estruturas de Dados com Jogos
Lemas (Sudkamp)  .
Trabalho sobre Cor Thiago Marques Toledo.
Coordenação Geral de Ensino da Faculdade
Métodos de Classificação por Árvores de Decisão
Plataforma Brasil – Submissão de pesquisa
Estudo dos Gases Prof. Fabio Costa.
Projeto Marcas que Eu Gosto 1 PROJETO MARCAS QUE EU GOSTO Estudos Quantitativo de Consumidores Janeiro / 2005.
Modelagem Estatística
C ORROPIOS, C ARDINCHAS E C ÃES G RANDES O LIVRO de José Paixão em imagens – com pistas de leitura propostas por por www.joraga.net.
Indução de Árvore de Decisão
DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA Seleção de Características.
Estatística Aula 9 – 28/02/2011.
Redes Neuronais/Neurais/ Conexionistas Introdução
1 Aplicações do Fecho Regular. 2 A interseção de uma linguagem livre de contexto e uma linguagem regular é uma linguagem livre de contexto livre de contexto.
Olhe fixamente para a Bruxa Nariguda
Máquina de Turing Universal
O Processo de KDD Data Mining SUMÁRIO - AULA1 O processo de KDD
NOÇÕES DE PROBABILIDADE
Inteligência Artificial I
Transcrição da apresentação:

Aprendizagem de Máquina (Machine Learning) Filipo Studzinski Perotto Luís Otávio Álvares Porto Alegre, Junho de 2008.

Sumário Introdução Aprendizagem Supervisionada Aprendizagem Não-Supervisionada Aprendizagem por Reforço

Comportamento Inteligente Introdução Comportamento Inteligente X Aprendizagem

Como pré-programar toda a solução para problemas complexos e dinâmicos?

Aplicações Bem-Sucedidas • Aprender a reconhecer palavras faladas • Aprender a conduzir um veículo • Aprender a classificar estruturas astronômicas • Aprender a jogar • Aprender a classificar e-mails • Descoberta de relações em bases de dados

Definindo Aprendizagem de Máquina Um sistema apresenta aprendizagem se ele é capaz de transformar-se adaptativamente a partir das próprias experiências Portanto, num problema de aprendizagem bem formulado identificamos 3 fatores: a classe das tarefas T a medida de desempenho a ser melhorada P e a fonte de experiência (treinamento) E. “Aprendizagem denota mudanças em um sistema que são adaptativas no sentido de que elas capacitam o sistema a fazer a mesma tarefa, ou tarefas similares, mais eficiente e efetivamente na próxima vez” (Simon, 1983) “Aprender é um processo multifacetado. O processo de aprendizagem inclui a aquisição de novos conhecimentos declarativos, o desenvolvimento de habilidades motoras e cognitivas através da prática ou de instrução, a organização de novos conhecimentos em representações gerais e efetivas, e a descoberta de novos fatos e teorias através da observação e da experimentação (...). O estudo e modelagem computacional dos processos de aprendizagem em suas múltiplas manifestações constitui o problema da ‘Aprendizagem de Máquina’”. (Carbonell, Michalski, Mitchell, 1983)

Aprendizagem Supervisionada Existe um “professor” Fonte externa indica certo e errado “Aprendizagem denota mudanças em um sistema que são adaptativas no sentido de que elas capacitam o sistema a fazer a mesma tarefa, ou tarefas similares, mais eficiente e efetivamente na próxima vez” (Simon, 1983) “Aprender é um processo multifacetado. O processo de aprendizagem inclui a aquisição de novos conhecimentos declarativos, o desenvolvimento de habilidades motoras e cognitivas através da prática ou de instrução, a organização de novos conhecimentos em representações gerais e efetivas, e a descoberta de novos fatos e teorias através da observação e da experimentação (...). O estudo e modelagem computacional dos processos de aprendizagem em suas múltiplas manifestações constitui o problema da ‘Aprendizagem de Máquina’”. (Carbonell, Michalski, Mitchell, 1983)

Classificação Definição do Problema Dados: Encontrar: Um conjunto de exemplos de treinamento na forma (entrada-saída) Encontrar: uma função geral capaz de prever adequadamente as saídas para novos exemplos, por representar, em princípio, a função geradora dos exemplos de treinamento Definição: “O problema da aprendizagem supervisionada envolve a aprendizagem de uma função a partir de exemplos de suas entradas e suas saídas” (R, N, 2004) Métodos Numéricos Reconhecimento de Padrões Métodos Simbólicos Derivação de uma descrição universal a partir de instâncias positivas e negativas do conceito

Abordagem Conexionista Rede Neural / Máquinas de Núcleo O conhecimento da rede fica armazenado nos pesos das ligações entre os nós O conhecimento é distribuído: uma unidade pode participar de diversos padrões um padrão pode estar ligado à diversas unidades “Modelos conexionistas tipicamente consistem de muitos elementos processadores simples, como os neurônios, chamados de ‘unidades’, que interagem através de conexões com pesos. Cada unidade está em um ‘estado’ ou num ‘nível de ativação’ que é determinado pela entrada recebida de outras unidades da rede.” (Hinton, 1990)

Abordagem Estatística Modelo Incremental: inicia com uma hipótese a priori da distribuição atualiza a distribuição conforme recebe os exemplos

Rede Bayesiana: Hábito 1 Hábito 2 Hábito 3 Sintoma 1 Sintoma 2 Sintoma 3 Filtro Bayesiano:

Aprendizagem de Conceitos Dados: Um Espaço de Características Um conjunto de exemplos de treinamento Características (f1, f2, f3, ..., fn) Rótulo z Encontrar: Um Modelo de Classificação “Maldição da Dimensionalidade”: o número de classificadores que devem ser considerados aumenta exponencialmente com o número de atributos do conjunto de dados, ficando mais difícil para o algoritmo de aprendizagem encontrar um modelo preciso (Bellman, 1961).   “O número de exemplos necessários para se aprender um certo conceito cresce exponencialmente de acordo com o número de atributos” (Valiant, “A Theory of The Learnable”, 1984). Definição: A entrada para um algoritmo de classificação é um conjunto de n exemplos de treinamento. Cada exemplo X é um elemento do conjunto F1 x F2 x ... x Fm, onde Y é o rótulo. Dada uma instância, denotamos o valor do atributo Xi por xi. A tarefa do algoritmo de aprendizagem é induzir uma estrutura (modelo de classificação) tal que, dada uma nova instância Z, seja possível prever com precisão o rótulo de Z (John et al. ICML, 1994). Seleção de Atributos: Descoberta de um subconjunto dos atributos tal que um modelo de classificação criado a partir desse subconjunto tenha maior poder de classificação do que um modelo criado com o conjunto completo de atributos. Além da maior capacidade preditiva, outros benefícios da seleção de atributos incluem uma redução na quantidade de exemplos de treinamento necessários para se induzir um modelo de classificação. Descobrir e selecionar atributos que são relevantes para a tarefa que está sendo aprendida. Entradas Modelo Saídas

Melhor Hipótese Corrente H ← Qualquer Hipótese consistente com o 1º Exemplo Para cada Novo Exemplo faça: Se é falso positivo para H então: H ← Especialização de H (+ condições) Se é falso negativo para H então: H ← Generalização de H (- condições)

Mundo dos Blocos + + - Um Arco é: - 2 blocos azuis em pé paralelos - um bloco azul sobre os outros dois + Um Arco é: - 2 blocos de qualquer cor em pé paralelos - um bloco sobre os outros dois - Um Arco é: - 2 blocos em pé separados e paralelos - um bloco sobre os outros dois

Espaço de Versões Preserva todas as Hipóteses Válidas Representação: G (Conjunto de Hipóteses mais Gerais) S (Conjunto das Hipóteses mais Específicas) Conjunto Parcialmente Ordenado Atualização do Espaço de Versões: Especializa G com um falso positivo Generaliza S com um falso negativo

+ - S G1 G2

Hipóteses mais Gerais G1 G2 G3 G4 G5 ... Gn S1 S2 S3 S4 S5 ... Sm ... Hipóteses mais Específicas

Árvores de Decisão Nós Superiores: Testes de Discriminação Folhas: Fn ... Folhas: Rótulo da Classe y1 ym

Prejuízo Situação Explicação Atitude Alto Anonimato Boa Ficar Médio Ruim Correr Evidência Baixo ...

Prejuízo Explicação Anonimato médio baixo alto não sim boa ruim Correr Ficar

Indução de Árvores de Decisão S inicial = o conjunto de todos os exemplos de treinamento; SE todos os elementos em S satisfazem o critério de parada, ENTÃO: Cria um Nó Folha, caracterizando uma classe; SENÃO Seleciona um Atributo A Cria um Nó de Discriminação baseado em A; Particiona S em subconjuntos, conforme A; Aplica o algoritmo recursivamente em cada subconjunto;

Indução: passo 1 O + O + + O + O O O + +

Indução: passo 2 O + O + O + O O + + + +

Indução: passo 3 ... n + + + O O O O O + O +

Construção da Árvore Complexidade Critério de Escolha dos Atributos Discriminantes Critério de Parada do Particionamento Objetivo: minimizar a árvore Complexidade Encontrar a árvore mínima é NP-Completo Saída: Utilização de Heurísticas

Critério para Seleção de Atributos Baseado no Ganho de Informação Um bom candidato separa bem os exemplos entre as classes Critério de Ganho: Redução Esperada da Entropia Entropia Quantidade de Informação necessária para fazer a descrição dos elementos do conjunto Muitas classes misturadas e homogeneamente distribuídas dentro de um grupo representam alta entropia Entropia( 50% / 50%) = 1 Entropia( 100% / 0%) = 0

Superadaptação Ramos excessivos que não contribuem significativamente para a classificação Poda Pode considerar Taxa de Erro Limite Mínimo de Ganho Pode ser feita Durante a construção (limite como critério de parada) Depois da construção (revisão) Substitui uma subárvore por uma folha

Generalização Adequada? Superadaptado? Da mesma maneira que ocorre com as Redes Bayesianas, também precisamos entender como encontrar a melhor estrutura de rede. Se escolhermos uma rede muito grande, ela será capaz de memorizar todos os exemplos, formando uma extensa tabela de busca, mas não irá necessariamente realizar boas generalizações para entradas que não foram vistas antes. Em outras palavras, como todos os modelos estatísticos, as redes neurais estão sujeitas à superadaptação (overfitting) quando existe um número muito grande de parâmetros no modelo” (R,N) “O problema de escolher com antecedência o número correto de unidades ocultas ainda não está bem compreendido” (R,N) Generalização Adequada?

Aprendizagem Computacional Provavelmente Correta Aproximadamente Correta Conjunto suficientemente grande de exemplos de treinamento É quase certo que qualquer hipótese que esteja seriamente errada será ‘desmascarada’ com alta probabilidade após um pequeno número de exemplos. Qualquer hipótese que seja consistente com um conjunto suficientemente grande de exemplos de treinamento terá pouca probabilidade de estar seriamente errada.

Aprendizagem Não-Supervisionada Não há exemplos nem classes pré-definidas Domínios naturalmente divididos em classes Análise de padrões nos dados de entrada através da distribuição no espaço Análise de correlações e coincidências Descoberta de Conhecimento “São regiões contínuas de um espaço contendo uma alta densidade relativa de pontos, separada de outras regiões como esta por regiões contendo baixa densidade relativa de pontos” (Aldenderfer e Blashfield, 1984). “O domínio é naturalmente dividido em classes. (...) Estes conceitos tem de ser induzidos a partir da regularidade dos dados” (Harry, Langley Fischer, 1990) Entradas Modelo

Clusterização Dados: Encontrar: Definição do Problema Um Espaço de Características Um Conjunto de Instâncias situadas nesse espaço Encontrar: Grupos de entidades similares (Clusters) Regiões com alta densidade relativa de pontos no espaço Definição: “O problema da Aprendizagem Não-Supervisionada envolve a aprendizagem de padrões na entrada, quando não são fornecidos valores de saída específicos (...). Um agente puramente não-supervisionado não pode aprender o que fazer, porque não tem nenhuma informação do que constitui uma ação correta ou um estado desejável” (R,N, 2004)

Exemplo:

Método Hierárquico Divisivo Todos os objetos são inicialmente alocados a um único grupo, e esse vai sendo dividido (ou partido) em grupos menores. Geral Sub1 Sub2 Sub n ... teste de discriminação

Método de Centróides Pontos representativos de possíveis conceitos são espalhados inicialmente no espaço de entradas. Cada um desses pontos conceituais vai se aproximando da nuvem de pontos de entrada mais próxima.

K= Número de Agrupamentos Inicialização Aleatória 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Atualiza Médias Reassocia Atualiza Médias

Problema: Desequilíbrio na distribuição dos centros...

Aprendizagem por Reforço Metáfora do Agente: Idéia de interação contínua Agente Percepções Reforço (+/-) Ação Ambiente “Uma política é um mapeamento dos estados percebidos no ambiente para ações a serem tomadas quando se está nesses estados. Corresponde ao que em psicologia pode ser chamado de um conjunto de associações ou regras de estímulo-resposta” (S,B).

Política de Ações Definição do Problema Dados: Encontrar: Um Agente em um Ambiente A cada instante de tempo: o agente está em um estado s executa uma ação a vai para um estado s’ recebe uma recompensa r Encontrar: uma política de ações que maximize o total de recompensas recebidas pelo agente

Questão da Autonomia Como um agente aprende a escolher ações apenas interagindo com o ambiente? Muitas vezes, é impraticável o uso de aprendizagem supervisionada Como obter exemplos do comportamento correto e representativo para qualquer situação? E se o agente for atuar em um ambiente desconhecido?

A Função de Recompensa Feedback do ambiente sobre o comportamento do agente Indicada por r:(S  A) R r(s,a) indica a recompensa recebida quando se está no estado s e se executa a ação a Pode ser determinística ou estocástica

Política de Ações Aprendizagem por Reforço Aprendizagem Incremental não há exemplos existe um feedback do ambiente (recompensa) que avalia o comportamento do agente Aprendizagem Incremental Desempenho + Exploração O agente precisa aprender o que fazer, sem receber exemplos das ações corretas (isto é, sem supervisão). É necessário haver, mesmo assim, alguma realimentação sobre o que é bom e o que é ruim, pois sem isso, o agente não tem base para decidir. Essa realimentação é a recompensa ou o reforço. A recompensa pode ser implementada como um item no conjunto de entradas, mas diferentemente dos outros sensores, ela deve ser programada para ter valor para o agente” (R,N) “A tarefa de aprendizagem por reforço consiste em usar recompensas observadas para aprender uma política ótima (ou quase ótima) para o ambiente” (R, N)

Estimativa da Recompensa Recompensas Utilidade 10 3 4 6 8 10 2 1

Métodos de Função de Utilidade U(s) : (S  R) Cálculo da Função de Utilidade do Estado: Faz uma tabela com a utilidade de cada estado Utilidade é a estimativa de recompensas futuras Constrói um Modelo de Transição de Estados Algotitmos: TD, PDA

Métodos de Valor das Ações Q(s,a) : (S  A)  R Cálculo do Valor das Ações: Faz uma tabela com o valor de cada par (estado-ação) Avalia cada par (estado-ação) pelas recompensas Método Livre de Modelo Algoritmos: Q-Learning

Estimativa da Recompensa A idéia: R := Rt + *Rt+1 + 2*Rt+2 + ... Rt é a Recompensa da ação atual  é um fator de desconsideração para as recompensas previstas nos passos futuros

Estimativa da Recompensa Atualização da Tabela Utilidade do Estado: V = R + (V[s’]) U[s]  U[s] + (V - U[s]) Atualização da Tabela Valor da Ação: V = R +  maxa’ (Q[s’, a’]) Q[a,s]  Q[a,s] + (V - Q[a,s])

Exemplo: Labirinto (=0.9) Função recompensa Função V* Função Q* Uma política de ações ótima

Abordagem Evolutiva Sistemas Classificadores Constrói um conjunto de regras (estado, ação) Aplica Algoritmos Genéticos neste conjunto Recompensas avaliam a força das regras Descoberta (Algoritmos Genéticos) Desempenho (Sistema Classificador) Atribuição de Crédito (Bucket Brigade) Entrada Recompensa Saída Criar Regras Avaliar Regras Escolher Regras

Algoritmo Q-Learning Para todo estado s e ação a, inicialize a tabela Q[s][a] = 0; Para sempre, faça: Observe o estado atual s; Escolha uma ação a e execute; Observe o próximo estado s’ e recompensa r Atualize a tabela Q: V = R +  maxa’ (Q[s’, a’]) Q[a,s]  Q[a,s] + (V - Q[a,s])

Q-Learning Atualiza-se Q(st) após observar o estado st+1 e recompensa recebida Q(s1,aright) = r + maxa’Q(s2,a’) = 0 + 0.9 max{63,81,100} = 90

Dilema aproveitamento-exploração Na aprendizagem por reforço ativa o agente enfrenta dilema aproveitamento-exploração: Quando gulosamente aproveitar da estimação atual da função valor e escolher ação que a maximiza? Quando curiosamente explorar outra ação que pode levar a melhorar estimação atual da função valor? Taxa de exploração = proporção de escolhas curiosas Geralmente se começa com uma taxa de exploração alta que vai decrescendo com tempo

Exemplos Arm Robot Problem: http://www.applied-mathematics.net/

Maldição da Dimensionalidade o número de estados possíveis cresce exponencialmente com a quantidade de características representadas Conseqüentemente o tempo de treinamento e número de exemplos necessários também Q-Learning só pode ser aplicado a problemas relativamente pequenos

Questão: É melhor aprender um modelo e uma função de utilidade ou apenas uma função de ação-valor sem modelo? Qual o limite dessa idéia de aprendizagem?

Aprendizagem de Máquina Filipo Studzinski Perotto Luís Otávio Álvares Porto Alegre, Junho de 2008.

Problema da Estrutura Hábito 1 Hábito 2 Hábito 3 Sintoma 1 Sintoma 2 Aprendizagem de Variáveis Ocultas criar e destruir variáveis problema: complexidade exponencial Hábito 1 Hábito 2 Hábito 3 Sintoma 1 Sintoma 2 Sintoma 3 Doença

Indução de Árvores de Decisão

Máquinas de Núcleo Aumentar a Dimensionalidade do Espaço. Tornar o Problema Linearmente Separável Uso de Vetores de Suporte Uso de Funções de Núcleo “Até certo ponto, as máquinas de núcleo nos oferecem o melhor de ambos os mundos. Isto é, esses métodos utilizam um algoritmo de treinamento eficiente e podem representar funções complexas não-lineares” (R,N) Estratégia: As Máquinas de Núcleo aumentam a dimensionalidade do espaço de entradas para tornar o problema linearmente separável Sua função é encontrar um hiperplano que melhor separe os dados em duas classes. Para isso, uma das saídas é aumentar as dimensões do espaço de entrada, operando as dimensões originais, de maneira que nesse novo espaço exista esse plano.   Essa separação depende unicamente de um subconjunto dos dados originais, os vetores de suporte, que formam os “cantos” de um volume que contém aquelas instâncias da mesma classe naquele espaço n-dimensional. “Se os dados de entrada forem mapeados em um espaço de dimensão suficientemente alta, então eles sempre serão linearmente separáveis” (R,N) Função de Núcleo: função que define uma nova dimensão “usando tais núcleos (...) separadores lineares ótimos podem ser encontrados eficientemente nos espaços de características com bilhões de dimensões. (...) Os separadores lineares resultantes, quando mapeados de volta no espaço de entrada original, podem corresponder a limites arbitrariamente tortuosos, não-lineares, entre os exemplos positivos e negativos”

Se (Estrago = Alto) e (Explicação = Ruim) Então Fugir Percorrer a Árvore Tomada de Decisão Expressão através de Regras: Disjunção de Conjunções Estrago médio baixo alto Explicação Anonimato não sim boa ruim Fugir Ficar Se (Estrago = Alto) e (Explicação = Ruim) Então Fugir

Algoritmos de Indução de AD ID3 Representa apenas atributos categóricos Subdivide o grupo pela cardinalidade do atributo de teste Não faz tratamento de ruídos Utiliza critério de ganho de informação no particionamento CART Permite atributos numéricos Gera sempre divisões binárias (agrupando valores) Pode fazer regressão (função numérica) C4.5 Permite atributos numéricos e valores desconhecidos Utiliza Poda

Abordagens: Condições: Simbólica Conexionista Analítica Evolutiva Estatística Condições: Representação Ruído Determinismo ... (Carbonell, 1990)

Maldição da Dimensionalidade “Maldição da Dimensionalidade”: o número de classificadores que devem ser considerados aumenta exponencialmente com o número de atributos do conjunto de dados, ficando mais difícil para o algoritmo de aprendizagem encontrar um modelo preciso (Bellman, 1961).   “O número de exemplos necessários para se aprender um certo conceito cresce exponencialmente de acordo com o número de atributos” (Valiant, “A Theory of The Learnable”, 1984).

Exemplo Não-Determinístico Ações: ,,, Chance da execução correta: 90% -1 +100 -100 A -50 +100 -100 A