Introdução a Aprendizagem de Máquina através da Indução de Árvores de Decisão Geber Ramalho Jacques Robin CIn-UFPE.

Introdução a Aprendizagem de Máquina através da Indução de Árvores de Decisão Geber Ramalho Jacques Robin CIn-UFPE

Modelo do Agente Aprendiz (on-line) sensores efetuadores Agente Gerador de problemas crítico elemento de aprendizagem avaliação objetivos de aprendizagem elemento ator trocas conhecimento a m b i e n t e Experiências informativas Depende da KRL Padrões de aceitação t t + 1

Aprendizagem para construção do agente (off-line) Agente Base de conhecimento elemento de aprendizagem exemplos Engenheiro de conhecimento Escolhe e descreve parametriza elemento ator critica

Exemplo de árvore de decisão * A partir de um conjunto de propriedades, decide sim ou não * Exemplo Soparia predicado-objetivo: vaiASoparia Atributos considerados: t Sono: Estou com sono? t Transporte: Tenho como ir de carro? Carona? etc. t CONIC: Devo estar amanhã cedo no CONIC? t Álcool: Estou precisando de álcool? t Sair: Quero sair de casa? t Fome: Estou com fome?

Árvore de Decisão “pensada” Sono? CONIC? Carro Não. Outros CONIC? Carona Sim Sim. Não Não. Não Quer sair? Sim Não. Sim. Não Meio de transporte? Pouco Sim Não. Sim. Não Precisa de álcool? Sim Sim. Não Não. atributo valores

ID3: exemplos da soparia * Atributos: (Sono, Transporte, CONIC, Álcool, Sair, Fome)-> propriedade-objetivo E01: (Pouco,Carro,Sim,Sim,Não,Sim) -> Sim! E02: (Pouco,Carona,Não,Não,Sim,Sim) -> Sim! E03: (Sim,Carro,Não,Sim,Sim,Sim) -> Não. E04: (Pouco,Carona,Não,Não,Sim,Não) -> Sim! E05: (Sim,Outros,Sim,Sim,Sim,Não) -> Não. E06: (Pouco,Outros,Não,Sim,Não,Sim) -> Não. E07: (Pouco,Carro,Sim,Não,Sim,Sim) -> Sim! E08: (Pouco,Carona,Não,Não,Não,Sim) -> Não. E09: (Sim,Carro,Não,Sim,Sim,Não) -> Não. E10: (Não,Outros,Sim,Sim,Sim,Sim) -> Sim! E11: (Não,Carro,Não,Sim,Sim,Não) -> Sim! E12: (Não,Carona,Não,Sim,Sim,Sim) -> Sim!

ID3: conceitos * Classificação aplicação do predicado objetivo p a um exemplo * Exemplo positivo (ep) e exemplo negativo (en) p(ep) = verdadeiro, p(en) = falso * Conjunto de treinamento positivos + negativos * Objetivo da aprendizagem gerar a descrição d de p segundo os atributos dados d deve ser consistente (cobre todos positivos e exclui todos negativos) e preditiva/geral (vai além da memorização) d deve ser a mais simples possível (navalha de Ockahm)

ID3: construção da árvore * Escolha do melhor atributo O que discrimina o maior número de exemplos Maior ganho de informação (entropia) * Candidatos: Transporte: Não classifica imediatamente nenhum dos exemplos Sono: Classifica de imediato 6 dos 12 exemplos...

Exemplo: atributo transporte Transporte? carrooutros +:E01,E02,E04,E07,E10,E11,E12 - :E03,E05,E06,E08,E09 carona +: E10 -: E05,E06 +: E01,E07,E11 -: E03,E09 +: E02,E04,E12 -: E08

Exemplo: atributo sono Sono? sim pouco não +:E01,E02,E04,E07,E10,E11,E12 - :E03,E05,E06,E08,E09 +: E1,E2,E4, E7 -: E6,E8 +: - - - -: E3, E5, E9 +: E10,E11,E12 -: - - -

Cálculo do ganho de informação Onde A = atributo p = positivo n = negativo Ganho(A) = I -  v i=1 (p i +n i )/(p i +n i ) I I = -p/(p+n) (log 2 p/(p+n)) - n/(n+p) (log 2 n/(p+n)) p/p+n, n/p+np i /p i +n i, n i /p i +n i p/p+n, n/p+n

function APRENDIZAGEM_DA_ID3(exemplos,atributos,default) : árvore de decisão if (exemplos é vazio) then return default; else if (todos os exemplos têm a mesma classificação) then return (a classificação); elseif (atributos é vazio) then return maioria(exexmplos); else melhor <- ESCOLHA_MELHOR_ATRIBUTO(atributos,exemplos); árvore <- nova árvore com raiz “melhor”; para cada valor v i de melhor faça exemplos i <- exemplos onde melhor = v i ; subárvore <- APRENDIZAGEM_DA_ID3(exemplos i, atributos-{melhor}, maioria(exemplos)); adicione subárvore como um ramo à árvore com rótulo v i ; return arvore; ID3: Algoritmo de aprendizagem

+: E1,E2,E4, E7 -: E6,E8 Árvore de Decisão “Induzida” +: E1,E2,E4,E7,E10,E11,E12 -: E3, E5, E6, E8, E9 Sono? Não Pouco Sim +: - - - -: E3, E5, E9 +: E10,E11,E12 -: - - - Sim.Não. Outros Carro Carona Meio de transporte? +: - - - -: E6 +: E1,E7 -: - - - +: E2,E4 -: E8 Sim.Não. Quer sair? SimNão +: E2,E4 -: - - - +: - - - -: E8 Sim.Não.

Regras * É possível mostrar o resultado como regras lógicas toma-se as folhas com conclusão positiva e sobe-se até a raiz * Exemplos:  t Sono(Não,t)  VaiASoparia(t)  t Sono(Pouco,t)  Transporte(Carro,t)  VaiASoparia(t)  t Sono(Pouco,t)  Transporte(Carona,t)  QuerSair(Sim,t)  VaiASoparia(t)

Problemas c/ ID3: Expressividade * Só pode tratar de um único objeto  t Sono(Não,t)  VaiASoparia(t)  t Sono(Pouco,t)  Transporte(Carro,t)  VaiASoparia(t) * Mais de um... não dá com eficiência Ex: “se posso ficar mais indisposto mais tarde, eu vou logo à soparia”  t 1  t 2 MesmoDia(t 1,t 2 )  Disposição(t 1,d 1 )  Disposição(t 2,d 2 )  Maior (d 1,d 2 )  VaiASoparia(t) alternativa: atributo possoFicarMaisIndisposto(t)

Problemas c/ ID3: Expressividade * Exemplo: Goal predicate = BomPesquisador (x) * Como tratar atributos multi-valorados? Filiação(José, {USP, Unesp}) * Como tratar atributos numéricos? Tem entre 45 e 52 anos * Como tratar listas ordenadas? Formação = {graduação, mestrado, doutorado, pós} * Como inserir conhecimento a priori? Hierarquias conceituais PE PB ALCE NE BR Norte

Problemas gerais: ambigüidade * Ambigüidade: Dois ou mais exemplos com a mesma descrição (em termos de atributos) mas classificações diferentes * Causas: Ruído Atributos insuficientes * Soluções: tratamento estatístico indução construtiva etc.

Problemas gerais: overfitting * Overfitting (hiper-especialização): Evitar encontrar uma “regularidade” muito restrita nos dados * Soluções: Validação cruzada Pré-Poda: parar a construção da árvore cedo t não dividir um nó se isso resultar em um critério abaixo de um limiar t difícil escolher o limiar apropriado Pós-Poda: remover ramos de uma árvore completa t conjunto de dados e critério de qualidade da árvore diferentes t para a fase inicial de constução da árvore e t para a fase final de poda da árvore

Pós-poda de arvore de decisão:

TreinamentoTeste Validação Cruzada * Serve para evitar overfitting e para averiguar robustez dos resultados * Algoritmo 1) Divide o conjunto de exemplos em dois sub-conjuntos: conjuntos de treinamento (TR) e de teste (TE) 2) Usa indução para gerar hipótese H sobre TR 3) Mede percentagem de erro de H aplicada à TE 4) Repete passos 1-3 com diferentes tamanhos de TE e TR, e tendo elemento escolhidos aleatoriamente

Curva de aprendizagem

Dimensões para classificar tarefas e técnicas de aprendizagem de máquina * Tarefas de aprendizagem: componente e aspeto do elemento de performance a melhorar * Complexidade do ambiente do agente aprendiz * Retorno no processo de treinamento do agente * Controle dos mecanismos de aprendizagem e de ação * Formalismo de representação do conhecimento * Aproveitamento de conhecimento prévio * Visões unificadoras: aprendizagem = adquirir uma representação, geralmente aproximativa, de uma função matemática aprendizagem = busca de uma região em um espaço de hipótese explicando os dados (exemplos)  Relação com otimização, analise numérica, estatística * Propriedades matemática e viés a priori sobre a função a aproximar ou do espaço de hipótese a buscar

Tarefas de aprendizagem * Aprendizagem descritiva: Apenas descreve de forma concisa os dados disponíveis A descrição aprendida pode: t diretamente fornecer insight para analista humano, ou t servir de passo preliminar para aprendizagem preditiva * Aprendizagem preditiva: Prevê dados não disponíveis a partir do dos dados disponíveis A previsão pode: t diretamente indicar uma descoberta ou decisão a tomar t servir de passo intermediário para tomada de uma descoberta ou decisão complexa estruturada por camadas

Tarefas de aprendizagem * Otimização: aprender nova representação de conhecimento prévio para melhorar desempenho do agente e não sua versatilidade embora não envolve aprender nada de fundamentalmente novo as vezes a diferença entre 2 representações do mesmo problema, é a diferença entre uma solução puramente teórica e uma solução operacional na prática * Meta-aprendizagem aprender valores ótimas de parâmetros ou de representações de viés para aprendizagem de conhecimento do domínio da aplicação * Aprendizagem multi-camada: muitas vezes, controle requer previsão, que requer classificação e o conhecimento assim obtido precisa ser otimizado para execução em tempo real ex, futebol de robôs

Tarefas de aprendizagem descritiva * Aprender: Medida de similaridade ou dissimilaridade entre instâncias t ex, cliente fulano parecido com sicrano e bem diferente de beltrano Grupos de instâncias alta similaridade intra-grupos e alta dissimilaridade inter-grupos (clustering) t ex, {fulano, sicrano,...}, {beltrano, john,...}, {doe},... Excepções (outliers), i.e., instâncias com valor altamente dissimilar com a maioria das outras instâncias, para um ou vários atributos Valores de atributos para grupos de instâncias agregados ao longo de dimensões analíticas, t ex, media de venda de bebidas no Nordeste em dezembro é R$2.10 6 Atributos relevantes para caracterizar instâncias de uma classe t ex, {sexo, colégio, pais, idade, notaMédia} para alunos Atributos relevantes para discriminar entre instâncias de 2 classes t ex, {sexo, colégio, notaMédia} entre alunos de engenharia e artes cênicos Associações entre valores dos atributos descritivos das instâncias t age(X,[20,29]}  income(X,[3000, 10000])  ownd(X,CD,[50,100])  owns(X,PC). [suport = 5%, confidence = 80%]

Tarefas de aprendizagem preditiva * Classificação: inferir a classe de um novo indivíduo em função dos seus atributos descritivo dados = instâncias  conceitos aprende novo conhecimento da forma: t C I : Estado(Ambiente,t) x Percepções(t)  Estado(Ambiente,t+1) * Análise de evolução ou previsão stricto-sensus: inferir o valor de um atributo de um indivíduo em um instante t em função dos seus atributos descritivos nos instantes anteriores dados(t)  conceitos  dados(t+1) aprende novo conhecimento da forma: t C P1 : Estado(Ambiente,t)  Estado(Ambiente,t+1) t C P2 : Estado(Ambiente,t) x Ações(t)  Estado(Ambiente,t+1) classificação destacando atributo tempo generaliza-se na identificação de serias temporais

Tarefas de aprendizagem preditiva * Controle: inferir a melhor ação a executar por um agente inteligente dado seus objetivos e o estado do ambiente no qual ele opera dados  política de comportamento aprende novo conhecimento da forma: t R: Percepções  Ações, ou t Cu1: Estado(Ambiente,t) x Objetivos(t)  Utilidade, ou t Cu2: Estado(Ambiente,t) x Ações(t) x Objetivos(t)  Utilidade * Regressão: inferir o valor do atributo A (geralmente numérico) desconhecido de um indivíduo em função de: t seus atributos conhecidos e, t dos valores conhecidos de A para os outros indivíduos * Classificação e regressão podem servir de passo intermediário para análise de evolução * Os três podem servir de passos intermediários para controle

Complexidade do ambiente * Acessível? * Episódico? * Discreto? * Determinista? Ruidoso? * Dinâmico? * Relacional? trate-se de instâncias de apenas uma classe de entidades ou de instâncias de várias classes diferentes de entidades e de relações entre elas? * Diverso? o numero de classes de entidade (e relações) diferentes é grande? * Grande? o numero de instâncias dessas classes (e relações) é grande?

Retorno no processo de treinamento * Aprendizagem supervisionada certo(ação) ou errado(ação) Dado conjunto de exemplos pré-classificados, Aprender descrição que abstraí a informação contida nesses exemplos e que pode ser usada para prever casos futuros ex., concessão de crédito * Aprendizagem não-supervisionada se vire! Dada uma coleção de dados não classificados, Agrupá-los por regularidades ex., caixa de supermercado empacotando

Retorno no processo de treinamento * Aprendizagem por reforço: recompensa/punição certo(ação1(t0)/.../ação(tn) ou errado(ação1(t0)/.../ação(tn)) dado sucesso ou insucesso global de um seqüência de ação, determinar qual ação e’ a mais desejável em cada situação ex., DeepBlue jogando contra ele próprio: é por a propagar para trás recompensas e punições a partir do estado final

Controle da aprendizagem * Aprende depois age ou aprende agindo (treinos x jogos) * Agir sempre otimamente x aprender novas habilidades * Busca de hipótese: incremental (exemplos apresentado ao poucos) ou não (todos de uma vez) iterativa (exemplos re-apresentados em várias épocas) ou não (uma apresentação de cada exemplo basta) top-down (refina hipótese geral para cobrir exemplos) ou bottom-up (generaliza exemplos para abstrair hipótese) ou bi-direcional gulosa (generaliza exemplos assim que encontrados) ou preguiçosa (não generaliza exemplos com antecedência, apenas os indexa para os adaptar ao receber novas consultas parecidas) global (aproxima função completa) ou local (aproxima-la por partes)

Representação do conhecimento * Função matemática: domínio e escopo: {0,1}, Z, R monotonia, continuidade polinomial, exponencial, logarítmica * Lógica: proposicional (ordem 0), de atributos (ordem 0+) de Horn ou dos predicados (ordem 1) exóticas (ordem superior, temporal, modal, etc) * Distribuição de probabilidades * Outros, ex.: Pesos em redes conexionistas, Representações orientada a objetos, Árvores de decisão, etc... se reduzem as 3 primeirasse reduzem as 3 primeiras

Representação de conceito x de instância * Conceito: representação em intenção via conjunto de restrições de valor sobre alguns atributos descritivos armazenados no BD * Instancia: indivíduo cujos dados satisfazem essas restrições * Aprendizagem guloso: cria representação em intenção (conceito) e classifica um novo indivíduo se seus atributos casam com essa representação * Aprendizagem preguiçoso: classifica novo indivíduo como sendo da classe do indivíduo mais próximo dele em termos de valores de atributos ou do centroide dos N indivíduos mais próximos não representa conceitos em intenção classe representada apenas pela extensão das suas instâncias

Representação atributivas x relacionais * Representar propriedades de um único indivíduo Logicamente quantificação universal limitada a uma única variável Equivalente a lógica proposicional (ordem 0), já que essa variável pode ficar implícita ex,  P, quality(P,fair)  price(P,low)  buy(P)  fairQuality  cheap  buy * Representar relações entre vários indivíduos Logicamente requer quantificação universal simultânea de várias variáveis Requer sub-conjunto da lógica da 1 a ordem ex,  P, C parent(P,C)  female(P)  mother(P,C).

Conhecimento prévio * Aprendizagem sem conhecimento prévio: dados (exemplos)  conhecimento * Aprendizagem com conhecimento prévio: dados x conhecimento prévio  conhecimento aprendido * Métodos de aprendizagem que permitem usar conhecimento prévio em entrada: re-aproveitam de conhecimento: t adquirido com especialistas humanos t aprendido durante passos anteriores de KDD para aprendem a partir de muito menos dados Homogeneidade: Exemplos, conhecimento prévio e conhecimento aprendido pode ser representados no mesmo formalismo?

Viés * Conhecimento prévio: conhecimento do domínio da aplicação inteligente ex, futebol de robôs, bolsa de valor, meteorologia, etc. no mesmo formalismo do que o conhecimento a aprender * Viés: meta-conhecimento prévio sobre a forma do conhecimento a aprender a partir dos dados, ex., t classe de função a aproximar (linear, polinomial,...) t classe de função medindo o erro da aproximação (médio quadrado, …) t dimensionalidade do espaço de hipótese t distribuição probabilista dos pontos nesse espaço (normal, poisson,..) t restrições lexicais e sintática da linguagem de representação do conhecimento a aprender (ex, número de premissa ou conclusões de regras, numero de grupos classificando exemplos, …) sem viés não temgeneralização * Aprendizagem sem viés não tem poder de generalização !

Tipologia das técnicas de aprendizagem Paradigma simbólico: * Aprendizagem de conceitos por busca no espaço de soluções (version-space) * Indução de árvores de decisão e regras proposicionais * Programação em lógica indutiva * Aprendizagem por explicações * Raciocínio baseado em casos * Aprendizagem Q * Agrupamento de conceitos proposicionais Paradigma probabilista: * K Vizinhos mais próximo * Regressão estatística * Funções de bases radiais * Aprendiz bayesiano ingênuo Paradigma conexionista: * Perceptron multicamada * Memórias associativas Paradima evolucionista: * Algoritmos genéticos Abordagens híbridos: * Rede bayesianas

Tipologia das estruturas de conhecimento a aprender * Paradigma simbólico: Árvore de decisão Árvore de regressão Regras de associação atributivas Regras de classificação atributivas Regras relacionais Grupos atributivos de instâncias * Paradigma matemático: Função de distância numérica Função de regressão * Paradigma probabilista: Densidade de probabilidade * Paradigma conexionista: Perceptrão multi-camada Memória associativa * Paradigma evolucionário: população de representações simbólicas simples (bit string, árvore) * Multi-paradigma: Árvores de modelo (simbólico e matemático) Redes bayesianas (conexionista, simbólico e probabilista)

Árvore de decisão

Indução de árvore de decisão: características * Tarefas: classificação, previsão e controle * Ambiente: inacessível: + não episódico: + contínuo: + ou - ruidoso: + dinâmico: + relacional: - diverso: - grande: + * Supervisionado * Controle da aprendizagem: Treino antes da ação Não incremental Não iterativo Top-down Guloso Global * Representação do conhecimento: lógica propocisional * Não pode aproveitar de conhecimento prévio * Propriedades da função aproximada: escada N dimensional

Função de regressão numérica PRP = - 56.1 + 0.049MYCT + 0.015MMIN + 0.006MMAX + 0.630CACH - 0.270CHMIN + 1.46CHMAX

Árvore de regressão

Árvore de modelo LM1: PRP = 8.29 + 0.004 MMAX + 2.77 CHMIN LM2: PRP = 20.3 + 0.004 MMIN – 3.99 CHMIN + 0.946 CHMAX LM3: PRP = 38.1 + 0.012 MMIN LM4: PRP = 19.5 + 0.002 MMAX + 0.698 CACH + 0.969 CHMAX LM5: PRP = 285 – 1.46 MYCT + 1.02 CACH – 9.39 CHMIN LM6: PRP = -65.8 + 0.03 MMIN – 2.94 CHMIN + 4.98 CHMAX

Regras atributivas de classificação * Mineração preditiva * Implicações lógica com: Apenas uma variável quantificada Premissas relacionada apenas por uma conjunção Cada premissas apenas testa valor de um atributo de um indivíduo Conclusão única e positiva indica classe das instâncias verificando a conjunção de premissas *  X, atr1(X,val1) ...   atrn(X,valn)  class(X,c) *  X, atr1Val1(X) ...   atrnValn(X)  C(X) * atr1 = val1 ...  atrn  valn  C * IF atr1 = val1 AND... AND atrn  valn THEN C * ex, IF tempo = sol AND dia = Dom THEN racha

Regras de Classificação vs. Árvores * Regras de classificação podem ser convertidas em árvores de decisão e vice-versa * Porém: a conversão é em geral não trivial dependendo da estrutura do espaço de instâncias, regras ou árvores são mais concisas ou eficientes * Regras são compactas * Regras são em geral altamente modulares (mas raramente são completamente modulares)

Vantagens de Árvores de Decisão Exemplo de conversão árvore -> regras Sem mecanismo de interpretação preciso regras podem ser ambíguas Instâncias podem “passar através” de conjunto de regras não sistematicamente “fechado” X > 1.2 Y > 2.6 b ab sim não simnão IF x >1.2 AND y > 2.6 THEN class = a If x < 1.2 then class = b If x > 1.2 and y < 2.6 then class = b

Vantagens de Regras de Classificação Árvores são redundantes e não incrementais Árvores não são ambíguas e não falham em classificar x y z w a ?? b?? 1 1 1 1 2 2 2 2 3 3 3 3 If x=1 and y=1 then class = a If z=1 and w=1 then class = b Exemplo de conversão regra/árvore

Regras atributivas de associação * Mineração descritiva * Implicações lógica com: Apenas uma variável quantificada Premissas e conclusões relacionadas apenas por uma conjunção Cada premissa e cada conclusão apenas testa valor de um atributo de um indivíduo *  X, atr1(X,val1) ...   atri(X,vali)  atrj(X,valj) ...   atrn(X,valn) * IF atr1 = val1 AND... AND atri  vali THEN atrj = valj AND... AND atrn  valn * ex, IF tempo = sol AND dia = domingo THEN praia = cheia AND avenida = engarrafada

Grupos de instâncias (clusters) * Dimensões descritivas da tipologia dos grupos disjuntos x overlapping chatos ou hierárquicos deterministas x probabilistas x nebulosos baseados em distâncias x baseados em densidade propriedades matemáticas da superfície 1 2 3 a 0.40.1 0.5 b 0.10.8 0.1 c 0.30.3 0.4 d 0.10.1 0.8 e 0.40.2 0.4 f 0.10.4 0.5 g 0.70.2 0.1 h 0.50.4 0.1 …

Rede bayesiana

Regras relacionais * Mineração descritiva ou preditiva (classificação ou controle) * Implicações lógica com: Várias variáveis quantificadas Premissas relacionadas apenas por uma conjunção Cada premissa testa valor de um atributo de um indivíduo ou teste relação entre indivíduos Conclusão única positiva cujo predicado pode aparecer nas premissas (regras recursivas) Cláusulas de Horn *  X,Y,Z,... atr1(X,val1) ...  reli(X,Y)  atrj(Z,valj) *  X,Y,Z,... atr1(Y,val1) ...  reli(X,Y)  relj(X,Y,valj) *  X,Y,Z,... atr1(Z,val1) ...  reli(X,Y,Z)  reli(X,Y,Z) * reli(X,Y,Z) :- atr1(Z,val1),..., reli(X,Y,Z)

Introdução a Aprendizagem de Máquina através da Indução de Árvores de Decisão Geber Ramalho Jacques Robin CIn-UFPE.

Apresentações semelhantes

Apresentação em tema: "Introdução a Aprendizagem de Máquina através da Indução de Árvores de Decisão Geber Ramalho Jacques Robin CIn-UFPE."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Introdução a Aprendizagem de Máquina através da Indução de Árvores de Decisão Geber Ramalho Jacques Robin CIn-UFPE.

Apresentações semelhantes

Apresentação em tema: "Introdução a Aprendizagem de Máquina através da Indução de Árvores de Decisão Geber Ramalho Jacques Robin CIn-UFPE."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback