Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara.

DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara

Agenda Realimentação The N-Armed Bandit Problem Métodos Ação-Valor Seleção de Ação SoftMax Avaliação x Instrução Implementação Incremental Problemas Não-Estacionários

Realimentação Características Diferenciadoras de RL –RL utiliza informações de treinamento que avaliam as ações tomadas em vez de instruções que determinam as ações corretas –A dependência da avaliação das ações tomadas cria a necessidade de exploração –Realimentação avaliadora é a base dos métodos evolucionários

Realimentação Realimentação instrutiva, por outro lado, indica a ação correta a ser tomada O Capítulo 2 do livro texto trata do aspecto de avaliação de RL (Evaluative Feedback) em um cenário simplificado, não envolvendo aprendizagem em mais do que uma situação –Versão simplificada do n-armed bandit problem

The N-Armed Bandit Problem Contexto –Você deve selecionar repetitivamente dentre n diferentes possibilidades –Após cada escolha você recebe um prêmio numérico, escolhido a partir de uma distribuição de probabilidades estacionária que depende da escolha –O objetivo é maximizar o ganho total esperado para 1000 repetições

The N-Armed Bandit Problem A cada opção está associado um valor esperado (média) de ganho se esta ação é selecionada –Este número é chamado de valor da ação –Se soubéssemos os valores das ações, o problema seria de fácil solução

The N-Armed Bandit Problem     E[x 4 ] = 8,  4 2  = 3 E[x 1 ] = 5,  1 2  = 5 E[x 3 ] = 15,  3 2  = 10 E[x 2 ] = 2,  2 2  = 7

The N-Armed Bandit Problem Mantendo estimativas dos valores –Se escolhemos a ação com maior estimativa, estamos nos concentrando no ganho imediato (exploitation). Esta política é dita gulosa –Se escolhemos uma ação que não apresenta a maior estimativa, então procuramos melhorar a estimativa das ações não gulosas (exploration) –Exploitation é o que se deve fazer para maximizar o ganho em uma jogada, mas exploration pode produzir melhores resultados em longo termo

The N-Armed Bandit Problem Conflito entre Exploitation e Exploration –A escolha entre explorar e sugar constitui uma decisão complexa, dependendo dos valores estimados, incertezas e do número de jogadas antes do fim –Existem métodos matemáticos sofisticados para balancear exploração e extração, todavia eles fazem fortes suposições sobre as probabilidades a priori, invalidando a aplicação em contextos onde o ambiente é desconhecido

The N-Armed Bandit Problem Este capítulo apresenta vários métodos simples para balancear exploração e extração, com o intuito de mostrar que eles sempre superam métodos sugadores Métodos de aprendizagem supervisionados têm desempenho muito baixo, pois não procuram balancear exploração e extração

Métodos Ação-Valor Definições –Q*(a) é o valor da ação a –Q t (a) é a estimativa do valor de a na t-ésima iteração –O valor real de uma ação a é o valor esperado do ganho se escolhemos a ação a

Métodos Ação-Valor: Média Experimental Método da Média Experimental –A ação a foi escolhida k a vezes antes da iteração t –Os ganhos recebidos foram r 1, r 2, …, r ka r 1 + r 2 + … + r ka Q t (a) = ---------------------------- k a –Se k a = 0, adota-se Q t (a) como tendo um valor inicial (e.g., 0). –Pela lei dos grandes números, Q t (a) converge para Q*(a) quando k a  

Métodos Ação-Valor: Método Guloso Método Guloso –Na t-ésima jogada, escolhe-se uma ação gulosa a* –Q t (a*) = Max a Q t (a) –O método tira vantagem do conhecimento corrente, maximizando o ganho imediato –O método não se preocupa em explorar outras possíveis ações

Métodos Ação-Valor: Método  - Guloso Método  -Guloso –O método se comporta como o método guloso na maioria das vezes, mas com uma pequena probabilidade ele seleciona uniformemente uma ação independentemente da estimativa ação-valor

Métodos Ação-Valor: Método  - Guloso –Vantagem: No limite, quando o número de jogadas aumenta, cada ação será aplicada um número infinito de vezes, garantindo que Q t (a) converge para Q*(a) Isso implica que a ação ótima será escolhida com probabilidade 1 –  Esses resultados são apenas assintóticos, nada dizendo sobre a eficácia prática do mesmo

Métodos Ação-Valor: Método  - Guloso Teste do Método  -Guloso –2000 experimentos –Cada experimento n = 1000 jogadas –Cada ação a, o ganho é escolhido como uma distribuição Gaussiana com média Q*(a) e variância 1 –Cada um dos 1000 experimentos foi escolhido selecionando Q*(a) a partir de uma distribuição normal com média 0 e variância 1

Métodos Ação-Valor: Método  - Guloso

Métodos Ação-Valor: Comparação Entre Métodos Compara-se o método guloso contra dois métodos  -guloso (  =0.01 e  =0.1) Os métodos  -guloso formam as estimativas ação- valor por meio da média experimental O método guloso obteve resultados bons rapidamente, mas depois atingiu um platô –O método guloso apresenta desempenho substancialmente inferior aos demais métodos em longo termo, pois este fica preso em ações subótimas

Métodos Ação-Valor: Comparação Entre Métodos Os métodos  -guloso eventualmente superam o método guloso pois os primeiros continuam a explorar o espaço de ações O método  -guloso com  =0.1 encontra soluções ótimas mais rapidamente, mas nunca vai selecioná- las mais do 91% das vezes O método  -guloso com  =0.01 progride mais lentamente, mas irá superar o método com  =0.1

Métodos Ação-Valor: Comparação Entre Métodos A vantagem do método  -guloso depende da tarefa –Se a variância fosse 10, em vez de 1, necessitaríamos de mais exploração antes encontrar ações ótimas, levando os métodos  - guloso a superar o método guloso por uma margem mais ampla –Por outro lado, se a variância fosse 0, então o método guloso saberia o valor correto após cada ação. Neste caso, o método guloso pode atingir melhor desempenho

Métodos Ação-Valor: Comparação Entre Métodos Mesmo no caso determinístico, o método  -guloso pode ser vantajoso quando as distribuições de probabilidades não são estacionárias O parâmetro  pode ser ajustado dinamicamente, com o passar do tempo

Seleção de Ação Softmax Uma fraqueza do método  -guloso quanto a explorar e sugar é que a escolha sobre as ações é uniforme –Mesma probabilidade de escolher uma ação ruim e uma quase-ótima –Quando as piores ações são muito ruins, isto pode ser muito insatisfatório

Seleção de Ação Softmax A ação gulosa continua com a maior probabilidade, mas as outras são ajustadas de acordo com as suas estimativas Essas técnicas são conhecidas como softmax: –O método mais comum é o de Gibbs (Boltzman)

Seleção de Ação Softmax A ação a é escolhida com probabilidade e^(Q t (a)/  ) / [  b=1,…,n e^(Q t (b)/  ) ] Onde  é um parâmetro positivo chamado de temperatura O que acontece se  é alto?

Seleção de Ação Softmax O que acontece se  é alto? –As ações são aproximadamente equi- prováveis O que acontece se  é baixo?

Seleção de Ação Softmax O que acontece se  é baixo? –O método  -guloso se aproxima do guloso quando  0 Não é claro se a seleção da ação baseada em softmax é melhor ou pior do que  -gulosa –Isto depende da tarefa bem como de fatores humanos

Avaliação x Instrução O n-armed bandit problem é um caso onde a realimentação (feedback) é puramente de avaliação –O prêmio recebido a cada iteração nos dá informação da qualidade da ação, mas nada nos diz se esta é correta ou errada –Corretude é uma propriedade relativa das ações que deve ser determinada por meio de experimentação e comparação –O problema requer uma busca explícita dentre as diferentes alternativas disponíveis

Avaliação x Instrução A aprendizagem é por seleção e não por instrução –Todos os métodos de RL devem utilizar esta forma de um jeito ou de outro

Avaliação x Instrução Isso contrasta com os métodos de aprendizagem supervisionada, onde a realimentação proveniente do ambiente diretamente indica a ação correta –Neste caso, não há necessidade de busca –Qualquer ação tomada, o sistema nos dirá qual era a ação correta –Não há necessidade de fazer uma busca no espaço de ações

Avaliação x Instrução Aprendizagem Supervisionada –O problema principal se refere à construção de um mapeamento de situações para ações, o qual imita as ações especificadas como corretas pelo ambiente, de forma que este mapeamento generalize para situações ainda não encontradas –Esta técnica não “controla” mas segue as instruções recebidas pelo ambiente

Implementação Incremental Os métodos ação-valor visto até então, fazem uso de estimativas do valor de cada ação por meio de médias experimentais r 1 + r 2 + … + r ka Q t (a) = ---------------------------- k a Podemos calcular Q t (a) a partir de r 1, r 2, …, r ka Qual é o fator limitante desta abordagem?

Implementação Incremental Qual é o fator limitante desta abordagem?

Implementação Incremental Número excessivo de prêmios (r i )

Implementação Incremental Seja Q k (a) a média dos k primeiros prêmios obtidos ao executarmos a ação a

Implementação Incremental A implementação requer memória apenas para Q k e k NovaEstimativa <- EstimativaAnterior + TamanhoPasso*[ ValorDesejado – EstimativaAnterior ]

Implementação Incremental Note que o parâmetro “TamanhoPasso” varia com cada iteração Tipicamente, denota-se por  este parâmetro, ou melhor,  (a)  (a) = 1/k a

Tratando de Problemas Não Estacionários Os métodos discutidos até este ponto são adequados para ambientes estacionários, mas podem falhar se as distribuições variam Problemas RL são tipicamente não estacionários –Xadrez e ambientes dinâmicos O que fazer em tais situações?

Tratando de Problemas Não Estacionários O que fazer em tais situações? –Podemos agregar maior peso aos valores mais recentes, diminuindo a influência das experiências mais velhas –Uma maneira popular é utilizar um tamanho de passo constante (  ) Q k+1 = Q k +  [r k+1 – Q k ], onde 0 <   1

Tratando de Problemas Não Estacionários Q k é uma média ponderada dos ganhos passados e da estimativa inicial Q 0

Fim Obrigado pela presença!

Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara.

Apresentações semelhantes

Apresentação em tema: "Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara.

Apresentações semelhantes

Apresentação em tema: "Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback