A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara.

Apresentações semelhantes


Apresentação em tema: "Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara."— Transcrição da apresentação:

1 Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara

2 Page2 Agenda Realimentação The N-Armed Bandit Problem Métodos Ação-Valor Seleção de Ação SoftMax Avaliação x Instrução Implementação Incremental Problemas Não-Estacionários

3 Page3 Realimentação Características Diferenciadoras de RL –RL utiliza informações de treinamento que avaliam as ações tomadas em vez de instruções que determinam as ações corretas –A dependência da avaliação das ações tomadas cria a necessidade de exploração –Realimentação avaliadora é a base dos métodos evolucionários

4 Page4 Realimentação Realimentação instrutiva, por outro lado, indica a ação correta a ser tomada O Capítulo 2 do livro texto trata do aspecto de avaliação de RL (Evaluative Feedback) em um cenário simplificado, não envolvendo aprendizagem em mais do que uma situação –Versão simplificada do n-armed bandit problem

5 Page5 The N-Armed Bandit Problem Contexto –Você deve selecionar repetitivamente dentre n diferentes possibilidades –Após cada escolha você recebe um prêmio numérico, escolhido a partir de uma distribuição de probabilidades estacionária que depende da escolha –O objetivo é maximizar o ganho total esperado para 1000 repetições

6 Page6 The N-Armed Bandit Problem A cada opção está associado um valor esperado (média) de ganho se esta ação é selecionada –Este número é chamado de valor da ação –Se soubéssemos os valores das ações, o problema seria de fácil solução

7 Page7 The N-Armed Bandit Problem     E[x 4 ] = 8,  4 2  = 3 E[x 1 ] = 5,  1 2  = 5 E[x 3 ] = 15,  3 2  = 10 E[x 2 ] = 2,  2 2  = 7

8 Page8 The N-Armed Bandit Problem Mantendo estimativas dos valores –Se escolhemos a ação com maior estimativa, estamos nos concentrando no ganho imediato (exploitation). Esta política é dita gulosa –Se escolhemos uma ação que não apresenta a maior estimativa, então procuramos melhorar a estimativa das ações não gulosas (exploration) –Exploitation é o que se deve fazer para maximizar o ganho em uma jogada, mas exploration pode produzir melhores resultados em longo termo

9 Page9 The N-Armed Bandit Problem Conflito entre Exploitation e Exploration –A escolha entre explorar e sugar constitui uma decisão complexa, dependendo dos valores estimados, incertezas e do número de jogadas antes do fim –Existem métodos matemáticos sofisticados para balancear exploração e extração, todavia eles fazem fortes suposições sobre as probabilidades a priori, invalidando a aplicação em contextos onde o ambiente é desconhecido

10 Page10 The N-Armed Bandit Problem Este capítulo apresenta vários métodos simples para balancear exploração e extração, com o intuito de mostrar que eles sempre superam métodos sugadores Métodos de aprendizagem supervisionados têm desempenho muito baixo, pois não procuram balancear exploração e extração

11 Page11 Métodos Ação-Valor Definições –Q*(a) é o valor da ação a –Q t (a) é a estimativa do valor de a na t-ésima iteração –O valor real de uma ação a é o valor esperado do ganho se escolhemos a ação a

12 Page12 Métodos Ação-Valor: Média Experimental Método da Média Experimental –A ação a foi escolhida k a vezes antes da iteração t –Os ganhos recebidos foram r 1, r 2, …, r ka r 1 + r 2 + … + r ka Q t (a) = ---------------------------- k a –Se k a = 0, adota-se Q t (a) como tendo um valor inicial (e.g., 0). –Pela lei dos grandes números, Q t (a) converge para Q*(a) quando k a  

13 Page13 Métodos Ação-Valor: Método Guloso Método Guloso –Na t-ésima jogada, escolhe-se uma ação gulosa a* –Q t (a*) = Max a Q t (a) –O método tira vantagem do conhecimento corrente, maximizando o ganho imediato –O método não se preocupa em explorar outras possíveis ações

14 Page14 Métodos Ação-Valor: Método  - Guloso Método  -Guloso –O método se comporta como o método guloso na maioria das vezes, mas com uma pequena probabilidade ele seleciona uniformemente uma ação independentemente da estimativa ação-valor

15 Page15 Métodos Ação-Valor: Método  - Guloso –Vantagem: No limite, quando o número de jogadas aumenta, cada ação será aplicada um número infinito de vezes, garantindo que Q t (a) converge para Q*(a) Isso implica que a ação ótima será escolhida com probabilidade 1 –  Esses resultados são apenas assintóticos, nada dizendo sobre a eficácia prática do mesmo

16 Page16 Métodos Ação-Valor: Método  - Guloso Teste do Método  -Guloso –2000 experimentos –Cada experimento n = 1000 jogadas –Cada ação a, o ganho é escolhido como uma distribuição Gaussiana com média Q*(a) e variância 1 –Cada um dos 1000 experimentos foi escolhido selecionando Q*(a) a partir de uma distribuição normal com média 0 e variância 1

17 Page17 Métodos Ação-Valor: Método  - Guloso

18 Page18 Métodos Ação-Valor: Comparação Entre Métodos Compara-se o método guloso contra dois métodos  -guloso (  =0.01 e  =0.1) Os métodos  -guloso formam as estimativas ação- valor por meio da média experimental O método guloso obteve resultados bons rapidamente, mas depois atingiu um platô –O método guloso apresenta desempenho substancialmente inferior aos demais métodos em longo termo, pois este fica preso em ações subótimas

19 Page19 Métodos Ação-Valor: Comparação Entre Métodos Os métodos  -guloso eventualmente superam o método guloso pois os primeiros continuam a explorar o espaço de ações O método  -guloso com  =0.1 encontra soluções ótimas mais rapidamente, mas nunca vai selecioná- las mais do 91% das vezes O método  -guloso com  =0.01 progride mais lentamente, mas irá superar o método com  =0.1

20 Page20 Métodos Ação-Valor: Comparação Entre Métodos A vantagem do método  -guloso depende da tarefa –Se a variância fosse 10, em vez de 1, necessitaríamos de mais exploração antes encontrar ações ótimas, levando os métodos  - guloso a superar o método guloso por uma margem mais ampla –Por outro lado, se a variância fosse 0, então o método guloso saberia o valor correto após cada ação. Neste caso, o método guloso pode atingir melhor desempenho

21 Page21 Métodos Ação-Valor: Comparação Entre Métodos Mesmo no caso determinístico, o método  -guloso pode ser vantajoso quando as distribuições de probabilidades não são estacionárias O parâmetro  pode ser ajustado dinamicamente, com o passar do tempo

22 Page22 Seleção de Ação Softmax Uma fraqueza do método  -guloso quanto a explorar e sugar é que a escolha sobre as ações é uniforme –Mesma probabilidade de escolher uma ação ruim e uma quase-ótima –Quando as piores ações são muito ruins, isto pode ser muito insatisfatório

23 Page23 Seleção de Ação Softmax A ação gulosa continua com a maior probabilidade, mas as outras são ajustadas de acordo com as suas estimativas Essas técnicas são conhecidas como softmax: –O método mais comum é o de Gibbs (Boltzman)

24 Page24 Seleção de Ação Softmax A ação a é escolhida com probabilidade e^(Q t (a)/  ) / [  b=1,…,n e^(Q t (b)/  ) ] Onde  é um parâmetro positivo chamado de temperatura O que acontece se  é alto?

25 Page25 Seleção de Ação Softmax O que acontece se  é alto? –As ações são aproximadamente equi- prováveis O que acontece se  é baixo?

26 Page26 Seleção de Ação Softmax O que acontece se  é baixo? –O método  -guloso se aproxima do guloso quando  0 Não é claro se a seleção da ação baseada em softmax é melhor ou pior do que  -gulosa –Isto depende da tarefa bem como de fatores humanos

27 Page27 Avaliação x Instrução O n-armed bandit problem é um caso onde a realimentação (feedback) é puramente de avaliação –O prêmio recebido a cada iteração nos dá informação da qualidade da ação, mas nada nos diz se esta é correta ou errada –Corretude é uma propriedade relativa das ações que deve ser determinada por meio de experimentação e comparação –O problema requer uma busca explícita dentre as diferentes alternativas disponíveis

28 Page28 Avaliação x Instrução A aprendizagem é por seleção e não por instrução –Todos os métodos de RL devem utilizar esta forma de um jeito ou de outro

29 Page29 Avaliação x Instrução Isso contrasta com os métodos de aprendizagem supervisionada, onde a realimentação proveniente do ambiente diretamente indica a ação correta –Neste caso, não há necessidade de busca –Qualquer ação tomada, o sistema nos dirá qual era a ação correta –Não há necessidade de fazer uma busca no espaço de ações

30 Page30 Avaliação x Instrução Aprendizagem Supervisionada –O problema principal se refere à construção de um mapeamento de situações para ações, o qual imita as ações especificadas como corretas pelo ambiente, de forma que este mapeamento generalize para situações ainda não encontradas –Esta técnica não “controla” mas segue as instruções recebidas pelo ambiente

31 Page31 Implementação Incremental Os métodos ação-valor visto até então, fazem uso de estimativas do valor de cada ação por meio de médias experimentais r 1 + r 2 + … + r ka Q t (a) = ---------------------------- k a Podemos calcular Q t (a) a partir de r 1, r 2, …, r ka Qual é o fator limitante desta abordagem?

32 Page32 Implementação Incremental Qual é o fator limitante desta abordagem?

33 Page33 Implementação Incremental Número excessivo de prêmios (r i )

34 Page34 Implementação Incremental Seja Q k (a) a média dos k primeiros prêmios obtidos ao executarmos a ação a

35 Page35 Implementação Incremental A implementação requer memória apenas para Q k e k NovaEstimativa <- EstimativaAnterior + TamanhoPasso*[ ValorDesejado – EstimativaAnterior ]

36 Page36 Implementação Incremental Note que o parâmetro “TamanhoPasso” varia com cada iteração Tipicamente, denota-se por  este parâmetro, ou melhor,  (a)  (a) = 1/k a

37 Page37 Tratando de Problemas Não Estacionários Os métodos discutidos até este ponto são adequados para ambientes estacionários, mas podem falhar se as distribuições variam Problemas RL são tipicamente não estacionários –Xadrez e ambientes dinâmicos O que fazer em tais situações?

38 Page38 Tratando de Problemas Não Estacionários O que fazer em tais situações? –Podemos agregar maior peso aos valores mais recentes, diminuindo a influência das experiências mais velhas –Uma maneira popular é utilizar um tamanho de passo constante (  ) Q k+1 = Q k +  [r k+1 – Q k ], onde 0 <   1

39 Page39 Tratando de Problemas Não Estacionários Q k é uma média ponderada dos ganhos passados e da estimativa inicial Q 0

40 Page40 Fim Obrigado pela presença!


Carregar ppt "Page1 DAS-5341: Realimentação de Avaliação Prof. Eduardo Camponogara."

Apresentações semelhantes


Anúncios Google