Page1 DAS-5341: Aprendizagem por Reforço Prof. Eduardo Camponogara.

DAS-5341: Aprendizagem por Reforço Prof. Eduardo Camponogara

Agenda Introdução a Aprendizagem por Reforço (AR) Aprendizagem supervisionada Aprendizagem não-supervisionada Elementos básicos de AR Função ganho e função valor Exemplo

Introdução Aprender por meio de nossas interações com o ambiente –Uma criança não tem um professor, mas possui habilidades cognitivas –Através das interações, a criança descobre as relações de causa e efeito –Aprendendo por meio de interações é uma idéia fundamental de quase todas as teorias de aprendizagem e inteligência

Introdução – Aplicação em Robótica Obstáculo Robô Domínio Problema Dinâmico (PD) Aprender a navegar dentro do domínio Coletar lixo (ganho +) Trombar em obstáculos (ganho -) Controle de força

O Que Veremos? Nas próximas aulas discutiremos uma abordagem computacional para aprendizagem através de interações Exploraremos projetos de máquinas que são eficazes na solução de problemas de aprendizagem com interesse econômico e científico Avaliaremos a qualidade desses projetos por meio de análises matemáticas e experimentos computacionais A abordagem a ser explorada é chamada “Reinforcement Learning”

Aprendizagem por Reforço Aprendizagem por reforço consiste em aprender o que fazer—como mapear situações em ações—de maneira a maximizar um sinal de ganho Ao aprendiz não é dito que ação tomar, o qual deve aprender quais ações produzem maior ganho por meio de interações Nas situações mais desafiadores, o ganho não é imediato, mas futuro

Aprendizagem por Reforço Características de RL (Reinforcement Learning) –Ganho retardado –Busca por meio de tentativa e erro RL não é caracterizado por métodos de aprendizagem, mas por meio de um problema de aprendizagem O LP (Learning Problem) será especificado como um problema de controle ótimo sobre um processo de decisão Markoviano

The Learning Problem A formulação inclui três aspectos básicos de um agente que interage com o ambiente: –Percepção –Ação –Objetivo O agente percebe, pelo menos parcialmente, o estado do ambiente, suas ações afetam o estado e ele possui um objetivo relacionado ao ambiente

The Learning Problem Agente Ambiente Ação a t Ganho r t+1 Estado s t Problema Encontre política de controle, a t =  (s t ) que maximize ganho total Características Aprendizagem por tentativa e erro Não necessita de modelos Adaptação automática a ambientes desconhecidos ou dinâmicos

Aprendizagem por Reforco – Aplicações em Controle de Tráfego Agente (s t, r t ) = (filas, atrasos) a t = sinais (PD) Atividades Modelagem (PD) Estudo e implementação de métodos RL Análise Experimental

Controle de Tráfego

Resultados Computacionais

Aprendizagem Supervisionada x Aprendizagem por Reforço RL difere de aprendizagem supervisionada –Em aprendizagem supervisionada, o aprendiz aprende por meio de exemplos recebidos de um supervisor sábio (oráculo) –Em um território inexplorado, um agente tem que ser capaz de aprender a partir de sua própria experiência –Uma das dificuldades em RL é o trade-off entre a escolha de explorar outras possibilidades ou tomar a ação que traz maior retorno imediato

Aprendizagem Supervisionada x Aprendizagem por Reforço Aprendizagem Supervisionada SituaçãoAção (x 1 1, …, x n 1 )a 1 (x 1 2, …, x n 2 )a 2 …… (x 1 m, …, x n m )a m Problema: encontre função f(x) = a que: a) aproxime os exemplos da tabela e b) dado um estado x, indique a ação a que corresponda a uma interpolação dos exemplos de treinamento Aprendizagem por Reforço Não há tabela de dados. Esta deve ser construída implicitamente a partir da experiência adquirida por meio da interação com o ambiente Problema: encontre f(x) = a, que maximize o ganho ao longo do tempo

Trade-off Para obter maior ganho, o agente prefere as ações que no passado produziram bons resultados Todavia, para descobrir tais ações, o agente tem que experimentar ações que ainda não selecionou

Trade-off: Exploration x Exploitation Dilema: tanto exploration quanto exploitation não podem ser seguidas exclusivamente sem que o agente falhe em sua tarefa. –O agente deve explorar uma série de possibilidade e progressivamente favorecer aquelas que produzem melhores resultados

Ambiente Desconhecido Uma outra característica chave de RL é que este considera explicitamente o problema completo do agente: –o agente busca atingir um objetivo enquanto interage com um ambiente desconhecido e incerto Planejamento tipicamente considera como conhecido o ambiente Onde estou?

IA e Outras Disciplinas RL: mais próxima da engenharia e outras disciplinas (como estatística e teoria do controle) mais relacionada a grandezas numéricas, não apenas simbólicas IA clássica está relacionada à lógica e símbolos Hoje IA também engloba estatística, álgebra linear, equações diferenciais, etc.

IA e Outras Disciplinas RL estende idéias da teoria de controle ótimo e aproximações estocásticas para tratar de objetivos abrangentes e ambiciosos da Inteligência Artificial

Exemplos de Aprendizagem Jogo de xadrez Aprendizagem na natureza Robótica

Exemplo: Xadrez Um mestre de xadrez faz um movimento –A escolha é informada pelo planejamento (antecipação de possíveis respostas do adversário) e pelo julgamento imediato e intuitivo da qualidade do movimento

Exemplo: Aprendizagem na Natureza Uma gazela tem dificuldade de locomover-se logo após o nascimento. Horas depois está correndo a mais de 20 Km/h

Exemplo: Robótica Um robô móvel tem que decidir: a)se entra em uma sala em busca de mais lixo ou b)se volta para a estação onde recarregará sua bateria. O robô toma sua decisão com base na experiência passada, em quão fácil foi encontrar estações de recarga no passado.

Similaridades Entre Exemplos Vistos Estes exemplos e muitos outros apresentam características comuns –Todos envolvem interação entre um agente de tomada-de-decisão e o ambiente –Um agente que procura atingir um ou mais objetivos –Ambiente incerto

Similaridades Entre Exemplos Vistos Estes exemplos e muitos outros apresentam características comuns –As ações do agente afetam o estado futuro do ambiente –A ação correta deve levar em consideração consequências indiretas e retardadas, requerendo predição e planejamento

Outras Questões Em todos os exemplos anteriores, os efeitos das ações não podem ser perfeitamente antecipados; portanto, o agente deve monitorar o ambiente frequentemente e reagir apropriadamente Plano a Plano b Plano c Lucro Prejuizo

Elementos Básicos de RL Além de agente e ambiente, pode-se identificar quatro subelementos fundamentais em RL: –Política (de controle ou de tomada-de-decisão) –Função ganho (reward function) –Função valor (value function) –Modelo do ambiente (opcional)

Política de Controle Define o comportamento do agente num dado momento Em poucas palavras, uma política é uma função que mapeia estados em ações Ação =  (estado) Em alguns casos, a política pode ser simplesmente uma tabela; em outros casos ela pode envolver computações complexas Em geral políticas podem ser estocásticas No estado s, a probabilidade de se tomar a ação a é dada por  (s,a)

Função Ganho A função ganho define a meta em um problema RL Em poucas palavras, ela mapeia um estado (ou par estado- ação) do ambiente para um número, denominado ganho O objetivo do agente é maximizar o ganho total que ele recebe a longo termo Ganhos podem ser estocásticos Estado s t Ação a t s t+1 Ganho r t+1 = r(s t,a t,s t+1 )

Função Valor Enquanto a função ganho indica os movimentos promissores imediatos, a função valor estado indica o ganho total que pode ser acumulado no futuro se iniciarmos no estado em consideração A função valor indica o ganho potencial de longo termo de um estado, levando em conta os estados que sucedem o estado em consideração V(s) = E[r t+1 + r t+2 + r t+3 + … : s t = s]

Função Valor Ganhos são de certa forma primários, enquanto que valores são secundários –Sem ganho, valores não poderiam existir O propósito de estimarmos valores é obter maiores ganhos É com valores que nos preocupamos quanto tomamos decisões

Função Valor Ganhos são basicamente dados diretamente pelo ambiente, mas valores devem ser estimados e re- estimados, a partir das observações que o agente faz durante toda a sua vida De fato, um componente de quase todos os algoritmos de aprendizagem por reforço são métodos eficientes de estimar valores

Função Valor Os métodos de RL a serem visto são estruturados na estimação da função valor Estimar V(s), s  S, a partir das interações com o ambiente Definir política  (s,a) a partir de V(s) Métodos como algoritmo genético e simulated annealing são algumas vezes utilizados para resolver problemas de RL, mas estes fazem uma busca direta no espaço de políticas sem fazer qualquer referência à função valor Sugerir  (s,a) e simular seu desempenho Modificar sugestão

Modelo O modelo do ambiente imita o comportamento do ambiente Dados um estado e uma ação, o modelo antecipa o próximo estado e o ganho Estado corrente no instante t: s t Ação a ser tomada: a t Modelo antecipa o próximo estado: P(s t+1 =s | s t, a t ) Modelos são usados para planejamento, o que entendemos como qualquer método de decidir um curso de ação ao considerarmos futuras situações antes de encontrá-las

Modelo: Equações O modelo é representado por: –espaço de estados S –Conjunto de ações que podem ser tomadas em cada estado: A(s) para s  S –Probabilidade das transições: P(s t+1 =s | s t, a t ) –Probabilidade dos ganhos: P(r t =r | s t+1, s t, a t ) s t =a s t+1 =c s t+1 =b r a,c r a,b

Modelo: Simulador Desenvolve-se um simulador do ambiente –Dados o estado corrente s t e a ação a t, o simulador responde com o próximo estado s t+1 e o ganho r t+1 Agente Simulador Ação a t Ganho r t+1 Estado s t

Um Exemplo Ilustrativo – Jogo da Velha Cenário: - Um jogador experiente jamais perde neste jogo - Considere um adversário imperfeito, que às vezes toma decisões incorretas X X X X OO O

Jogo da Velha Como poderíamos construir um jogador artificial que “identifica” as imperfeições do oponente e aprende a maximizar as chances de vitória?

Jogo da Velha Como poderíamos construir um jogador artificial que “identifica” as imperfeições do oponente e aprende a maximizar as chances de vitória? –Apesar de ser um jogo simples, uma solução satisfatória não pode ser obtida através de técnicas clássicas –A técnica MiniMax, por exemplo, baseada na teoria dos jogos, assume um comportamento particular do oponente

Jogo da Velha Como poderíamos construir um jogador artificial que “identifica” as imperfeições do oponente e aprende a maximizar as chances de vitória? –Métodos de otimização para problemas de decisão sequencial (programação dinâmica) são capazes de calcular uma solução ótima, mas exigem uma especificação completa do oponente, incluindo distribuições de probabilidades.

Jogo da Velha O comportamento do adversário pode não ser conhecido a priori, mas podemos identificá-lo a partir das interações –Podemos jogar com o oponente e identificar o modelo, até um certo nível de confiança –Aplica-se então técnicas de programação dinâmica para calcular a política de decisão ótima –RL não é muito diferente dos passos acima

RL para Jogo da Velha Passos para aplicar RL ao jogo da velha –Criamos uma tabela de números, V(s), com uma entrada para cada estado s do jogo –V(s) é a estimativa mais recente de vencermos o jogo a partir do estado s –V(s) é o valor do estado s –A tabela V representa a função valor

RL para Jogo da Velha Um estado s 1 é considerado melhor do que um estado s 2, se V(s 1 ) > V(s 2 ) Uma linha com três X’s tem probabilidade 1 de vitória—nós já ganhamos o jogo Uma linha com três O’s tem probabilidade 0 de vitória—o jogo já está perdido Para os demais estados, chutamos probabilidade ½ de vitória

RL para Jogo da Velha Jogamos contra o oponente –Na maioria das vezes selecionamos o movimento que nos leva ao estado com maior valor, ou seja, o estado com maior probabilidade de vitória (exploitation) –Ocasionalmente, entretanto, selecionamos randomicamente dentre os demais movimentos possíveis (exploration)

RL para Jogo da Velha Enquanto jogamos, atualizamos a tabela V –Tentamos obter estimativas mais acuradas das probabilidades de vencer Para que isso seja feito, atualizamos o valor do estado após cada movimento guloso (exploitation) –O valor corrente é ajustado para se tornar mais próximo do último valor

RL para Jogo da Velha S S’’ Movimento do Oponente

RL para Jogo da Velha V(s)  V(s) +  [V(s’) – V(s)] –  é um número positivo pequeno, chamado de passo, o qual influencia a aprendizagem –A regra de atualização acima é chamada de método de aprendizagem por diferença temporal (temporal-difference learning method)

Fim Obrigado pela presença!

Page1 DAS-5341: Aprendizagem por Reforço Prof. Eduardo Camponogara.

Apresentações semelhantes

Apresentação em tema: "Page1 DAS-5341: Aprendizagem por Reforço Prof. Eduardo Camponogara."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Page1 DAS-5341: Aprendizagem por Reforço Prof. Eduardo Camponogara.

Apresentações semelhantes

Apresentação em tema: "Page1 DAS-5341: Aprendizagem por Reforço Prof. Eduardo Camponogara."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback