A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizado por Reforço: Uma Aplicação do Aprendizado Q

Apresentações semelhantes


Apresentação em tema: "Aprendizado por Reforço: Uma Aplicação do Aprendizado Q"— Transcrição da apresentação:

1 Aprendizado por Reforço: Uma Aplicação do Aprendizado Q
Rafael Souza Nader Ciência da Computação – DCC – IM

2 Agenda Introdução: Aprendizado de Máquina Aprendizado Por Reforço
Aprendizado Q Exemplo simples: labirinto Problema Mundo do Wumpus Conclusão e Trabalhos Futuros

3 Aprendizado de Máquina
Inteligência Artificial Conceito principal Agentes Inteligentes X Agentes com Aprendizado

4 Aprendizado de Máquina
Aprendizado Supervisionado Par de treinamento Conhecimento do Modelo Aprendizado Não-Supervisionado Classificação de dados Aprendizado Por Reforço “Livre de Modelo” Treinamento contínuo

5 Aprendizado Por Reforço
Histórico Origens na psicologia Interesse desde 1950 Aplicação na década de 1980 Aplicações em geral Jogos Ajuste de parâmetros Tarefas cotidianas

6 Aprendizado Por Reforço
Características Processos seqüenciais: Condição de Markov P((st+1, a) | st, st-1, st-2, st-3...) = P((st+1, a) | st) Recompensa adiada Exploração Ambiente parcialmente observável Aprendizado “duradouro”

7 Aprendizado Por Reforço
Funcionamento Estado s, ação a, política π, valor acumulado Vπ(s) Vπ(st) ≡ rt + γrt+1 + γ²rt+2 + γ³rt+3… ≡ ∑ γ i rt+i π* ≡ argmaxπ Vπ(s), (∀s)

8 Aprendizado Q π*(s) = argmaxa (r(s, a) + γV*(δ(s, a)))
Q(s, a) = r(s, a) + γ maxa’ Q(s’, a’)

9 Aprendizado Q inicializa a tabela Q(s, a) com 0 Função APRENDIZADO_Q
Variáveis estáticas: Grupo de estados S; Grupo de ações A; Estados s, s’; Ações a, a’; Tabela de valores S x A; Para todo s Para todo a inicializa a tabela Q(s, a) com 0 Para sempre faça seleciona uma ação a em A guarda a recompensa imediata r(s, a) s’ recebe o novo estado, δ(s, a) atualiza Q(s, a) com r(s, a) + γ maxa’ Q(s’, a’) estado atual s recebe s’

10 Aprendizado Q

11 Implementação Linguagem Delphi

12 Primeiro Exemplo: Grid Básico
Verificar funcionamento do algoritmo e da implementação Configurações do Grid Estado é a posição (x, y) no grid Ações possíveis: cima, direita, baixo, esquerda e ficar Estados objetivos com recompensa Aprende o menor caminho a partir de cada estado

13 Primeiro Exemplo Demonstração da aplicação

14 Mundo do Wumpus Problema clássico de Inteligência Artificial

15 Mundo do Wumpus Primeira Abordagem Posicional (semelhante ao GRID)
Desconhecimento por parte do agente das características do problema “vento” com penalidade “vento” sem penalidade

16 Mundo do Wumpus Primeira Abordagem Demonstração da aplicação

17 Mundo do Wumpus Primeira abordagem: resultados
Aprendeu a desviar dos estados ruins Mesmo o “vento” sem penalidade, o agente se afasta do buraco Encontra um caminho até o ouro, não necessariamente o menor

18 Mundo do Wumpus Segunda abordagem
Objetivo: generalizar o aprendizado Tirar a informação de “posição” do estado do agente Estado representado pelas propriedades da posição do agente e das posições adjacentes Uso da memória Inserção de uma nova propriedade: “desconhecido”

19 Mundo do Wumpus Não-determinismo Novo objetivo: sobreviver
Tabela de freqüências Treino: Q(s, a) = (Q(s, a)+v) Cálculo do valor: Q(s, a)/F(s, a) Novo objetivo: sobreviver Recompensa por explorar

20 Mundo do Wumpus Segunda Abordagem Demonstração da aplicação

21 Mundo do Wumpus Segunda abordagem: Resultados
Aprende algumas implicações lógicas do modelo: Age de forma aleatória em outros casos:

22 Conclusão Aprendizado com ampla aplicabilidade Resultados
“liberdade de modelo” é o grande diferencial Resultados Conseguiu aprender o modelo em algumas situações. Necessita de uma melhor adaptação do problema para melhores resultados

23 Trabalhos Futuros Novas abordagens
Outras representações de estado Outros tipos de ações Interação com outros métodos de aprendizado A Tabela Q pode ser treinada em uma Rede Neural para generalizar estados não treinados


Carregar ppt "Aprendizado por Reforço: Uma Aplicação do Aprendizado Q"

Apresentações semelhantes


Anúncios Google