A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Aprendizado por Reforço: Uma Aplicação do Aprendizado Q Rafael Souza Nader Ciência da Computação – DCC – IM.

Apresentações semelhantes


Apresentação em tema: "Aprendizado por Reforço: Uma Aplicação do Aprendizado Q Rafael Souza Nader Ciência da Computação – DCC – IM."— Transcrição da apresentação:

1 Aprendizado por Reforço: Uma Aplicação do Aprendizado Q Rafael Souza Nader Ciência da Computação – DCC – IM

2 Agenda Introdução: Aprendizado de Máquina Aprendizado Por Reforço – Aprendizado Q Exemplo simples: labirinto Problema Mundo do Wumpus Conclusão e Trabalhos Futuros

3 Aprendizado de Máquina Inteligência Artificial – Conceito principal Agentes Inteligentes X Agentes com Aprendizado

4 Aprendizado de Máquina Aprendizado Supervisionado – Par de treinamento – Conhecimento do Modelo Aprendizado Não-Supervisionado – Classificação de dados Aprendizado Por Reforço – Livre de Modelo – Treinamento contínuo

5 Aprendizado Por Reforço Histórico – Origens na psicologia – Interesse desde 1950 – Aplicação na década de 1980 Aplicações em geral – Jogos – Ajuste de parâmetros – Tarefas cotidianas

6 Aprendizado Por Reforço Características – Processos seqüenciais: Condição de Markov P((s t+1, a) | s t, s t-1, s t-2, s t-3...) = P((s t+1, a) | s t ) – Recompensa adiada – Exploração – Ambiente parcialmente observável – Aprendizado duradouro

7 Aprendizado Por Reforço Funcionamento – Estado s, ação a, política π, valor acumulado V π (s) – V π (s t ) r t + γr t+1 + γ²r t+2 + γ³r t+3… γ i r t+i – π * argmax π V π (s), ( s)

8 Aprendizado Q π * (s) = argmax a (r(s, a) + γV * (δ(s, a))) Q(s, a) = r(s, a) + γ max a Q(s, a)

9 Aprendizado Q Função APRENDIZADO_Q Variáveis estáticas: Grupo de estados S; Grupo de ações A; Estados s, s; Ações a, a; Tabela de valores S x A; 1.Para todo s 2. Para todo a 3. inicializa a tabela Q(s, a) com 0 4.Para sempre faça 5.seleciona uma ação a em A 6.guarda a recompensa imediata r(s, a) 7.s recebe o novo estado, δ(s, a) 8.atualiza Q(s, a) com r(s, a) + γ max a Q(s, a) 9.estado atual s recebe s

10 Aprendizado Q

11 Implementação Linguagem Delphi

12 Primeiro Exemplo: Grid Básico Verificar funcionamento do algoritmo e da implementação Configurações do Grid – Estado é a posição (x, y) no grid – Ações possíveis: cima, direita, baixo, esquerda e ficar – Estados objetivos com recompensa Aprende o menor caminho a partir de cada estado

13 Primeiro Exemplo Demonstração da aplicação

14 Mundo do Wumpus Problema clássico de Inteligência Artificial

15 Mundo do Wumpus Primeira Abordagem – Posicional (semelhante ao GRID) – Desconhecimento por parte do agente das características do problema – vento com penalidade – vento sem penalidade

16 Mundo do Wumpus Primeira Abordagem – Demonstração da aplicação

17 Mundo do Wumpus Primeira abordagem: resultados – Aprendeu a desviar dos estados ruins – Mesmo o vento sem penalidade, o agente se afasta do buraco – Encontra um caminho até o ouro, não necessariamente o menor

18 Mundo do Wumpus Segunda abordagem – Objetivo: generalizar o aprendizado Tirar a informação de posição do estado do agente Estado representado pelas propriedades da posição do agente e das posições adjacentes – Uso da memória – Inserção de uma nova propriedade: desconhecido

19 Mundo do Wumpus Não-determinismo – Tabela de freqüências Treino: Q(s, a) = (Q(s, a)+v) Cálculo do valor: Q(s, a)/F(s, a) Novo objetivo: sobreviver – Recompensa por explorar

20 Mundo do Wumpus Segunda Abordagem – Demonstração da aplicação

21 Mundo do Wumpus Segunda abordagem: Resultados – Aprende algumas implicações lógicas do modelo: – Age de forma aleatória em outros casos:

22 Conclusão Aprendizado com ampla aplicabilidade – liberdade de modelo é o grande diferencial Resultados – Conseguiu aprender o modelo em algumas situações. – Necessita de uma melhor adaptação do problema para melhores resultados

23 Trabalhos Futuros Novas abordagens – Outras representações de estado – Outros tipos de ações Interação com outros métodos de aprendizado – A Tabela Q pode ser treinada em uma Rede Neural para generalizar estados não treinados


Carregar ppt "Aprendizado por Reforço: Uma Aplicação do Aprendizado Q Rafael Souza Nader Ciência da Computação – DCC – IM."

Apresentações semelhantes


Anúncios Google