Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouRaul Gloria Alterado mais de 9 anos atrás
1
Aprendizado por reforço aplicado à navegação de robôs
MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa
2
Objetivo Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.
3
Motivação Pesquisa acadêmica.
Conhecimento nas áreas de Aprendizado de Máquinas e Robótica. Extensão do projeto para aplicações específicas como, por exemplo, exploração de terrenos.
4
Aprendizado por reforço (AR)
Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente. Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.
5
Aprendizado por reforço (AR)
AMBIENTE AGENTE ação estado recompensa
6
Aprendizado por reforço
1 – O agente observa o estado do ambiente. 2 – O agente escolhe e aplica uma ação, baseado em uma política de controle. 3 – o agente recebe uma recompensa imediata do ambiente.
7
Recompensa Define as metas do problema. Mapeamento Estado x Recompensa
Quantifica numericamente a “desejabilidade” dos estados do ambiente.
8
Política de Controle Representa o comportamento do agente diante de determinadas situações. Mapeamento Estado x Ação. O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).
9
Avaliação de Política Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema. Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a). Q(s, a) é o valor de se tomar uma ação a no estado s e depois seguir com com a política de controle a partir do novo estado.
10
Q-Learning Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.
11
Implementação Linguagem de programação C++.
Bibliotecas (libraries) de auxílio: Boost ARIA: conexão com o robô. SonARNL: sistema de localização por meio dos sensores do robô. MobileSim (MobileRobotics): simulador do robô. MobileEyes(MobileRobotics): interface remota de monitoramento do robô.
12
Implementação
13
Arquitetura
14
Arquitetura - RLCore
15
Plataforma Robô Pioneer P2-DX Computador de bordo 8 sonares Odômetro
Notebook conectado ao robô
16
Resultados esperados Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.
17
Ambiente de Testes I 6 x 6 metros Discretização 6 x 6 x 8 estados
y – 1 metro theta – 45° 6 x 6 x 8 estados (288estados)
18
Plano de atividades 1 – Estudo de AR
2 – Familiarização com o robô Pioneer P2-DX e seus comandos 3 – Definição da arquitetura do sistema 4 – Implementação do sistema 5 – Experimentos iniciais em ambiente simulado 6 – Avaliação do desempenho e ajuste da modelagem 7 – Experimentos exaustivos no ambiente real 8 – Escrita da monografia
19
Plano de atividades
20
FIM
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.