Aprendizado por reforço aplicado à navegação de robôs

Aprendizado por reforço aplicado à navegação de robôs
MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Objetivo Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.

Motivação Pesquisa acadêmica.
Conhecimento nas áreas de Aprendizado de Máquinas e Robótica. Extensão do projeto para aplicações específicas como, por exemplo, exploração de terrenos.

Aprendizado por reforço (AR)
Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente. Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.

Aprendizado por reforço (AR)
AMBIENTE AGENTE ação estado recompensa

Aprendizado por reforço
1 – O agente observa o estado do ambiente. 2 – O agente escolhe e aplica uma ação, baseado em uma política de controle. 3 – o agente recebe uma recompensa imediata do ambiente.

Recompensa Define as metas do problema. Mapeamento Estado x Recompensa
Quantifica numericamente a “desejabilidade” dos estados do ambiente.

Política de Controle Representa o comportamento do agente diante de determinadas situações. Mapeamento Estado x Ação. O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).

Avaliação de Política Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema. Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a). Q(s, a) é o valor de se tomar uma ação a no estado s e depois seguir com com a política de controle a partir do novo estado.

Q-Learning Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.

Implementação Linguagem de programação C++.
Bibliotecas (libraries) de auxílio: Boost ARIA: conexão com o robô. SonARNL: sistema de localização por meio dos sensores do robô. MobileSim (MobileRobotics): simulador do robô. MobileEyes(MobileRobotics): interface remota de monitoramento do robô.

Implementação

Arquitetura

Arquitetura - RLCore

Plataforma Robô Pioneer P2-DX Computador de bordo 8 sonares Odômetro
Notebook conectado ao robô

Resultados esperados Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.

Ambiente de Testes I 6 x 6 metros Discretização 6 x 6 x 8 estados
y – 1 metro theta – 45° 6 x 6 x 8 estados (288estados)

Plano de atividades 1 – Estudo de AR
2 – Familiarização com o robô Pioneer P2-DX e seus comandos 3 – Definição da arquitetura do sistema 4 – Implementação do sistema 5 – Experimentos iniciais em ambiente simulado 6 – Avaliação do desempenho e ajuste da modelagem 7 – Experimentos exaustivos no ambiente real 8 – Escrita da monografia

Plano de atividades

Aprendizado por reforço aplicado à navegação de robôs

Apresentações semelhantes

Apresentação em tema: "Aprendizado por reforço aplicado à navegação de robôs"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Aprendizado por reforço aplicado à navegação de robôs

Apresentações semelhantes

Apresentação em tema: "Aprendizado por reforço aplicado à navegação de robôs"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback