A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa.

Apresentações semelhantes


Apresentação em tema: "MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa."— Transcrição da apresentação:

1 MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

2 Objetivo Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.

3 Motivação Pesquisa acadêmica. Conhecimento nas áreas de Aprendizado de Máquinas e Robótica. Extensão do projeto para aplicações específicas como, por exemplo, exploração de terrenos.

4 Aprendizado por reforço (AR) Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente. Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.

5 Aprendizado por reforço (AR)

6 Aprendizado por reforço 1 – O agente observa o estado do ambiente. 2 – O agente escolhe e aplica uma ação, baseado em uma política de controle. 3 – o agente recebe uma recompensa imediata do ambiente.

7 Recompensa Define as metas do problema. Mapeamento Estado x Recompensa ▫Quantifica numericamente a “desejabilidade” dos estados do ambiente.

8 Política de Controle Representa o comportamento do agente diante de determinadas situações. Mapeamento Estado x Ação. O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).

9 Avaliação de Política Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema. Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a). ▫Q(s, a) é o valor de se tomar uma ação a no estado s e depois seguir com com a política de controle a partir do novo estado.

10 Q-Learning Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.

11 Implementação Linguagem de programação C++. Bibliotecas (libraries) de auxílio: ▫Boost ▫ARIA: conexão com o robô. ▫SonARNL: sistema de localização por meio dos sensores do robô. MobileSim (MobileRobotics): simulador do robô. MobileEyes(MobileRobotics): interface remota de monitoramento do robô.

12 Implementação

13 Arquitetura

14 Arquitetura - RLCore

15 Plataforma Robô Pioneer P2-DX ▫8 sonares ▫Odômetro Computador de bordo ▫Notebook conectado ao robô

16 Resultados esperados Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.

17 Ambiente de Testes I 6 x 6 metros Discretização ▫x – 1 metro ▫y – 1 metro ▫theta – 45° 6 x 6 x 8 estados (288estados)

18 Plano de atividades 1 – Estudo de AR 2 – Familiarização com o robô Pioneer P2-DX e seus comandos 3 – Definição da arquitetura do sistema 4 – Implementação do sistema 5 – Experimentos iniciais em ambiente simulado 6 – Avaliação do desempenho e ajuste da modelagem 7 – Experimentos exaustivos no ambiente real 8 – Escrita da monografia

19 Plano de atividades

20


Carregar ppt "MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa."

Apresentações semelhantes


Anúncios Google