Aprendizado por reforço aplicado à navegação de robôs

Slides:



Advertisements
Apresentações semelhantes
Introdução à Programação: uma Abordagem Funcional PD I – Engenharia Elétrica Prof.ª Claudia Boeres 2008/2.
Advertisements

Inteligência Artificial
Vicente Vieira Filho Orientadora: Patrícia Tedesco
Cuidado com a escolha das cores 8051 Sensores C.Vídeo Motores RS-232 TCP/IP Mãe Remoto.
Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.
Agentes Inteligentes Agentes Inteligentes.
Teste de Software.
Identificando requisitos
Aprendizado por Reforço: Uma Aplicação do Aprendizado Q
SAD - SISTEMA DE APOIO À DECISÃO Prof. Wagner Andrade
Administração Financeira III
Inteligência Artificial Alex F. V. Machado. Tecnologia de Processamento da Informação que envolve processos de raciocínio, aprendizado e percepção. Winston.
Agentes de Software e Pesquisa em Defesa
Agentes Inteligentes Introdução.
Prof. Fagner Marques Robótica Prof. Fagner Marques.
Avaliação de Desempenho de Sistemas Operacionais
Pesquisa-ação: uma introdução metodológica
Laboratório de Máquinas Inteligentes – LMI/ITA
COS350 ECI - INTERFACES HOMEM-MÁQUINA
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
Planejamento Estratégico AULA 8 Março/2011
Referencial Rumo à Excelência
INF 1771 – Inteligência Artificial
Aluno: Gabriel Angelo Nazário Orientadora: Andrea Iabrudi Tavares
CONTEUDO ROBÓTICA MÓVEL 1.1. Percepção Sensores do Nomad XR4000
JAVA: Conceitos Iniciais
Agentes de Desenvolvimento Cooperativo
Aprendizado de Máquina Aula 13
Equipe Bruno Ghisi Bruno Ghisi Diogo Verçosa Diogo Verçosa Raylson Carlos Raylson Carlos Reginaldo Júnior Reginaldo Júnior Renato Arruda Renato Arruda.
Rodrigo de Souza Couto Redes de Computadores II
Programação Avançada Prof. Natalia Castro Fernandes
SAURON Localização e Navegação de um Robô Móvel de Baixo Custo
Projeto de Robótica Educacional na RME
Capítulo 2 – Russell & Norvig
DESENVOLVIMENTO DE UM SIMULADOR COMPUTACIONAL PARA POÇOS DE PETRÓLEO EQUIPADOS COM BOMBEIO CENTRIFUGO SUBMERSO Aluno: Tiago de Souza Barbosa Orientador:
PLANEJAMENTO DA AÇÃO EMPRESARIAL
Liderança em Pequenas e Médias Empresas
Estudo de métodos de aprendizado de máquina capazes de identificar as variáveis mais impactantes no desempenho de uma mineradora Disciplina: BCC391 – Monografia.
Futebol de robôs, uma aplicação de robótica
ADM DE VENDAS PROFa. WANESSA PAZINI
Sistemas Distribuídos Carlos A. G. Ferraz DI/UFPE Aula 05.
TÓPICOS ESPECIAIS EM ADMINISTRAÇÃO
SOFTWARE EDUCACIONAL CLASSIFICAÇÃO
Aula 7 – Planejamento do Levantamento
O Processo Unificado (UP)
TRABALHOS FEITOS COM O NOMAD NO GRACO
DISCIPLINA Gestão de Pessoas e Liderança Curso: MKT Turma: 2º Período Prof. (a): Paloma Almeida
Agenda Agentes que Respondem por Estímulo Agentes Inteligentes.
METODOLOGIA, MÉTODOS E FERRAMENTAS
Proposta de uma Arquitetura Híbrida para Navegação Autônoma por Hugo da Luz Silva.
Laboratório de Robótica Móvel Heitor Luis Polidoro Supervisor: Dr. Denis Fernando Wolf Navegação e Monitoramento de Ambientes Internos Utilizando Robôs.
Técnicas Probabilísticas de Localização e Mapeamento aplicadas à Robótica Móvel Claudia Patricia Ochoa Díaz Mestrado em Sistemas Mecatrônicos UnB-2008.
Engenharia de Software
Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma.
AGRADECIMENTOS: MOTIVAÇÃO: Alterações na composição de carga representam uma das perturbações mais importante que o sistema de controle de uma coluna de.
PLANEJAMENTO, CURRÍCULO E AVALIAÇÃO
Projetão de Microcontroladores
Título do Projeto (Nome da Empresa)
Mestrando Gabriel G. Detoni Orientador Prof. Dante Barone Controle para Futebol de Robôs Utilizando Processamento Paralelo Seminário de Andamento.
Professora Michelle Luz
Engenharia de Software de Sistemas Multi-Agentes Seminários 2015 – 2º Semestre Sistemas Multi-Agentes Inovações Tecnológicas.
Administração de Recursos Humanos
Laboratório de Técnicas Inteligentes - LTI Universidade de São Paulo – USP Escola Politécnica Laboratório de Técnicas Inteligentes – LTI SAURON Localização.
ELLO Soluções em Gestão de Pessoas
Redes e Sistemas Distribuídos II – Cód Prof. MSc. Ronnison Reges Vidal.
JOGOS DE EMPRESA 4 PROF.DR. RENATO VAZ. DESENVOLVIMENTO DOS JOGOS DE EMPRESAS 1. Iniciação do jogo – Regras do Jogo: A primeira atividade necessária é.
COMPILADORES 02 Prof. Marcos. COMPILADORES Do Programa à Execução Computadores das mais variadas arquiteturas têm funcionamento:
Função Controle GUI I Relações entre Planejamento e Controle – planejamento: antecipação da ação – controle: processo que procura manter o planejamento.
Controle estratégico – 9a. aula Prof ª Rosana Alves Vieira Empreendedorismo e Estrat. de Negócios.
FUNDAMENTOS TEÓRICOS Patrícia Teixeira Davet Pelotas, 22 de junho de 2012.
Transcrição da apresentação:

Aprendizado por reforço aplicado à navegação de robôs MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Objetivo Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.

Motivação Pesquisa acadêmica. Conhecimento nas áreas de Aprendizado de Máquinas e Robótica. Extensão do projeto para aplicações específicas como, por exemplo, exploração de terrenos.

Aprendizado por reforço (AR) Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente. Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.

Aprendizado por reforço (AR) AMBIENTE AGENTE ação estado recompensa

Aprendizado por reforço 1 – O agente observa o estado do ambiente. 2 – O agente escolhe e aplica uma ação, baseado em uma política de controle. 3 – o agente recebe uma recompensa imediata do ambiente.

Recompensa Define as metas do problema. Mapeamento Estado x Recompensa Quantifica numericamente a “desejabilidade” dos estados do ambiente.

Política de Controle Representa o comportamento do agente diante de determinadas situações. Mapeamento Estado x Ação. O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).

Avaliação de Política Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema. Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a). Q(s, a) é o valor de se tomar uma ação a no estado s e depois seguir com com a política de controle a partir do novo estado.

Q-Learning Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.

Implementação Linguagem de programação C++. Bibliotecas (libraries) de auxílio: Boost ARIA: conexão com o robô. SonARNL: sistema de localização por meio dos sensores do robô. MobileSim (MobileRobotics): simulador do robô. MobileEyes(MobileRobotics): interface remota de monitoramento do robô.

Implementação

Arquitetura

Arquitetura - RLCore

Plataforma Robô Pioneer P2-DX Computador de bordo 8 sonares Odômetro Notebook conectado ao robô

Resultados esperados Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.

Ambiente de Testes I 6 x 6 metros Discretização 6 x 6 x 8 estados y – 1 metro theta – 45° 6 x 6 x 8 estados (288estados)

Plano de atividades 1 – Estudo de AR 2 – Familiarização com o robô Pioneer P2-DX e seus comandos 3 – Definição da arquitetura do sistema 4 – Implementação do sistema 5 – Experimentos iniciais em ambiente simulado 6 – Avaliação do desempenho e ajuste da modelagem 7 – Experimentos exaustivos no ambiente real 8 – Escrita da monografia

Plano de atividades

FIM