Aprendizado por reforço aplicado à navegação de robôs

Slides:

Advertisements

Apresentações semelhantes

Introdução à Programação: uma Abordagem Funcional PD I – Engenharia Elétrica Prof.ª Claudia Boeres 2008/2.

Advertisements

Inteligência Artificial

Vicente Vieira Filho Orientadora: Patrícia Tedesco

Cuidado com a escolha das cores 8051 Sensores C.Vídeo Motores RS-232 TCP/IP Mãe Remoto.

Introdução à Programação uma Abordagem Funcional Programação I Prof.ª Claudia Boeres CT VII - Sala 32 Departamento de Informática Centro.

Agentes Inteligentes Agentes Inteligentes.

Teste de Software.

Identificando requisitos

Aprendizado por Reforço: Uma Aplicação do Aprendizado Q

SAD - SISTEMA DE APOIO À DECISÃO Prof. Wagner Andrade

Administração Financeira III

Inteligência Artificial Alex F. V. Machado. Tecnologia de Processamento da Informação que envolve processos de raciocínio, aprendizado e percepção. Winston.

Agentes de Software e Pesquisa em Defesa

Agentes Inteligentes Introdução.

Prof. Fagner Marques Robótica Prof. Fagner Marques.

Avaliação de Desempenho de Sistemas Operacionais

Pesquisa-ação: uma introdução metodológica

Laboratório de Máquinas Inteligentes – LMI/ITA

COS350 ECI - INTERFACES HOMEM-MÁQUINA

Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.

Planejamento Estratégico AULA 8 Março/2011

Referencial Rumo à Excelência

INF 1771 – Inteligência Artificial

Aluno: Gabriel Angelo Nazário Orientadora: Andrea Iabrudi Tavares

CONTEUDO ROBÓTICA MÓVEL 1.1. Percepção Sensores do Nomad XR4000

JAVA: Conceitos Iniciais

Agentes de Desenvolvimento Cooperativo

Aprendizado de Máquina Aula 13

Equipe Bruno Ghisi Bruno Ghisi Diogo Verçosa Diogo Verçosa Raylson Carlos Raylson Carlos Reginaldo Júnior Reginaldo Júnior Renato Arruda Renato Arruda.

Rodrigo de Souza Couto Redes de Computadores II

Programação Avançada Prof. Natalia Castro Fernandes

SAURON Localização e Navegação de um Robô Móvel de Baixo Custo

Projeto de Robótica Educacional na RME

Capítulo 2 – Russell & Norvig

DESENVOLVIMENTO DE UM SIMULADOR COMPUTACIONAL PARA POÇOS DE PETRÓLEO EQUIPADOS COM BOMBEIO CENTRIFUGO SUBMERSO Aluno: Tiago de Souza Barbosa Orientador:

PLANEJAMENTO DA AÇÃO EMPRESARIAL

Liderança em Pequenas e Médias Empresas

Estudo de métodos de aprendizado de máquina capazes de identificar as variáveis mais impactantes no desempenho de uma mineradora Disciplina: BCC391 – Monografia.

Futebol de robôs, uma aplicação de robótica

ADM DE VENDAS PROFa. WANESSA PAZINI

Sistemas Distribuídos Carlos A. G. Ferraz DI/UFPE Aula 05.

TÓPICOS ESPECIAIS EM ADMINISTRAÇÃO

SOFTWARE EDUCACIONAL CLASSIFICAÇÃO

Aula 7 – Planejamento do Levantamento

O Processo Unificado (UP)

TRABALHOS FEITOS COM O NOMAD NO GRACO

DISCIPLINA Gestão de Pessoas e Liderança Curso: MKT Turma: 2º Período Prof. (a): Paloma Almeida

Agenda Agentes que Respondem por Estímulo Agentes Inteligentes.

METODOLOGIA, MÉTODOS E FERRAMENTAS

Proposta de uma Arquitetura Híbrida para Navegação Autônoma por Hugo da Luz Silva.

Laboratório de Robótica Móvel Heitor Luis Polidoro Supervisor: Dr. Denis Fernando Wolf Navegação e Monitoramento de Ambientes Internos Utilizando Robôs.

Técnicas Probabilísticas de Localização e Mapeamento aplicadas à Robótica Móvel Claudia Patricia Ochoa Díaz Mestrado em Sistemas Mecatrônicos UnB-2008.

Engenharia de Software

Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma.

AGRADECIMENTOS: MOTIVAÇÃO: Alterações na composição de carga representam uma das perturbações mais importante que o sistema de controle de uma coluna de.

PLANEJAMENTO, CURRÍCULO E AVALIAÇÃO

Projetão de Microcontroladores

Título do Projeto (Nome da Empresa)

Mestrando Gabriel G. Detoni Orientador Prof. Dante Barone Controle para Futebol de Robôs Utilizando Processamento Paralelo Seminário de Andamento.

Professora Michelle Luz

Engenharia de Software de Sistemas Multi-Agentes Seminários 2015 – 2º Semestre Sistemas Multi-Agentes Inovações Tecnológicas.

Administração de Recursos Humanos

Laboratório de Técnicas Inteligentes - LTI Universidade de São Paulo – USP Escola Politécnica Laboratório de Técnicas Inteligentes – LTI SAURON Localização.

ELLO Soluções em Gestão de Pessoas

Redes e Sistemas Distribuídos II – Cód Prof. MSc. Ronnison Reges Vidal.

JOGOS DE EMPRESA 4 PROF.DR. RENATO VAZ. DESENVOLVIMENTO DOS JOGOS DE EMPRESAS 1. Iniciação do jogo – Regras do Jogo: A primeira atividade necessária é.

COMPILADORES 02 Prof. Marcos. COMPILADORES Do Programa à Execução Computadores das mais variadas arquiteturas têm funcionamento:

Função Controle GUI I Relações entre Planejamento e Controle – planejamento: antecipação da ação – controle: processo que procura manter o planejamento.

Controle estratégico – 9a. aula Prof ª Rosana Alves Vieira Empreendedorismo e Estrat. de Negócios.

FUNDAMENTOS TEÓRICOS Patrícia Teixeira Davet Pelotas, 22 de junho de 2012.

Transcrição da apresentação:

Aprendizado por reforço aplicado à navegação de robôs MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Objetivo Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.

Motivação Pesquisa acadêmica. Conhecimento nas áreas de Aprendizado de Máquinas e Robótica. Extensão do projeto para aplicações específicas como, por exemplo, exploração de terrenos.

Aprendizado por reforço (AR) Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente. Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.

Aprendizado por reforço (AR) AMBIENTE AGENTE ação estado recompensa

Aprendizado por reforço 1 – O agente observa o estado do ambiente. 2 – O agente escolhe e aplica uma ação, baseado em uma política de controle. 3 – o agente recebe uma recompensa imediata do ambiente.

Recompensa Define as metas do problema. Mapeamento Estado x Recompensa Quantifica numericamente a “desejabilidade” dos estados do ambiente.

Política de Controle Representa o comportamento do agente diante de determinadas situações. Mapeamento Estado x Ação. O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).

Avaliação de Política Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema. Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a). Q(s, a) é o valor de se tomar uma ação a no estado s e depois seguir com com a política de controle a partir do novo estado.

Q-Learning Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.

Implementação Linguagem de programação C++. Bibliotecas (libraries) de auxílio: Boost ARIA: conexão com o robô. SonARNL: sistema de localização por meio dos sensores do robô. MobileSim (MobileRobotics): simulador do robô. MobileEyes(MobileRobotics): interface remota de monitoramento do robô.

Implementação

Arquitetura

Arquitetura - RLCore

Plataforma Robô Pioneer P2-DX Computador de bordo 8 sonares Odômetro Notebook conectado ao robô

Resultados esperados Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.

Ambiente de Testes I 6 x 6 metros Discretização 6 x 6 x 8 estados y – 1 metro theta – 45° 6 x 6 x 8 estados (288estados)

Plano de atividades 1 – Estudo de AR 2 – Familiarização com o robô Pioneer P2-DX e seus comandos 3 – Definição da arquitetura do sistema 4 – Implementação do sistema 5 – Experimentos iniciais em ambiente simulado 6 – Avaliação do desempenho e ajuste da modelagem 7 – Experimentos exaustivos no ambiente real 8 – Escrita da monografia

Plano de atividades

FIM