A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma.

Apresentações semelhantes


Apresentação em tema: "Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma."— Transcrição da apresentação:

1 Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

2 Definição do Problema Navegação robusta de um robô móvel, por longos períodos de tempo, em um ambiente interno não-estruturado. Caminhar por corredores, por longos períodos de tempo, sem perder-se.

3 Dificuldades X Imprecisão nos atuadores X Imprecisão nos sensores.

4 Abordagens Existentes Mapas métricos + Fácil atualização dos dados de odometria para o mapa, - Problema de dead-reckoning Mapas topológicos + Compactação dos dados - Incerteza nos sensores

5 Navegação métrica Abordagens Existentes relatório do sensor relatório de movimento Navegação baseado em landmark X

6 Abordagens Existentes Incapazes de lidar: Com múltiplas possibilidades para a postura do robô, E lidar, de forma unificada, com as incertezas nos: atuadores, sensores, interpretação dos dados, posição inicial, caráter estático da cena

7 Trabalhos Relacionados Como trabalhar de maneira segura em um ambiente impreciso? Filtro de Kalman – Unimodal Redes Bayesianas – Espaço discreto POMDP

8 Trabalhos Relacionados: Dervish Dervish: Mapa topológico Planejamento externo “Intuição” Xavier: Misto de mapa topológico e métrico Planejamento inerente à arquitetura Formalismo matématico (POMDP)

9 Navegação POMDP Partially Observable Markov Decision Process

10 Processo de Markov AFN: Alfabeto = ações, Transição = probabilidades, Propriedade de Markov: O próximo estado é determinado exclusivamente pelo estado atual e a ação tomada. caracoroa Jogar/0.5 Cair no chão/0.9 Cair no chão/0.1 Jogar/0.5

11 Processo de Decisão de Markov 4-upla: ( S, A, T, R ): S = Conjunto de estados, A = Conjunto de ações, T : S£A ! ? = função de transição de estado, R : S£A !< = função de recompensa A melhor ação nem sempre é aquela que traz a maior recompensa imediata: Planejamento a longo prazo. Ações Determinísticas = S x Estocásticas = p(s’/s,a) Prog. Dinâmica (Bellman): V(s) = max a 2 A [ R (s)+   s’ 2 S p(s’/s,a)V(s’)]

12 Processo de Decisão de Markov Solução para um MDP: Política Política:  : S ! A Programação linear Value Iteration Algorithm: Horizonte de tempo: 1, 2,..., 1

13 Exemplo ? a(s) = arg max a 2 A [ R (s,a) +   s’ 2 S p(s’/s,a)V(s’)]

14 Processo de Decisão de Markov 1. Determine o estado corrente s, 2. Execute a ação  s  3. Volte para o primeiro passo, Assume observação total: O novo estado é conhecido pelo sistema

15 Processo de Decisão de Markov Parcialmente Observável Observações O, Uma distribuição para as observações, e para o estado inicial.

16 Processo de Decisão de Markov Parcialmente Observável M = ( S, O, , A, s, p, q, r), onde : S = conjunto de estados, O = conjunto de observações,  = distribuição do estado inicial, A (s) = ações possíveis para o estado s, s = estado atual, p(s’/s,a) = função de transição, q(o/s,a) = função de observação, r(s/a) = função de recompensa.

17 Processo de Decisão de Markov Parcialmente Observável

18 O estado atual é observado, Decisão requer manter um histórico do ponto de partida, ações tomadas, observações realizadas: Não-Markoviano, É necessário manter o histórico? Não! Estado de crença: “Onde eu acho que estou”

19 Processo de Decisão de Markov Parcialmente Observável Solução exata: NP –difícil Heurísticas: MLS (Most Likely State), Votação, Witness Grid-based Fatorar dependências.

20 Processo de Decisão de Markov Parcialmente Observável q,p: Estimativa inicial, aprendizado, Mapa métrico = estados, Modelo atuador = p, Modelo sensores = q.

21 Arquitetura Xavier Planejador Tarefas Planejador Trajetórias Navegador Desvio de Obstáculos Parada Emergencial Comportamento Objetos Mudanças no mundo Identificação objetos Monitoramento Mudanças Construção mapas Exploração Vagar Desvio de Obstáculos Subsumption ArchitectureArquitetura Xavier

22 Mapa topológico Modelo atuadores Modelo sensores Modelo portas POMDPGeração da política Seleção diretivas Geração movimentos MotoresOdometriaSonar Grade de ocupação Relatório sensoresRelatório atuadores Localização Alvos Xavier Mudanças na direção e distância percorrida Detector de portas, espaços livres. Estimação da(s) postura(s) Processo Off-line Compilador POMDP Movimentos desejados Desvio de obstáculos

23 Relatórios Movimento: Discretizado com 1 metro Sensores: Esquerda: Incerto, parede, abertura pequena, abertura média, abertura grande; Direita: Incerto, parede, abertura pequena, abertura média, abertura grande; Frente: Incerto, parede.

24 Modelo Orientação Robô possui 6 d.o.f.: Como representar rotações? Cada postura é representada por quatro estados:

25 Modelo Corredor Conhecimento métrico preciso

26 Modelo Corredor Conhecimento métrico impreciso

27 Modelo Junção

28 Exemplo

29

30

31 Animação

32 Como Alinhar-se? Detector de retas na grade de ocupação: Escorregamento rotacional não é tratado pelo modelo proposto.

33 Múltipla detecção de características

34 Conclusões Caminhar por corredores, que formam ângulos retos, por longos períodos de tempo, sem perder- se completamente. Vantagens: Representação multimodal; Acoplado com o planejamento; Desvantagens: Requer discretização do ambiente; Milhares de estados: Custo computacional;

35 Conclusões Exemplo prático pobre, Modelar especificamente as junções, Localização de Monte-Carlo: Utiliza Filtro de Partículas; Espaço contínuo; Computacionalmente tratável.

36 Processo de Decisão de Markov Política ótima: lim V(i) = V*(i)


Carregar ppt "Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma."

Apresentações semelhantes


Anúncios Google