A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Agentes Baseados em Utilidade Gustavo Danzi de Andrade Patrícia Tedesco

Apresentações semelhantes


Apresentação em tema: "Agentes Baseados em Utilidade Gustavo Danzi de Andrade Patrícia Tedesco"— Transcrição da apresentação:

1 Agentes Baseados em Utilidade Gustavo Danzi de Andrade Patrícia Tedesco

2 Parte I: Decisões Simples “Como um agente deve tomar decisões de modo que, em média, ele consiga o que quer”

3 Na aula passada... Percebem um estado sExecutam uma ação a Agentes s  S ( espaço de estados ) a  A ( espaço de ações ) T(s,a,s’)   ( probabilidade de transição de estados, em mundos dinâmicos ) U(s)   ( função de utilidade ) sensoresatuadores

4 Na aula passada... Funções de Utilidade:  Associam a cada estado um valor real  Indica a “felicidade” do agente em estar em cada estado Princípio de Maximização da Utilidade: “Um agente racional deve escolher a ação que maximiza sua utilidade esperada” Utilidade Esperada  Indica a utilidade de uma ação a que pode resultar em diversos estados s i UE(s,a) = ∑ i T(s,a,s i ). U(s i )

5 Parte 2: Decisões Complexas “Métodos para decidir o que fazer hoje, dado que nós poderemos ter que decidir de novo amanhã”

6 Problemas de Decisões Seqüenciais Anteriormente estávamos lidando com problemas de decisão episódicos:  Utilidade de cada resultado de uma ação conhecido! Problemas de decisões seqüenciais:  Utilidade do agente depende de uma seqüência de decisões  Envolvem utilidades, incertezas e percepção Podem ser vistos como uma generalização do problema de planejamento

7 Exemplo: Ambiente 4x3 Interação termina quando agente alcança um dos estados finais (+1 ou -1) Ações disponíveis:  Up, Down, Left e Right Ambiente totalmente observável  Agente sabe onde está! Ações não confiáveis  Locomoção estocástica Se agente bater em uma parede permanecerá no mesmo quadrado Em cada estado s agente recebe uma Recompensa R(s):  R(s) = para todos estados não terminais  Dois estados finais R(s) = +1 ou R(s) = -1 Por enquanto, utilidade pode ser dada pela soma das recompensas recebidas! INÍCIO

8 Processo de Decisão de Markov (PDM) Especificação de um problema de decisão seqüencial em um ambiente totalmente observável com um modelo de transição de Markov e recompensas aditivas Definido pelos seguintes componentes:  Estado Inicial: S 0  Modelo de Transição: T(s,a,s’) Probabilidade de chegar a s’ como resultado da execução da ação a no estado s  Função de Recompensa: R(s) Utilidade do estado s para o agente Hipótese de transições Markovianas:  Próximo estado depende apenas da ação atual e do estado atual, não dependendo de estados passados

9 Como são as soluções desse problema? Uma solução deve especificar o que o agente deve fazer em qualquer estados em que possa chegar Seqüência fixa de ações não o resolvem:  Ações não confiáveis não geram estados deterministicamente Solução: construir uma Política (Policy):   (s) = ação recomendada para estado s  Assim, o agente sabe como atuar em qualquer estado Utilidade esperada de uma política é dada pelas seqüências de ações que ela pode gerar Política Ótima  * :  Política que produz a mais alta utilidade esperada      +1 

10 Funções de Utilidade para Problemas Seqüenciais Como definir funções de utilidade para problemas seqüenciais? U ([s 0, s 1,..., s n ]) Primeiro deve-se responder as seguintes perguntas:  O Horizonte Temporal para a tomada de decisão é Finito ou Infinito ?  Como calcular a utilidade de uma seqüência de estados?

11 Horizontes Finitos e Infinitos Horizontes Finitos:  Existe um tempo limite N após o qual nada mais importa Exemplo: Game Over  U h ([s 0, s 1,..., s n+k ]) = U h ([s 0, s 1,..., s N ]), para todo k > 0  Exemplo: Supondo que o agente inicia em (3,1) N = 3: para atingir +1 agente deve executar a ação Up N = 100: há tempo suficiente para executar a ação Left e seguir a rota mais segura  Política ótima para um ambiente finito é não estacionária Pode mudar com o passar do tempo Horizontes infinitos:  Ação ótima depende apenas do estado atual  Política ótima é estacionária INÍCIO +1

12 Cálculo de Utilidade para Seqüência de Estados Com o que U h ([s 0, s 1,..., s n ]) se parece ?  Função de utilidade com vários atributos... Deve-se supor que preferências entre seqüências de estados são estacionárias  Dado [s 0, s 1, s 2,... ] e [s 0 ’, s 1 ’, s 2 ’,... ], se s 0 = s 0 ’ então, [s 1, s 2,... ] e [s 1 ’, s 2 ’,... ] devem estar ordenados segundo a mesma preferência Baseado nesse princípio, existem apenas duas maneiras de atribuir utilidades a seqüências de estados:  Recompensas aditivas  Recompensas descontadas

13 Recompensas Recompensas Aditivas:  U h ([s 0, s 1,..., s n ]) = R(s 0 ) + R(s 1 ) + R(s 2 ) +... Recompensas Descontadas:  U h ([s 0, s 1,..., s n ]) = R(s 0 ) +  R(s 1 ) +  2 R(s 2 ) +...  Onde  é chamado fator de desconto e tem valor entre 0 e 1 Fator de desconto:  Descreve a preferência de um agente com relação a recompensas atuais sobre recompensas futuras   próximo a 0  recompensas no futuro distante são irrelevantes   = 1  recompensa aditiva

14 Solução 1: Algoritmo Value Iteration Idéia: calcular a utilidade dos estados e utilizá-las para escolher uma ação ótima Utilidade de cada estado definida em termos da utilidade das seqüências de ações que podem se seguir a partir dele  R(s): recompensa a “curto prazo” por se estar em s  U(s): recompensa total a “longo prazo” a partir de s Utilidade de um estado é dada pela recompensa imediata para aquele estado mais a utilidade esperada descontada do próximo estado, assumindo que o agente escolhe a ação ótima Utilidade de um estado é dado pela equação de Bellman:  U(s) = R(s) +  max a  s ’ T(s,a,s’) U(s’)

15 Algoritmo Value Iteration Exemplo:  U(1,1) =  max { 0.8 U(1,2) U(2,1) U(1,1),(Up) 0.9 U(1,1) + 0,1 U(2,1),(Left) 0.9 U(1,1) U(2,1),(Down) 0.8 U(2,1) U(1,2) U(1,1) }(Right) Equações de Bellman são a base do algoritmo Value Iteration para resolver PDMs U(s) = R(s) +  max a ∑ s’ T(s,a,s’).U(s’)  Com N estados, existem N equações

16 Algoritmo Value Iteration Algoritmo: 1. Inicializar utilidades com valores arbitrários (ex.: 0) 2. Calcular o lado direito da equação para cada estado 3. Atualizar valor da utilidade de cada estado 4. Continuar até atingir um equilíbrio

17 Algoritmo Policy Iteration Idéia: se uma ação é claramente melhor que outras, então a magnitude exata da utilidade de cada estado não necessita ser precisa Alterna entre dois passos, iniciando a partir de uma política inicial  0 qualquer:  Avaliação da Política: dada política  i, calcular U i = U  i  Melhora da Política: calcular nova política  i+1, utilizando um passo para frente baseado em U i

18 Algoritmo Policy Iteration Algoritmo: Enquanto não (mudouPolítica) Para cada estado s se ( max a  s’ T(s,a,s’) U[s’] ) > (  s’ T(s,  i (s),s’) U[s’]) então  [s] = argmax a  s’ T(s,a,s’) U[s’] mudouPolítica = true; Algoritmo encerra quando passo Melhora da Política não produz nenhuma mudança nas utilidades

19 Algoritmo Policy Iteration Mais simples para Avaliar a Utilidade de um estado:  Policy Iteration: U i (s) = R(s) +   s ’ T(s,  i (s), s’) U i (s’)  Value Iteration: U(s) = R(s) +  max a  s ’ T(s,a,s’) U(s’) Exemplo:  U i (1,1) = 0.8 U i (1,2) U i (1,1) U i (2,1)      +1 

20 PDMs Parcialmente Observáveis (PDMPOs) MDPs assumem que o ambiente é totalmente observável  Política ótima depende apenas estado atual Em ambientes parcialmente observáveis agente não sabe necessariamente onde ele está Quais os problemas que surgem?  Agente não pode executar ação  (s) recomendada para o estado, pois não consegue identificar o s atual  Utilidade do estado s e a ação ótima depende não só de s, mas de quanto o agente conhece sobre s

21 PDMs Parcialmente Observáveis (PDMPOs) Exemplo: agente não tem menor idéia de onde está  S 0 pode ser qualquer estado menos os finais  Solução: Mover Left 5 vezes Up 5 vezes e Right 5 vezes

22 PDMs Parcialmente Observáveis (PDMPOs) Possui os mesmo elementos de um MDP acrescentando apenas:  Modelo de Observação: O(s, o)  Especifica a probabilidade de perceber a observação o no estado s Conjunto de estados reais que o agente pode estar = Belief State (ou estado de crenças)  Em PDMPOs um Belief State b, é uma distribuição de probabilidade sobre todos os estados possíveis:  Ex.: estado inicial na figura = {1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 0, 0}  b(s) denota a probabilidade associada ao estado s pelo Belief State b

23 PDMs Parcialmente Observáveis (PDMPOs) b = Belief State atual Agente executa a ação a e percebe a observação o, então:  Novo Belief State b’ = FORWARD (b, a, o) Ponto fundamental em PDMPOs:  A ação ótima depende apenas do Belief State corrente do agente   * (b): mapeamento de crenças em ações Ciclo de decisão de um agente PDMPO: 1. Dado o Belief State corrente b, execute ação a =  * (b) 2. Receba observação o 3. Atualize o Belief State corrente usando FORWARD (b, a, o)

24 Decisões com Múltiplos Agentes: Teoria dos Jogos O que acontece quando a incerteza é proveniente de outros agentes e de suas decisões? E se as essas decisões são influenciadas pelas nossas?  A Teoria dos Jogos trata essas questões!  É usada para tomar decisões sérias (decisões de preço, desenvolvimento de defesa nacional, etc) Na Teoria dos Jogos, jogos são compostos de:  Jogadores  Ações  Matriz de Resultado

25 Decisões com Múltiplos Agentes: Teoria dos Jogos Cada jogador adota uma Estratégia (diretriz)  Estratégia Pura: Diretriz determinística: uma ação para cada situação  Estratégia Mista: Ações selecionadas sobre uma distribuição probabilística Perfil de Estratégia: associação de uma estratégia a um jogador

26 Teoria dos Jogos: Exemplo 1 Dois ladrões (Alice e Bob) são presos perto da cena do crime e interrogados separadamente Ações: testemunhar, recusar Matriz de resultados: Dilema do Prisioneiro:  Eles devem testemunhar ou se recusarem a testemunhar?  Ou seja, qual estratégia adotar? TestemunharRecusar TestemunharA = -5; B = -5A = -10; B = 0 RecusarA = 0; B = -10A = -1; B = -1 Bob Alice

27 Teoria dos Jogos: Exemplo 1 Estratégia Dominante:  Estratégia que domina todas as outras  É irracional não usar uma estratégia dominante, caso exista Um resultado é dito “Pareto Dominated” por outro se todos jogadores preferirem esse outro resultado

28 Teoria dos Jogos: Exemplo 1 Equilíbrio de Estratégia Dominante:  Situação onde cada jogador possui uma estratégia dominante Qual será a decisão de Alice se ela for racional ?  Bob irá testemunhar, então {Testemunhar} ! Então, eis que surge o dilema:  Resultado para o ponto de equilíbrio é Pareto Dominated pelo resultado {recusar, recusar} ! Há alguma maneira de Alice e Bob chegarem ao resultado (-1, -1)?  Opção permitida mais pouco provável  Poder atrativo do ponto de equilíbrio !

29 Equilíbrio de Nash Equilíbrio de Nash:  Agentes não possuem intenção de mudar de estratégia  Condição necessária para uma solução  John Nash provou que todo jogo possui um equilíbrio assim definido Equilíbrio de Estratégia Dominante é um Equilíbrio de Nash Esse conceito afirma que existem estratégias que se equilibram mesmo que não existam estratégias dominantes

30 Teoria dos Jogos: Exemplo 2 Exemplo:  Uma companhia de fabricante de hardware (Best) e outra de discos (ACME) Dois equilibrios de Nash:  {dvd, dvd} e {cd, cd} Best ACME DVDCD DVDA = 9; B = 9A = -4; B = -1 CDA = -3; B = -1A = 5; B = 5


Carregar ppt "Agentes Baseados em Utilidade Gustavo Danzi de Andrade Patrícia Tedesco"

Apresentações semelhantes


Anúncios Google