Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouStefany Fontes Bayer Alterado mais de 8 anos atrás
1
Agentes Baseados em Utilidade
2
Parte I: Decisões Simples “Como um agente deve tomar decisões de modo que, em média, ele consiga o que quer”
3
Decision Theoretic Agent Agente capaz de... Tomar decisões racionais baseado no que acredita e deseja Diferentemente de um agente lógico Pode tomar decisões em ambientes com incertezas e objetivos conflitantes Possui uma escala contínua de medida de qualidade sobre os estados Valores associados a cada estado (utilidade) indicando a “felicidade” do agente ! Funções de Utilidade associam um valor a um estado Indica o “desejo” por estar nesse estado U(S) = utilidade estado S de acordo com o agente Ex.: s 1 = {rico, famoso}, s 2 = {pobre, famoso} U(s 1 ) = 10 U(s 2 ) = 5
4
Funções de Utilidade Result i (A): Todos os possíveis estados de saída de uma ação não- determinista A Para cada saída possível é associada uma probabilidade: P (Result i (A) | Do(A), E) Onde, E resume a evidência que o agente possuí do mundo Do(A) indica que a ação A foi executada no estado atual Utilidade esperada de uma ação A dado a evidência do mundo E: EU(A|E) = i P(Result i (A)|Do(A),E) U(Result i (A)) Principio da Maximização da Utilidade: agente racional deve escolher ação que maximiza sua utilidade esperada !!! É difícil enumerar todas seqüências de ações Custo computacional, geralmente, proibitivo
5
Exemplo: Cálculo da Utilidade Esperada Robô deve transportar uma caixa E = caixa é de metal a 1 = Chutar:s 1, caixa no destino 20%U(s 1 ) = 10 s 2, caixa no meio do caminho 30%U(s 2 ) = 5 s 3, caixa longe destino 50%U(s 3 ) = 0 a 2 = Carregar: s 1, balde no destino 80%U(s 1 ) = 10 s 2, balde na origem 20%U(s 2 ) = 0 EU(a 1 ) = 20x10 + 30x5 + 50x0 = 350 EU(a 2 ) = 80x10 + 20x0 = 800
6
Preferências Racionais Comportamento de qualquer agente racional pode ser adquirindo supondo-se uma função de utilidade a ser maximizada Preferências racionais permitem descrever o melhor comportamento como aquele que maximiza EU Notação: A B: A é preferível a B A ~ B: agente indiferente entre A e B A B: agente prefere A à B ou é indiferente Para ações não-deterministas: A e B são loterias, i.e., distribuições probabilísticas sobre um conjunto de estados de saída L = {p 1.S 1 ; p 2. S 2;...; p n.S n }
7
Restrições Sobre Preferências Racionais Axiomas da Teoria da Utilidade: Ordenabilidade: (A > B) ( B > A) (A ~ B) Transitividade: (A > B) (B > C) (A > C) Continuidade: A > B > C p [p.A; 1 - p.C] ~ B Substituibilidade: A ~ B [p.A; 1 – p.C] ~ [p.B; 1 – p.C] Monoticidade: A > B ( p q [p.A; 1 – p.B] [q.A; 1 – q.B] ) Decomposabilidade: [p.A; 1 – p. [q.B; 1 – q.C] ] ~ [p.A; (1 – p)q.B; (1 – p)(1 – q). C] Principio da Utilidade: Preferências que satisfaçam os axiomas garantem a existência de uma função real U, tal que: U(A) > U(B) A > B U(A) = U(B) A ~ B U (p 1.S 1 ;... ; p n.S n ) = i p i U(S i )
8
Exemplo: Restrições Sobre Preferências Racionais Violação das restrições levam a comportamentos irracionais Exemplo: agente com preferências não transitivas pode ser induzido a dar todo o seu dinheiro: CB 1 c CB A CB A Se B > C, então um agente que possuí C pagaria 1 centavo para obter B Se C > A, então um agente que possuí A pagaria 1 centavo para obter C Se A > B, então um agente que possuí B pagaria 1 centavo para obter A
9
Exemplo: A Utilidade do Dinheiro Um jogador ganhou um prêmio de R$ 1.000.000 em um programa de TV Apresentador oferece uma aposta: Se ele jogar a moeda e aparecer cara jogador perde tudo Se aparecer coroa jogador ganha R$ 3.000.000 O Valor Monetário Esperado da aposta é: 0.5 (R$ 0) + 0.5 (R$ 3.000.000) = $ 1.500.000 O Valor Monetário Esperado de recusar a aposta é de R$ 1.000.000 (menor) Isso indica que seria melhor aceitar a aposta ?
10
Exemplo: A Utilidade do Dinheiro Utilidade Esperada para cada uma das duas ações: EU (Aceitar) = 0.5 U(S k ) + 0.5 U(S k+3.000.000 ) EU (Rejeitar) = U(S k+1.000.000 ) Onde, S k = riqueza atual do jogador Deve-se atribuir valores de utilidade para cada estado de saída: S k = 5; S k+3.000.000 = 10; S k+1.000.000 = 8 Ação racional: rejeitar ! Conclusão: Utilidade não é diretamente proporcional ao valor monetário Utilidade (mudança no estilo de vida) para o primeiro R$ 1.000.000 é muito alta
11
Funções de Utilidade Multi-Atributo Como tratar funções de utilidades com várias variáveis X 1,..., X n ? Ex.: Construir aeroporto, Variáveis: Segurança, Custo, Poluição sonora U (Segurança, Custo, Poluição sonora) = ? Existem basicamente dois casos: Dominância: decisões podem ser tomadas sem combinar os valores dos atributos em um único valor da utilidade Estrutura de Preferência e Utilidade Multi-atributo: utilidade resultante da combinação dos valores dos atributos pode ser especificada concisamente
12
Dominância Estrita Se um estado S 1 possui valores melhores em todos seus atributos do que S 2, então existe uma dominância estrita de S 1 sobre S 2 i X i (B) X i (A) (e portanto U(B) U(A)) Ex.: Local S 1 para Aeroporto custa menos e é mais seguro que S 2 Dominância estrita raramente acontece na prática !!!
13
Dominância Estocástica Na prática, dominância estocástica pode geralmente ser definida usando apenas um raciocínio qualitativo Ex.: custo de construção aumenta com a distância para a cidade: S 1 é mais próximo da cidade do que S 2 S 1 domina S 2 estocasticamente sobre o custo $ - 2,8 -5.2 P S1S1 S2S2 Exemplo, custo de construir aeroporto : Em S 1 valor uniformemente distribuído entre $2,8 e $4,8 bilhões Em S 2 valor uniformemente distribuído entre $3 e $5,2 bilhões Dada a informação que utilidade decresce com custo: S 1 domina estocasticamente S 2 EU de S 1 é pelo menos tão alta quanto EU de S 2
14
Estrutura de Preferência e Utilidade Multi-Atributo Supondo que existem n atributos com d possíveis valores: No pior caso, serão necessários d n valores (preferência sem regularidade!) A Teoria da Utilidade Multi-atributo assume que preferências de agentes possuem certa regularidade (estrutura) Abordagem básica é tentar identificar essas regularidades! Agentes com uma certa estrutura em suas preferências terá uma função: U(x 1... X n ) = f[ f 1 (x 1 )..... f 2 (x 2 ) ] Onde espera-se que f seja uma função simples!
15
Estrutura de Preferência (Situação Determinista) X 1 e X 2 são preferencialmente independente de X 3 sss: Preferência entre {x 1, x 2, x 3 } e {x 1 ’, x 2 ’, x 3 } não depende de x 3 Independência preferencial mútua (MPI): todos os pares de atributos são preferencialmente independente com relação aos demais Ex.: Segurança, Custo, Poluição sonora Com MPI, o comportamento preferencial do agente pode ser descrito como uma maximização da função: V (x 1... x n ) = i V i (x i ) Para o exemplo acima: V(poluição sonora, custo, mortes) = -poluição sonora x 10 4 –custo – mortes x 10 12 Para o caso não determinista, basta estender para lidar com loterias
16
Redes de Decisões Formalismo para expressar e resolver problemas de decisão: estende Redes Bayesianas adicionando ações e utilidades Representa informações sobre Estado atual do agente Possíveis ações Estado resultante e sua utilidade Composto de: Nós de Chance (ovais): representam variáveis como nas redes Bayesianas Nós de Decisão (retângulo): pontos onde agente deve escolher uma ação Nós de Utilidade (diamantes): representam as funções de utilidade do agente Algoritmo de avaliação: 1. Atribuir os valores das variáveis para o estado corrente; 2. Calcular o valor esperado do nó de utilidade dado a ação e os valores das variáveis; 3. Retornar a ação com maior Utilidade Máxima Esperada
17
Exemplo: Redes de Decisões Barulho Segurança Custo Trafego aéreo Construção Litigação Local do Aeroporto U Info. sobre estado atual Info. sobre estado futuro
18
Teoria do Valor da Informação Problemas anteriores assumiam que todas as informações estavam disponíveis O que acontece quando elas não estão? Cabe ao agente buscar as informações necessárias... No entanto... Obtenção de informações tem um custo associado Ex.: solicitação de um exame por parte de um medico A Teoria do Valor da Informação permite que o agente escolha quais informações adquirir
19
Cálculo do Valor da Informação: Exemplo Exemplo: comprar os direitos de exploração de reservas de petróleo: Dois blocos A e B, apenas um possui óleo com valor C; Probabilidade de comprar o bloco certo = 0,5 O preço de cada bloco é C/2 Consultor oferece uma pesquisa para detectar qual bloco possui petróleo. Qual o valor dessa informação? Solução: Calcular o valor esperado da informação = valor esperado da melhor ação dada a informação – valor esperado da melhor ação sem a informação; Pesquisador irá informar: “há óleo em A” ou “não há óleo em A” (p = 0,5) Então: 0,5 x valor de “comprar A” dado que “há óleo em A” + 0,5 x valor de “comprar B” dado que “não há óleo em A” – 0 = = (0,5 x C/2) + (0,5 x C/2) – 0 = C/2
20
Valor da Informação: Exemplo A 1 e A 2 duas rotas distintas através de uma montanha no inverno A 1 e A 2 são as únicas ações possíveis, com EU = U 1 e U 2, respectivamente A 1 = caminho mais baixo, sem muito vento A 2 = caminho mais alto, com muito vento U (A 1 ) > U (A 2 ) Nova evidência NE produzirá novas utilidades esperadas U 1 ’ e U 2 ’ Vale a pena adquirir NE? E se mudássemos o cenário? II) A 1 e A 2 são duas estradas onde venta muito, de mesmo tamanho e levamos um ferido grave III) Mesmas estradas A 1 e A 2 mas agora no verão Conclusão: uma informação só terá valor caso gere uma mudança de plano, e se esse novo plano for significativamente melhor do que o antigo !
21
Parte 2: Decisões Complexas “Métodos para decidir o que fazer hoje, dado que nós poderemos ter que decidir de novo amanhã”
22
Problemas de Decisões Seqüenciais Anteriormente estávamos lidando problemas de decisão episódicos: Utilidade de cada resultado de uma ação conhecido! Problemas de decisões seqüenciais: Utilidade do agente depende de uma seqüência de decisões Envolvem utilidades, incertezas e percepção Podem ser vistos como uma generalização do problema de planejamento
23
Exemplo: Problemas de Decisões Seqüenciais Interação termina quando agente alcança um dos estados finais (+1 ou -1) Ações disponíveis: Up, Down, Left e Right Ambiente totalmente observável (agente sabe onde está!) Ações não confiáveis (locomoção estocástica) Se agente bater em uma parede permanecerá no mesmo quadrado Em cada estado s agente recebe uma Recompensa R(s): R(s) = -0.04 para todos estados não terminais Dois estados finais R(s) = +1 ou R(s) = -1 Por enquanto, utilidade pode ser dada pela soma das recompensas recebidas! 1243 3 2 1 INÍCIO +1 0.8 0.1
24
Processo de Decisão Markoviana (MDP) Definido pelos seguintes componentes: Estado Inicial: S 0 Modelo de Transição: T(s,a,s’) Função de Recompensa: R(s) Modelo de Transição T(s, a, s’): probabilidade de chegar a s’ como resultado da execução da ação a em s Hipótese de transições Markovianas: próximo estado depende apenas da ação atual e estado atual, não passados MDP: Especificação de um problema de decisão seqüencial em um ambiente totalmente observável, modelo de transição markoviana e recompensas aditivas
25
Como são as soluções para esse problema? Seqüência fixa de ações não resolvem o problema Uma solução deve especificar o que o agente deve fazer em qualquer um dos estados que ele possa chegar: Política (Policy): (s) = ação recomendada para estado s Utilidade esperada de uma política é dada pelas seqüências de ações que ela pode gerar Política Ótima: Política que produz a mais alta utilidade esperada Notação: * 1243 3 2 1 +1
26
Funções de Utilidade para Problemas Seqüenciais Como definir funções de utilidades para problemas seqüenciais? U h ([s 0, s 1,..., s n ]) Primeiro deve-se responder as seguintes perguntas: O Horizonte Temporal para a tomada de decisão é Finito ou Infinito ? Como calcular a utilidade de uma seqüência de estados?
27
Horizontes Finitos e Infinitos Horizontes finitos: Existe um tempo limite N após o qual nada mais importa (game-over!) U h ([s 0, s 1,..., s n+k ]) = U h ([s 0, s 1,..., s N ]), para todo k > 0 Exemplo.: Supondo que o agente inicia em (3,1) N = 3 para atingir +1 agente deve executar ação Up N = 100 tempo suficiente para executar ação Left (rota mais segura) Política ótima para um ambiente finito é não estacionária Para horizontes infinitos: Ação ótima depende apenas do estado atual Política ótima é estacionária 1243 3 2 1 INÍCIO +1
28
Cálculo de Utilidade para Seqüência de Estados Com o que U h ([s 0, s 1,..., s n ]) se parece ? Função de utilidade com vários atributos ! Deve-se supor que preferências entre seqüências de estados são estacionárias Dado [s 0, s 1, s 2,... ] e [s 0 ’, s 1 ’, s 2 ’,... ], se s 0 = s 0 ’ então, [s 1, s 2,... ] e [s 1 ’, s 2 ’,... ] devem estar ordenados segundo a mesma preferência Baseado no principio estacionariedade, existem apenas duas maneiras de atribuir utilidades a seqüências de estados: Recompensas aditivas Recompensas descontadas
29
Recompensas Recompensas Aditivas: U h ([s 0, s 1,..., s n ]) = R(s 0 ) + R(s 1 ) + R(s 2 ) +... Recompensas Descontadas: U h ([s 0, s 1,..., s n ]) = R(s 0 ) + R(s 1 ) + 2 R(s 2 ) +... Onde é chamado fator de desconto com valor entre 0 e 1; Fator de desconto: Descreve a preferência de um agente com relação a recompensas atuais sobre recompensas futuras próximo a 0 recompensas no futuro distante são irrelevantes = 1 recompensa aditiva
30
Algoritmo Value Iteration Idéia: calcular a utilidade dos estados e utilizá-las para escolher uma ação ótima Utilidade de cada estado definida em termos da utilidade das seqüências de ações que podem se seguir a partir dele R(s): recompensa a “curto prazo” por se estar em s U(s): recompensa total a “longo prazo” a partir de s Utilidade de um estado é dada pela recompensa imediata para aquele estado mais a utilidade esperada descontada do próximo estado, assumindo que o agente escolhe a ação ótima Utilidade de um estado é dado pela equação de Bellman: U(s) = R(s) + max a s ’ T(s,a,s’) U(s’)
31
Algoritmo Value Iteration Exemplo: U(1,1) = -0.04 + max { 0.8 U(1,2) + 0.1 U(2,1) + 0.1 U(1,1),(Up) 0.9 U(1,1) + 0,1 U(2,1),(Left) 0.9 U(1,1) + 0.1 U(2,1),(Down) 0.8 U(2,1) + 0.1 U(1,2) + 0.1 U(1,1) }(Right) Equações de Bellman são a base do algoritmo Value Iteration para resolver MDPs N estados = N equações Algoritmo: 1. Inicializar utilidades com valores arbitrários (ex.: 0) 2. Calcular o lado direito da equação para cada estado 3. Atualizar valor da utilidade de cada estado 4. Continuar até atingir um equilíbrio 1243 3 2 1 0.812 0.762 0.705 0.8120.918 0.660 +1 0.6550.6110.388
32
Algoritmo Policy Iteration Idéia: se uma ação é claramente melhor que outras, então a magnitude exata da utilidade de cada estado não necessita ser precisa Alterna entre dois passos, iniciando a partir de uma política inicial 0 : Avaliação da Política: dada política i, calcular U i = U i Melhora da Política: calcular nova política i+1, utilizando um passo para frente baseado em U i Para cada estado s se ( max a s’ T(s,a,s’) U[s’] ) > ( s’ T(s, i (s),s’) U[s’]) então [s] = argmax a s’ T(s,a,s’) U[s’] mudouPolítica = true; Algoritmo encerra quando passo Melhora da Política não produz nenhuma mudança nas utilidades
33
Algoritmo Policy Iteration Mais simples para Avaliar a Utilidade de um estado: Policy Iteration: U i (s) = R(s) + s ’ T(s, i (s), s’) U i (s’) Value Iteration: U(s) = R(s) + max a s ’ T(s,a,s’) U(s’) Exemplo: U i (1,1) = 0.8 U i (1,2) + 0.1 U i (1,1) + 0.1 U i (2,1) 1243 3 2 1 +1
34
MDPs Parcialmente Observáveis (POMDPs) MDPs assumem que o ambiente é totalmente observável Política ótima depende apenas estado atual Em ambientes parcialmente observáveis agente não sabe necessariamente onde ele está Quais os problemas que surgem? Agente não pode executar ação (s) recomendada para o estado Utilidade do estado s e a ação ótima depende não só de s, mas de quanto o agente conhece sobre s Exemplo: agente não tem menor idéia de onde está S 0 pode ser qualquer estado menos os finais Solução: Mover Left 5 vezes Up 5 vezes e Right 5 vezes 1243 3 2 1 +1 start
35
MDPs Parcialmente Observáveis (POMDPs) Possui os mesmo elementos de um MDP acrescentando apenas: Modelo de Observação: O(s, o) Especifica a probabilidade de perceber a observação o no estado s Conjunto de estados reais que o agente pode estar = Belief State Em POMDPs um Belief State b, é uma distribuição probabilística sobre todos os estados possíveis: Ex.: estado inicial na figura = {1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 0, 0} b(s) denota a probabilidade associada ao estado s pelo Belief State b
36
MDPs Parcialmente Observáveis (POMDPs) b = Belief State atual Agente executa a ação a e percebe a observação o, então: Novo Belief State b’ = FORWARD (b, a, o) Ponto fundamental em POMDs: A ação ótima depende apenas do Belief State corrente do agente * (b): mapeamento de crenças em ações Ciclo de decisão de um agente POMDP: 1. Dado o Belief State corrente b, execute ação a = * (b) 2. Receba observação o 3. Atualize o Belief State corrente usando FORWARD (b, a, o)
37
Decisões com Múltiplos Agentes: Teoria dos Jogos O que acontece quando a incerteza é proveniente de outros agentes e de suas decisões? E se as essas decissões são influenciadas pelas nossas? A Teoria dos Jogos trata essas questões ! TJ usada para tomar decisões sérias (decisões de preço, desenvolvimento de defesa nacional, etc) Na Teoria fos Jogos, jogos são compostos de: Jogadores Ações Matriz de Resultado Cada jogador adota uma Estratégia (diretriz) Estratégia Pura: diretriz deterministica, uma ação para cada situação Estratégia Mista: ações selecionadas sobre uma distribuição probabilística Perfil de Estratégia: associação de uma estratégia a um jogador
38
Teoria dos Jogos: Exemplo 1 Dois ladrões (Alice e Bob) são presos perto da cena do crime e interrogados separadamente Matriz de resultados: Dilema do Prisioneiro: Eles devem testemunhar ou se recusarem a testemunhar? Ou seja, qual estratégia adotar? Estratégia Dominante: Estratégia que domina todas as outras É irracional não usar uma estratégia dominante, caso uma exista Um resultado é dito “Pareto Dominated” por outro se todos jogadores preferirem esse outro resultado Alice: testemunharAlice: recusar Bob: testemunharA = -5; B = -5A = -10; B = 0 Bob: recusarA = 0; B = -10A = -1; B = -1
39
Teoria dos Jogos: Exemplo 1 Equilíbrio de Estratégia Dominante: Situação onde cada jogador possui uma estratégia dominante Qual será a decisão de Alice se ela for racional ? Bob irá testemunhar, então {Testemunhar} ! Então, eis que surge o dilema: Resultado para o ponto de equilíbrio é Pareto Dominated pelo resultado {recusar, recusar} ! Há alguma maneira de Alice e Bob chegarem ao resultado (-1, -1)? Opção permitida mais pouco provável Poder atrativo do ponto de equilíbrio !
40
Equilíbrio de Nash Equilíbrio de Nash: Agentes não possuem intenção de desviar da estratégia especificada Condição necessária para uma solução John Nash provou que todo jogo possui um equilíbrio como definido Equilíbrio de Estratégia Dominante é um Equilíbrio de Nash Esse conceito afirma que existem estratégias que se equilibram mesmo que não existam estratégias dominantes Exemplo: Dois equilibrios de Nash: {dvd, dvd} e {cd, cd} Acme: DVDAcme: CD Best: DVDA = 9; B = 9A = -4; B = -1 Best: CDA = -3; B = -1A = 5; B = 5
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.