Agentes Baseados em Utilidade

Slides:



Advertisements
Apresentações semelhantes
AULA 01 PROGRAMAÇÃO DINÂMICA
Advertisements

Inteligência Artificial
Amintas engenharia.
Roteiro de Aula Agendar teste 1 Definições e Resoluções
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Agentes Inteligentes Introdução.
Busca Online Alexandra Barros Geber Ramalho. Busca Offine x Busca Online Busca Offline (ou planejamento clássico) –Computa a solução (do estado inicial.
Busca Cega (Exaustiva)
Carolina Fonseca Neumar Ribeiro
Simulação de Sistemas Prof. MSc Sofia Mara de Souza AULA2.
SISTEMAS DE INFORMAÇÃO Inteligência Artificial 2011/01
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial Edirlei Soares de Lima Aula 18 – Aprendizado Por Reforço.
INF 1771 – Inteligência Artificial
3 - Equações Lineares de Segunda Ordem
O planejamento eficaz. Definir objetivos e resultados;
Meta - heurísticas Prof. Aurora
T ÓPICOS DE I.A. Métodos de Busca Busca em Espaços de Estado Prof. Mário Dantas.
Aprendizado de Máquina Aula 13
Aula 1: Funções de Várias Variáveis e Gráficos
Agentes Baseados em Utilidade
Otimização por Colônia de Formigas (ACO)
Microeconomia A III Prof. Edson Domingues Aula 10 Teoria dos Jogos
Introdução à Economia Faculdade de Rolim de Moura – FAROL
MEN - Mercados de Energia Mestrado em Engenharia Electrotécnica
Aula T06 – BCC202 Análise de Algoritmos (Parte 4) Túlio Toffolo
Sistema de Comando em Operações
Algoritmos 1º Semestre Materia: Informática Profº: Cristiano.
Agentes Baseados em Utilidade
Agentes Baseados em Utilidade
Plano de Aula Arquiteturas de Agentes Baseados Em Lógica Reativas BDI
Agentes Baseados em Utilidade
Agentes Baseados em Utilidade
Sistema de equações lineares
1 - Equações Diferenciais Ordinárias
Teoria dos Jogos (aula 2)
Teoria da Decisão Métodos de Computação Inteligente
Fundamentos de economia
Modelagem de Sistemas Dinâmicos
Agenda Agentes que Respondem por Estímulo Agentes Inteligentes.
Inteligência Artificial
Agentes Baseados em Utilidade. Parte I: Decisões Simples “Como um agente deve tomar decisões de modo que, em média, ele consiga o que quer”
Estratégia empresarial de TI Aula 4 – Teoria dos jogos (2) Prof. E. A. Schmitz.
1 Introdução aos Agentes Inteligentes Inventando Funções Heurísticas Flávia Barros.
Planejamento Ambiental 9º Semestre
Estratégia empresarial de TI Aula 1 – Decisão sob incerteza Prof. E. A. Schmitz.
Aprendizagem por Reforço Alexandre Luiz G. Damasceno.
Inteligência Artificial I
Inteligência Artificial Aula 15 Profª Bianca Zadrozny
Resolução de Problemas de Busca
Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma.
Capítulo 9: SAD orientado a Modelo
Page1 DAS-5341: Métodos de Solução para Problemas de Aprendizagem por Reforço Prof. Eduardo Camponogara.
Agentes Baseados em Utilidade Métodos da Computação Inteligente Universidade Federal de Pernambuco Aluno: Rodrigo Barros de Vasconcelos Lima.
DAS-5341: Métodos Monte Carlo
Busca Competitiva Disciplina: Inteligência Artificial
Controle de Processos por Computador
Teoria dos Jogos.
Profa. Dra. Marta Valentim UNESP
Busca Heurística Prof. Valmir Macário Filho. 2 Busca com informação e exploração Capítulo 4 – Russell & Norvig Seção 4.1 Estratégias de Busca Exaustiva.
Gestão da Informação e do Conhecimento Aula 08 A administração da incerteza: as organizações como sistemas de tomadas de decisão Prof. Dalton Martins
Agentes Baseados em Utilidade. Parte I: Decisões Simples “Como um agente deve tomar decisões de modo que, em média, ele consiga o que quer”
PESQUISA OPERACIONAL II Professor: Dr. Edwin B. Mitacc Meza
Universidade Federal de Itajubá Uma introdução à Teoria dos Jogos Fred Leite Siqueira Campos.
Fernando NogueiraTeoria dos Jogos1. Fernando NogueiraTeoria dos Jogos2 Introdução A Teoria dos Jogos trata com situações de tomada de decisão em que dois.
Transcrição da apresentação:

Agentes Baseados em Utilidade Gustavo Danzi de Andrade Patrícia Tedesco {gda,pcart}@cin.ufpe.br

Parte I: Decisões Simples “Como um agente deve tomar decisões de modo que, em média, ele consiga o que quer”

Na aula passada... Agentes Percebem um estado s Executam uma ação a sensores atuadores s  S (espaço de estados) a  A (espaço de ações) T(s,a,s’)   (probabilidade de transição de estados, em mundos dinâmicos) U(s)   (função de utilidade)

UE(s,a) = ∑ i T(s,a,s i) . U(s i) Na aula passada... Funções de Utilidade: Associam a cada estado um valor real Indica a “felicidade” do agente em estar em cada estado Princípio de Maximização da Utilidade: “Um agente racional deve escolher a ação que maximiza sua utilidade esperada” Utilidade Esperada Indica a utilidade de uma ação a que pode resultar em diversos estados s i UE(s,a) = ∑ i T(s,a,s i) . U(s i)

Parte 2: Decisões Complexas “Métodos para decidir o que fazer hoje, dado que nós poderemos ter que decidir de novo amanhã”

Problemas de Decisões Seqüenciais Anteriormente estávamos lidando com problemas de decisão episódicos: Utilidade de cada resultado de uma ação conhecido! Problemas de decisões seqüenciais: Utilidade do agente depende de uma seqüência de decisões Envolvem utilidades, incertezas e percepção Podem ser vistos como uma generalização do problema de planejamento

Exemplo: Ambiente 4x3 Interação termina quando agente alcança um dos estados finais (+1 ou -1) Ações disponíveis: Up, Down, Left e Right Ambiente totalmente observável Agente sabe onde está! Ações não confiáveis Locomoção estocástica Se agente bater em uma parede permanecerá no mesmo quadrado Em cada estado s agente recebe uma Recompensa R(s): R(s) = -0.04 para todos estados não terminais Dois estados finais R(s) = +1 ou R(s) = -1 Por enquanto, utilidade pode ser dada pela soma das recompensas recebidas! 1 2 4 3 INÍCIO -1 +1 0.8 0.1

Processo de Decisão de Markov (PDM) Especificação de um problema de decisão seqüencial em um ambiente totalmente observável com um modelo de transição de Markov e recompensas aditivas Definido pelos seguintes componentes: Estado Inicial: S0 Modelo de Transição: T(s,a,s’) Probabilidade de chegar a s’ como resultado da execução da ação a no estado s Função de Recompensa: R(s) Utilidade do estado s para o agente Hipótese de transições Markovianas: Próximo estado depende apenas da ação atual e do estado atual, não dependendo de estados passados

Como são as soluções desse problema? Uma solução deve especificar o que o agente deve fazer em qualquer estados em que possa chegar Seqüência fixa de ações não o resolvem: Ações não confiáveis não geram estados deterministicamente Solução: construir uma Política (Policy):  (s) = ação recomendada para estado s Assim, o agente sabe como atuar em qualquer estado Utilidade esperada de uma política é dada pelas seqüências de ações que ela pode gerar Política Ótima *: Política que produz a mais alta utilidade esperada 1 2 4 3   -1 +1 

Funções de Utilidade para Problemas Seqüenciais Como definir funções de utilidade para problemas seqüenciais? U ([s0, s1, ... , sn]) Primeiro deve-se responder as seguintes perguntas: O Horizonte Temporal para a tomada de decisão é Finito ou Infinito ? Como calcular a utilidade de uma seqüência de estados?

Horizontes Finitos e Infinitos Existe um tempo limite N após o qual nada mais importa Exemplo: Game Over Uh ([s0, s1, ... , sn+k]) = Uh ([s0, s1, ... , sN]), para todo k > 0 Exemplo: Supondo que o agente inicia em (3,1) N = 3: para atingir +1 agente deve executar a ação Up N = 100: há tempo suficiente para executar a ação Left e seguir a rota mais segura Política ótima para um ambiente finito é não estacionária Pode mudar com o passar do tempo Horizontes infinitos: Ação ótima depende apenas do estado atual Política ótima é estacionária 1 2 4 3 INÍCIO -1 +1

Cálculo de Utilidade para Seqüência de Estados Com o que Uh ([s0, s1, ... , sn]) se parece ? Função de utilidade com vários atributos... Deve-se supor que preferências entre seqüências de estados são estacionárias Dado [s0, s1, s2, ... ] e [s0’, s1’, s2’, ... ], se s0 = s0’ então, [s1, s2, ... ] e [s1’, s2’, ... ] devem estar ordenados segundo a mesma preferência Baseado nesse princípio, existem apenas duas maneiras de atribuir utilidades a seqüências de estados: Recompensas aditivas Recompensas descontadas

Recompensas Recompensas Aditivas: Recompensas Descontadas: Uh ([s0, s1, ... , sn]) = R(s0) + R(s1) + R(s2) + ... Recompensas Descontadas: Uh ([s0, s1, ... , sn]) = R(s0) +  R(s1) + 2 R(s2) + ... Onde  é chamado fator de desconto e tem valor entre 0 e 1 Fator de desconto: Descreve a preferência de um agente com relação a recompensas atuais sobre recompensas futuras  próximo a 0  recompensas no futuro distante são irrelevantes  = 1  recompensa aditiva

Solução 1: Algoritmo Value Iteration Idéia: calcular a utilidade dos estados e utilizá-las para escolher uma ação ótima Utilidade de cada estado definida em termos da utilidade das seqüências de ações que podem se seguir a partir dele R(s): recompensa a “curto prazo” por se estar em s U(s): recompensa total a “longo prazo” a partir de s Utilidade de um estado é dada pela recompensa imediata para aquele estado mais a utilidade esperada descontada do próximo estado, assumindo que o agente escolhe a ação ótima Utilidade de um estado é dado pela equação de Bellman: U(s) = R(s) +  maxa s’ T(s,a,s’) U(s’)

Algoritmo Value Iteration Exemplo: U(1,1) = -0.04 +  max { 0.8 U(1,2) + 0.1 U(2,1) + 0.1 U(1,1), (Up) 0.9 U(1,1) + 0,1 U(2,1), (Left) 0.9 U(1,1) + 0.1 U(2,1), (Down) 0.8 U(2,1) + 0.1 U(1,2) + 0.1 U(1,1) } (Right) Equações de Bellman são a base do algoritmo Value Iteration para resolver PDMs U(s) = R(s) +  maxa ∑s’ T(s,a,s’).U(s’) Com N estados, existem N equações

Algoritmo Value Iteration Inicializar utilidades com valores arbitrários (ex.: 0) Calcular o lado direito da equação para cada estado Atualizar valor da utilidade de cada estado Continuar até atingir um equilíbrio 1 2 4 3 0.812 0.762 0.705 0.918 0.660 -1 +1 0.655 0.611 0.388

Algoritmo Policy Iteration Idéia: se uma ação é claramente melhor que outras, então a magnitude exata da utilidade de cada estado não necessita ser precisa Alterna entre dois passos, iniciando a partir de uma política inicial 0 qualquer: Avaliação da Política: dada política i , calcular Ui = U  i Melhora da Política: calcular nova política i+1 , utilizando um passo para frente baseado em Ui

Algoritmo Policy Iteration Enquanto não (mudouPolítica) Para cada estado s se ( maxa s’ T(s,a,s’) U[s’] ) > ( s’ T(s,  i(s),s’) U[s’]) então [s] = argmaxa s’ T(s,a,s’) U[s’] mudouPolítica = true; Algoritmo encerra quando passo Melhora da Política não produz nenhuma mudança nas utilidades

Algoritmo Policy Iteration Mais simples para Avaliar a Utilidade de um estado: Policy Iteration: Ui(s) = R(s) +  s’ T(s, i(s), s’) Ui(s’) Value Iteration: U(s) = R(s) +  maxa s’ T(s,a,s’) U(s’) Exemplo: Ui (1,1) = 0.8 Ui(1,2) + 0.1 Ui(1,1) + 0.1 Ui(2,1) 1 2 4 3   -1 +1 

PDMs Parcialmente Observáveis (PDMPOs) MDPs assumem que o ambiente é totalmente observável Política ótima depende apenas estado atual Em ambientes parcialmente observáveis agente não sabe necessariamente onde ele está Quais os problemas que surgem? Agente não pode executar ação (s) recomendada para o estado, pois não consegue identificar o s atual Utilidade do estado s e a ação ótima depende não só de s, mas de quanto o agente conhece sobre s

PDMs Parcialmente Observáveis (PDMPOs) Exemplo: agente não tem menor idéia de onde está S0 pode ser qualquer estado menos os finais Solução: Mover Left 5 vezes Up 5 vezes e Right 5 vezes 1 2 4 3 -1 +1

PDMs Parcialmente Observáveis (PDMPOs) Possui os mesmo elementos de um MDP acrescentando apenas: Modelo de Observação: O(s, o) Especifica a probabilidade de perceber a observação o no estado s Conjunto de estados reais que o agente pode estar = Belief State (ou estado de crenças) Em PDMPOs um Belief State b, é uma distribuição de probabilidade sobre todos os estados possíveis: Ex.: estado inicial na figura = {1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 1/9, 0, 0} b(s) denota a probabilidade associada ao estado s pelo Belief State b

PDMs Parcialmente Observáveis (PDMPOs) b = Belief State atual Agente executa a ação a e percebe a observação o, então: Novo Belief State b’ = FORWARD (b, a, o) Ponto fundamental em PDMPOs: A ação ótima depende apenas do Belief State corrente do agente * (b): mapeamento de crenças em ações Ciclo de decisão de um agente PDMPO: 1. Dado o Belief State corrente b, execute ação a = * (b) 2. Receba observação o 3. Atualize o Belief State corrente usando FORWARD (b, a, o)

Decisões com Múltiplos Agentes: Teoria dos Jogos O que acontece quando a incerteza é proveniente de outros agentes e de suas decisões? E se as essas decisões são influenciadas pelas nossas? A Teoria dos Jogos trata essas questões! É usada para tomar decisões sérias (decisões de preço, desenvolvimento de defesa nacional, etc) Na Teoria dos Jogos, jogos são compostos de: Jogadores Ações Matriz de Resultado

Decisões com Múltiplos Agentes: Teoria dos Jogos Cada jogador adota uma Estratégia (diretriz) Estratégia Pura: Diretriz determinística: uma ação para cada situação Estratégia Mista: Ações selecionadas sobre uma distribuição probabilística Perfil de Estratégia: associação de uma estratégia a um jogador

Teoria dos Jogos: Exemplo 1 Dois ladrões (Alice e Bob) são presos perto da cena do crime e interrogados separadamente Ações: testemunhar, recusar Matriz de resultados: Dilema do Prisioneiro: Eles devem testemunhar ou se recusarem a testemunhar? Ou seja, qual estratégia adotar? Alice Testemunhar Recusar A = -5; B = -5 A = -10; B = 0 A = 0; B = -10 A = -1; B = -1 Bob

Teoria dos Jogos: Exemplo 1 Estratégia Dominante: Estratégia que domina todas as outras É irracional não usar uma estratégia dominante, caso exista Um resultado é dito “Pareto Dominated” por outro se todos jogadores preferirem esse outro resultado

Teoria dos Jogos: Exemplo 1 Equilíbrio de Estratégia Dominante: Situação onde cada jogador possui uma estratégia dominante Qual será a decisão de Alice se ela for racional ? Bob irá testemunhar, então {Testemunhar} ! Então, eis que surge o dilema: Resultado para o ponto de equilíbrio é Pareto Dominated pelo resultado {recusar, recusar} ! Há alguma maneira de Alice e Bob chegarem ao resultado (-1, -1)? Opção permitida mais pouco provável Poder atrativo do ponto de equilíbrio !

Equilíbrio de Nash Equilíbrio de Nash: Agentes não possuem intenção de mudar de estratégia Condição necessária para uma solução John Nash provou que todo jogo possui um equilíbrio assim definido Equilíbrio de Estratégia Dominante é um Equilíbrio de Nash Esse conceito afirma que existem estratégias que se equilibram mesmo que não existam estratégias dominantes

Teoria dos Jogos: Exemplo 2 Uma companhia de fabricante de hardware (Best) e outra de discos (ACME) Dois equilibrios de Nash: {dvd, dvd} e {cd, cd} ACME DVD CD A = 9; B = 9 A = -4; B = -1 A = -3; B = -1 A = 5; B = 5 Best