Agentes Baseados em Utilidade

Slides:

Advertisements

Apresentações semelhantes

CAPÍTULO 7 TESTE DE HIPÓTESE

Advertisements

Resposta do Exercício sobre Árvores de Decisão

6a Aula Horacio Nelson Hastenreiter Filho

ANÁLISE DISCRIMINANTE

Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral versus quantil.

Teoria Econômica do Turismo Aspectos Microeconômicos

CAPÍTULO 7 TESTE DE HIPÓTESE

UNIDADE 2 -complementos

Roteiro de Aula Agendar teste 1 Definições e Resoluções

Tragédia dos Bens Comuns – Ilustrada – caso 8, p.20

Análise Econômica do Direito – AED (Law and Economics)

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Sessão 1- Introdução equipe.nce.ufrj.br/eber

Medida do Tempo de Execução de um Programa

Busca Online Alexandra Barros Geber Ramalho. Busca Offine x Busca Online Busca Offline (ou planejamento clássico) –Computa a solução (do estado inicial.

Decomposição do problema

Análise de Decisão Aplicada a Gerência Empresarial – UVA Enfoque multicritério Bibliografia: ALMEIDA, Adiel – Cap 3 Prof. Felipe Figueira

INF 1771 – Inteligência Artificial

Análise de Investimentos

Análise Microeconômica III

Agentes Baseados em Utilidade

Otimização por Colônia de Formigas (ACO)

Microeconomia A III Prof. Edson Domingues Aula 6 Incerteza

Microeconomia A III Prof. Edson Domingues Aula 10 Teoria dos Jogos

Avaliação da Viabilidade Econômico-Financeira em Projetos

Copyright © 2004 South-Western 27 As Ferramentas Básicas das Finanças.

MEN - Mercados de Energia Mestrado em Engenharia Electrotécnica

Busca com informação e exploração

Aula T06 – BCC202 Análise de Algoritmos (Parte 4) Túlio Toffolo

Sistema de Comando em Operações

Escolha sob Incerteza Prof. João Manoel Pinho de Mello

Agentes Baseados em Utilidade

Agentes Baseados em Utilidade

Agentes Baseados em Utilidade

Agentes Baseados em Utilidade

Teoria da Escolha do Consumidor

Estratégia empresarial de TI

Teoria dos Jogos (aula 2)

Políticas Publicas Aula 10.

Teoria da Decisão Métodos de Computação Inteligente

Distribuição aos Acionistas. Os lucros gerados podem ser reinvestidos em ativos operacionais, utilizados para aquisição de valores mobiliários ou cancelamento.

Agenda Agentes que Respondem por Estímulo Agentes Inteligentes.

Agentes Baseados em Utilidade. Parte I: Decisões Simples “Como um agente deve tomar decisões de modo que, em média, ele consiga o que quer”

ANÁLISE ESTATÍSTICA II

Estratégia empresarial de TI Aula 6 – Teoria dos jogos (4) Prof. E. A. Schmitz.

Escolha sob Incerteza Prof. João Manoel Pinho de Mello Depto. de Economia, PUC-Rio Agosto, 2006.

Planejamento Ambiental 9º Semestre

Inteligência Artificial I

Inteligência Artificial Aula 15 Profª Bianca Zadrozny

Escolha sob Incerteza Prof. João Manoel Pinho de Mello Depto. de Economia, PUC-Rio Agosto, 2008.

Processo Decisório Herbert Simon.

Capítulo 9: SAD orientado a Modelo

Agentes Baseados em Utilidade Métodos da Computação Inteligente Universidade Federal de Pernambuco Aluno: Rodrigo Barros de Vasconcelos Lima.

MODELO DE EQUILÍBRIO EM OLIGOPÓLIOS

Busca Competitiva Disciplina: Inteligência Artificial

Capítulo 5Slide 1 Introdução Fazer escolhas na ausência de incerteza não envolve grandes dificuldades. Como devemos escolher quando certas variáveis, como.

Teoria dos Jogos.

Gerenciamento de riscos

NOÇÕES DE TESTE DE HIPÓTESES (I) Teste de hipóteses para a proporção populacional.

Busca Heurística Prof. Valmir Macário Filho. 2 Busca com informação e exploração Capítulo 4 – Russell & Norvig Seção 4.1 Estratégias de Busca Exaustiva.

Gestão da Informação e do Conhecimento Aula 08 A administração da incerteza: as organizações como sistemas de tomadas de decisão Prof. Dalton Martins

Agentes Baseados em Utilidade. Parte I: Decisões Simples “Como um agente deve tomar decisões de modo que, em média, ele consiga o que quer”

NOÇÕES DE INFERÊNCIA ESTATÍSTICA

PESQUISA OPERACIONAL II Professor: Dr. Edwin B. Mitacc Meza

Universidade Federal de Itajubá Uma introdução à Teoria dos Jogos Fred Leite Siqueira Campos.

Fernando NogueiraTeoria dos Jogos1. Fernando NogueiraTeoria dos Jogos2 Introdução A Teoria dos Jogos trata com situações de tomada de decisão em que dois.

Clique para adicionar texto Matemática para Economia III Turma A1 – Profa. Ana Maria Luz Fassarella do Amaral.

Transcrição da apresentação:

Agentes Baseados em Utilidade Gustavo Danzi de Andrade Geber Ramalho {gda,glr}@cin.ufpe.br

Relembrando Um agente Está em um mundo descrito por um conjunto de estados S ={s1, s2,...,sn} Pode realizar, neste mundo, um conjunto de ações A ={a1, a2,...,at} As conseqüências de suas ações são descritas por uma função de transição Mundo determinístico T(si,aj)  sk Mundo não-determinístico (função estocástica) (si,aj)  {(pt,st), (pk,sk), ... (ps,ss)} onde pk é a probabilidade do estado ser ak

O que veremos Agentes capazes de ... Tomar decisões racionais baseado no que acredita e deseja Diferentemente de um agente lógico Pode tomar decisões em ambientes com incertezas e objetivos conflitantes Possui uma escala contínua de medida de qualidade sobre os estados Funções de Utilidade associam um valor a um estado Indica a “felicidade” por estar nesse estado U(S) = utilidade estado S de acordo com o agente Ex.: s1 = {rico, famoso}, s2 = {pobre, famoso} U(s1) = 10 U(s2) = 5

Roteiro Ambientes Determinísticos e Não-Determinísticos Funções de Utilidade Funções de Utilidade Multi-atributo Teoria do Valor da Informação Teoria dos Jogos

Escolha de ações Princípio da Maximização da Utilidade: agente racional deve escolher ações que maximizam sua utilidade ! Mundo determinístico Isto é feito escolhendo diretamente a ação de maior utilidade É preciso considerar todos os possíveis estados de saída de cada ação não-determinista e escolher a que maximiza a utilidade esperada

Ambiente determinístico: exemplo S = {(rico,famoso), (rico,desconhecido), (pobre,famoso),(pobre,desconhecido)} A = {trabalhar, participar do BigBrother} Transições de estados (dinâmica do ambiente): T[(pobre,desconhecido), trabalhar] = (rico, desconhecido) T[(pobre,desconhecido), part. BB] = (rico, famoso) Função de Utilidade: U(rico,famoso) = 10 U(rico,desconhecido) = 8 U(pobre,famoso) = 5 U(pobre,desconhecido) = 0 Supondo que o agente é pobre e desconhecido (estado inicial), qual a melhor ação a executar? Participar do BigBrother...

Em ambientes não-determinísticos Para cada saída possível é associada uma probabilidade: P (Result(A) | Do(A), E) Onde, E resume a evidência que o agente possui do mundo Do(A) indica que a ação A foi executada no estado atual Utilidade esperada de uma ação A dado a evidência do mundo E: UE(A|E) = i P(Resulti(A)|Do(A),E) x U(Resulti(A)) Nesta aula: Tomadas de Decisões Simples O agente decide apenas uma vez

A melhor ação é Carregar (a2) Exemplo 1 Um Robô deve transportar uma caixa E = a caixa é de metal a1 = Chutar: s1, caixa no destino 20% U(s1) = 10 s2, caixa no meio do caminho 30% U(s2) = 5 s3, caixa longe destino 50% U(s3) = 0 a2 = Carregar: s1, caixa no destino 80% U(s1) = 10 s4, caixa na origem 20% U(s4) = 0 UE(a1) = 0,20 x 10 + 0,30 x 5 + 0,50 x 0 = 3,5 UE(a2 ) = 0,80 x 10 + 0,20 x 0 = 8 A melhor ação é Carregar (a2)

Roteiro Ambientes Determinísticos e Não-Determinísticos Funções de Utilidade Funções de Utilidade Multi-atributo Teoria do Valor da Informação Teoria dos Jogos

Funções de Utilidade Funções de Utilidade são, essencialmente, heurísticas! Preferências racionais permitem descrever o melhor comportamento como aquele que maximiza UE Propriedades do “desejo” do agente Caso satisfaçam as restrições racionais, pode-se garantir a existência de uma Função de Utilidade U(S)  R Notação: A  B: A é preferível a B A ~ B: agente indiferente entre A e B A  B: agente prefere A à B ou é indiferente Para ações não-deterministas: A e B são loterias: distribuições probabilísticas sobre um conjunto de estados de saída

Restrições Racionais Axiomas da Teoria da Utilidade: Ordenabilidade: (A > B)  ( B > A)  (A ~ B) Transitividade: (A > B)  (B > C)  (A > C) Continuidade: A > B > C  p [p.A; 1 - p.C] ~ B Substitutibilidade: A ~ B  [p.A; 1 – p.C] ~ [p.B; 1 – p.C] Monotonicidade: A > B  ( p  q  [p.A; 1 – p.B]  [q.A; 1 – q.B] ) Decomponibilidade: [p.A; 1 – p. [q.B; 1 – q.C] ] ~ [p.A; (1 – p)q.B; (1 – p)(1 – q). C]

Exemplo 2: A Utilidade do Dinheiro Como seria a função de utilidade do dinheiro? Situação: Um jogador está ganhando um prêmio de R$ 1.000.000 É oferecida uma aposta: Cara ou Coroa Se aparecer cara  jogador perde tudo Se aparecer coroa  jogador ganha R$ 3.000.000 Hipótese 1: Linear? U(x) = x Calculando o Valor Monetário Esperado de Aceitar a Aposta: 0.5 U(R$ 0) + 0.5 U(R$ 3.000.000) = $ 1.500.000 Calculando o Valor Monetário Esperado de Recusar a Aposta: 1 U(R$ 1.000.000) = R$ 1.000.000 (menor) Isso indica que seria melhor aceitar a aposta...

Exemplo 2: A Utilidade do Dinheiro Hipótese 2: Não-linear? U(0) = 0 U(1.000.000) = 100 U(3.000.000) = 150 Calculando o Valor Monetário Esperado: EU (Aceitar) = 0.5 U(0) + 0.5 U(3.000.000 ) = 75 EU (Rejeitar) = U(1.000.000) = 100 A melhor opção é rejeitar a aposta... Onde, Sk = riqueza atual do jogador Na prática, o valor do dinheiro depende da situação atual: U(k,n) = onde k é a riqueza atual e n o novo ganho À medida que k cresce, a utilidade de n diminui.... Conclusão: Utilidade não é diretamente proporcional ao valor monetário Dependa da mudança no estilo de vida...

Roteiro Ambientes Determinísticos e Não-Determinísticos Funções de Utilidade Funções de Utilidade Multi-atributo Teoria do Valor da Informação Teoria dos Jogos

Funções Multi-atributo Como tratar funções de utilidades com várias variáveis X1, ..., Xn ? Ex.: Construir aeroporto, Variáveis: Segurança, Custo, Poluição sonora U (Segurança, Custo, Poluição sonora) = ? Existem duas situações: Dominância: decisões podem ser tomadas sem combinar os valores dos atributos em um único valor da utilidade Estrutura de Preferência e Utilidade Multi-atributo: utilidade resultante da combinação dos valores dos atributos pode ser especificada concisamente

Dominância Total Se um estado S1 possui valores melhores em todos seus atributos do que S2, então existe uma dominância total de S1 sobre S2  i Xi(B)  Xi(A) (e portanto U(B)  U(A)) Dominância total raramente acontece na prática...

Dominância Estocástica Exemplo, custo de construir um aeroporto: Em S1 valor uniformemente distribuído entre $2,8 e $4,8 bilhões Em S2 valor uniformemente distribuído entre $3 e $5,2 bilhões Dada a informação que a utilidade decresce com custo: S1 domina estocasticamente S2 UE de S1 é pelo menos tão alta quanto UE de S2 $ - 2,8 -5.2 P S1 S2 Na prática, dominância estocástica pode ser definida usando apenas um raciocínio qualitativo Ex.: custo de construção aumenta com a distância para a cidade: S1 é mais próximo da cidade do que S2  S1 domina S2 estocasticamente sobre o custo

Estrutura de Preferência e Utilidade Multi-atributo Supondo que existem n atributos com d possíveis valores: No pior caso, serão necessários dn valores (preferência sem regularidade) A Teoria da Utilidade Multi-atributo assume que preferências de agentes possuem certa regularidade (estrutura) Abordagem básica é tentar identificar essas regularidades! Agentes com uma certa estrutura em suas preferências terão uma função: U(x1,...,Xn) = f[ f1(x1),...,f2(x2) ] Onde espera-se que f seja uma função simples! Se os atributos forem mutuamente independentes...

Estrutura de Preferência e Utilidade Multi-atributo Atributos mutuamente independentes: X1 e X2 são preferencialmente independente de X3 se, e somente se: Preferência entre {x1, x2, x3} e {x1’, x2’, x3} não depende em x3 Independência preferencial mútua (MPI): todos os pares de atributos são preferencialmente independente com relação aos demais Ex.: Segurança, Custo, Poluição sonora Com MPI, o comportamento preferencial do agente pode ser descrito como uma maximização da função: Caso determinista: V (x1 ... xn) = i Vi(xi) (somatório) Caso não-determinista: basta estender para lidar com loterias

Exemplo 3 Construir aeroporto: Variáveis: Segurança, Custo, Poluição sonora U (Segurança, Custo, Poluição sonora) = V(Segurança) – V(Custo) – V(Poluição sonora) V(Segurança) = Número de itens de segurança construídos V(Custo) = Custo total da construção em milhões de R$ V(Poluição sonora) = População afetada (taxa por 100 mil hab.)

Roteiro Ambientes Determinísticos e Não-Determinísticos Funções de Utilidade Funções de Utilidade Multi-atributo Teoria do Valor da Informação Teoria dos Jogos

Teoria do Valor da Informação Problemas anteriores assumiam que todas as informações estavam disponíveis O que acontece quando: Cabe ao agente buscar as informações necessárias Obtenção de informações tem um custo associado Ex.: solicitação de um exame por parte de um médico A Teoria do Valor da Informação permite que o agente escolha quais informações adquirir

Exemplo 4 Exemplo: comprar os direitos de exploração de reservas de petróleo: Dois blocos A e B, apenas um possui óleo com valor C; Probabilidade de comprar o bloco certo = 0,5 O preço de cada bloco é C/2 Consultor oferece uma pesquisa para detectar qual bloco possui petróleo. Qual o valor dessa informação?

Exemplo 4 Solução: Calcular o valor esperado da informação = valor esperado da melhor ação dada a informação – valor esperado da melhor ação sem a informação; Pesquisador irá informar: “há óleo em A” ou “há óleo em B”. Então: Melhor ação com a informação: C Melhor ação sem a informação: (0,5 x C) + (0,5 x 0) = C/2 Valor esperado da informação: C – C/2 = C/2

Exemplo 4 Uma informação só terá valor caso gere uma mudança de plano, e se esse novo plano for significativamente melhor do que o antigo. S1 e S2: dois estados distintos U1 (S1) > U2 (S2) Nova evidência NE produzirá novas utilidades esperadas U1’ e U2’ Vale a pena adquirir NE? Para uma situação clara, a informação não é necessária... Para uma escolha obscura, a informação é valiosa...

Roteiro Ambientes Determinísticos e Não-Determinísticos Funções de Utilidade Funções de Utilidade Multi-atributo Teoria do Valor da Informação Teoria dos Jogos

Teoria dos Jogos Agentes baseados em utilidade podem atuar em ambientes incertos... Mas o que acontece quando a incerteza é proveniente de outros agentes e de suas decisões? E se as essas decisões são influenciadas pelas nossas? A Teoria dos Jogos trata essas questões É usada para tomar decisões sérias (decisões de preço, desenvolvimento de defesa nacional, etc)

Teoria dos Jogos Na Teoria dos Jogos, jogos são compostos de: Jogadores Ações Matriz de Resultado Cada jogador adota uma Estratégia (diretriz) Estratégia Pura: Diretriz determinística: uma ação para cada situação Estratégia Mista: Ações selecionadas sobre uma distribuição probabilística

Exemplo 5 Dois ladrões (Alice e Bob) são presos perto da cena do crime e interrogados separadamente Ações: testemunhar, recusar Matriz de resultados: Dilema do Prisioneiro: Eles devem testemunhar ou se recusarem a testemunhar? Ou seja, qual estratégia adotar? Estratégia Dominante: Estratégia que domina todas as outras É irracional não usar uma estratégia dominante, caso exista Alice Testemunhar Recusar A = -5; B = -5 A = -10; B = 0 A = 0; B = -10 A = -1; B = -1 Bob

Exemplo 5 Qual será a decisão de Alice se ela for racional? E de Bob? Testemunhar (estratégia dominante) Equilíbrio de Estratégia Dominante: Situação onde cada jogador possui uma estratégia dominante Então, eis que surge o dilema: Resultado para o ponto de equilíbrio é Pareto Dominated pelo resultado {recusar, recusar} ! Um resultado é dito “Pareto Dominated” por outro se todos jogadores preferirem esse outro resultado Há alguma maneira de Alice e Bob chegarem ao resultado (-1, -1)? Opção permitida mais pouco provável Poder atrativo do ponto de equilíbrio !

Equilíbrio de Nash Equilíbrio de Nash: Agentes não possuem intenção de mudar de estratégia Condição necessária para uma solução John Nash provou que todo jogo possui um equilíbrio assim definido Equilíbrio de Estratégia Dominante é um Equilíbrio de Nash Mas esse conceito afirma mais: Existem estratégias que se equilibram mesmo que não existam estratégias dominantes

Exemplo 6 Exemplo: Dois equilibrios de Nash: {dvd, dvd} e {cd, cd} Uma companhia de fabricante de hardware (Best) e outra de discos (ACME) Dois equilibrios de Nash: {dvd, dvd} e {cd, cd} Um equilíbrio Pareto Dominated ACME DVD CD A = 9; B = 9 A = -1; B = -5 A = -5; B = -1 A = 5; B = 5 Best

Roteiro Ambientes Determinísticos e Não-Determinísticos Funções de Utilidade Funções de Utilidade Multi-atributo Teoria do Valor da Informação Teoria dos Jogos

UE(s,a) = ∑ i T(s,a,s i) . U(s i) Em resumo... Funções de Utilidade: Associam a cada estado um valor real Indica a “felicidade” do agente em estar em cada estado Princípio de Maximização da Utilidade: “Um agente racional deve escolher a ação que maximiza sua utilidade esperada” Utilidade Esperada Indica a utilidade de uma ação a que pode resultar em diversos estados s i UE(s,a) = ∑ i T(s,a,s i) . U(s i) Teoria dos Jogos: Estratégias dominantes e equilíbrios