Prof. Eduardo Bezerra ebezerra@cefet-rj.br CEFET/RJ Departamento de Informática Inteligência Artificial (GTSI1306, GCC1734) Prof. Eduardo Bezerra ebezerra@cefet-rj.br.

Prof. Eduardo Bezerra ebezerra@cefet-rj.br
CEFET/RJ Departamento de Informática Inteligência Artificial (GTSI1306, GCC1734) Prof. Eduardo Bezerra

Créditos Essa apresentação é material traduzido e/ou adaptado pelo prof. Eduardo Bezerra e utiliza material cuja autoria é dos professores a seguir: Dan Klein e Pieter Abbeel, UC Berkeley. O material original é usado no curso CS 188 (Introduction to Artificial Intelligence). [These slides were created by Dan Klein and Pieter Abbeel for CS188 Intro to AI at UC Berkeley. All CS188 materials are available at

Busca Competitiva - Expectimax

Ações com resultados incertos
Em que situações um agente não saberia o resultado de uma ação que tomou? Aleatoriedade explícita: e.g., jogar um dado Oponentes imprevisíveis: e.g., os fantasmas no Pacman respondem aleatoriamente. Ações podem falhar: e.g., em um robô, suas rodas podem deslizar

Jogos não-determinísticos
O não-determinismo é um elemento aleatório proveniente de jogo de dados, sorteio de cartas, etc. Não-determinismo é inerente em ambientes reais. O estudo de algoritmos para jogos com elemento aleatório é um passo em direção a algoritmos que podem ser aplicados no mundo real. Uma árvore de um jogo não-determinístico deve incluir nós de acaso (chance node) além de nós minimax. Ramificações que saem dos nós de acaso denotam “resultados possíveis”, e são anotadas com a probabilidade de cada mudança de estado.

Pior caso vs. caso médio max min 10 10 9 100 At least 10, or otherwise just rather dead; or just 100, or otherwise rather dead; that’s yet something different than minimax or expectimax Ideia: resultados incertos são controlados pelo acaso, e não por um oponente!

Busca Expectimax Nesse caso, valores devem refletir o resultado do caso médio (expectimax), e não resultados de pior caso (minimax). Busca Expectimax: computa o escore médio de um nó, considerando oponente racional Nós MAX são como na busca minimax Nó de acaso são similares aos nós MIN, mas o resultado é incerto Calcula a utilidade esperada (expected utility) de cada nó de acaso. i.e. a média ponderada (valor esperado) dos filhos max acaso 10 10 4 10 5 9 7 100 [Demo: min vs exp (L7D1,2)]

Expectimax: Pseudocódigo
def value(state): if the state is a terminal state: return the state’s utility if the next agent is MAX: return max-value(state) if the next agent is EXP: return exp-value(state) def max-value(state): initialize v = -∞ for each successor of state: v = max(v, value(successor)) return v def exp-value(state): initialize v = 0 for each successor of state: p = probability(successor) v += p * value(successor) return v Pick an order for two reasons: sequential processor and pruning

exp-val ue( ) = (1/2) (8) + (1/3) (24) + (1/6) (-12) = 10
Expectimax: Exemplo def exp-value(state): initialize v = 0 for each successor of state: p = probability(successor) v += p * value(successor) return v 1/2 1/6 1/3 5 8 24 7 -12 exp-val ue( ) = (1/2) (8) + (1/3) (24) + (1/6) (-12) = 10

Expectimax: Exemplo

Expectimax: Exemplo 12 9 6 3 2 15 4

Expectimax: Poda é possível?
12 9 2 No expectimax, a menos que tenhamos conhecimento acerca dos limites superior e inferior dos valores do nós terminais, não temos como realizar a poda. Em geral, é muito mais difícil realizar a poda no expectimax, porque o valor de um nó é obtido pela média ponderada dos valores dos seus filhos. 3

Expectimax com Profundidade Limitada
Estimate of true expectimax value (which would require a lot of work to compute) … 400 300 O expectimax com busca limitada funciona de forma semelhante ao minimax com busca limitada: ambos usam funções de avaliação para estimar o valor de estados não-terminais. A diferença é que, no expectimax, devemos calcular médias ponderadas a partir dos valores resultantes da função de avaliação, em vez de calcular mínimos e máximos. … 492 362 …

Expectimax: Importância da Escala
No expectimax, a escala dos valores é importante. Esquerda, a jogada A1 é escolhida. Direita, a jogada A2 é escolhida. A função de avaliação heurística tem que ser uma transformação positiva e linear da chance de ganhar o jogo a partir daquele ponto. O Expectimax é muito mais dependente da escala dos valores utilizados.

Prof. Eduardo Bezerra ebezerra@cefet-rj.br CEFET/RJ Departamento de Informática Inteligência Artificial (GTSI1306, GCC1734) Prof. Eduardo Bezerra ebezerra@cefet-rj.br.

Apresentações semelhantes

Apresentação em tema: "Prof. Eduardo Bezerra ebezerra@cefet-rj.br CEFET/RJ Departamento de Informática Inteligência Artificial (GTSI1306, GCC1734) Prof. Eduardo Bezerra ebezerra@cefet-rj.br."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Prof. Eduardo Bezerra ebezerra@cefet-rj.br CEFET/RJ Departamento de Informática Inteligência Artificial (GTSI1306, GCC1734) Prof. Eduardo Bezerra ebezerra@cefet-rj.br.

Apresentações semelhantes

Apresentação em tema: "Prof. Eduardo Bezerra ebezerra@cefet-rj.br CEFET/RJ Departamento de Informática Inteligência Artificial (GTSI1306, GCC1734) Prof. Eduardo Bezerra ebezerra@cefet-rj.br."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback