A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Ambientes e Arquiteturas de Agentes

Apresentações semelhantes


Apresentação em tema: "Ambientes e Arquiteturas de Agentes"— Transcrição da apresentação:

1 Ambientes e Arquiteturas de Agentes
Jacques Robin Geber Ramalho CIn-UFPE

2 Bem-vindos ao “Mundo do Wumpus”
Agente caçador de tesouros

3 O Mundo do Wumpus: formulação do problema
Ambiente: paredes, Wumpus, cavernas, buracos, ouro Estado inicial: agente na caverna (1,1) com apenas uma flecha Wumpus e buracos em cavernas quaisquer Objetivos: pegar a barra de ouro e voltar à caverna (1,1) com vida

4 O Mundo do Wumpus: formulação do problema
Percepções: fedor (ao lado do Wumpus) brisa (ao lado dos buracos) brilho (na caverna do ouro) choque (contra a parede da caverna) grito do Wumpus (quando morre) Ações: avançar para próxima caverna girar 90 graus à direita ou à esquerda pegar um objeto na mesma caverna que o agente atirar na direção para onde o agente está olhando (a flecha pára quando encontra uma parede ou mata o Wumpus) sair da caverna

5 Codificação do Mundo do Wumpus
1 2 3 4 início fedor A brisa B W brisa, luz O A - Agente W - Wumpus B - Buraco O - Ouro X? - possível X V - Caverna visitada Percepção = [fedor,brisa,luz,choque,grito]

6 Percebendo, Raciocinando e Agindo no Mundo do Wumpus
Seqüência perceptiva: [nada,nada,nada,nada,nada] [nada,brisa,nada,nada,nada] Modelo do mundo mantido pelo agente: 1 2 3 4 A ok 1 2 3 4 ok A V B? b t=0 t=2

7 Percebendo, Raciocinando e Agindo no Mundo do Wumpus
Seqüência perceptiva: [fedor,nada,nada,nada,nada] [fedor,brisa,nada,luz,nada] Modelo do mundo mantido pelo agente: 1 2 3 4 ok A V b W f B! 1 2 3 4 ok A f V b B! W f b l B? Sequência de ações: t=11: Vai para (2,3) e encontra o ouro! t=7: Decide ir para (2,2), único OK não visitado

8 Exercício... Vamos achar o ouro?
B! 4 3 O 2 B! W! 1 A 1 2 3 4

9 Exemplos de agentes

10 Dimensões classificadoras dos ambientes
Universo: Físico: robôs, humanos, animais Software: softbots Realidade virtual (simulação do ambiente físico): softbots e avatares Características: parcialmente x totalmente observável estacionário x dinâmico x tempo-real determinista x estocástico discreto x contínuo episódico x não-episódico mono-agente x multi-agente diversidade tamanho

11 Acessibilidade Totalmente observável ou acessível:
Sensores do agente conseguem perceber a cada instante todos os aspectos do ambiente relevantes para a escolha da ação Parcialmente observável ou inacessível ou com variáveis escondidas ex. wumpus não é acessível, xadrez é Fontes de inacessibilidade: Escopo limitado dos sensores Domínios inacessíveis por qualquer sensor Granularidade insuficiente dos sensores Ruído nos sensores: Limite a confiabilidade das percepções no lugar do seu escopo

12 Determinismo Determinista: pode se prever exatamente próximo estado do ambiente apenas a partir da ação executada Não determinista ou estocástica: conseqüências de uma ação no ambiente parcialmente imprevisível Fontes de não determinismo: Inerente ao ambiente: granularidade quântica, jogos com aleatoriedade Outros agentes no ambientes Ruído nos atuadores Granularidade insuficientemente dos atuadores ou da representação utilizada para raciocinar

13 Dinamicidade: ambientes estacionários e seqüenciais
Percepção Ambiente Estacionário Agente Ação Estado 1 Estado 2 Raciocínio Único ciclo percepção-raciocínio-ação durante o qual ambiente não muda Percepção Ambiente Seqüencial Agente Ação Estado 1 Raciocínio Estado 2 Estado 3 Estado N ... Vários ciclos percepção-raciocínio-ação com ambiente mudando apenas como conseqüências das ações do agente

14 Dinamicidade: ambientes concorrentes síncronos e assíncronos
... Percepção Ambiente concorrente síncrono Agente Ação Estado 1 Raciocínio Estado 2 Estado 4 Estado 5 Estado 3 Ambiente pode mudar entre última ação e próxima percepção mas não durante raciocínio ... Percepção Ambiente concorrente assíncrono Agente Ação Estado 1 Raciocínio Estado 2 Estado 4 Estado 3 Estado 5 Estado 6 Ambiente pode mudar a qualquer momento, inclusive durante raciocínio

15 Número de agentes Mono-agente com ambiente passivo
O ambiente muda apenas como resultado das ações do único agente Mono-agente com ambiente ativo O ambiente muda espontaneamente sem intervenção do agente Multi-agente cooperativo Multi-agente competitivo Multi-agente cooperativo e competitivo Com alianças fixas ou dinâmicas

16 Natureza matemática das grandezas
Valores fornecidos pelos sensores e disponíveis para controlar atuadores Cardinalidade e atributos dos objetos, relações, eventos, locais do ambiente Booleanas Discreta Binárias Dicotômicas Qualitativas Nominal Ordinal Intervalar Quantitativas Fracional R Contínua [0,1]

17 Natureza matemática das grandezas
Binário: Booleano, ex, Male  {True,False} Dicotômico, ex Sex  {Male,Female} Nominal ou categórico ou simbólico: partição finita de valores sem ordem nem medida são apenas = ou  ex, brasileiro, francês, americano Ordinal ou enumerado ou discreto: partição finita de valor ordenada (parcialmente ou totalmente) sem medida são apenas =, , , > ex, fraco, médio, bom, excelente Intervalar: partição finita de valor ordenada com medida m definindo distância d: X,Y, d(X,Y) = |m(X)-m(Y)| sem zero inerente ex, temperatura em grau Celsius Fracional ou proporcional: partição com distância zero inerente todos os operadores matemático aplicam-se ex, temperatura em grau Kelvin Contínuo: conjunto infinito de valores ordenadas com medida, isomorfo a R

18 Outras características
Episódico: A experiência do agente é dividida em episódios Ação em cada episódio independente das ações nos episódios prévios ex.: classificador de imagens é episódico, xadrez não campeonato de futebol é episódico, partida não Ambiente aberto: Inacessível, estocástico, não episódico, contínuo, assíncrono multi-agente ex: RoboCup, Internet, bolsa de valores

19 Tamanho é documento ! Tamanho, número de instâncias de:
percepções, ações e objetivos do agente agentes, objetos, locais, relacionamentos, estados e eventos do ambiente Escalabilidade da execução do raciocínio do agente Diversidade, número de classes de: percepções, ações, objetivos do agente agentes, objetos, locais, relacionamentos, estados e eventos do ambiente Escalabilidade do processo de aquisição do conhecimento necessário para raciocinar

20 Exemplos de ambientes

21 Arquiteturas de agentes
Agente reflexo (puramente reativo) Agente autômato (reativo com estado interno) Agente cognitivo (baseado em objetivos) Agente deliberativo (planejador) Agente híbrido reativo-deliberativo Arquiteturas em camadas Agente otimizador (baseado em utilidades, decision-theoretic) Agente adaptativo (learning)

22 Agente reflexo (puramente reativo)
Ambiente Sensores Regras Percepção  Ação A(t) = h(P(t)) Atuadores

23 Lembrando... Agente Ambiente Interpretação das percepções: I = f(P) P
Raciocínio Interpretação das percepções: I = f(P) P Sensores Escolha das ações: A = g(I,O) Objetivos A Atuadores

24 E então? Ambiente P Interpretação das percepções: I = f(P) Sensores
Atuadores Regras Percepção  Ação A(t) = h(P(t)) A P Objetivos Interpretação das percepções: I = f(P) Escolha das ações: A = g(I,O)

25 Agente reflexo Funcionamento Exemplo no Wumpus
Usa regras ou função associando diretamente percepção com ação ex. Se velocidade > 60 então multar ex. Se luz do freio do carro da frente acender, então frear Dada a percepção, encontra a primeira regra que casa e executa ação Exemplo no Wumpus IF visualPerception = glitter THEN action = pick see(glitter)  do(pick) (representação em lógica)

26 Agente reflexo Vantagens e desvantagens
Regras condição-ação: representação inteligível, modular e eficiente Não pode armazenar uma seqüência perceptiva, pouca autonomia Limitações do agente reativo puro no mundo do Wumpus um agente ótimo deveria: recuperar o ouro ou determinar que é muito perigoso pegar o ouro e em qualquer dos casos acima, voltar para (1,1) e sair da caverna. Um agente reativo nunca sabe quando sair, estar com o ouro e estar na caverna (1,1) não fazem parte da sua percepção (se pegou, esqueceu). esses agentes podem entrar em laços infinitos.

27 Agente autômato (reativo com estado interno)
Ambiente Sensores Atuadores Modelo dos ambientes (passados) e atual Interpretador de percepções Regras: percepção  modelo  modelo Escolhedor de ações modelo  ação, e ação  modelo  modelo Atualizador do modelo do ambiente Regras: modelo  modelo Objetivos

28 Agente autômato Regras associando indiretamente percepção com ação via construção e manutenção de um modelo do ambiente Ação depende de: percepção atual + percepções anteriores + ações anteriores ... Motivação Nem o ambiente todo é acessível no mesmo momento ex. ultrapassagem de um carro Percepções instantâneas iguais podem corresponder a estados diferentes ex. Wumpus: cavernas visitadas Limitações: Pouca autonomia Não tem objetivos explícitos

29 Regras de agente autômato
Regras percepção  modelo  modelo IF visualPercept at time T is glitter AND location of agent at time T is (X,Y) THEN location of gold at time T is (X,Y) X,Y,T see(glitter,T)  loc(agent,X,Y,T)  loc(gold,X,Y,T). Regras modelo  modelo IF agent is with gold at time T AND location of agent at time T is (X,Y) THEN location of gold at time T is (X,Y) X,Y,T withGold(T)  loc(agent,X,Y,T)  loc(gold,X,Y,T).

30 Regras de agente autômato
Regras modelo  ação IF location of agent at time T = (X,Y) AND location of gold at time T = (X,Y) THEN choose action pick at time T X,Y,T loc(agent,X,Y,T)  loc(gold,X,Y,T)  do(pick,T) Regras ação  modelo  modelo IF choosen action at time T was pick THEN agent is with gold at time T+1 T done(pick,T)  withGold(T+1).

31 Agente cognitivo (baseado em objetivos)
Ambiente Interpretador de percepções Regras: percepção  modelo  modelo Sensores Modelo dos ambientes (passados) e atual Atualizador do modelo do ambiente Regras: modelo  modelo Atualizador dos objetivos Regras: modelo  objetivos  objetivos Objetivos Escolhedor de ação Regras: modelo  objetivos  ação, e ação  modelo  modelo Atuadores

32 Agente cognitivo Vantagens: Limitações: Mais flexível e autônomo
ex. adapta suas escolhas a situações resumidas em objetivos dinâmicos Limitações: Escolhe ações uma por uma: Não planeja seqüências de ações levando ao seu objetivo Ações baseadas apenas no modelo atual (ou passado) do ambiente Não tente prever modelos futuros do ambiente Não trata objetivos conflitantes ex. chegar ao destino pelo caminho mais curto, seguro, barato, rápido e bonito

33 Regras de agente cognitivo
Regras modelo  objetivo  ação IF goal of agent at time T is to return to (1,1) AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action turn left at time T X,Y,T, (N,M,K goal(T,loc(agent,1,1,T+N))  loc(agent,X,Y,T)  orientation(agent,90,T)  safe(loc(X,Y+1),T)   loc(agent,X,Y+1,T-M)  safe(loc(X-1,Y),T)  loc(agent,X,Y+1,T-K))  do(turn(left),T) Y+1 ok Y v ok A X-1 X

34 Regras de agente cognitivo
Regras modelo  objetivo  ação IF goal of agent at time T is to find gold AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action forward at time T X,Y,T, (N,M,K goal(T,withGold(T+N))  loc(agent,X,Y,T)  orientation(agent,90,T)  safe(loc(X,Y+1),T)   loc(agent,X,Y+1,T-M)  safe(loc(X-1,Y),T)  loc(agent,X,Y+1,T-K))  do(forward,T) Y+1 ok Y v ok A X-1 X

35 Regras de agente cognitivo
Regras modelo  objetivo  modelo //Se o agente queria estar com o ouro e conseguiu, //atualizar objetivo para voltar para (1,1) IF goal of agent at time T-1 was to find gold AND agent is with gold at time T THEN goal of agent at time T+1 is to be in location (1,1) T, (N goal(agent,T-1,withGold(T+N))  withGold(T)  M goal(agent,T,loc(agent,1,1,T+M))).

36 Agente deliberativo (planejador)
Ambiente Sensores Atuadores Modelo dos ambientes (passados) e atual Interpretador de percepções Regras: percepção(t)  modelo(t-1)  modelo(t) Escolhedor de ação Regras: resultado([ação(t),...,ação(t+n)]) = modelo(t+n)  modelo(t+n)  objetivo(t)  faz(ação(t)) Atualizador do modelo do ambiente Regras: modelo(t)  modelo(t) Atualizador dos objetivos Regras: modelo(t)  objetivos(t-1)  objetivos(t) Objetivos Previsor de ambientes futuros Regras: modelo(t)  ação(t)  modelo(t+1) e modelo(t)  modelo(t+1) Modelo dos ambientes futuros hipotéticos

37 Agente deliberativo Associação percepção-ação indireta:
Mediada por modelo atual do ambiente, objetivo explícito e previsão de estados futuros do ambiente resultando de seqüências de ações Encadeia regras: para construir plano multi-passo necessário para atingir objetivo a partir de modelo atual ex. taxista encontrando a rota para o destino do passageiro ex. taxista freia porque quer evitar prejuízo e dor de cabeça no futuro Vantagens: Escolha ações melhores: mais relevantes e mais seguras Desvantagens: Custo da deliberação pode ser excessiva em ambientes tempo real

38 Regras de agente deliberativo
Regras objetivo  modelo  ações IF goal of agent at time T is to be in (X+1,Y+1) AND agent is in (X,Y) at time T AND location (X+1,Y) is safe at time T THEN change goal of agent at time T to be (X+1,Y) AND set goal of agent at time T+1+N to be in (X+1,Y+1) IF goal of agent at time T is to be in (X+1,Y) AND location (X+1,Y) is safe at time T AND agent is in (X,Y) at time T AND agent orientation is 90o at time T THEN choose action sequence [turn(right),forward] IF goal of agent at time T is to be (X,Y+1) AND location (X,Y+1) is safe at time T AND agent is in (X,Y) at time T AND agent orientation is 0o at time T THEN choose action sequence [turn(left),forward] Y+1 ok Y A X X+1 Y+1 ok Y A X-1 X

39 Regras de agente deliberativo
Regras objetivo  modelo  ações X,Y,Y (N goal(T,loc(agent,X+1,Y+1,T+N))  safe(loc(X+1,Y+1), T)  loc(agent,X,Y,T)  M,I goal(T,loc(agent,X+1,Y,T+M))  goal(T+1+I,loc(agent,X+1,Y+1,T+N))) X,Y,Y N goal(T,loc(agent,X+1,Y,T+N))  safe(loc(X+1,Y), T)  loc(agent,X,Y,T)  orientation(agent,90,T)  do(turn(right),T)  do(forward,T+1) X,Y,Y N goal(T,loc(agent,X,Y+1,T+N))  safe(loc(X,Y+1), T)  loc(agent,X,Y,T)  orientation(agent,0,T)  do(turn(left),T)  do(forward,T+1) Y+1 ok Y A X X+1 Y+1 ok Y A X-1 X

40 Agente híbrido reflexo-deliberativo
Ambiente Sensores Atuadores Thread Reflexa Regras Reativas Percepção  Ação Sincronizador Thread Deliberativa Objetivos Modelo dos ambientes: atual passados e futuros Atualizador do modelo do ambiente Interpretador de percepções Atualizador dos objetivos Previsor de ambientes futuros Escolhedor de ação

41 Agente híbrido reflexo-deliberativo
Vantagens: Toma a melhor decisão possível dado tempo de deliberação disponível Robusto e experto Desvantagens: Tempo de desenvolvimento Mesmo conhecimento codificado em formas diferentes em regras reativas e deliberativas Coerência do comportamento global resultante difícil garantir Depuração dificultada pelos problemas de sincronização Nem tantos ambientes requerem ciclos percepção-raciocínio-ação de duração muito desigual

42 Arquiteturas em camadas
Em ambientes abertos: Número muito grande de percepções e ações possíveis impede raciocinar diretamente a nível delas Explosão combinatória da base de regras reflexas ou dos fatos modelo do ambiente É necessário decompor raciocínio em camadas de abstração Formas de abstração: Discretização Agrupamento (espacial, temporal, por partes, por papeis/funções) Aproximação Raciocina Abstratamente Abstrai Detalhe Percebe Detalhadamente Age Detalhadamente

43 Agente autômato em camadas
Interpretador de percepções Ambiente Sensores Atuadores Modelo do ambiente Atualizador do modelo do ambiente Escolhedor e controlador de ações Nível 2: Nível 2: Nível 1: Nível 0: Nível 2: Nível 1: Nível 0:

44 Exemplo de camadas de abstração:
Y

45 Exemplo de camadas de abstração:
Y

46 Agente otimizador deliberativo (baseado em utilidades)
Escolhedor de ação Ambiente Sensores Atuadores Modelo dos ambientes (passados) e atual Interpretador de percepções Regras: percepção(t)  modelo(t-1)  modelo(t) Atualizador do modelo do ambiente Regras: modelo(t)  modelo(t) Atualizador dos objetivos Regras: modelo(t)  objetivos(t-1)  objetivos(t) Objetivos Previsor de ambientes futuros Regras:modelo(t)  ação(t)  modelo(t+1) e modelo(t)  modelo(t+1) Modelo dos ambientes futuros hipotéticos Utilidades u:modelos x objetivos  R

47 Agente otimizador reativo (baseado em utilidades)
Ambiente Sensores Atuadores Interpretador de percepções Regras: percepções  ações executáveis Escolhedor de ações Utilidades u:ações  R Objetivos

48 Agente otimizador Incorpora função de utilidade que define:
preferências entre estados do ambientes ou ações a executar dados os objetivos atuais do agentes Permite escolher melhor compromisso entre: vários objetivos conflitantes, ou vários objetivos com probabilidades diferentes de serem alcançado Vantagem: muitos ambientes requerem fazer compromissos entre vários objetivos de alcançabilidade incerta Limitações: Abordagens existentes tendem a ser pouco escaláveis em termos diversidade dos objetos, relacionamentos, agentes e eventos do ambiente

49 Regras de agente otimizador
IF at time T agent has goal to be with gold AND agent is not with gold at time T AND agent is in (X,Y) at time T AND a wumpus is in (X+1,Y) at time T AND wumpus is alive at time T AND wall in (X-1,Y) AND wall in (X-1,Y-1) AND wall in (X,Y-2) AND wall in (X+1,Y-2) AND agent visited (X,Y-1) AND agent visited (X+1,Y-1) AND agent has arrow at time T THEN utility of wumpus dead at time T+2 is 0.8 IF at time T agent has goal to be with gold AND agent is not with gold at time T AND agent is in (X,Y) at time T AND gold is in (X,Y) at time T THEN utility of agent being with gold at time T+1 is 1 Y+1 B? Y AfO W Y-1 v X X+1 X+3

50 Regras de agente otimizador
Y+1 B? Y AfO W Y-1 v X X+1 X+3 T,X,Y N,I,J goal(T,has(agent,gold,T+N)   has(agent,gold,T)  loc(agent,X,Y,T)  loc(wumpus,X+1,Y)  alive(wumpus,T)  loc(wall,X-1,Y)  loc(wall,X-1,Y-1)  loc(wall,X,Y-2)  loc(wall,X+1,Y-2)  loc(agent,X,Y,T-I)  loc(agent,X,Y,T-J)  has(agent,arrow,T)  utility( alive(wumpus,T+2)) = 0.8 T,X,Y N goal(T,has(agent,gold,T+N)   has(agent,gold,T)  loc(agent,X,Y,T)  loc(gold,X,Y,T)  utility(has(agent,gold,T+1)) = 1

51 Agente adaptativo (learning)
Ambiente Sensores Atuadores Componente de ação Componente de aprendizagem de conhecimento Componente de análise crítica de desempenho Componente geração de problemas Aprende regras ou funções: percepção(t)  ação(t) percepção(t)  modelo(t-1)  modelo(t) modelo(t)  modelo(t) modelo(t-1)  modelo(t) modelo(t)  ação(t) ação(t)  modelo(t+1) modelo(t)  objetivo(t)  ação(t) objetivo(t-1)  modelo(t)  objetivo(t) utilidade(ação) = valor utilidade(modelo,objetivo) = valor Reflexo Autômato Cognitivo Deliberativo Otimizador Híbrido

52 Ambientes de simulação
Inicialização do ambiente: A partir dos parâmetros de configuração, identificar sub-classe relevante da classe do ambiente simulado ex, Mundo do Wumpus com caverna quadrada e wumpus imóvel ex, RoboCup com taxa de ruído de 5% para força de chutes e 2% para visão da posição dos outros jogadores Criar instância aleatória particular dessa sub-classe ex. tamanho da caverna, locais dos buracos, do wumpus e do ouro Ciclo de processamento do ambiente: Gerar percepções dos agentes a partir do estado atual do ambiente Mandar essas percepções para os agentes Receber ações escolhidas pelos agentes Atualizar o estado do ambiente para refletir essas ações

53 Arquitetura de ambiente de simulação
GUI de Visualização da Simulação Servidor de Simulação Rede Atualizador do ambiente Regras: ambiente(t)  ambiente(t+1) e ações(t)  ambiente(t)  ambiente(t+1) ações Cliente Agente 1 Agente N ... Ambiente Simulado percepções Gerador de percepções Regras: ambiente(t)  percepção(t)

54 Exercício 1 (equipes de 4 ou 5 alunos)
Preencher tabela abaixo com +, +/-, - Um parágrafo curto para cada célula justificando resposta Reflexo Autômato Cognitivo Deliberativo Reflexo- Deliberativo Otimizador Deliberativo Otimizador Reflexo Adaptativo Acessível Inacessível Determinista Estocástica Discreto Contínuo Estacionário Seqüencial Concorrente síncrono Concorrente assíncrono Episódico Não episódico Mono-Agente Ambiente passivo Mono-Agente Ambiente ativo Multi-Agente cooperativo Multi-Agente competitivo


Carregar ppt "Ambientes e Arquiteturas de Agentes"

Apresentações semelhantes


Anúncios Google