Carregar apresentação
A apresentação está carregando. Por favor, espere
1
Ambientes e Arquiteturas de Agentes
Jacques Robin Geber Ramalho CIn-UFPE
2
Bem-vindos ao “Mundo do Wumpus”
Agente caçador de tesouros
3
O Mundo do Wumpus: formulação do problema
Ambiente: paredes, Wumpus, cavernas, buracos, ouro Estado inicial: agente na caverna (1,1) com apenas uma flecha Wumpus e buracos em cavernas quaisquer Objetivos: pegar a barra de ouro e voltar à caverna (1,1) com vida
4
O Mundo do Wumpus: formulação do problema
Percepções: fedor (ao lado do Wumpus) brisa (ao lado dos buracos) brilho (na caverna do ouro) choque (contra a parede da caverna) grito do Wumpus (quando morre) Ações: avançar para próxima caverna girar 90 graus à direita ou à esquerda pegar um objeto na mesma caverna que o agente atirar na direção para onde o agente está olhando (a flecha pára quando encontra uma parede ou mata o Wumpus) sair da caverna
5
Codificação do Mundo do Wumpus
1 2 3 4 início fedor A brisa B W brisa, luz O A - Agente W - Wumpus B - Buraco O - Ouro X? - possível X V - Caverna visitada Percepção = [fedor,brisa,luz,choque,grito]
6
Percebendo, Raciocinando e Agindo no Mundo do Wumpus
Seqüência perceptiva: [nada,nada,nada,nada,nada] [nada,brisa,nada,nada,nada] Modelo do mundo mantido pelo agente: 1 2 3 4 A ok 1 2 3 4 ok A V B? b t=0 t=2
7
Percebendo, Raciocinando e Agindo no Mundo do Wumpus
Seqüência perceptiva: [fedor,nada,nada,nada,nada] [fedor,brisa,nada,luz,nada] Modelo do mundo mantido pelo agente: 1 2 3 4 ok A V b W f B! 1 2 3 4 ok A f V b B! W f b l B? Sequência de ações: t=11: Vai para (2,3) e encontra o ouro! t=7: Decide ir para (2,2), único OK não visitado
8
Exercício... Vamos achar o ouro?
B! 4 3 O 2 B! W! 1 A 1 2 3 4
9
Exemplos de agentes
10
Dimensões classificadoras dos ambientes
Universo: Físico: robôs, humanos, animais Software: softbots Realidade virtual (simulação do ambiente físico): softbots e avatares Características: parcialmente x totalmente observável estacionário x dinâmico x tempo-real determinista x estocástico discreto x contínuo episódico x não-episódico mono-agente x multi-agente diversidade tamanho
11
Acessibilidade Totalmente observável ou acessível:
Sensores do agente conseguem perceber a cada instante todos os aspectos do ambiente relevantes para a escolha da ação Parcialmente observável ou inacessível ou com variáveis escondidas ex. wumpus não é acessível, xadrez é Fontes de inacessibilidade: Escopo limitado dos sensores Domínios inacessíveis por qualquer sensor Granularidade insuficiente dos sensores Ruído nos sensores: Limite a confiabilidade das percepções no lugar do seu escopo
12
Determinismo Determinista: pode se prever exatamente próximo estado do ambiente apenas a partir da ação executada Não determinista ou estocástica: conseqüências de uma ação no ambiente parcialmente imprevisível Fontes de não determinismo: Inerente ao ambiente: granularidade quântica, jogos com aleatoriedade Outros agentes no ambientes Ruído nos atuadores Granularidade insuficientemente dos atuadores ou da representação utilizada para raciocinar
13
Dinamicidade: ambientes estacionários e seqüenciais
Percepção Ambiente Estacionário Agente Ação Estado 1 Estado 2 Raciocínio Único ciclo percepção-raciocínio-ação durante o qual ambiente não muda Percepção Ambiente Seqüencial Agente Ação Estado 1 Raciocínio Estado 2 Estado 3 Estado N ... Vários ciclos percepção-raciocínio-ação com ambiente mudando apenas como conseqüências das ações do agente
14
Dinamicidade: ambientes concorrentes síncronos e assíncronos
... Percepção Ambiente concorrente síncrono Agente Ação Estado 1 Raciocínio Estado 2 Estado 4 Estado 5 Estado 3 Ambiente pode mudar entre última ação e próxima percepção mas não durante raciocínio ... Percepção Ambiente concorrente assíncrono Agente Ação Estado 1 Raciocínio Estado 2 Estado 4 Estado 3 Estado 5 Estado 6 Ambiente pode mudar a qualquer momento, inclusive durante raciocínio
15
Número de agentes Mono-agente com ambiente passivo
O ambiente muda apenas como resultado das ações do único agente Mono-agente com ambiente ativo O ambiente muda espontaneamente sem intervenção do agente Multi-agente cooperativo Multi-agente competitivo Multi-agente cooperativo e competitivo Com alianças fixas ou dinâmicas
16
Natureza matemática das grandezas
Valores fornecidos pelos sensores e disponíveis para controlar atuadores Cardinalidade e atributos dos objetos, relações, eventos, locais do ambiente Booleanas Discreta Binárias Dicotômicas Qualitativas Nominal Ordinal Intervalar Quantitativas Fracional R Contínua [0,1]
17
Natureza matemática das grandezas
Binário: Booleano, ex, Male {True,False} Dicotômico, ex Sex {Male,Female} Nominal ou categórico ou simbólico: partição finita de valores sem ordem nem medida são apenas = ou ex, brasileiro, francês, americano Ordinal ou enumerado ou discreto: partição finita de valor ordenada (parcialmente ou totalmente) sem medida são apenas =, , , > ex, fraco, médio, bom, excelente Intervalar: partição finita de valor ordenada com medida m definindo distância d: X,Y, d(X,Y) = |m(X)-m(Y)| sem zero inerente ex, temperatura em grau Celsius Fracional ou proporcional: partição com distância zero inerente todos os operadores matemático aplicam-se ex, temperatura em grau Kelvin Contínuo: conjunto infinito de valores ordenadas com medida, isomorfo a R
18
Outras características
Episódico: A experiência do agente é dividida em episódios Ação em cada episódio independente das ações nos episódios prévios ex.: classificador de imagens é episódico, xadrez não campeonato de futebol é episódico, partida não Ambiente aberto: Inacessível, estocástico, não episódico, contínuo, assíncrono multi-agente ex: RoboCup, Internet, bolsa de valores
19
Tamanho é documento ! Tamanho, número de instâncias de:
percepções, ações e objetivos do agente agentes, objetos, locais, relacionamentos, estados e eventos do ambiente Escalabilidade da execução do raciocínio do agente Diversidade, número de classes de: percepções, ações, objetivos do agente agentes, objetos, locais, relacionamentos, estados e eventos do ambiente Escalabilidade do processo de aquisição do conhecimento necessário para raciocinar
20
Exemplos de ambientes
21
Arquiteturas de agentes
Agente reflexo (puramente reativo) Agente autômato (reativo com estado interno) Agente cognitivo (baseado em objetivos) Agente deliberativo (planejador) Agente híbrido reativo-deliberativo Arquiteturas em camadas Agente otimizador (baseado em utilidades, decision-theoretic) Agente adaptativo (learning)
22
Agente reflexo (puramente reativo)
Ambiente Sensores Regras Percepção Ação A(t) = h(P(t)) Atuadores
23
Lembrando... Agente Ambiente Interpretação das percepções: I = f(P) P
Raciocínio Interpretação das percepções: I = f(P) P Sensores Escolha das ações: A = g(I,O) Objetivos A Atuadores
24
E então? Ambiente P Interpretação das percepções: I = f(P) Sensores
Atuadores Regras Percepção Ação A(t) = h(P(t)) A P Objetivos Interpretação das percepções: I = f(P) Escolha das ações: A = g(I,O)
25
Agente reflexo Funcionamento Exemplo no Wumpus
Usa regras ou função associando diretamente percepção com ação ex. Se velocidade > 60 então multar ex. Se luz do freio do carro da frente acender, então frear Dada a percepção, encontra a primeira regra que casa e executa ação Exemplo no Wumpus IF visualPerception = glitter THEN action = pick see(glitter) do(pick) (representação em lógica)
26
Agente reflexo Vantagens e desvantagens
Regras condição-ação: representação inteligível, modular e eficiente Não pode armazenar uma seqüência perceptiva, pouca autonomia Limitações do agente reativo puro no mundo do Wumpus um agente ótimo deveria: recuperar o ouro ou determinar que é muito perigoso pegar o ouro e em qualquer dos casos acima, voltar para (1,1) e sair da caverna. Um agente reativo nunca sabe quando sair, estar com o ouro e estar na caverna (1,1) não fazem parte da sua percepção (se pegou, esqueceu). esses agentes podem entrar em laços infinitos.
27
Agente autômato (reativo com estado interno)
Ambiente Sensores Atuadores Modelo dos ambientes (passados) e atual Interpretador de percepções Regras: percepção modelo modelo Escolhedor de ações modelo ação, e ação modelo modelo Atualizador do modelo do ambiente Regras: modelo modelo Objetivos
28
Agente autômato Regras associando indiretamente percepção com ação via construção e manutenção de um modelo do ambiente Ação depende de: percepção atual + percepções anteriores + ações anteriores ... Motivação Nem o ambiente todo é acessível no mesmo momento ex. ultrapassagem de um carro Percepções instantâneas iguais podem corresponder a estados diferentes ex. Wumpus: cavernas visitadas Limitações: Pouca autonomia Não tem objetivos explícitos
29
Regras de agente autômato
Regras percepção modelo modelo IF visualPercept at time T is glitter AND location of agent at time T is (X,Y) THEN location of gold at time T is (X,Y) X,Y,T see(glitter,T) loc(agent,X,Y,T) loc(gold,X,Y,T). Regras modelo modelo IF agent is with gold at time T AND location of agent at time T is (X,Y) THEN location of gold at time T is (X,Y) X,Y,T withGold(T) loc(agent,X,Y,T) loc(gold,X,Y,T).
30
Regras de agente autômato
Regras modelo ação IF location of agent at time T = (X,Y) AND location of gold at time T = (X,Y) THEN choose action pick at time T X,Y,T loc(agent,X,Y,T) loc(gold,X,Y,T) do(pick,T) Regras ação modelo modelo IF choosen action at time T was pick THEN agent is with gold at time T+1 T done(pick,T) withGold(T+1).
31
Agente cognitivo (baseado em objetivos)
Ambiente Interpretador de percepções Regras: percepção modelo modelo Sensores Modelo dos ambientes (passados) e atual Atualizador do modelo do ambiente Regras: modelo modelo Atualizador dos objetivos Regras: modelo objetivos objetivos Objetivos Escolhedor de ação Regras: modelo objetivos ação, e ação modelo modelo Atuadores
32
Agente cognitivo Vantagens: Limitações: Mais flexível e autônomo
ex. adapta suas escolhas a situações resumidas em objetivos dinâmicos Limitações: Escolhe ações uma por uma: Não planeja seqüências de ações levando ao seu objetivo Ações baseadas apenas no modelo atual (ou passado) do ambiente Não tente prever modelos futuros do ambiente Não trata objetivos conflitantes ex. chegar ao destino pelo caminho mais curto, seguro, barato, rápido e bonito
33
Regras de agente cognitivo
Regras modelo objetivo ação IF goal of agent at time T is to return to (1,1) AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action turn left at time T X,Y,T, (N,M,K goal(T,loc(agent,1,1,T+N)) loc(agent,X,Y,T) orientation(agent,90,T) safe(loc(X,Y+1),T) loc(agent,X,Y+1,T-M) safe(loc(X-1,Y),T) loc(agent,X,Y+1,T-K)) do(turn(left),T) Y+1 ok Y v ok A X-1 X
34
Regras de agente cognitivo
Regras modelo objetivo ação IF goal of agent at time T is to find gold AND agent is in (X,Y) at time T AND orientation of agent is 90o at time T AND (X,Y+1) is safe at time T AND (X,Y+1) has not being visited until time T AND (X-1,Y) is safe at time T AND (X-1,Y) was visited before time T THEN choose action forward at time T X,Y,T, (N,M,K goal(T,withGold(T+N)) loc(agent,X,Y,T) orientation(agent,90,T) safe(loc(X,Y+1),T) loc(agent,X,Y+1,T-M) safe(loc(X-1,Y),T) loc(agent,X,Y+1,T-K)) do(forward,T) Y+1 ok Y v ok A X-1 X
35
Regras de agente cognitivo
Regras modelo objetivo modelo //Se o agente queria estar com o ouro e conseguiu, //atualizar objetivo para voltar para (1,1) IF goal of agent at time T-1 was to find gold AND agent is with gold at time T THEN goal of agent at time T+1 is to be in location (1,1) T, (N goal(agent,T-1,withGold(T+N)) withGold(T) M goal(agent,T,loc(agent,1,1,T+M))).
36
Agente deliberativo (planejador)
Ambiente Sensores Atuadores Modelo dos ambientes (passados) e atual Interpretador de percepções Regras: percepção(t) modelo(t-1) modelo(t) Escolhedor de ação Regras: resultado([ação(t),...,ação(t+n)]) = modelo(t+n) modelo(t+n) objetivo(t) faz(ação(t)) Atualizador do modelo do ambiente Regras: modelo(t) modelo(t) Atualizador dos objetivos Regras: modelo(t) objetivos(t-1) objetivos(t) Objetivos Previsor de ambientes futuros Regras: modelo(t) ação(t) modelo(t+1) e modelo(t) modelo(t+1) Modelo dos ambientes futuros hipotéticos
37
Agente deliberativo Associação percepção-ação indireta:
Mediada por modelo atual do ambiente, objetivo explícito e previsão de estados futuros do ambiente resultando de seqüências de ações Encadeia regras: para construir plano multi-passo necessário para atingir objetivo a partir de modelo atual ex. taxista encontrando a rota para o destino do passageiro ex. taxista freia porque quer evitar prejuízo e dor de cabeça no futuro Vantagens: Escolha ações melhores: mais relevantes e mais seguras Desvantagens: Custo da deliberação pode ser excessiva em ambientes tempo real
38
Regras de agente deliberativo
Regras objetivo modelo ações IF goal of agent at time T is to be in (X+1,Y+1) AND agent is in (X,Y) at time T AND location (X+1,Y) is safe at time T THEN change goal of agent at time T to be (X+1,Y) AND set goal of agent at time T+1+N to be in (X+1,Y+1) IF goal of agent at time T is to be in (X+1,Y) AND location (X+1,Y) is safe at time T AND agent is in (X,Y) at time T AND agent orientation is 90o at time T THEN choose action sequence [turn(right),forward] IF goal of agent at time T is to be (X,Y+1) AND location (X,Y+1) is safe at time T AND agent is in (X,Y) at time T AND agent orientation is 0o at time T THEN choose action sequence [turn(left),forward] Y+1 ok Y A X X+1 Y+1 ok Y A X-1 X
39
Regras de agente deliberativo
Regras objetivo modelo ações X,Y,Y (N goal(T,loc(agent,X+1,Y+1,T+N)) safe(loc(X+1,Y+1), T) loc(agent,X,Y,T) M,I goal(T,loc(agent,X+1,Y,T+M)) goal(T+1+I,loc(agent,X+1,Y+1,T+N))) X,Y,Y N goal(T,loc(agent,X+1,Y,T+N)) safe(loc(X+1,Y), T) loc(agent,X,Y,T) orientation(agent,90,T) do(turn(right),T) do(forward,T+1) X,Y,Y N goal(T,loc(agent,X,Y+1,T+N)) safe(loc(X,Y+1), T) loc(agent,X,Y,T) orientation(agent,0,T) do(turn(left),T) do(forward,T+1) Y+1 ok Y A X X+1 Y+1 ok Y A X-1 X
40
Agente híbrido reflexo-deliberativo
Ambiente Sensores Atuadores Thread Reflexa Regras Reativas Percepção Ação Sincronizador Thread Deliberativa Objetivos Modelo dos ambientes: atual passados e futuros Atualizador do modelo do ambiente Interpretador de percepções Atualizador dos objetivos Previsor de ambientes futuros Escolhedor de ação
41
Agente híbrido reflexo-deliberativo
Vantagens: Toma a melhor decisão possível dado tempo de deliberação disponível Robusto e experto Desvantagens: Tempo de desenvolvimento Mesmo conhecimento codificado em formas diferentes em regras reativas e deliberativas Coerência do comportamento global resultante difícil garantir Depuração dificultada pelos problemas de sincronização Nem tantos ambientes requerem ciclos percepção-raciocínio-ação de duração muito desigual
42
Arquiteturas em camadas
Em ambientes abertos: Número muito grande de percepções e ações possíveis impede raciocinar diretamente a nível delas Explosão combinatória da base de regras reflexas ou dos fatos modelo do ambiente É necessário decompor raciocínio em camadas de abstração Formas de abstração: Discretização Agrupamento (espacial, temporal, por partes, por papeis/funções) Aproximação Raciocina Abstratamente Abstrai Detalhe Percebe Detalhadamente Age Detalhadamente
43
Agente autômato em camadas
Interpretador de percepções Ambiente Sensores Atuadores Modelo do ambiente Atualizador do modelo do ambiente Escolhedor e controlador de ações Nível 2: Nível 2: Nível 1: Nível 0: Nível 2: Nível 1: Nível 0:
44
Exemplo de camadas de abstração:
Y
45
Exemplo de camadas de abstração:
Y
46
Agente otimizador deliberativo (baseado em utilidades)
Escolhedor de ação Ambiente Sensores Atuadores Modelo dos ambientes (passados) e atual Interpretador de percepções Regras: percepção(t) modelo(t-1) modelo(t) Atualizador do modelo do ambiente Regras: modelo(t) modelo(t) Atualizador dos objetivos Regras: modelo(t) objetivos(t-1) objetivos(t) Objetivos Previsor de ambientes futuros Regras:modelo(t) ação(t) modelo(t+1) e modelo(t) modelo(t+1) Modelo dos ambientes futuros hipotéticos Utilidades u:modelos x objetivos R
47
Agente otimizador reativo (baseado em utilidades)
Ambiente Sensores Atuadores Interpretador de percepções Regras: percepções ações executáveis Escolhedor de ações Utilidades u:ações R Objetivos
48
Agente otimizador Incorpora função de utilidade que define:
preferências entre estados do ambientes ou ações a executar dados os objetivos atuais do agentes Permite escolher melhor compromisso entre: vários objetivos conflitantes, ou vários objetivos com probabilidades diferentes de serem alcançado Vantagem: muitos ambientes requerem fazer compromissos entre vários objetivos de alcançabilidade incerta Limitações: Abordagens existentes tendem a ser pouco escaláveis em termos diversidade dos objetos, relacionamentos, agentes e eventos do ambiente
49
Regras de agente otimizador
IF at time T agent has goal to be with gold AND agent is not with gold at time T AND agent is in (X,Y) at time T AND a wumpus is in (X+1,Y) at time T AND wumpus is alive at time T AND wall in (X-1,Y) AND wall in (X-1,Y-1) AND wall in (X,Y-2) AND wall in (X+1,Y-2) AND agent visited (X,Y-1) AND agent visited (X+1,Y-1) AND agent has arrow at time T THEN utility of wumpus dead at time T+2 is 0.8 IF at time T agent has goal to be with gold AND agent is not with gold at time T AND agent is in (X,Y) at time T AND gold is in (X,Y) at time T THEN utility of agent being with gold at time T+1 is 1 Y+1 B? Y AfO W Y-1 v X X+1 X+3
50
Regras de agente otimizador
Y+1 B? Y AfO W Y-1 v X X+1 X+3 T,X,Y N,I,J goal(T,has(agent,gold,T+N) has(agent,gold,T) loc(agent,X,Y,T) loc(wumpus,X+1,Y) alive(wumpus,T) loc(wall,X-1,Y) loc(wall,X-1,Y-1) loc(wall,X,Y-2) loc(wall,X+1,Y-2) loc(agent,X,Y,T-I) loc(agent,X,Y,T-J) has(agent,arrow,T) utility( alive(wumpus,T+2)) = 0.8 T,X,Y N goal(T,has(agent,gold,T+N) has(agent,gold,T) loc(agent,X,Y,T) loc(gold,X,Y,T) utility(has(agent,gold,T+1)) = 1
51
Agente adaptativo (learning)
Ambiente Sensores Atuadores Componente de ação Componente de aprendizagem de conhecimento Componente de análise crítica de desempenho Componente geração de problemas Aprende regras ou funções: percepção(t) ação(t) percepção(t) modelo(t-1) modelo(t) modelo(t) modelo(t) modelo(t-1) modelo(t) modelo(t) ação(t) ação(t) modelo(t+1) modelo(t) objetivo(t) ação(t) objetivo(t-1) modelo(t) objetivo(t) utilidade(ação) = valor utilidade(modelo,objetivo) = valor Reflexo Autômato Cognitivo Deliberativo Otimizador Híbrido
52
Ambientes de simulação
Inicialização do ambiente: A partir dos parâmetros de configuração, identificar sub-classe relevante da classe do ambiente simulado ex, Mundo do Wumpus com caverna quadrada e wumpus imóvel ex, RoboCup com taxa de ruído de 5% para força de chutes e 2% para visão da posição dos outros jogadores Criar instância aleatória particular dessa sub-classe ex. tamanho da caverna, locais dos buracos, do wumpus e do ouro Ciclo de processamento do ambiente: Gerar percepções dos agentes a partir do estado atual do ambiente Mandar essas percepções para os agentes Receber ações escolhidas pelos agentes Atualizar o estado do ambiente para refletir essas ações
53
Arquitetura de ambiente de simulação
GUI de Visualização da Simulação Servidor de Simulação Rede Atualizador do ambiente Regras: ambiente(t) ambiente(t+1) e ações(t) ambiente(t) ambiente(t+1) ações Cliente Agente 1 Agente N ... Ambiente Simulado percepções Gerador de percepções Regras: ambiente(t) percepção(t)
54
Exercício 1 (equipes de 4 ou 5 alunos)
Preencher tabela abaixo com +, +/-, - Um parágrafo curto para cada célula justificando resposta Reflexo Autômato Cognitivo Deliberativo Reflexo- Deliberativo Otimizador Deliberativo Otimizador Reflexo Adaptativo Acessível Inacessível Determinista Estocástica Discreto Contínuo Estacionário Seqüencial Concorrente síncrono Concorrente assíncrono Episódico Não episódico Mono-Agente Ambiente passivo Mono-Agente Ambiente ativo Multi-Agente cooperativo Multi-Agente competitivo
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.