Carregar apresentação
A apresentação está carregando. Por favor, espere
PublicouVitória Carvalhal Castro Alterado mais de 8 anos atrás
1
Diagrams Gabriel Detoni
2
Levels of Responsability Estratégia Previsão de Estados Histórico de Estados Leitura de Estados Aglomeração Jogada Atividade Ação Movimento Tática Operação Interface
3
Levels of Responsability Estratégia Leitura de Dados Divisão de Grupos Jogada Atividade Ação Movimento Organização Coordenação Execução
4
Visão geral das interconexões Estratégia Leitura de Dados Divisão de Grupos Jogada Atividade Ação Movimento
5
Message Passing
6
Entities Entidade W W W W W W
7
Entities Atividade Ação Jogada Leitura de Estado Movimento Módulo de Movimento Módulo de Visão Estratégia Grupo
8
Lista de receptores Thread R1 Rn... Lista de receptores.
9
T1 T3 T2 Esquemático de uma TC Tarefa Conexionista (TC) net T2 net T3 net T1 a = F(a, net T1, net T2, net T3 ) o = f(a)
10
Regra de propagação A.B. T1 T3 T2 TC T1 T3 T2 TC m1m1 m2m2 m3m3 m4m4 m5m5
11
Thread Conexionista Função de ativação Pontos de extensão de uma TC Lista de TCs à qual esta TC se conecta Tipos de estímulo aceitos Variáveis de instância Padrão de conectividade Regra de ativação Estado de ativação
12
Função de saída Função de Ativação Workflow de uma TC Estímulo recebido Atualização do estado de ativação Envio de estímulos às TCs conectadas Produção de novos estímulos Estímulo válido? S N
13
Padrão de conectividade T1 T3 T2 TC T5 T4 TC T1 T3 TC T6 TC
14
TS TC Regra de propagação net T2 net T1
15
Stimulus Datagram Estímulo Dados Rótulo In (x, i x )
16
Processamento paralelo Computador Serial Tarefa 1 Tarefa 2 Computador Paralelo Tarefa 1 Tarefa 2 Tempo
17
Attack Position Defense Strategy: instability Strategy Recommendation Time Strategy Recommendation Thresholds
18
Position Attack Defense Strategy: stable Strategy Recommendation Time Strategy Recommendation Thresholds P1 P2 P3 P4
19
Starting-up Entities Entidade A W W W W W W Entidade B... W W W W
20
Application Entities Evitar Obstáculo Ir Para Conduzir Bola Chutar Aglomera ção Movimento Mover Driblar Receber Passe Cruzar Bola Ficar Entre Passar Bola Ataque Individual Cruzamen to Suporte Ataque Cobrar Falta Posicionar para Penalty Posicionar para Inicio Defesa Individual Estratégia Ler Estado Jogadas Atividades Ações
21
Instanciação de TCs Conduz... Bola Chutar Ir Para Receb... Bola Chutar Cruzamento Receb... Cruza... Cruzar Bola Jogada instancia Atividades Atividade
22
Topologia de uma Jogada Cond. Bola Chutar Aglom eração Movim ento Receb. Cruz. Cruzar Bola Cruza mento Estraté gia Ler Estado Ir Para Receb. Bola Chutar...
23
Simulator
24
Interface Gráfica Sistema de Controle Simulador API de movimento API de visão
25
Arquiteturas de HW
26
Memória SIMD UP M M M M M M... UC... FI FD FI
27
Memória MIMD M M M M M M... UP... FD FI UC... FI...
28
Shared Memory Processador Memória
29
Distributed Memory Processador Memória Processador Memória Processador Memória
30
Tests hij kl m L1 L2 L3 h2i2j2 k2l2 m2 n L4
31
Tests Topology I I J J H H K K L L M M E/S L1 L2 L3 a, b c hij f, g d, e k l I2 J2 H2 K2 L2 M2 a2, b2 c2 h2i2j2 f2, g2 d2, e2 k2 l2 N N L4 m2m
32
Balanço de carga 6:6 h i j k l m h i j 1 2 3 4 5 6 k l h i j m k l h i j m k l h i j m k l h i j m k l h i j m k l h i j m k l m CPU Tempo
33
Balanço de carga 6:3 h i j k l mh i j 1 2 3 k l h i j m k l m CPU Tempo k l h i j m TempoTotal = TempoMédio * NumTarefas / NumCpu NumCpu = 3 NumTarefas = 6 TempoTotal = 2 (por tarefa)
34
Sem balanço de carga 6:6 h i j k l m i j 1 2 3 4 5 6 k l i j m i j CPU Tempo hh k l m h k l m
35
Sem balanço de carga 6:3 h i j k lm i j 1 2 3 k l ij m i j CPU Tempo hh k lm h k lm d = desbalanceamento tg = tempo da maior tarefa = 2 tm = tempo médio = 1 tp = tempo perdido tu = tempo útil tt = tempo total nt = numero de tarefas = 6 c = numero de cpus = 3 d = tg – tm = 1 tp = d / c * tm = 1/6 tu = 1 – tp = 5/6 tt = tu * tm * nt / c = 5/3 hh ijk lm i j k lm h ijk lm h i j k lm
36
Sem balanço de carga 6:3 h i j k lm i j 1 2 3 k l i jm i j CPU Tempo hh k lm h k lm d = desbalanceamento tg = tempo da maior tarefa = 2 tm = tempo médio = 1 tp = tempo perdido tu = tempo útil tt = tempo total nt = numero de tarefas = 6 c = numero de cpus = 3 d = tg – tm = 1 tp = d / c * tm = 1/6 tu = 1 – tp = 5/6 tt = tu * tm * nt / c = 5/3
37
Observable/Observer Observable Observer
38
Wumpus Ir Para Cima Ir Para Baixo Ir Para Direita Leitura de Estado Movimento Módulo de Movimento Módulo de Visão Ir Para Esquerda Caçar Recompe nsa Atividade AçãoEstratégia Fugir de Ameaça Estratégia
39
Como aprender novas atividades? Ir Para Cima Ir Para Baixo Ir Para Direita Movimento Módulo de Movimento Ir Para Esquerda Atividades conhecidas Ações Conhecidas ? ?
40
O que é uma ação? Ir Para Cima Ir Para Baixo Ir Para Direita Movimento Módulo de Movimento Ir Para Esquerda Atividades conhecidas Ações Conhecidas ? ? Uma ação é um mapeamento. Dado um estado atual, quais atividades me levam mais próximo a um objetivo.
41
O que é uma ação? Ir Para Baixo Ir Para Esquerda Ação ? += += Estado Feedback
42
Exemplo: maximize a função y = 20 - x² Incremen tar Função Estado Decreme ntar y x x
43
Agente reativo Rpt Rcp Ambiente Ini Iniciativa Repetição Recompensa Ações Vazio Brisa Fosso Apenas recebe um estímulo e repete a ação anterior se a recompensa for positiva, ou realiza uma outra ação aleatória caso seja negativa.
44
Agente com memória Rpt Rcp Ini A entidade associativa recebe um movimento e o combina com uma sensação, gerando uma nova entidade que associa ambas. Ass Associação
45
Agente com memória Rpt Rcp Ini 1.Sensação 1 é recebida 2.Comando é enviado 3.Sensação 2 é recebida 4.Associação criada Ass 1 1 2 2 Ciclo reativo realiza os movimentos 3 3
46
Agente com memória Rpt Rcp Ini 1.Sensação 1 é recebida 2.Comando é enviado 3.Sensação 2 é recebida 4.Associação criada Ass Ciclo reativo realiza os movimentos 4 4 M1
47
Agente com memória Rcp 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (-) 4.Associação criada pela regra: 1.R ├ S1 = C 2.¬ R ├ S1 = ¬ C Ass 1 1 2 2 3 3
48
Agente com memória Rcp Ass 4 4 M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida 4.Associação criada pela regra: 1.R ├ C Λ S1 = C 2.¬ R ├ C Λ S1 = ¬ C Conexão inibitória
49
Agente com memória (2) Rcp Ass M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Memória M1 é disparada inibindo Ass 1 1
50
Agente com memória (2) Rcp Ass M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (+) 4.M2 é gerada 1 1 M2
51
Agente com memória (2) Rcp Ass M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (+) 4.M2 é gerada 1 1 M2
52
Modelo proposto xor 0 0 1 1 1 1 XORAB 000 101 110 011 A or B 0 0 1 1 1 1 not(A and B) xor 1 1 1 1 2 0
53
Modelo proposto xor 0 0 1 1 1 1 XORAB 000 101 110 011 A or B 0 0 1 1 0 1 not(A and B) xor 1 1 1 1 2 0
54
Agente com memória: Posição/Sensação M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (+) 4.M2 é gerada 1 1 S1 S2 S3 S4
55
Agente com memória: Sensações/Comando 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (+) 4.M2 é gerada S1 S2 S3 S4
56
Memória associativa normal: Sensações/Comando ? ? ? ? Sensações da posição atual, bem como das imediatamente vizinhas, são providas. R R Recompensa ajusta pesos de neurônios ativados simultaneamente.
57
Memória associativa TC: Sensações/Comando S S As sensações para cada posição são enviadas O comando executado é enviado M M C C S1 S2 S3 R R A recompensa é enviada.
58
Memória associativa TC: Sensações/Comando S(p): sensação para posição p C: comando R: recompensa S(p)CR S1 ? 1.1.3.2.3.4.2.1.2.4.2 S S C C R R
59
Sistema de controle Visão Rádio Sistema de Controle Sistema de Controle
60
Grupos
61
Campos potenciais 1
62
Campos potenciais 2
63
Campos potenciais 3
64
Receber passe
65
Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK H K A H K BFG
66
Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -
67
Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -
68
Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -
69
Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -
70
Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -
Apresentações semelhantes
© 2024 SlidePlayer.com.br Inc.
All rights reserved.