A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Diagrams Gabriel Detoni. Levels of Responsability Estratégia Previsão de Estados Histórico de Estados Leitura de Estados Aglomeração Jogada Atividade.

Apresentações semelhantes


Apresentação em tema: "Diagrams Gabriel Detoni. Levels of Responsability Estratégia Previsão de Estados Histórico de Estados Leitura de Estados Aglomeração Jogada Atividade."— Transcrição da apresentação:

1 Diagrams Gabriel Detoni

2 Levels of Responsability Estratégia Previsão de Estados Histórico de Estados Leitura de Estados Aglomeração Jogada Atividade Ação Movimento Tática Operação Interface

3 Levels of Responsability Estratégia Leitura de Dados Divisão de Grupos Jogada Atividade Ação Movimento Organização Coordenação Execução

4 Visão geral das interconexões Estratégia Leitura de Dados Divisão de Grupos Jogada Atividade Ação Movimento

5 Message Passing

6 Entities Entidade W W W W W W

7 Entities Atividade Ação Jogada Leitura de Estado Movimento Módulo de Movimento Módulo de Visão Estratégia Grupo

8 Lista de receptores Thread R1 Rn... Lista de receptores.

9 T1 T3 T2 Esquemático de uma TC Tarefa Conexionista (TC) net T2 net T3 net T1 a = F(a, net T1, net T2, net T3 ) o = f(a)

10 Regra de propagação A.B. T1 T3 T2 TC T1 T3 T2 TC m1m1 m2m2 m3m3 m4m4 m5m5

11 Thread Conexionista Função de ativação Pontos de extensão de uma TC Lista de TCs à qual esta TC se conecta Tipos de estímulo aceitos Variáveis de instância Padrão de conectividade Regra de ativação Estado de ativação

12 Função de saída Função de Ativação Workflow de uma TC Estímulo recebido Atualização do estado de ativação Envio de estímulos às TCs conectadas Produção de novos estímulos Estímulo válido? S N

13 Padrão de conectividade T1 T3 T2 TC T5 T4 TC T1 T3 TC T6 TC

14 TS TC Regra de propagação net T2 net T1

15 Stimulus Datagram Estímulo Dados Rótulo In (x, i x )

16 Processamento paralelo Computador Serial Tarefa 1 Tarefa 2 Computador Paralelo Tarefa 1 Tarefa 2 Tempo

17 Attack Position Defense Strategy: instability Strategy Recommendation Time Strategy Recommendation Thresholds

18 Position Attack Defense Strategy: stable Strategy Recommendation Time Strategy Recommendation Thresholds P1 P2 P3 P4

19 Starting-up Entities Entidade A W W W W W W Entidade B... W W W W

20 Application Entities Evitar Obstáculo Ir Para Conduzir Bola Chutar Aglomera ção Movimento Mover Driblar Receber Passe Cruzar Bola Ficar Entre Passar Bola Ataque Individual Cruzamen to Suporte Ataque Cobrar Falta Posicionar para Penalty Posicionar para Inicio Defesa Individual Estratégia Ler Estado Jogadas Atividades Ações

21 Instanciação de TCs Conduz... Bola Chutar Ir Para Receb... Bola Chutar Cruzamento Receb... Cruza... Cruzar Bola Jogada instancia Atividades Atividade

22 Topologia de uma Jogada Cond. Bola Chutar Aglom eração Movim ento Receb. Cruz. Cruzar Bola Cruza mento Estraté gia Ler Estado Ir Para Receb. Bola Chutar...

23 Simulator

24 Interface Gráfica Sistema de Controle Simulador API de movimento API de visão

25 Arquiteturas de HW

26 Memória SIMD UP M M M M M M... UC... FI FD FI

27 Memória MIMD M M M M M M... UP... FD FI UC... FI...

28 Shared Memory Processador Memória

29 Distributed Memory Processador Memória Processador Memória Processador Memória

30 Tests hij kl m L1 L2 L3 h2i2j2 k2l2 m2 n L4

31 Tests Topology I I J J H H K K L L M M E/S L1 L2 L3 a, b c hij f, g d, e k l I2 J2 H2 K2 L2 M2 a2, b2 c2 h2i2j2 f2, g2 d2, e2 k2 l2 N N L4 m2m

32 Balanço de carga 6:6 h i j k l m h i j 1 2 3 4 5 6 k l h i j m k l h i j m k l h i j m k l h i j m k l h i j m k l h i j m k l m CPU Tempo

33 Balanço de carga 6:3 h i j k l mh i j 1 2 3 k l h i j m k l m CPU Tempo k l h i j m TempoTotal = TempoMédio * NumTarefas / NumCpu NumCpu = 3 NumTarefas = 6 TempoTotal = 2 (por tarefa)

34 Sem balanço de carga 6:6 h i j k l m i j 1 2 3 4 5 6 k l i j m i j CPU Tempo hh k l m h k l m

35 Sem balanço de carga 6:3 h i j k lm i j 1 2 3 k l ij m i j CPU Tempo hh k lm h k lm d = desbalanceamento tg = tempo da maior tarefa = 2 tm = tempo médio = 1 tp = tempo perdido tu = tempo útil tt = tempo total nt = numero de tarefas = 6 c = numero de cpus = 3 d = tg – tm = 1 tp = d / c * tm = 1/6 tu = 1 – tp = 5/6 tt = tu * tm * nt / c = 5/3 hh ijk lm i j k lm h ijk lm h i j k lm

36 Sem balanço de carga 6:3 h i j k lm i j 1 2 3 k l i jm i j CPU Tempo hh k lm h k lm d = desbalanceamento tg = tempo da maior tarefa = 2 tm = tempo médio = 1 tp = tempo perdido tu = tempo útil tt = tempo total nt = numero de tarefas = 6 c = numero de cpus = 3 d = tg – tm = 1 tp = d / c * tm = 1/6 tu = 1 – tp = 5/6 tt = tu * tm * nt / c = 5/3

37 Observable/Observer Observable Observer

38 Wumpus Ir Para Cima Ir Para Baixo Ir Para Direita Leitura de Estado Movimento Módulo de Movimento Módulo de Visão Ir Para Esquerda Caçar Recompe nsa Atividade AçãoEstratégia Fugir de Ameaça Estratégia

39 Como aprender novas atividades? Ir Para Cima Ir Para Baixo Ir Para Direita Movimento Módulo de Movimento Ir Para Esquerda Atividades conhecidas Ações Conhecidas ? ?

40 O que é uma ação? Ir Para Cima Ir Para Baixo Ir Para Direita Movimento Módulo de Movimento Ir Para Esquerda Atividades conhecidas Ações Conhecidas ? ? Uma ação é um mapeamento. Dado um estado atual, quais atividades me levam mais próximo a um objetivo.

41 O que é uma ação? Ir Para Baixo Ir Para Esquerda Ação ? += +=   Estado Feedback

42 Exemplo: maximize a função y = 20 - x² Incremen tar Função Estado Decreme ntar y x x

43 Agente reativo Rpt Rcp Ambiente Ini Iniciativa Repetição Recompensa Ações Vazio Brisa Fosso Apenas recebe um estímulo e repete a ação anterior se a recompensa for positiva, ou realiza uma outra ação aleatória caso seja negativa.

44 Agente com memória Rpt Rcp Ini A entidade associativa recebe um movimento e o combina com uma sensação, gerando uma nova entidade que associa ambas. Ass Associação

45 Agente com memória Rpt Rcp Ini 1.Sensação 1 é recebida 2.Comando é enviado 3.Sensação 2 é recebida 4.Associação criada Ass 1 1 2 2 Ciclo reativo realiza os movimentos 3 3

46 Agente com memória Rpt Rcp Ini 1.Sensação 1 é recebida 2.Comando é enviado 3.Sensação 2 é recebida 4.Associação criada Ass Ciclo reativo realiza os movimentos 4 4 M1

47 Agente com memória Rcp 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (-) 4.Associação criada pela regra: 1.R ├ S1 = C 2.¬ R ├ S1 = ¬ C Ass 1 1 2 2 3 3

48 Agente com memória Rcp Ass 4 4 M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida 4.Associação criada pela regra: 1.R ├ C Λ S1 = C 2.¬ R ├ C Λ S1 = ¬ C Conexão inibitória

49 Agente com memória (2) Rcp Ass M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Memória M1 é disparada inibindo Ass 1 1

50 Agente com memória (2) Rcp Ass M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (+) 4.M2 é gerada 1 1 M2

51 Agente com memória (2) Rcp Ass M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (+) 4.M2 é gerada 1 1 M2

52 Modelo proposto xor 0 0 1 1 1 1 XORAB 000 101 110 011 A or B 0 0 1 1 1 1 not(A and B) xor 1 1 1 1 2 0

53 Modelo proposto xor 0 0 1 1 1 1 XORAB 000 101 110 011 A or B 0 0 1 1 0 1 not(A and B) xor 1 1 1 1 2 0

54 Agente com memória: Posição/Sensação M1 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (+) 4.M2 é gerada 1 1 S1 S2 S3 S4

55 Agente com memória: Sensações/Comando 1.Comando C é enviado 2.Sensação S1 é recebida 3.Recompensa R é recebida (+) 4.M2 é gerada S1 S2 S3 S4

56 Memória associativa normal: Sensações/Comando ? ? ? ? Sensações da posição atual, bem como das imediatamente vizinhas, são providas. R R Recompensa ajusta pesos de neurônios ativados simultaneamente.

57 Memória associativa TC: Sensações/Comando S S As sensações para cada posição são enviadas O comando executado é enviado M M C C S1 S2 S3 R R A recompensa é enviada.

58 Memória associativa TC: Sensações/Comando S(p): sensação para posição p C: comando R: recompensa S(p)CR S1 ? 1.1.3.2.3.4.2.1.2.4.2 S S C C R R

59 Sistema de controle Visão Rádio Sistema de Controle Sistema de Controle

60 Grupos

61 Campos potenciais 1

62 Campos potenciais 2

63 Campos potenciais 3

64 Receber passe

65 Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK H K A H K BFG

66 Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -

67 Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -

68 Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -

69 Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -

70 Aprendizado Ch 1 Ch 2 Ch 3 Wr A Wr B A A Ao receber um estímulo ‘A’ WrA propaga sua saida. Ao receber um estímulo ‘A’ WrB não propaga sua saida. O inverso acontece ao receber ‘B’. Para treinar WrA e WrB, Out deve associar um fitness a um estimulo de entrada que é devolvido ao estimulador, que o usa para ajustar o seus estimulos de entrada. H K Ou t AHK -


Carregar ppt "Diagrams Gabriel Detoni. Levels of Responsability Estratégia Previsão de Estados Histórico de Estados Leitura de Estados Aglomeração Jogada Atividade."

Apresentações semelhantes


Anúncios Google