Inteligência Artificial

Slides:

Advertisements

Apresentações semelhantes

Inteligência Artificial

Advertisements

AULA 01 PROGRAMAÇÃO DINÂMICA

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Os Sistemas Multi-agente Viviane Torres da Silva

Probabilidade e Esperança Condicional

Aprendizado por Reforço: Uma Aplicação do Aprendizado Q

Aprendizado de Máquina

Inteligência Artificial I

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

Inteligência Artificial

I Iterated Local Search Helena R. Lorenço, Olivier Martinz

Os Sistemas Multi-agente Viviane Torres da Silva

Aprendizagem Viviane Torres da Silva

Busca Online Alexandra Barros Geber Ramalho. Busca Offine x Busca Online Busca Offline (ou planejamento clássico) –Computa a solução (do estado inicial.

Aprendizagem por Reforço

FACENS – Engenharia da Computação Inteligência Artificial

Solução de problemas por meio de busca

Capítulo 4 - Russell e Norvig

Sistemas Multiagentes

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial

INF 1771 – Inteligência Artificial Edirlei Soares de Lima Aula 18 – Aprendizado Por Reforço.

Busca Competitiva - MiniMax Jogo-da-Velha

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA

Aprendizado de Máquina

Heurísticas, algoritmos gulosos e aproximações

Aprendizagem por reforço

Aprendizado de Máquina Aula 13

Aprendizado de Máquina Aula 8

Introdução a Computação e Cálculo Numérico

Otimização Prof. Benedito C. Silva IRN UNIFEI

FACENS – Engenharia da Computação Inteligência Artificial Busca.

Otimização por Colônia de Formigas (ACO)

I Iterated Local Search Helena R. Lorenço, Olivier Martinz

Resolução de problemas por meio de busca

Otimização Inteira 5a. Aula Franklina.

Busca com informação e exploração

Agentes Baseados em Utilidade

Agentes Baseados em Utilidade

Resolução de Problemas por meio de busca

Amintas engenharia.

Cálculo Numérico / Métodos Numéricos

Sistemas Baseados em Aprendizado (Aprendizado de Máquina)

1 Introdução aos Agentes Inteligentes Inventando Funções Heurísticas Flávia Barros.

Aprendizagem por Reforço Alexandre Luiz G. Damasceno.

Inteligência Artificial Aula 15 Profª Bianca Zadrozny

Métodos de Resolução Solução Analítica Solução Numérica

Page1 DAS-5341: Aprendizagem por Reforço Prof. Eduardo Camponogara.

Inteligência Artificial I

DAS-5341: Métodos de Diferença Temporal

Page1 DAS-5341: Métodos de Solução para Problemas de Aprendizagem por Reforço Prof. Eduardo Camponogara.

DAS-5341: O Problema de Aprendizagem por Reforço

DAS-5341: Métodos Monte Carlo

Busca Competitiva Disciplina: Inteligência Artificial

Busca Heurística Prof. Valmir Macário Filho. 2 Busca com informação e exploração Capítulo 4 – Russell & Norvig Seção 4.1 Estratégias de Busca Exaustiva.

ADMINISTRAÇÃO INTERDISCIPLINAR

Transcrição da apresentação:

Inteligência Artificial Aula 18 Profª Bianca Zadrozny http://www.ic.uff.br/~bianca/ia

Tomada de decisões complexas Capítulo 21 – Russell & Norvig Seções 21.1 a 21.3

Aprendizagem por Reforço Ainda temos um Processo de Decisão de Markov: Um conjunto de estados s  S Um conjunto de ações a  A Uma modelo de transição T(s, a, s’) Uma função de recompensa R(s) Ainda queremos encontrar uma política *(s) Novidade: o agente não conhece T e R. Precisa executar ações e receber recompensas para aprender.

Aprendizagem Passiva Tarefa Simplificada Neste caso Métodos O agente não conhece T(s, a, s’) e R(s) O agente tem uma política fixa (s) Quer aprender o quão boa é essa política = aprender a função de utilidade U (s) . Neste caso Agente não escolhe as ações. Apenas executa a política e aprende a partir da experiência se a política é boa ou não. Métodos Estimativa direta da utilidade Programação dinâmica adaptativa Diferença temporal

Estimativa Direta da Utilidade O agente executa um conjunto de episódios e observa a sequência de estados e recompensas. A utilidade de um estado é calculada através da média da utilidade obtida em cada episódio a partir do estado em questão. U ((1,1))= (0.72 + 0.72 + (-1.16)) = 0.28 Converge devagar porque não utiliza as equações de Bellman.

Programação Dinâmica Adaptativa Ideia: Aprender o modelo de transição e a função de reforço empiricamente (ao invés das utilidades). Usar iteração de valor (programação dinâmica) simplificada (sem o max) para obter as utilidades. Algoritmo: Contar quantas vezes o estado s’ ocorre quando a ação a é executada no estado s. Atualizar R(s) na primeira vez em que s for visitado.

Programação Dinâmica Adaptativa A partir do conjunto de episódios: pode-se calcular que T((1,3),Direita,(2,3)) = 2/3 T((2,3),Direita,(3,3)) = 2/2 = 1 R((1,1)) = -0.04 R((4,3)) = +1 ...

Diferenças Temporais Ao invés de aprender modelo, aprende-se a função de utilidade diretamente, mas usando a equação de Bellman. A cada transição de s para s’ executada, faz-se a seguinte atualização do valor de U (s): onde  é a taxa de aprendizagem.

Aprendizagem Ativa Agente pode escolher as ações que quiser. Objetivo é aprender a política ótima. Ideia: Utilizar Programação Dinâmica Adaptativa + Iteração de Valor para encontrar política ótima usando o modelo atual. Refinar modelo através da experiência e repetir. Crucial: temos que dar um jeito de aprender o modelo para todos os estados e ações.

Exemplo: Programação Dinâmica Adaptativa Gulosa Imagine que o agente encontra primeiro o seguinte caminho: Ele continuará sempre usando essa política e nunca visitará os outros estados.

O que deu errado? Problema com seguir a melhor política de acordo com o modelo atual: Agente não aprenderá algo sobre as melhores regiões do ambiente se a política atual nunca visita essas regiões. Exploração vs. Aproveitamento Exploração: escolher ações sub-ótimas de acordo com modelo atual para poder melhorar o modelo. Aproveitamento: escolher as melhores ações. Agentes devem explorar no começo e aproveitar no final. Solução: escolher algumas ações aleatórias Com probabilidade fixa OU Com probabilidade inversamente proporcional ao número de vezes em que a ação foi executada no estado.

Q-Learning Seja Q(a,s) a utilidade de se executar a ação a no estado s, isto é: A função Q(a,s) é útil porque a partir dela podemos calcular diretamente a política, sem precisar de um modelo. Equação de atualização: A cada transição se s para s’ quando a ação a é executada: