Inteligência Artificial

Slides:



Advertisements
Apresentações semelhantes
Inteligência Artificial
Advertisements

AULA 01 PROGRAMAÇÃO DINÂMICA
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Os Sistemas Multi-agente Viviane Torres da Silva
Probabilidade e Esperança Condicional
Aprendizado por Reforço: Uma Aplicação do Aprendizado Q
Aprendizado de Máquina
Inteligência Artificial I
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
Inteligência Artificial
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
Os Sistemas Multi-agente Viviane Torres da Silva
Aprendizagem Viviane Torres da Silva
Busca Online Alexandra Barros Geber Ramalho. Busca Offine x Busca Online Busca Offline (ou planejamento clássico) –Computa a solução (do estado inicial.
Aprendizagem por Reforço
FACENS – Engenharia da Computação Inteligência Artificial
Solução de problemas por meio de busca
Capítulo 4 - Russell e Norvig
Sistemas Multiagentes
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial
INF 1771 – Inteligência Artificial Edirlei Soares de Lima Aula 18 – Aprendizado Por Reforço.
Busca Competitiva - MiniMax Jogo-da-Velha
UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA
Aprendizado de Máquina
Heurísticas, algoritmos gulosos e aproximações
Aprendizagem por reforço
Aprendizado de Máquina Aula 13
Aprendizado de Máquina Aula 8
Introdução a Computação e Cálculo Numérico
Otimização Prof. Benedito C. Silva IRN UNIFEI
FACENS – Engenharia da Computação Inteligência Artificial Busca.
Otimização por Colônia de Formigas (ACO)
I Iterated Local Search Helena R. Lorenço, Olivier Martinz
Resolução de problemas por meio de busca
Otimização Inteira 5a. Aula Franklina.
Busca com informação e exploração
Agentes Baseados em Utilidade
Agentes Baseados em Utilidade
Resolução de Problemas por meio de busca
Amintas engenharia.
Cálculo Numérico / Métodos Numéricos
Sistemas Baseados em Aprendizado (Aprendizado de Máquina)
1 Introdução aos Agentes Inteligentes Inventando Funções Heurísticas Flávia Barros.
Aprendizagem por Reforço Alexandre Luiz G. Damasceno.
Inteligência Artificial Aula 15 Profª Bianca Zadrozny
Métodos de Resolução Solução Analítica Solução Numérica
Page1 DAS-5341: Aprendizagem por Reforço Prof. Eduardo Camponogara.
Inteligência Artificial I
DAS-5341: Métodos de Diferença Temporal
Page1 DAS-5341: Métodos de Solução para Problemas de Aprendizagem por Reforço Prof. Eduardo Camponogara.
DAS-5341: O Problema de Aprendizagem por Reforço
DAS-5341: Métodos Monte Carlo
Busca Competitiva Disciplina: Inteligência Artificial
Busca Heurística Prof. Valmir Macário Filho. 2 Busca com informação e exploração Capítulo 4 – Russell & Norvig Seção 4.1 Estratégias de Busca Exaustiva.
ADMINISTRAÇÃO INTERDISCIPLINAR
Transcrição da apresentação:

Inteligência Artificial Aula 18 Profª Bianca Zadrozny http://www.ic.uff.br/~bianca/ia

Tomada de decisões complexas Capítulo 21 – Russell & Norvig Seções 21.1 a 21.3

Aprendizagem por Reforço Ainda temos um Processo de Decisão de Markov: Um conjunto de estados s  S Um conjunto de ações a  A Uma modelo de transição T(s, a, s’) Uma função de recompensa R(s) Ainda queremos encontrar uma política *(s) Novidade: o agente não conhece T e R. Precisa executar ações e receber recompensas para aprender.

Aprendizagem Passiva Tarefa Simplificada Neste caso Métodos O agente não conhece T(s, a, s’) e R(s) O agente tem uma política fixa (s) Quer aprender o quão boa é essa política = aprender a função de utilidade U (s) . Neste caso Agente não escolhe as ações. Apenas executa a política e aprende a partir da experiência se a política é boa ou não. Métodos Estimativa direta da utilidade Programação dinâmica adaptativa Diferença temporal

Estimativa Direta da Utilidade O agente executa um conjunto de episódios e observa a sequência de estados e recompensas. A utilidade de um estado é calculada através da média da utilidade obtida em cada episódio a partir do estado em questão. U ((1,1))= (0.72 + 0.72 + (-1.16)) = 0.28 Converge devagar porque não utiliza as equações de Bellman.

Programação Dinâmica Adaptativa Ideia: Aprender o modelo de transição e a função de reforço empiricamente (ao invés das utilidades). Usar iteração de valor (programação dinâmica) simplificada (sem o max) para obter as utilidades. Algoritmo: Contar quantas vezes o estado s’ ocorre quando a ação a é executada no estado s. Atualizar R(s) na primeira vez em que s for visitado.

Programação Dinâmica Adaptativa A partir do conjunto de episódios: pode-se calcular que T((1,3),Direita,(2,3)) = 2/3 T((2,3),Direita,(3,3)) = 2/2 = 1 R((1,1)) = -0.04 R((4,3)) = +1 ...

Diferenças Temporais Ao invés de aprender modelo, aprende-se a função de utilidade diretamente, mas usando a equação de Bellman. A cada transição de s para s’ executada, faz-se a seguinte atualização do valor de U (s): onde  é a taxa de aprendizagem.

Aprendizagem Ativa Agente pode escolher as ações que quiser. Objetivo é aprender a política ótima. Ideia: Utilizar Programação Dinâmica Adaptativa + Iteração de Valor para encontrar política ótima usando o modelo atual. Refinar modelo através da experiência e repetir. Crucial: temos que dar um jeito de aprender o modelo para todos os estados e ações.

Exemplo: Programação Dinâmica Adaptativa Gulosa Imagine que o agente encontra primeiro o seguinte caminho: Ele continuará sempre usando essa política e nunca visitará os outros estados.

O que deu errado? Problema com seguir a melhor política de acordo com o modelo atual: Agente não aprenderá algo sobre as melhores regiões do ambiente se a política atual nunca visita essas regiões. Exploração vs. Aproveitamento Exploração: escolher ações sub-ótimas de acordo com modelo atual para poder melhorar o modelo. Aproveitamento: escolher as melhores ações. Agentes devem explorar no começo e aproveitar no final. Solução: escolher algumas ações aleatórias Com probabilidade fixa OU Com probabilidade inversamente proporcional ao número de vezes em que a ação foi executada no estado.

Q-Learning Seja Q(a,s) a utilidade de se executar a ação a no estado s, isto é: A função Q(a,s) é útil porque a partir dela podemos calcular diretamente a política, sem precisar de um modelo. Equação de atualização: A cada transição se s para s’ quando a ação a é executada: