博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Gae&reward shaping
阅读量:5337 次
发布时间:2019-06-15

本文共 515 字,大约阅读时间需要 1 分钟。

1| reward. shaping

如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛

 

2、gae:广义优势估计

absorb state:terminal state

γ-just条件:尚未理解

GAE(Generalized Advantage Estimation)

  1. GAE的作用

    • GAE的意思是泛化优势估计,因而他是用来优化Advantage Function优势函数的。
    • GAE的存在是用来权衡variance和bias问题的:
      • On-policy直接交互并用每一时刻的回报作为长期回报的估计Tt=tγttrtt=tTγttrt 会产生较大的方差,Variance较大。
      • 而通过基于优势函数的AC方法来进行回报值估计,则会产生方差较小,而Bias较大的问题。
  2. GAE 推导

    满足γγ-just条件。(未完待续)

  3. GAE形式

    GAE的形式为多个价值估计的加权平均数。

​ 为了快速估计序列中所有时刻的估计值,采用倒序计算,从t+1时刻估计t时刻:

 

转载于:https://www.cnblogs.com/lin-kid/p/11199380.html

你可能感兴趣的文章
PHP7.1安装xdebug
查看>>
HighCharts的.Net本地导出环境配置
查看>>
[bbk5398] 第96集 -第12章 -数据移植 02
查看>>
Swift 2.0 单例的用法
查看>>
C++知识点综述
查看>>
模板方法模式
查看>>
获取url参数
查看>>
python3-开发面试题(python)6.23基础篇(2)
查看>>
二叉树算法小结
查看>>
ORACLE 异常错误处理
查看>>
0x03 前缀和与差分
查看>>
在C#中调用格式工厂进行任意视频格式到FLV的转换
查看>>
Centos6.9下安装OpenOffice 4.1.4
查看>>
oracle 创建用户 导入备份数据
查看>>
教大家使用Python SqlAlchemy- 51jb
查看>>
009 微服务容错机制
查看>>
vue的安装以及语法介绍
查看>>
【学习笔记】慕课网—Java设计模式精讲 第3章 软件设计七大原则-3-2 开闭原则...
查看>>
实现Ecshop注册页面手机号唯一的验证
查看>>
几张图看懂区块链技术到底是什么?
查看>>