跳至内容

深度学习个人笔记

st的个人博客

  • 首页
  • 解构
  • 笔记
  • 杂谈

分类:未分类

基于DICE的off-policy estimation评估

发表于2022年2月7日2022年2月8日 作者 2040179500@qq.com

很多时候历史轨迹(s, a, s’, r)采集使用到的policy,与产生待评估轨迹的策略不同,于… 继续阅读 基于DICE的off-policy estimation评估

跳至页脚

目录

  • 人工智能 (6)
  • 信息论与DL (6)
  • 未分类 (1)
  • 深度学习算法 (15)
    • NLP (2)
    • 强化学习 (7)

近期文章

  • Mamba模型解析
  • 主动推断active inference与free energy principle
  • 基于DICE的off-policy estimation评估
  • 《Model-based Offline Policy Optimization》论文笔记
  • Soft Actor Critic

功能

  • 登录
  • 条目feed
  • 评论feed
  • WordPress.org

备案信息

粤ICP备20037989号-1

由 WordPress 强力驱动 | 主题: Yocto 作者 Humble Themes

粤公网安备 44030502005361号