未分类 – 深度学习个人笔记

基于DICE的off-policy estimation评估

发表于2022年2月7日2022年2月8日作者 2040179500@qq.com

很多时候历史轨迹(s, a, s’, r)采集使用到的policy，与产生待评估轨迹的策略不同，于… 继续阅读基于DICE的off-policy estimation评估

粤公网安备 44030502005361号