基于DICE的off-policy estimation评估 发表于2022年2月7日2022年2月8日 作者 2040179500@qq.com 很多时候历史轨迹(s, a, s’, r)采集使用到的policy,与产生待评估轨迹的策略不同,于… 继续阅读 基于DICE的off-policy estimation评估