深度学习体系综述: 热力统计学的一系列限制条件,推导出能量模型Boltamann分布,进而构建起了大部分DL模… 继续阅读 深度学习知识体系图
Mamba模型解析
Mamba是从selective state space model改进而来的,与其类似的还有LSTM以及NT… 继续阅读 Mamba模型解析
主动推断active inference与free energy principle
主动推断涉及到一些基础概念: 真实世界的演化机制过程,叫做generative process 智能体脑内建模… 继续阅读 主动推断active inference与free energy principle
基于DICE的off-policy estimation评估
很多时候历史轨迹(s, a, s’, r)采集使用到的policy,与产生待评估轨迹的策略不同,于… 继续阅读 基于DICE的off-policy estimation评估
《Model-based Offline Policy Optimization》论文笔记
使用model-based RL,可以提高数据利用效率,同时减轻在model-free的off-policy方… 继续阅读 《Model-based Offline Policy Optimization》论文笔记
Soft Actor Critic
从Maximum Entropy Reinforcement Learning出发,MERL的思路是在rewa… 继续阅读 Soft Actor Critic
IMPALA与V-Trace
大规模分布式强化学习训练,使用多个actor搜集trajectory,使用1个或是多个带GPU的learner… 继续阅读 IMPALA与V-Trace
TRPO详解
使用优势函数进行策略梯度的方法,需要先计算梯度 $g = \mathbb{E}_{p(s,a,k) \sim … 继续阅读 TRPO详解
近期关于样本缺乏条件下的学习
一些比较散乱的论文研究以及自己的思考,为了解决样本缺乏时的训练。 《Rethinking the Value … 继续阅读 近期关于样本缺乏条件下的学习
深入理解Transformer的动力学特性
之前的文章已经阐述了self-attention与ising模型的磁偶极子交互作用之间的等价关联。Transf… 继续阅读 深入理解Transformer的动力学特性
Orthogonal Weights Modification
考虑一个简单的感知器,输出标量y:$y = \boldsymbol{x}^T \boldsymbol{w}$ … 继续阅读 Orthogonal Weights Modification