深度学习个人笔记 – st的个人博客

深度学习知识体系图

深度学习体系综述：热力统计学的一系列限制条件，推导出能量模型Boltamann分布，进而构建起了大部分DL模… 继续阅读深度学习知识体系图

Mamba是从selective state space model改进而来的，与其类似的还有LSTM以及NT… 继续阅读 Mamba模型解析

主动推断涉及到一些基础概念：真实世界的演化机制过程，叫做generative process 智能体脑内建模… 继续阅读主动推断active inference与free energy principle

很多时候历史轨迹(s, a, s’, r)采集使用到的policy，与产生待评估轨迹的策略不同，于… 继续阅读基于DICE的off-policy estimation评估

使用model-based RL，可以提高数据利用效率，同时减轻在model-free的off-policy方… 继续阅读《Model-based Offline Policy Optimization》论文笔记

从Maximum Entropy Reinforcement Learning出发，MERL的思路是在rewa… 继续阅读 Soft Actor Critic

大规模分布式强化学习训练，使用多个actor搜集trajectory，使用1个或是多个带GPU的learner… 继续阅读 IMPALA与V-Trace

使用优势函数进行策略梯度的方法，需要先计算梯度 $g = \mathbb{E}_{p(s,a,k) \sim … 继续阅读 TRPO详解

一些比较散乱的论文研究以及自己的思考，为了解决样本缺乏时的训练。《Rethinking the Value … 继续阅读近期关于样本缺乏条件下的学习

之前的文章已经阐述了self-attention与ising模型的磁偶极子交互作用之间的等价关联。Transf… 继续阅读深入理解Transformer的动力学特性

考虑一个简单的感知器，输出标量y：$y = \boldsymbol{x}^T \boldsymbol{w}$ … 继续阅读 Orthogonal Weights Modification