序言
认知科学是一个交叉学科,有很多已知的情报,看似彼此独立,背后的的机制却存在种种或是巧合,或是令人费解的地方。需要像侦探解谜一样,将这些情报串在一起。之前的研究,主要是基于信息论以及流形学习作为底层依托,整合了深度学习体系内的大部分知识点,却无法解释脑科学中出现的很多现象,同时也存在一些不合理的疑点。
这篇文章开始,会从这些相互独立的线索出发,逐渐尝试将他们拼凑在一个网络结构内,从而构建出一种认知原理的推测。思维或许会有些跳跃,但最终所有知识都会收敛。之前将理论做成了视频,里面省略了不少论证细节,这里会尽量详细地补充完整。
线索和疑问
- 人脑学习所需的样本数量远少于深度学习,参数自由度或许没有想象中高。隐藏层的假设空间大小肯定远小于深度学习,否则无法满足泛化误差上限公式。同时概念的抽象等级又不低,非线性变换次数很多,每次变换不能引入太多可训练参数。所以使用可训练矩阵的线性变换+非线性激活函数,应该不属于主要的变换机制。主要变换机制其实是基于核方法的流形变换,这样可训练参数可多可少,且都埋藏在核函数里。除了参数数量外,离散化作为熵减的大杀器,也不应该缺位。
- 深度学习的两个好用的可解释性的机制,分别是attention以及routing by agreement。都用一个标量来描述两个抽象概念之间的关联权重。self-attention的标量权重关联了两个相同抽象等级的概念,routing by agreement的标量权重关联了一个低阶与一个高阶概念。Attention机制似乎比capsule network更加成功,其原因如果深究下去,可以追溯到Ising模型与平均场机制。
- 《Weight Agonistic Neural Network》论文某种程度上证明了使用网络结构一样可以记忆信息,可训练权重并没有想象中重要。从人脑本身具有强大鲁棒性的证据来看,神经元之间的连接权重,甚至是神经元本身的数值,都只具备统计意义,单个个体的值,在靠近最终输出层以外的地方,或许也不如网络连接的结构重要。
- 人脑中普遍存在以下几种连接结构,社区结构(community)、小世界(small-world)、中转站(hub)、随机(random)。其中random比较接近当前的深度神经网络,community与small-world的这两种在人脑中出现较多的结构,在深度学习中却比较少见。尤其是具有community structure的脑区,往往有着非常重要的功能。另一方面二分图(bipartile)结构在深度学习中最常见,在人脑中却并不常见。实际上Community结构与Ising模型还有平均场,有着非常重要的关联。
- 人脑具有分形结构,假设信息的表征是依靠局部神经元完成的,那么分形结构有利于不同抽象等级信号的聚合。一些CNN网络设计遵循了局部神经元信息聚合的设计理念,但大部分神经网络设计对于分形的特性并没有充分利用。
- 记忆的内容是压缩后的信息表征。人脑对抽象概念的记忆,倾向于是定性的而非定量的。人脑对于事物的简化理解,倾向于使用二元对立的方法。sigmoid和tanh的形状似乎更适合作为人脑中的激活函数,控制输出信号的范围。然而深度学习中Relu以及各种Relu的变种,往往能获得更好的表现。我们能理解激活函数存在的必要性,但对于它出现的机制和原理并不了解。
- 信号传递过程的动力学也很重要,人脑中的信号传递与基于Hodgkin-Huxley模型的SNN有何不同?为什么SNN没有在感知领域获得较大成功?另一方面元胞自动机和沙堆模型这类的动力学模型,是否能取代SNN,模拟和解释人脑中的信号传播过程?
- 人脑中的临界状态,要怎样理解?分形、不同尺度的自相似性、相变、动力学、信息瓶颈(熵减)、开放系统、局部涨落、正反馈、自组织现象、混沌,这些代表了耗散结构和复杂系统的特性,分别在人脑中以什么样的形式存在?
- 神经元连接强度的用进废退机制,在当前深度学习框架内没有发挥作用,但在人脑中非常重要。记忆与想象的分界线,同时也是描述用进废退机制的某个参数,在神经网络中究竟代表了哪个物理量?记忆来自于编码器,想象连接着解码器(暂时忽略决策系统),那么编码器与解码器是否会拥有不同的特性,且共同由一个连续变量来控制?
- 经验、决策、自由意志,有可能在解码器与编码器之间的哪个位置上出现?以何种形式影响解码器的输出结果?
带着以上这些问题,需要加上一些想象力,开始拼拼图吧。