重构self-attention Self-attention机制,在深度学习中的各个方面都取得了巨大的成功。… 继续阅读 人工智能的构建(2):从attention到Ising模型
标签:解构
变分推断方法笔记
Variational Inference变分推断,在LDA与VAE中都使用到了,这里是视频https://w… 继续阅读 变分推断方法笔记
从梯度下降中的信噪比分析mini batch的作用
无噪音下降路径 考虑一个通用的机器学习场景: 客观存在一个分布$p(\boldsymbol{x},y)$,定义… 继续阅读 从梯度下降中的信噪比分析mini batch的作用
浅谈神经网络的坐标变换
在探讨核方法的本质之前,想先谈论一下机器学习中的坐标变换coordinate transformation。 … 继续阅读 浅谈神经网络的坐标变换
微分熵differential entropy与香农熵entropy
根据前面对于熵的热力学定义与信息学定义,都统一归纳为 $H = -\sum\limits_{k}p_{k}lo… 继续阅读 微分熵differential entropy与香农熵entropy
最大熵与最大似然,以及KL距离。
DNN中最常使用的离散数值优化目标,莫过于交差熵。两个分布p,q的交差熵,与KL距离实际上是同一回事。 $-\… 继续阅读 最大熵与最大似然,以及KL距离。
信息瓶颈:深度学习的底层原理
序言 所有机器学习的原理,本质上都是对同一段信息在不同空间内的转换、过滤、重新表征,最终解码出一段可读信息。为… 继续阅读 信息瓶颈:深度学习的底层原理
熵、softmax以及泛化误差。
从熵的最原始定义出发,解释softmax函数以及泛化误差公式背后的原理,并分析机器学习为什么要将这些限制条件视… 继续阅读 熵、softmax以及泛化误差。