深度学习初始化方法

深度学习中的一大挑战就是训练过程中梯度的异常变化，如梯度消失和梯度爆炸等等。激活函数往往被认为是一种应对梯度消失问题的好办法，这是因为它能为深度学习网络模型赋予更多的非线性成分，防止纯线性模型在反向传播过程中减小梯度。

然而不少激活函数本身仍然具有梯度消失风险。例如tanh、sigmoid等函数，这些函数通常都会产生小于1的梯度值，当深度较大的网络逐层累乘这些梯度时，就会出现梯度消失现象。

例如目前最常用的ReLU激活函数，在训练过程中也会出现部分神经元输出小于0，导致这些神经元的输出始终被激活函数置0，这被称为dead neuron.当大部分神经元都出现这种情况时，模型的训练本身就已经陷入停滞。

除了进一步通过网络结构的设计和正则化参数外，参数的合适的初始化，往往能起到很大的作用。

基本初始化方法

神经网络参数的基本初始化方法分为无pretrain和pretrain两种。

常数初始化和随机初始化
常数初始化即用0或者其他的某个常数作为参数的初始值。由于参数的更新是基于损失函数的反向传播，因此无需担心相同的参数初始值会影响参数的训练。常见的就是将网络中的所有参数初始化为0。
在使用激活函数时，这种初始化方法会存在一些问题，例如relu家族的函数大部分在x=0的位置不可导，因此使用relu的网络如果初始化为0会导致大面积的死区或者其他问题。
随机初始化则是在某个分布上采样出参数的值，常见的就是设置一定均值和方差的高斯分布，再从中采样。这样可以保证参数限制在一定范围内。在这种方法下梯度消失的问题是存在的。例如一个以tanh激活函数的10层神经网络，当以N(0, 0.01)分布初始化参数时，各层的输出值表现为接近于0：
这种情况下在反向传播公式中在最前面几层的梯度值很快就被累乘为接近0的数，容易造成梯度消失。
而如果选取较大的方差，又会造成每一层的输出值都向两端趋近，对于tanh、sigmoid等激活函数来说都会造成梯度值本身接近0:
pretrain 初始化使用autoencoder等方法，对每一层的参数都进行适当的训练。然后再将这些经过预训练的参数组装起来，开始真正的训练。
但随着数据量的增大，和激活函数的发展，这种方法的必要性和代价都不可靠，因此已经很少使用。