8.3. ReLU(激活函数)¶

ReLU (x) = max (0, x)

从NN进入到DNN之后，直接的影响是：ReLU的大量应用。

ReLu是激活函数的一种：

就是这么简单的一个函数，在DNN时代代替了NN时代的激活函数王者：Sigmod，成了“调参侠”的最爱。

8.3.1. 为什么要用ReLU呢?¶

我们先来对比一下ReLU和他的老对手sigmoid:

1. 对比能看出来，sigmoid有一个“梯度消失”的问题
1. 另一个ReLU很给力的地方就是稀疏度问题。就是我们希望每个神经元都能最大化的发挥它筛选的作用，符合某一个特征的中间值，使劲儿放大；不符合的，一刀切掉。反观sigmoid就要黏糊的多。这个函数是很对称很美，但它面对负的z值仍然剪不断理还乱，会输出一个小的激励值（tanh会好一些但仍不能避免），形成所谓的“稠密表示”。
最后的最后，ReLU运算速度快，这个很明显了，max肯定比幂指数快的多。

当然，ReLU并不是完美的，它也存在被称为“dying ReLU”的问题——当某个ReLU神经元的输出为0时（输入小于0），它在反向传播时的梯度为0。这会导致该神经元“死亡”并影响一部分与之相连的神经元的训练效果。

为了解决这个问题，研究人员对ReLU进行了一些改进， Leaky ReLU 是其中比较知名的一种。

如图所示，Leaky ReLU将ReLU的 x < 0 部分修改成 0.01x，以此来让“死去”的神经元有机会恢复活力。

在实际应用中，因为不同ReLU变种之间的准确度区别很小，所以并不总是选用Leaky ReLU等变种。

对ReLU或其变种的选择可以根据模型的具体特性或实验结果决定。由于大多数深度学习类库都提供内建的ReLU模块，可以以较低的成本应对ReLU及其变种的性能差异。

此外，“dying ReLU”问题也可以通过降低学习率，加入bias等方式解决。

torch.nn.log_softmax(input_vector, dim=0)
torch.nn.softmax(input_vector, dim=0)