ReLU(激活函数) ############## 从NN进入到DNN之后,直接的影响是:ReLU的大量应用。 ReLu是激活函数的一种: .. image:: https://img.zhaoweiguo.com/knowledge/images/ais/relu_show1.jpeg 就是这么简单的一个函数,在DNN时代代替了NN时代的激活函数王者:Sigmod,成了“调参侠”的最爱。 为什么要用ReLU呢? ================= * 为什么要使用sigmoid,tanh,ReLU等非线性函数?是为了增加非线性呗! * 深度学习的目的是用一堆神经元堆出一个函数大致的样子,然后通过大量的数据去反向拟合出这个函数的各个参数,最终勾勒出函数的完整形状。 * 那如果激活函数只是线性函数,那一层层的线性函数堆起来还是线性的,这肯定不行,这样整个网络表现能力有限,所以要引入非线性的激活函数进来。 ReLU的优势在哪儿呢 =================== 我们先来对比一下ReLU和他的老对手sigmoid: * ReLU函数: .. image:: https://img.zhaoweiguo.com/knowledge/images/ais/relu_show2.jpeg * Sigmoid函数: .. image:: https://img.zhaoweiguo.com/knowledge/images/ais/sigmoid_show1.jpeg * 1. 对比能看出来,sigmoid有一个“梯度消失”的问题 * 2. 另一个ReLU很给力的地方就是稀疏度问题。就是我们希望每个神经元都能最大化的发挥它筛选的作用,符合某一个特征的中间值,使劲儿放大;不符合的,一刀切掉。反观sigmoid就要黏糊的多。这个函数是很对称很美,但它面对负的z值仍然剪不断理还乱,会输出一个小的激励值(tanh会好一些但仍不能避免),形成所谓的“稠密表示”。 * 最后的最后,ReLU运算速度快,这个很明显了,max肯定比幂指数快的多。 ReLU有什么弱点 ============== 当然,ReLU并不是完美的,它也存在被称为“dying ReLU”的问题——当某个ReLU神经元的输出为0时(输入小于0),它在反向传播时的梯度为0。这会导致该神经元“死亡”并影响一部分与之相连的神经元的训练效果。 为了解决这个问题,研究人员对ReLU进行了一些改进, Leaky ReLU 是其中比较知名的一种。 .. image:: https://img.zhaoweiguo.com/knowledge/images/ais/relu_show3.png 如图所示,Leaky ReLU将ReLU的 x < 0 部分修改成 0.01x,以此来让“死去”的神经元有机会恢复活力。 在实际应用中,因为不同ReLU变种之间的准确度区别很小,所以并不总是选用Leaky ReLU等变种。 对ReLU或其变种的选择可以根据模型的具体特性或实验结果决定。由于大多数深度学习类库都提供内建的ReLU模块,可以以较低的成本应对ReLU及其变种的性能差异。 此外,“dying ReLU”问题也可以通过降低学习率,加入bias等方式解决。 常见的激活函数 ============== :: torch.nn.log_softmax(input_vector, dim=0) torch.nn.softmax(input_vector, dim=0)