主页

索引

模块索引

搜索页面

激活函数-GELU

  • GELU (Gaussian Error Linear Unit)

  • 近似于 ReLU,在神经网络中表现良好,但具有更加平滑的导数,在某些情况下能够提供更好的性能。

  • CDF: cumulative distribution function of the standard Gaussian distribution(标准正态分布的累积分布函数)

  • 公式:

\[\begin{split}\text{GELU}(x) = x \cdot \Phi(x) \\\end{split}\]

其中 \(\Phi (x)\) 是标准正态分布的累积分布函数(CDF)

\[\Phi (x) = \frac{1}{2} \left( 1+\text{erf} \left( \frac{x}{\sqrt{2}} \right) \right)\]

简化版:

GELU(x) ≈ 0.5 ⋅ x ⋅ (1 + tanh[√((2/π)) ⋅ (x + 0.044715 ⋅ x^3)]

erf(x):误差函数(Error Function),是统计学中用于描述正态分布的函数
\[\text{GELU}(x) \approx 0.5 \cdot x \cdot \left(1+ \tan \left(\sqrt{\frac{2}{\pi}} \cdot (x+0.044715 \cdot x^3 \right) \right)\]
https://img.zhaoweiguo.com/uPic/2024/11/a1RWsJ.png

The x-axis shows the function inputs and the y-axis shows the function outputs.

其他

  • SwiGLU (Sigmoid-Weighted Linear Unit)

主页

索引

模块索引

搜索页面