理论¶
理论
- 常用
- 关键定义
- 通用
- Pipeline Parallelism
- Tensor Parallesim
- 激活函数-Sigmoid
- 激活函数-ReLU
- 激活函数-Leaky ReLU
- 激活函数-Tanh
- 激活函数-GELU
- 归一化-L1
- 归一化-L2
- 概率分布-Softmax
- 概率分布-logsoftmax
- 概率分布-Sparsemax
- 损失函数-分类-cross-entropy(交叉熵)
- 损失函数-分类-负对数似然损失NLL Loss
- 损失函数-分类-对数损失(Log Loss)
- 损失函数-分类-KL 散度(KL Loss)
- 损失函数-回归-均方误差(MSE)
- 损失函数-回归-平均绝对误差(MAE)
- 损失函数-回归-Huber 损失
- 损失函数-回归-对数余弦损失(Log-Cosh Loss)
- 权重衰减(L2正则化)
- GD(梯度下降)
- SGD随机梯度下降
- RMSprop
- Adam
- AdamW
- Momentum
- HMM-隐马尔可夫模型
- WWM-Whole Word Masking
- CRF-条件随机场
- ANN(NN)
- 深度神经网络(Deep Neural Network, DNN)
- 卷积神经网络(Convolutional Neural Network, CNN)
- RNN: 循环神经网(Recurrent Neural Network, RNN)
- LSTM: 长短时记忆(Long Short Term Memory, LSTM)
- 前向/反向传播
- Linear Layer
- Feedforward Network-前馈网络
- LayerNorm(层归一化)
- Weight Tying
- Greedy Decoding
- Image Grounding
- Perplexity(PPL)困惑度
- 判别式模型vs生成式模型
- AllReduce
- Embedding 模型
- BPE
- LLM
- Kullback-Leibler 散度
- 深度学习相关
- 矢量化计算(Vectorize calculations)
- 其他
- 数学方法
- 方差/标准差
- 基本-对数(logarithmic)
- 基本-导数
- 基本-矩阵乘法
- 分布-均匀分布(Uniform Distribution)
- 分布-正态分布(Normal Distribution)
- 分布-高斯分布(Gaussian Distribution)
- 分布-伯努利分布(Bernoulli Distribution)
- 分布-几何分布(Geometric Distribution)
- 分布-泊松分布(Poisson Distribution)
- 分布-二项分布
- 概率密度函数(Probability Density Function, PDF)
- 概率质量函数(Probability Mass Function, PMF)
- L1 范数(曼哈顿距离)
- L2 范数(欧几里得范数)
- L∞ 范数(最大范数)
- 范数-Frobenius范数
- 统计-最大似然原理(Maximum Likelihood Principle)
- MLE-最大似然估计
- 统计-似然函数(Likelihood)
- 统计-辛普森法则(Simpson’s Paradox)
- 统计-中心极限定理(Central Limit Theorem, CLT)
- 二八定律
- 合理运用时间序列
- 多因素分析问题
- 迹函数(trace function)
- 特征值(Eigenvalue)
- 行列式(determinant)
- 矩阵-转置矩阵
- 解析解(Analytic Solution)
- 函数-仿射函数(affine functions)
- 函数-线性函数(Linear Function)
- 分析方法
- 安全
- 定理-原理
- 学习相关
- 经济
- 心理学
- 创业
- 其他