新溪-gordon
V2025.05
理论
常用
常用
冰山理论
Six Degrees of Kevin Bacon
Forgetting Curve-遗忘曲线
创新思维
TRIZ
设计思维
头脑风暴
关键定义
通用
Pipeline Parallelism
Tensor Parallesim
激活函数-Sigmoid
激活函数-ReLU
激活函数-Leaky ReLU
激活函数-Tanh
激活函数-GELU
归一化-L1
归一化-L2
概率分布-Softmax
概率分布-logsoftmax
概率分布-Sparsemax
损失函数-分类-cross-entropy(交叉熵)
损失函数-分类-负对数似然损失NLL Loss
损失函数-分类-对数损失(Log Loss)
损失函数-分类-KL 散度(KL Loss)
损失函数-回归-均方误差(MSE)
损失函数-回归-平均绝对误差(MAE)
损失函数-回归-Huber 损失
损失函数-回归-对数余弦损失(Log-Cosh Loss)
权重衰减(L2正则化)
GD(梯度下降)
SGD随机梯度下降
RMSprop
Adam
AdamW
Momentum
HMM-隐马尔可夫模型
WWM-Whole Word Masking
CRF-条件随机场
ANN(NN)
深度神经网络(Deep Neural Network, DNN)
卷积神经网络(Convolutional Neural Network, CNN)
RNN: 循环神经网(Recurrent Neural Network, RNN)
LSTM: 长短时记忆(Long Short Term Memory, LSTM)
前向/反向传播
Linear Layer
Feedforward Network-前馈网络
LayerNorm(层归一化)
Weight Tying
Greedy Decoding
Image Grounding
Perplexity(PPL)困惑度
Manhattan World(曼哈顿世界)
Hough Transform(霍夫变换)
极坐标表示法(Polar Coordinate System)
Gaussian Sphere(高斯球)
边缘方向 Edge Direction
NormalVector法向量
判别式模型vs生成式模型
AllReduce
Embedding 模型
BPE
LLM
Kullback-Leibler 散度
深度学习相关
矢量化计算(Vectorize calculations)
其他
数学方法
方差/标准差
基本-对数(logarithmic)
基本-导数
基本-矩阵乘法
分布-均匀分布(Uniform Distribution)
分布-正态分布(Normal Distribution)
分布-高斯分布(Gaussian Distribution)
分布-伯努利分布(Bernoulli Distribution)
分布-几何分布(Geometric Distribution)
分布-泊松分布(Poisson Distribution)
分布-二项分布
概率密度函数(Probability Density Function, PDF)
概率质量函数(Probability Mass Function, PMF)
L1 范数(曼哈顿距离)
L2 范数(欧几里得范数)
L∞ 范数(最大范数)
范数-Frobenius范数
统计-最大似然原理(Maximum Likelihood Principle)
MLE-最大似然估计
统计-似然函数(Likelihood)
统计-辛普森法则(Simpson’s Paradox)
统计-中心极限定理(Central Limit Theorem, CLT)
二八定律
合理运用时间序列
多因素分析问题
迹函数(trace function)
特征值(Eigenvalue)
行列式(determinant)
矩阵-转置矩阵
解析解(Analytic Solution)
函数-仿射函数(affine functions)
函数-线性函数(Linear Function)
分析方法
辩证法
归纳法
演绎法
安全
KMS-密钥管理服务(Key Management Service)
基线管理
远程证明
定理-原理
Law定理/定律
墨菲定律(Murphy’s Law)
帕金森定律(Parkinson’s Law)
彼得原理(peterPrinciple)
康威定律(Conway’s Law)
Dunbar Number
Benford’s law
Zipf’s law
Clarke’s three laws
奥卡姆剃刀原则
second law of thermodynamics
The Law Of Diminishing Marginal Utility
X-Y PROBLEM
Amdahl’s Law
scaling law
一种本质性的思维方式
各领域的应用
Power Law(幂律)
大数定律(law of large numbers)
问问题的技巧
海尔迈耶系列问题
Rule原则/规则
三次法则
峰终定律-Peak-End Rule
MECE
SMART 原则
模型
波士顿矩阵模型
艾森豪威尔矩阵
Wardley Map
ARCI模型
辛普森悖论
工作分解结构Work Breakdown Structure
学习相关
如何学习
如何快速学习
以教为学
ZTD学习套路
如何成为大师/大牛
高效学习
学习方法论导图
六步学习法
费曼学习法
外语学习技巧
知识图谱
如何记笔记
临时
源码学习
如何高效学习
为何阅读源码
如何阅读源码
如何阅读源码2
如何阅读源码3
如何高效阅读源码
终身学习方法论
终身学习方法论1
推演-做-复盘
复盘
人生的三个阶段
思维模型
关键问题
如何阅读
如何阅读
如何读一本非虚构图书
快速阅读
如何写作
如何写作
写作如编码
金字塔原理讲写作
如何收集素材
程序员怎样写好文章
如何演讲
表达套路
如何演讲
开源
经济
心理学
创业
其他
新溪-gordon
Docs
»
关键定义
View page source
主页
索引
模块索引
搜索页面
关键定义
¶
分布式训练
通用
Pipeline Parallelism
Tensor Parallesim
激活函数
激活函数-Sigmoid
激活函数-ReLU
激活函数-Leaky ReLU
激活函数-Tanh
激活函数-GELU
归一化-L1
归一化-L2
概率分布-Softmax
概率分布-logsoftmax
概率分布-Sparsemax
损失函数
损失函数-分类-cross-entropy(交叉熵)
损失函数-分类-负对数似然损失NLL Loss
损失函数-分类-对数损失(Log Loss)
损失函数-分类-KL 散度(KL Loss)
损失函数-回归-均方误差(MSE)
损失函数-回归-平均绝对误差(MAE)
损失函数-回归-Huber 损失
损失函数-回归-对数余弦损失(Log-Cosh Loss)
权重衰减(L2正则化)
调优函数
GD(梯度下降)
SGD随机梯度下降
RMSprop
Adam
AdamW
Momentum
命名实体识别
HMM-隐马尔可夫模型
WWM-Whole Word Masking
CRF-条件随机场
神经网络
ANN(NN)
深度神经网络(Deep Neural Network, DNN)
卷积神经网络(Convolutional Neural Network, CNN)
RNN: 循环神经网(Recurrent Neural Network, RNN)
LSTM: 长短时记忆(Long Short Term Memory, LSTM)
深度神经网络理论
前向/反向传播
Linear Layer
Feedforward Network-前馈网络
LayerNorm(层归一化)
Weight Tying
Greedy Decoding
Image Grounding
Perplexity(PPL)困惑度
3D
Manhattan World(曼哈顿世界)
Hough Transform(霍夫变换)
极坐标表示法(Polar Coordinate System)
Gaussian Sphere(高斯球)
边缘方向 Edge Direction
NormalVector法向量
其他
判别式模型vs生成式模型
AllReduce
Embedding 模型
BPE
LLM
Kullback-Leibler 散度
深度学习相关
矢量化计算(Vectorize calculations)
其他
主页
索引
模块索引
搜索页面