2. 理论¶
- 2.1. 关键定义
- 2.1.1. 通用
- 2.1.2. Pipeline Parallelism
- 2.1.3. Tensor Parallesim
- 2.1.4. 激活函数-Sigmoid
- 2.1.5. 激活函数-ReLU
- 2.1.6. 激活函数-Leaky ReLU
- 2.1.7. 激活函数-Tanh
- 2.1.8. 激活函数-GELU
- 2.1.9. 归一化-L1
- 2.1.10. 归一化-L2
- 2.1.11. 概率分布-Softmax
- 2.1.12. 概率分布-logsoftmax
- 2.1.13. 概率分布-Sparsemax
- 2.1.14. 损失函数-分类-cross-entropy(交叉熵)
- 2.1.15. 损失函数-分类-负对数似然损失NLL Loss
- 2.1.16. 损失函数-分类-对数损失(Log Loss)
- 2.1.17. 损失函数-分类-KL 散度(KL Loss)
- 2.1.18. 损失函数-回归-均方误差(MSE)
- 2.1.19. 损失函数-回归-平均绝对误差(MAE)
- 2.1.20. 损失函数-回归-Huber 损失
- 2.1.21. 损失函数-回归-对数余弦损失(Log-Cosh Loss)
- 2.1.22. 权重衰减(L2正则化)
- 2.1.23. GD(梯度下降)
- 2.1.24. SGD随机梯度下降
- 2.1.25. RMSprop
- 2.1.26. Adam
- 2.1.27. AdamW
- 2.1.28. Momentum
- 2.1.29. HMM-隐马尔可夫模型
- 2.1.30. WWM-Whole Word Masking
- 2.1.31. CRF-条件随机场
- 2.1.32. ANN(NN)
- 2.1.33. 深度神经网络(Deep Neural Network, DNN)
- 2.1.34. 卷积神经网络(Convolutional Neural Network, CNN)
- 2.1.35. RNN: 循环神经网(Recurrent Neural Network, RNN)
- 2.1.36. LSTM: 长短时记忆(Long Short Term Memory, LSTM)
- 2.1.37. 前向/反向传播
- 2.1.38. Linear Layer
- 2.1.39. Feedforward Network-前馈网络
- 2.1.40. LayerNorm(层归一化)
- 2.1.41. Weight Tying
- 2.1.42. Greedy Decoding
- 2.1.43. Image Grounding
- 2.1.44. Perplexity(PPL)困惑度
- 2.1.45. Manhattan World(曼哈顿世界)
- 2.1.46. Hough Transform(霍夫变换)
- 2.1.47. 极坐标表示法(Polar Coordinate System)
- 2.1.48. Gaussian Sphere(高斯球)
- 2.1.49. 边缘方向 Edge Direction
- 2.1.50. NormalVector法向量
- 2.1.51. 判别式模型vs生成式模型
- 2.1.52. AllReduce
- 2.1.53. Embedding 模型
- 2.1.54. BPE
- 2.1.55. LLM
- 2.1.56. 深度学习相关
- 2.1.57. 矢量化计算(Vectorize calculations)
- 2.1.58. 其他
- 2.2. 临时
- 2.2.1. ReAct框架
- 2.2.2. Reflection反思
- 2.2.3. 数学
- 2.2.4. bag-of-words
- 2.2.5. Word2Vec
- 2.2.6. Doc2Vec
- 2.2.7. FastText
- 2.2.8. LDA-Latent Dirichlet Allocation(潜在狄利克雷分配)
- 2.2.9. overfitting&underfitting
- 2.2.10. RAG
- 2.2.11. Agent
- 2.2.12. LLM
- 2.2.13. RL-强化学习
- 2.2.14. Prompt Engineering
- 2.2.15. LLM调优(finetune)
- 2.2.16. Workflow
- 2.2.17. 通用