3.3. 调优¶

Easy-to-use LLM fine-tuning framework (LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, ChatGLM2): https://github.com/hiyouga/LLaMA-Efficient-Tuning/

3.3.1. SFT: Supervised Fine-Tuning¶

SFT通常是一个两个阶段的过程:

预训练：首先在大规模的通用数据集上训练模型。
微调：然后在较小且任务特定的数据集上进行微调，以提高模型在该任务上的性能。

SFT广泛用于自然语言处理任务，例如分类、问答、文本生成等。SFT的优势在于，它可以利用在大规模数据上学习到的知识，并通过微调来优化特定任务的表现。

备注

SFT适合微调预训练模型

（Direct Preference Optimization，直接偏好优化）
DPO是一种通过直接优化用户偏好的方法，通常用于推荐系统中。传统的推荐系统方法（如协同过滤或基于内容的推荐）通常会根据用户的历史行为进行推荐，但DPO则更进一步，直接考虑用户的偏好，通过优化用户满意度或偏好得分来生成推荐。
在DPO中，模型会根据用户的偏好数据（如点击、评分等）进行训练，目标是最大化用户对推荐内容的满意度。这种方法更直接地对齐推荐目标与用户实际的偏好，从而可能提供更个性化和符合用户需求的推荐。

备注

DPO适合优化推荐系统中的用户偏好

主要的RS元素包括:

状态（State）：智能体所在的环境状态。
动作（Action）：智能体在某一状态下可以采取的行为。
奖励（Reward）：智能体采取某一动作后得到的反馈，用以指导行为调整。
策略（Policy）：智能体决定在不同状态下采取何种动作的规则或模型。

备注

RS则在决策和控制问题中表现优越

Rejection Sampling（拒绝采样）
拒绝采样是一种蒙特卡洛方法，用于从目标分布中生成样本，即使这个分布很难直接采样。它的基本思想是利用一个容易采样的分布来辅助采样，并通过一定的拒绝机制确保生成的样本符合目标分布。

拒绝采样的步骤如下:

1. 选择辅助分布：选择一个容易采样的分布
2. 生成候选样本
3. 计算接受概率
4. 接受或拒绝
5. 重复以上步骤，直到获得所需数量的样本。

优点:

拒绝采样概念简单，易于实现。
可以用于任意分布，前提是能够找到合适的辅助分布。

缺点:

效率较低：如果目标分布和辅助分布差别较大，拒绝率可能非常高，导致样本生成效率低下。
M的选择困难：找到合适的 M 值可能具有挑战性。