调优
####


* Easy-to-use LLM fine-tuning framework (LLaMA-2, BLOOM, Falcon, Baichuan, Qwen, ChatGLM2): https://github.com/hiyouga/LLaMA-Efficient-Tuning/


SFT: Supervised Fine-Tuning
===========================


* （Supervised Fine-Tuning，监督微调）
* SFT是一种将预训练模型（如语言模型）在特定任务或数据集上进行微调的方法。通过SFT，预训练模型的权重会根据监督数据集进行调整，从而使模型更好地适应特定任务。
* SFT通常是一个两个阶段的过程::

    预训练：首先在大规模的通用数据集上训练模型。
    微调：然后在较小且任务特定的数据集上进行微调，以提高模型在该任务上的性能。

SFT广泛用于自然语言处理任务，例如分类、问答、文本生成等。SFT的优势在于，它可以利用在大规模数据上学习到的知识，并通过微调来优化特定任务的表现。

.. note:: SFT适合微调预训练模型


DPO: Direct Preference Optimization
===================================


* （Direct Preference Optimization，直接偏好优化）
* DPO是一种通过直接优化用户偏好的方法，通常用于推荐系统中。传统的推荐系统方法（如协同过滤或基于内容的推荐）通常会根据用户的历史行为进行推荐，但DPO则更进一步，直接考虑用户的偏好，通过优化用户满意度或偏好得分来生成推荐。

* 在DPO中，模型会根据用户的偏好数据（如点击、评分等）进行训练，目标是最大化用户对推荐内容的满意度。这种方法更直接地对齐推荐目标与用户实际的偏好，从而可能提供更个性化和符合用户需求的推荐。


.. note:: DPO适合优化推荐系统中的用户偏好

RS: Reinforcement Learning
==========================

* （Reinforcement Learning，强化学习）
* RS是一种学习智能体如何在环境中采取行动以最大化累积奖励的机器学习方法。
* RS中的智能体通过与环境的交互逐渐学习到最佳的行为策略。
* 主要的RS元素包括::

    状态（State）：智能体所在的环境状态。
    动作（Action）：智能体在某一状态下可以采取的行为。
    奖励（Reward）：智能体采取某一动作后得到的反馈，用以指导行为调整。
    策略（Policy）：智能体决定在不同状态下采取何种动作的规则或模型。


* RS广泛应用于各类动态决策问题，如机器人控制、游戏AI、推荐系统、自动驾驶等领域。通过不断试验和调整，RS系统可以学习到在复杂环境中实现长远目标的最优策略。

.. note:: RS则在决策和控制问题中表现优越


RS: Rejection Sampling
======================

* Rejection Sampling（拒绝采样）
* 拒绝采样是一种蒙特卡洛方法，用于从目标分布中生成样本，即使这个分布很难直接采样。它的基本思想是利用一个容易采样的分布来辅助采样，并通过一定的拒绝机制确保生成的样本符合目标分布。
* 拒绝采样的步骤如下::

    1. 选择辅助分布：选择一个容易采样的分布
    2. 生成候选样本
    3. 计算接受概率
    4. 接受或拒绝
    5. 重复以上步骤，直到获得所需数量的样本。


应用场景
--------

* 贝叶斯推断：拒绝采样常用于从后验分布中生成样本，在贝叶斯推断中，它帮助估计参数的分布。
* 图像生成：在计算机视觉中，拒绝采样可以用于生成符合特定分布的图像样本。
* 概率计算：当需要从复杂的概率分布中采样以进行统计计算或模型训练时，拒绝采样是一种有效的方法。

优点和缺点
----------

优点::

    拒绝采样概念简单，易于实现。
    可以用于任意分布，前提是能够找到合适的辅助分布。

缺点::

    效率较低：如果目标分布和辅助分布差别较大，拒绝率可能非常高，导致样本生成效率低下。
    M的选择困难：找到合适的 M 值可能具有挑战性。