LLM调优(finetune)
#################

总结::

    PT: Large-scale general training of the model.PT：模型的大规模通用训练。
    SFT: Task-specific supervised fine-tuning.SFT：特定于任务的监督微调。
    RM: Reward modeling using feedback.RM：使用反馈进行奖励建模。
    PPO: Reinforcement learning technique for policy improvement.PPO：用于策略改进的强化学习技术。
    DPO: Preference-based optimization.DPO：基于首选项的优化。
    KTO: Optimizing the transfer of knowledge between models.KTO：优化模型之间的知识传递。


PT (Pre-training)
=================

- 预训练是指在广泛的数据集上以自监督或无监督方式训练大型模型的初始阶段。目标是学习数据中的通用模式，例如理解语言或视觉特征。
- 例如，对于语言模型，PT 涉及在庞大的语料库上进行训练，以预测掩码标记或下一个单词。然后，预训练模型可以适应后期阶段的特定任务。


SFT (Supervised Fine-Tuning)
============================

- 预训练后，模型通常会进行监督微调 （SFT）。
- 在此阶段，模型在标记的数据集上进一步训练，以优化特定任务的性能。
- 例如，语言模型可能会针对情感分析或翻译等任务进行微调，使用已知正确输出的监督数据。


RM (Reward Modeling)
====================

- 奖励建模 （RM） 涉及训练一个模型，该模型可以根据模型输出的质量或正确性为模型输出分配奖励。
- 这通常用于强化学习 （RL） 设置，其中提供反馈以提高模型性能。
- 在文本生成任务中，人工反馈可用于指导首选哪些响应，并且模型会根据该反馈进行微调。


PPO (Proximal Policy Optimization)
==================================

- 最近策略优化(PPO) 是强化学习 （RL） 中的一种流行算法。
- 它用于改进模型的策略（决策功能），方法是平衡探索和开发，以确保模型不会与当前策略有太大偏差。
- PPO 经常用于根据人类反馈微调大型语言模型，帮助它们从过去的操作中学习以改进未来的输出。


DPO (Direct Preference Optimization)
====================================

- 直接偏好优化(DPO)是强化学习中与 PPO 替代方法中的一种较新的方法。
- PPO 使用奖励来指导训练，而 DPO 则根据不同模型输出之间的比较直接优化首选输出，而不会将偏好转换为奖励。
- 在某些情况下，这可以提高训练效率。


KTO (Knowledge Transfer Optimization)
=====================================

- 知识迁移优化(KTO)是指旨在有效地将所学知识从一个模型转移到另一个模型的方法或算法，通常是从较大的预训练模型转移到较小的模型（称为知识蒸馏）。
- 这个想法是优化这个传输过程，确保较小的模型尽可能多地保留较大模型的性能。