Perplexity(PPL)困惑度¶

困惑度是衡量语言模型质量的一种指标，反映模型预测序列中下一个词的确定性或不确定性。简言之，它表示模型在生成下一个词时的“迷惑程度”，困惑度越低，模型的预测越好，越接近真实分布。
- 高困惑度：模型预测模糊，对下一个词有很多不确定性。
- 低困惑度：模型预测清晰，接近真实分布。
困惑度（Perplexity, PPL）是衡量语言模型性能的重要指标之一，特别常用于评估语言模型（如 GPT、LSTM）的好坏。它反映了模型对测试数据的预测准确性，数值越小，模型的性能越好。

定义¶

P P L = 2^{- \frac{1}{N} \sum_{i = 1}^{N} \log_{2} P (w_{i} ∣ w_{1}, w_{2}, \dots, w_{i - 1})}

其中:
- N ：测试文本中的单词总数。
- $w_{i}$ ：第 i 个单词。
- $P (w_{i} ∣ w_{1}, w_{2}, \dots, w_{i - 1})$ ：模型对第 i 个单词的条件概率。

更通用的公式：使用自然对数时, 公式可以写为:

P P L = e^{- \frac{1}{N} \sum_{i = 1}^{N} \ln P (w_{i} ∣ w_{1}, w_{2}, \dots, w_{i - 1})}

意义：
- 困惑度可以看作是模型对单词序列的平均分支选择数。如果困惑度为 10，意味着模型在预测每个单词时，平均有 10 种选择的“困惑”。
- 困惑度越小，模型对文本的预测越准确，表示模型对语言的理解能力更强。
完美模型的困惑度：
- 如果模型能够完美预测每个单词的概率 𝑃(𝑤𝑖∣𝑤1,…,𝑤𝑖−1)=1 ，那么困惑度为 1。
- 如果模型完全随机分配概率，那么困惑度接近词典大小。

P P L = e^{- \frac{1}{3} (\ln (0.5) + \ln (0.2) + \ln (0.1))} = e^{- \frac{1}{3} (- 0.693 - 1.609 - 2.303)} = e^{1.535} \approx 4.64

困惑度的局限性:

与真实质量的差异:
    低困惑度的模型可能生成质量差的文本，因为困惑度只衡量预测概率，而不直接衡量生成内容的连贯性或可读性
不适用于非概率模型:
    困惑度依赖于概率分布，对于非概率模型（如某些规则系统）无法使用

与训练数据相关:

如果测试数据与训练数据非常相似，困惑度可能会较低，但这并不表示模型对真实世界的广泛数据有较强的泛化能力。

依赖词表大小:

困惑度对词汇表大小敏感。大词汇表通常会增加困惑度，模型需要更好地分配概率来降低困惑。