10.10. LLM评估¶
10.10.1. AgentBench¶
A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR’24)
10.10.2. SacreBLEU¶
用于计算机器翻译质量的评估指标的 Python 库,专门用于计算 BLEU(Bilingual Evaluation Understudy)分数。
BLEU 是机器翻译和其他自然语言生成任务中最常用的自动评估指标之一。
SacreBLEU 提供了一种标准化的方式来计算 BLEU 分数,保证不同实验之间的一致性,避免了不同工具使用不同 BLEU 计算方法导致的分数不一致问题。
10.10.3. jiwer¶
用于评估自动语音识别 (ASR) 系统输出的 Python 库,主要通过计算文本序列之间的差异来衡量 ASR 系统的性能。该库可以计算多种评估指标,如字错误率 (Word Error Rate, WER)、句子错误率 (Sentence Error Rate, SER)、字符错误率 (Character Error Rate, CER) 等。这些指标通常用于衡量 ASR 输出与参考文本之间的匹配程度。