主页

索引

模块索引

搜索页面

9.10. LLM评估

9.10.1. AgentBench

9.10.2. SacreBLEU

  • 用于计算机器翻译质量的评估指标的 Python 库,专门用于计算 BLEU(Bilingual Evaluation Understudy)分数。

  • BLEU 是机器翻译和其他自然语言生成任务中最常用的自动评估指标之一。

  • SacreBLEU 提供了一种标准化的方式来计算 BLEU 分数,保证不同实验之间的一致性,避免了不同工具使用不同 BLEU 计算方法导致的分数不一致问题。

9.10.3. jiwer

  • 用于评估自动语音识别 (ASR) 系统输出的 Python 库,主要通过计算文本序列之间的差异来衡量 ASR 系统的性能。该库可以计算多种评估指标,如字错误率 (Word Error Rate, WER)、句子错误率 (Sentence Error Rate, SER)、字符错误率 (Character Error Rate, CER) 等。这些指标通常用于衡量 ASR 输出与参考文本之间的匹配程度。

主页

索引

模块索引

搜索页面