LLM评估 ####### AgentBench ========== * https://github.com/THUDM/AgentBench * A Comprehensive Benchmark to Evaluate LLMs as Agents (ICLR'24) SacreBLEU ========= * 用于计算机器翻译质量的评估指标的 Python 库,专门用于计算 BLEU(Bilingual Evaluation Understudy)分数。 * BLEU 是机器翻译和其他自然语言生成任务中最常用的自动评估指标之一。 * SacreBLEU 提供了一种标准化的方式来计算 BLEU 分数,保证不同实验之间的一致性,避免了不同工具使用不同 BLEU 计算方法导致的分数不一致问题。 jiwer ===== * 用于评估自动语音识别 (ASR) 系统输出的 Python 库,主要通过计算文本序列之间的差异来衡量 ASR 系统的性能。该库可以计算多种评估指标,如字错误率 (Word Error Rate, WER)、句子错误率 (Sentence Error Rate, SER)、字符错误率 (Character Error Rate, CER) 等。这些指标通常用于衡量 ASR 输出与参考文本之间的匹配程度。