3.6.1. 常用¶

大型语言模型 (LLM) 引擎:

llama.cpp: 专门为 LLM 开发的开源引擎，旨在提供高性能和效率。
TensorRT-LLM: 基于 NVIDIA TensorRT 的开源引擎，可利用 GPU 加速 LLM 推理。

通用推理引擎:

Triton: 支持多种模型格式和硬件平台的开源推理引擎。
ONNX Runtime: 支持多种模型格式和硬件平台的开源推理引擎。