常用 #### 大型语言模型 (LLM) 引擎:: llama.cpp: 专门为 LLM 开发的开源引擎,旨在提供高性能和效率。 TensorRT-LLM: 基于 NVIDIA TensorRT 的开源引擎,可利用 GPU 加速 LLM 推理。 通用推理引擎:: Triton: 支持多种模型格式和硬件平台的开源推理引擎。 ONNX Runtime: 支持多种模型格式和硬件平台的开源推理引擎。