主页

索引

模块索引

搜索页面

3.6.1. 常用

大型语言模型 (LLM) 引擎:

llama.cpp: 专门为 LLM 开发的开源引擎,旨在提供高性能和效率。
TensorRT-LLM: 基于 NVIDIA TensorRT 的开源引擎,可利用 GPU 加速 LLM 推理。

通用推理引擎:

Triton: 支持多种模型格式和硬件平台的开源推理引擎。
ONNX Runtime: 支持多种模型格式和硬件平台的开源推理引擎。

主页

索引

模块索引

搜索页面