常用
####

大型语言模型 (LLM) 引擎::

    llama.cpp: 专门为 LLM 开发的开源引擎，旨在提供高性能和效率。
    TensorRT-LLM: 基于 NVIDIA TensorRT 的开源引擎，可利用 GPU 加速 LLM 推理。

通用推理引擎::

    Triton: 支持多种模型格式和硬件平台的开源推理引擎。
    ONNX Runtime: 支持多种模型格式和硬件平台的开源推理引擎。