TensorRT-LLM
############


* TensorRT-LLM 是 NVIDIA 推出的专门用于大型语言模型（LLM）加速和优化的框架。该框架基于 NVIDIA 的 TensorRT 技术，旨在提供在 GPU 上高效推理的解决方案。
* https://github.com/NVIDIA/TensorRT-LLM
* https://github.com/NVIDIA/TensorRT
* 开发文档: https://nvidia.github.io/TensorRT-LLM/


主要特点
========

* 高性能推理：TensorRT-LLM 利用 NVIDIA 的 TensorRT 技术，可以在 NVIDIA GPU 上高效运行和推理大型语言模型。通过使用 GPU 的并行计算能力，它可以显著加速模型的推理过程。
* 支持多种 LLM：TensorRT-LLM 适用于多种大型语言模型，包括流行的 GPT、BERT、T5、LLaMA 等。这使得它能够满足各种 NLP（自然语言处理）应用的需求。
* 优化和精简：该框架提供了一系列优化策略，可以通过量化、融合、自动调优等方式来减少计算量，从而提高性能和降低资源消耗。
* 可定制性：TensorRT-LLM 允许用户根据自己的需求定制优化策略，包括分片、编译、调优等，以适应特定模型和工作负载。
* 易于部署：TensorRT-LLM 与 NVIDIA Triton Inference Server 集成，方便在生产环境中部署。它还支持各种部署方案，包括云端和边缘设备。