3.4.2. GGUF 文件¶
示例:
mmproj-model-f16.ggufGGUF: 有图像输入,是图文多模态模型的必要组件
Model-7.6B-F16.ggufGGUF: 想保留模型全部精度,有高性能 GPU
Model-7.6B-Q4_0.ggufGGUF
Model-7.6B-Q4_1.ggufGGUF
Model-7.6B-Q4_K_M.ggufGGUF
Model-7.6B-Q4_K_S.ggufGGUF
Model-7.6B-Q5_0.ggufGGUF
Model-7.6B-Q5_1.ggufGGUF
Model-7.6B-Q5_K_M.ggufGGUF
Model-7.6B-Q6_K.ggufGGUF
Model-7.6B-Q8_0.ggufGGUF
命名模式:
Model-[参数规模]-[量化策略].gguf
文件名示例 |
精度 |
含义解释 |
---|---|---|
F16 |
全精度 |
使用 float16,几乎无信息损失,但体积大,资源需求高 |
Q8_0 |
8-bit |
较高精度,较大的体积,推理速度快,适合性能机器 |
Q6_K |
6-bit |
较好的质量和性能权衡,推荐中等配置机器使用 |
Q5_1 / Q5_0 |
5-bit |
更小体积,更快推理,但略有精度损失 |
Q4_1 / Q4_0 |
4-bit |
体积小,推理非常快,适合低端机器或移动端使用 |
Q4_K_M / Q4_K_S / Q5_K_M |
K-bit |
llama.cpp新量化格式,用 groupwise 或 blockwise 技术增强效果 |
K_M 表示 K-bit Mixed,K_S 表示 K-bit Symmetric。
这通常是某些特别调优过的量化方式,在保留较多模型性能的同时进一步减少体积。