3.4.2. GGUF 文件

示例:

mmproj-model-f16.ggufGGUF:  有图像输入,是图文多模态模型的必要组件
Model-7.6B-F16.ggufGGUF:    想保留模型全部精度,有高性能 GPU
Model-7.6B-Q4_0.ggufGGUF
Model-7.6B-Q4_1.ggufGGUF
Model-7.6B-Q4_K_M.ggufGGUF
Model-7.6B-Q4_K_S.ggufGGUF
Model-7.6B-Q5_0.ggufGGUF
Model-7.6B-Q5_1.ggufGGUF
Model-7.6B-Q5_K_M.ggufGGUF
Model-7.6B-Q6_K.ggufGGUF
Model-7.6B-Q8_0.ggufGGUF

命名模式:

Model-[参数规模]-[量化策略].gguf

文件名示例

精度

含义解释

F16

全精度

使用 float16,几乎无信息损失,但体积大,资源需求高

Q8_0

8-bit

较高精度,较大的体积,推理速度快,适合性能机器

Q6_K

6-bit

较好的质量和性能权衡,推荐中等配置机器使用

Q5_1 / Q5_0

5-bit

更小体积,更快推理,但略有精度损失

Q4_1 / Q4_0

4-bit

体积小,推理非常快,适合低端机器或移动端使用

Q4_K_M / Q4_K_S / Q5_K_M

K-bit

llama.cpp新量化格式,用 groupwise 或 blockwise 技术增强效果

  • K_M 表示 K-bit MixedK_S 表示 K-bit Symmetric

  • 这通常是某些特别调优过的量化方式,在保留较多模型性能的同时进一步减少体积。