3.4.2. GGUF 文件¶

示例:

mmproj-model-f16.ggufGGUF:  有图像输入，是图文多模态模型的必要组件
Model-7.6B-F16.ggufGGUF:    想保留模型全部精度，有高性能 GPU
Model-7.6B-Q4_0.ggufGGUF
Model-7.6B-Q4_1.ggufGGUF
Model-7.6B-Q4_K_M.ggufGGUF
Model-7.6B-Q4_K_S.ggufGGUF
Model-7.6B-Q5_0.ggufGGUF
Model-7.6B-Q5_1.ggufGGUF
Model-7.6B-Q5_K_M.ggufGGUF
Model-7.6B-Q6_K.ggufGGUF
Model-7.6B-Q8_0.ggufGGUF

命名模式:

Model-[参数规模]-[量化策略].gguf

文件名示例	精度	含义解释
F16	全精度	使用 float16，几乎无信息损失，但体积大，资源需求高
Q8_0	8-bit	较高精度，较大的体积，推理速度快，适合性能机器
Q6_K	6-bit	较好的质量和性能权衡，推荐中等配置机器使用
Q5_1 / Q5_0	5-bit	更小体积，更快推理，但略有精度损失
Q4_1 / Q4_0	4-bit	体积小，推理非常快，适合低端机器或移动端使用
Q4_K_M / Q4_K_S / Q5_K_M	K-bit	llama.cpp新量化格式，用 groupwise 或 blockwise 技术增强效果

K_M 表示 K-bit Mixed，K_S 表示 K-bit Symmetric。
这通常是某些特别调优过的量化方式，在保留较多模型性能的同时进一步减少体积。