GGUF 文件 ######### 示例:: mmproj-model-f16.ggufGGUF: 有图像输入,是图文多模态模型的必要组件 Model-7.6B-F16.ggufGGUF: 想保留模型全部精度,有高性能 GPU Model-7.6B-Q4_0.ggufGGUF Model-7.6B-Q4_1.ggufGGUF Model-7.6B-Q4_K_M.ggufGGUF Model-7.6B-Q4_K_S.ggufGGUF Model-7.6B-Q5_0.ggufGGUF Model-7.6B-Q5_1.ggufGGUF Model-7.6B-Q5_K_M.ggufGGUF Model-7.6B-Q6_K.ggufGGUF Model-7.6B-Q8_0.ggufGGUF 命名模式:: Model-[参数规模]-[量化策略].gguf +--------------------------------+--------+-------------------------------------------------------------+ | 文件名示例 | 精度 | 含义解释 | +================================+========+=============================================================+ | `F16` | 全精度 | 使用 float16,几乎无信息损失,但体积大,资源需求高 | +--------------------------------+--------+-------------------------------------------------------------+ | `Q8_0` | 8-bit | 较高精度,较大的体积,推理速度快,适合性能机器 | +--------------------------------+--------+-------------------------------------------------------------+ | `Q6_K` | 6-bit | 较好的质量和性能权衡,推荐中等配置机器使用 | +--------------------------------+--------+-------------------------------------------------------------+ | `Q5_1` / `Q5_0` | 5-bit | 更小体积,更快推理,但略有精度损失 | +--------------------------------+--------+-------------------------------------------------------------+ | `Q4_1` / `Q4_0` | 4-bit | 体积小,推理非常快,适合低端机器或移动端使用 | +--------------------------------+--------+-------------------------------------------------------------+ | `Q4_K_M` / `Q4_K_S` / `Q5_K_M` | K-bit | llama.cpp新量化格式,用 groupwise 或 blockwise 技术增强效果 | +--------------------------------+--------+-------------------------------------------------------------+ * `K_M` 表示 `K-bit Mixed`,`K_S` 表示 `K-bit Symmetric`。 * 这通常是某些特别调优过的量化方式,在保留较多模型性能的同时进一步减少体积。