通用

weight-only quantization

通用格式:W{N}G{M}

  • W{N}:表示 权重被量化为 N 位(bit)

    • 例如:W4 就是 4-bit 权重量化

  • G{M}:表示 每 M 个通道为一个分组(group-wise quantization)

    • 组内共享量化参数(如缩放因子 scale 和偏移 zero point),从而提升效率和量化效果

    • 如果是 G-1,表示是 逐通道(per-channel)量化,即每个输出通道(例如线性层的每一行)一个独立组,精度更高但开销更大


各配置具体解释

配置名

位宽 (bit-width)

分组大小 (group size)

描述说明

W4G-1

4-bit

每个通道一个 group

逐通道量化,精度高,适用于小模型或精度敏感任务

W4G128

4-bit

每 128 个通道一组

粗粒度分组,减少开销,适用于大模型的实际部署

W3G128

3-bit

每 128 个通道一组

更低位宽(更高压缩比)下的量化方案

W2G128

2-bit

每 128 个通道一组

极限压缩,压缩率最大但对精度影响最大

选用建议

  • 如果你追求较高精度,使用 W4G-1W4G128 是常见选择。

  • 如果你希望极致压缩(模型更小),可以使用 W3G128W2G128,但通常需要专门优化算法(如 SignRound)保持较好的性能。

  • G128 这类分组比 G-1 更适合在推理部署中加速,因为更少的量化参数可减少计算和存储开销。