通用¶
weight-only quantization¶
通用格式:W{N}G{M}
¶
W{N}
:表示 权重被量化为 N 位(bit)例如:
W4
就是 4-bit 权重量化
G{M}
:表示 每 M 个通道为一个分组(group-wise quantization)组内共享量化参数(如缩放因子
scale
和偏移zero point
),从而提升效率和量化效果如果是
G-1
,表示是 逐通道(per-channel)量化,即每个输出通道(例如线性层的每一行)一个独立组,精度更高但开销更大
各配置具体解释¶
配置名 |
位宽 (bit-width) |
分组大小 (group size) |
描述说明 |
---|---|---|---|
W4G-1 |
4-bit |
每个通道一个 group |
逐通道量化,精度高,适用于小模型或精度敏感任务 |
W4G128 |
4-bit |
每 128 个通道一组 |
粗粒度分组,减少开销,适用于大模型的实际部署 |
W3G128 |
3-bit |
每 128 个通道一组 |
更低位宽(更高压缩比)下的量化方案 |
W2G128 |
2-bit |
每 128 个通道一组 |
极限压缩,压缩率最大但对精度影响最大 |
选用建议¶
如果你追求较高精度,使用
W4G-1
或W4G128
是常见选择。如果你希望极致压缩(模型更小),可以使用
W3G128
或W2G128
,但通常需要专门优化算法(如 SignRound)保持较好的性能。G128
这类分组比G-1
更适合在推理部署中加速,因为更少的量化参数可减少计算和存储开销。