# 通用 ## weight-only quantization ### 通用格式:`W{N}G{M}` * `W{N}`:表示 **权重被量化为 N 位(bit)** * 例如:`W4` 就是 4-bit 权重量化 * `G{M}`:表示 **每 M 个通道为一个分组(group-wise quantization)** * 组内共享量化参数(如缩放因子 `scale` 和偏移 `zero point`),从而提升效率和量化效果 * 如果是 `G-1`,表示是 **逐通道(per-channel)量化**,即每个输出通道(例如线性层的每一行)一个独立组,精度更高但开销更大 --- ### 各配置具体解释 | 配置名 | 位宽 (bit-width) | 分组大小 (group size) | 描述说明 | | ---------- | -------------- | ----------------- | ----------------------- | | **W4G-1** | 4-bit | 每个通道一个 group | 逐通道量化,精度高,适用于小模型或精度敏感任务 | | **W4G128** | 4-bit | 每 128 个通道一组 | 粗粒度分组,减少开销,适用于大模型的实际部署 | | **W3G128** | 3-bit | 每 128 个通道一组 | 更低位宽(更高压缩比)下的量化方案 | | **W2G128** | 2-bit | 每 128 个通道一组 | 极限压缩,压缩率最大但对精度影响最大 | ### 选用建议 * 如果你追求**较高精度**,使用 `W4G-1` 或 `W4G128` 是常见选择。 * 如果你希望**极致压缩(模型更小)**,可以使用 `W3G128` 或 `W2G128`,但通常需要专门优化算法(如 SignRound)保持较好的性能。 * `G128` 这类分组比 `G-1` 更适合在推理部署中加速,因为更少的量化参数可减少计算和存储开销。