IEEE 754¶

IEEE 754 是国际上通用的 浮点数表示标准，定义了计算机中如何表示和运算带小数的实数。它被广泛用于 CPU、GPU、FPGA 等各种芯片中。
WiKipedia: IEEE 754
IEEE 754 是计算机里“实数”的通用表示法，让浮点数可以被可靠、高效、跨平台地处理。

工具¶

常见有几种格式（以二进制为主）：

[ 符号位 ][ 指数（加了 bias） ][ 尾数（有效数字） ]

值 = (−1)^sign × (1 + fraction) × 2^(exponent - bias)

值 = (−1)^sign × (0 + fraction) × 2^(1 − bias)

IEEE 754 支持一些特殊情况：
- ±0：所有位为 0
- ±∞：指数全 1，尾数为 0
- NaN（不是一个数）：指数全 1，尾数非 0
- 次正规数（subnormal）：指数为全 0，尾数非 0，用于表示极小的非零数
次正规数（subnormal）
- 是指那些非常接近于 0 的正数或负数，它们太小了，小到已经无法用标准的规格化浮点表示法来表达。
- 只能表示很小很小的数，但不能表示 0
- 示例: 0 00000 0000000001 = 2^(-10)*2^(1-15) ≈ 5.96*10^−8
  - 参数
    - 16位半精度的exponent长度: 5
    - bais: 2^(exponent长度-1)-1 = 2^4-1=15
    - fraction = 0.0000000001
    - sign: 0
  - 计算过程:
    - = (−1)^sign × (0 + fraction) × 2^(1 − bias)
    - = (−1)^0 × (0 + 0.0000000001) × 2^(1 − 15)
    - = 2^(-10)*2^(1-15)
    - ≈ 5.96*10^(−8)

FP4（4-bit Floating Point）是一种仅使用4位比特表示的浮点数格式，主要用于深度学习模型的极限量化（extreme quantization），以进一步压缩模型大小、提升推理速度和节省内存带宽。
由于其极低的位宽，FP4 通常用于在模型权重和激活值上的量化，尤其适用于边缘设备和资源受限环境。

名称	位数	格式说明
E3M1	1符号位 + 3指数位 + 1尾数位	类似于小型 IEEE 格式
E2M2	1符号位 + 2指数位 + 2尾数位	更高尾数精度，较低动态范围
自定义FP4	一些架构使用非IEEE方式编码，牺牲精度保留分布特征