[FP8] support FP8 quantization

liwei109 · Li Wei · commit 8f53a2082bcc · 2025-06-03T09:00:50.000+08:00
diff --git a/mppq/data.py b/mppq/data.py
@@ -34,7 +34,10 @@ class DataType(IntEnum):
     INT64 = TensorProto.INT64
     UINT64 = TensorProto.UINT64
 
+    FP8_E4M3FN = TensorProto.FLOAT8E4M3FN
+    FP8_E4M3FNUZ = TensorProto.FLOAT8E4M3FNUZ
     FP8_E5M2 = TensorProto.FLOAT8E5M2
+    FP8_E5M2FNUZ = TensorProto.FLOAT8E5M2FNUZ
     BF16 = TensorProto.BFLOAT16
     FP16 = TensorProto.FLOAT16
     FP32 = TensorProto.FLOAT
@@ -89,7 +92,10 @@ def from_torch(cls, dtype: torch_type):
             torch.float16: DataType.FP16,
             torch.float32: DataType.FP32,
             torch.float64: DataType.FP64,
+            torch.float8_e4m3fn: DataType.FP8_E4M3FN,
+            torch.float8_e4m3fnuz: DataType.FP8_E4M3FNUZ,
             torch.float8_e5m2: DataType.FP8_E5M2,
+            torch.float8_e5m2fnuz: DataType.FP8_E5M2FNUZ,
         }
         if dtype not in torch_converting_dict:
             raise TypeError(
@@ -129,7 +135,10 @@ def to_torch(cls, dtype) -> torch_type:
             DataType.FP16: torch.float16,
             DataType.FP32: torch.float32,
             DataType.FP64: torch.float64,
+            DataType.FP8_E4M3FN: torch.float8_e4m3fn,
+            DataType.FP8_E4M3FNUZ: torch.float8_e4m3fnuz,
             DataType.FP8_E5M2: torch.float8_e5m2,
+            DataType.FP8_E5M2FNUZ: torch.float8_e5m2fnuz,
         }
         assert isinstance(dtype, int)
         return torch_converting_dict[DataType(dtype)]
@@ -211,6 +220,10 @@ def convert_any_to_numpy(x: Any, accept_none: bool = True) -> None | np.ndarray:
             raise ValueError("Trying to convert an empty value.")
         return x
     elif isinstance(x, torch.Tensor):
+        if "float8" in str(x.dtype):
+            return convert_any_to_numpy(
+                x.cpu().to(torch.float32).numpy(), accept_none=accept_none
+            )
         return convert_any_to_numpy(x.cpu().numpy(), accept_none=accept_none)
     elif isinstance(x, Number):
         return np.array([x])
diff --git a/mppq/frontend/onnx/openvino_exporter.py b/mppq/frontend/onnx/openvino_exporter.py
@@ -59,17 +59,18 @@ def insert_quantize_node(
         elif config.policy.has_property(QuantizationProperty.FLOATING):
             # Following code will export Linear Quantization Config
             # That is for FP32 -> FP8
+            offset_dtype, value_type = self.infer_qtype(config)
             scale = convert_any_to_tensor(config.scale.clone(), dtype=torch.float32)
-            offset = convert_any_to_tensor(config.offset.clone(), dtype=torch.float32)
+            offset = convert_any_to_tensor(config.offset.clone(), dtype=offset_dtype)
 
             created = graph.create_operation(
-                op_type="QuantizeFloating",
-                attributes={
-                    "min": config.quant_min,
-                    "max": config.quant_max,
-                    "exponent": config.exponent_bits,
-                    "mantissa": config.mantissa_bits,
-                },
+                op_type="QuantizeLinear",
+                # attributes={
+                #     "min": config.quant_min,
+                #     "max": config.quant_max,
+                #     "exponent": config.exponent_bits,
+                #     "mantissa": config.mantissa_bits,
+                # },
             )
 
             if config.policy.has_property(QuantizationProperty.PER_CHANNEL):
@@ -89,10 +90,11 @@ def insert_quantize_node(
             graph.create_variable(
                 name=None, value=scale, is_parameter=True, dest_ops=[created]
             )
-            graph.create_variable(
-                name=None, value=offset, is_parameter=True, dest_ops=[created]
-            )
+            # graph.create_variable(
+            #     name=None, value=offset, is_parameter=True, dest_ops=[created]
+            # ) # zero_point is not used for FP8
 
+            created.outputs[0].dtype = value_type
             created.outputs[0].shape = var.shape
             created.inputs[0].shape = var.shape
             return created
@@ -149,17 +151,18 @@ def insert_dequantize_node(
             return created
 
         elif config.policy.has_property(QuantizationProperty.FLOATING):
+            offset_dtype, value_type = self.infer_qtype(config)
             scale = convert_any_to_tensor(config.scale.clone(), dtype=torch.float32)
-            offset = convert_any_to_tensor(config.offset.clone(), dtype=torch.float32)
+            offset = convert_any_to_tensor(config.offset.clone(), dtype=offset_dtype)
 
             created = graph.create_operation(
-                op_type="DequantizeFloating",
-                attributes={
-                    "min": config.quant_min,
-                    "max": config.quant_max,
-                    "exponent": config.exponent_bits,
-                    "mantissa": config.mantissa_bits,
-                },
+                op_type="DequantizeLinear",
+                # attributes={
+                #     "min": config.quant_min,
+                #     "max": config.quant_max,
+                #     "exponent": config.exponent_bits,
+                #     "mantissa": config.mantissa_bits,
+                # },
             )
 
             if config.policy.has_property(QuantizationProperty.PER_CHANNEL):
@@ -179,12 +182,14 @@ def insert_dequantize_node(
             graph.create_variable(
                 name=None, value=scale, is_parameter=True, dest_ops=[created]
             )
-            graph.create_variable(
-                name=None, value=offset, is_parameter=True, dest_ops=[created]
-            )
+            # graph.create_variable(
+            #     name=None, value=offset, is_parameter=True, dest_ops=[created]
+            # )
 
-            created.outputs[0].shape = var.shape
             created.inputs[0].shape = var.shape
+            created.inputs[0].dtype = value_type
+            created.outputs[0].shape = var.shape
+            created.outputs[0].dtype = torch.float32
 
             return created
 
diff --git a/mppq/utils/qfunction/__init__.py b/mppq/utils/qfunction/__init__.py
@@ -6,7 +6,7 @@
     QuantizationStates,
     TensorQuantizationConfig,
 )
-from mppq.utils.qfunction.floating import floating_quant
+from mppq.utils.qfunction.floating import floating_fake_quant, floating_quant_tofp8
 from mppq.utils.qfunction.linear import (
     dynamic_linear_quant,
     linear_fake_quant,
@@ -52,7 +52,9 @@ def ppq_fake_quant(
 
     if config.policy.has_property(QuantizationProperty.FLOATING):
         if not config.policy.has_property(QuantizationProperty.DYNAMIC):
-            return floating_quant(tensor, config)
+            return floating_fake_quant(tensor, config)
+        else:
+            raise NotImplementedError("Dynamic floating quant is not support now!")
 
     raise ValueError(
         "Unexpected Quantization Property Found in ppq_fake_quant. "
@@ -80,8 +82,29 @@ def ppq_quant_toint(
     )
 
 
+def ppq_quant_tofp8(
+    tensor: torch.Tensor, config: TensorQuantizationConfig
+) -> torch.Tensor:
+    """
+    ## PPQ 核心量化函数
+
+    根据 config 中描述的策略，这个函数将会执行线性量化，动态量化
+
+    但是结果直接出来是float8类型
+    """
+    if config.policy.has_property(QuantizationProperty.FLOATING):
+        if not config.policy.has_property(QuantizationProperty.DYNAMIC):
+            return floating_quant_tofp8(tensor, config)
+
+    raise ValueError(
+        "Unexpected Quantization Property Found in ppq_quant_tofp8. "
+        "Do not know how to quantize your config yet."
+    )
+
+
 __all__ = [
     "ppq_fake_quant",
     "ppq_quant_toint",
+    "ppq_quant_tofloat",
     "BaseQuantFunction",
 ]
diff --git a/mppq/utils/qfunction/floating.py b/mppq/utils/qfunction/floating.py
@@ -107,7 +107,7 @@ def backward(ctx, *dy: torch.Tensor):
         return dy[0], None, None, None, None, None, None, None, None, None
 
 
-def floating_quant(
+def floating_fake_quant(
     tensor: torch.Tensor, config: TensorQuantizationConfig
 ) -> torch.Tensor:
     """PPQ 核心量化函数，没啥好说的了吧，这个玩意既做 quant 也做 dequant"""
@@ -137,3 +137,25 @@ def floating_quant(
         )
     assert isinstance(qtensor, torch.Tensor)
     return qtensor
+
+
+def floating_quant_tofp8(
+    tensor: torch.Tensor, config: TensorQuantizationConfig
+) -> torch.Tensor:
+    """PPQ 核心量化函数，没啥好说的了吧，这个玩意只做 quant 不做 dequant"""
+    if not config.policy.has_property(QuantizationProperty.FLOATING):
+        raise ValueError("Critical Quantization Error! Non-floating config detected.")
+
+    if config.policy.has_property(QuantizationProperty.PER_CHANNEL):
+        shape = [
+            1 if axis != config.channel_axis else -1 for axis in range(tensor.ndim)
+        ]
+        scale = config.scale.view(shape)
+        offset = config.offset.view(shape).to(tensor.device)
+        tensor = (tensor / scale) + offset
+    else:  # QuantizationProperty.PER_TENSOR
+        tensor = (tensor / config.scale.to(tensor.device)) + config.offset.to(
+            tensor.device
+        )
+    tensor = torch.clamp(tensor, config.quant_min, config.quant_max)
+    return tensor.to(torch.float8_e4m3fn)