huggingface · mht-sharma · Mar 19, 2024 · Mar 14, 2024 · Mar 14, 2024 · Mar 14, 2024
diff --git a/examples/quantization/brevitas/quantize_llm.py b/examples/quantization/brevitas/quantize_llm.py
@@ -1,13 +1,9 @@
 from argparse import ArgumentParser
 
-import torch
-from brevitas.export.onnx.standard.qcdq.manager import StdQCDQONNXManager
-from brevitas_examples.llm.llm_quant.export import brevitas_proxy_export_mode
-
 from optimum.amd import BrevitasQuantizationConfig, BrevitasQuantizer
 from optimum.amd.brevitas.accelerate_utils import calc_cpu_device_map, calc_gpu_device_map, offload_model, remove_hooks
 from optimum.amd.brevitas.data_utils import compute_perplexity, get_dataset_for_model
-from optimum.exporters.onnx import onnx_export_from_model
+from optimum.amd.brevitas.export import export_quantized_model
-from optimum.amd.brevitas.export import export_quantized_model
+from optimum.amd.brevitas.export import export_to_onnx
-from optimum.amd.brevitas.export import export_quantized_model
+from optimum.amd.brevitas.export import export_to_onnx
 from transformers import AutoTokenizer
 
 
@@ -80,16 +76,7 @@ def main(args):
     quantized_model = quantized_model.to("cpu")
 
     # Export to ONNX through optimum.exporters.
-    export_manager = StdQCDQONNXManager
-    export_manager.change_weight_export(export_weight_q_node=True)
-    with torch.no_grad(), brevitas_proxy_export_mode(quantized_model, export_manager=export_manager):
-        onnx_export_from_model(
-            quantized_model,
-            args.onnx_output_path,
-            task="text-generation-with-past",
-            do_validation=False,
-            no_post_process=True,
-        )
+    export_quantized_model(quantized_model, args.onnx_output_path)
     return return_val
 
 

diff --git a/optimum/amd/brevitas/export.py b/optimum/amd/brevitas/export.py
@@ -0,0 +1,10 @@
+import torch
+from brevitas.export.onnx.standard.qcdq.manager import StdQCDQONNXManager
+from brevitas_examples.llm.llm_quant.export import brevitas_proxy_export_mode
+
+from optimum.exporters.onnx import onnx_export_from_model
+
+
+def export_quantized_model(quantized_model, path, task="text-generation-with-past"):
+    with torch.no_grad(), brevitas_proxy_export_mode(quantized_model, export_manager=StdQCDQONNXManager):
+        onnx_export_from_model(quantized_model, path, task=task, do_validation=False, no_post_process=True)
diff --git a/setup.py b/setup.py
@@ -34,7 +34,7 @@
 EXTRAS_REQUIRE = {
     "quality": QUALITY_REQUIRE,
     "tests": TESTS_REQUIRE,
-    "brevitas": ["brevitas", "datasets>=2.17", "onnx", "onnxruntime", "accelerate"],
+    "brevitas": ["brevitas", "torch>=2.2", "datasets>=2.17", "onnx", "onnxruntime", "accelerate"],
 }
 
 setup(