vllm-project · mgoin · Feb 10, 2026 · Feb 11, 2026 · gemini-code-assist · Feb 10, 2026
diff --git a/examples/model_free_ptq/glm_4.6_fp8_block.py b/examples/model_free_ptq/glm_4.6_fp8_block.py
@@ -0,0 +1,20 @@
+from llmcompressor import model_free_ptq
+
-from llmcompressor import model_free_ptq
+import os
+from llmcompressor import model_free_ptq
-from llmcompressor import model_free_ptq
+import os
+from llmcompressor import model_free_ptq
+MODEL_ID = "zai-org/GLM-4.6"
+SAVE_DIR = MODEL_ID.rstrip("/").split("/")[-1] + "-FP8-BLOCK"
-SAVE_DIR = MODEL_ID.rstrip("/").split("/")[-1] + "-FP8-BLOCK"
+SAVE_DIR = os.path.basename(MODEL_ID.rstrip("/")) + "-FP8-BLOCK"
-SAVE_DIR = MODEL_ID.rstrip("/").split("/")[-1] + "-FP8-BLOCK"
+SAVE_DIR = os.path.basename(MODEL_ID.rstrip("/")) + "-FP8-BLOCK"
+
+# Apply FP8-Block to the model
+# Once quantized, the model is saved
+# using compressed-tensors to the SAVE_DIR.
+model_free_ptq(
+    model_stub=MODEL_ID,
+    save_directory=SAVE_DIR,
+    scheme="FP8_BLOCK",
+    ignore=[
+        "re:.*gate$",
+        "lm_head",
+        "model.embed_tokens",
+    ],
+    max_workers=15,
+    device="cuda:0",
+)