fixes

JyotinderSingh · JyotinderSingh · commit 9425064d85ab · 2025-10-14T12:50:55.000+05:30
diff --git a/guides/int8_quantization_in_keras.py b/guides/int8_quantization_in_keras.py
@@ -174,6 +174,12 @@
 # Save INT8 Gemma3 model
 gemma3.save_to_preset("gemma3_int8")
 
+# Reload and compare outputs
+gemma3_int8 = Gemma3CausalLM.from_preset("gemma3_int8")
+
+output = gemma3_int8.generate("Keras is a", max_length=30)
+print("Quantized reloaded output:", output)
+
 
 # Compute storage savings
 def bytes_to_mib(n):
@@ -188,12 +194,6 @@ def bytes_to_mib(n):
 print(f"Gemma3: INT8 file size: {bytes_to_mib(gemma_int8_size):.2f} MiB")
 print(f"Gemma3: Size reduction: {gemma_reduction:.1f}%")
 
-# Reload and compare outputs
-gemma3_int8 = Gemma3CausalLM.from_preset("gemma3_int8")
-
-output = gemma3_int8.generate("Keras is a", max_length=30)
-print("Quantized reloaded output:", output)
-
 """
 ## Practical tips
 
diff --git a/guides/ipynb/int8_quantization_in_keras.ipynb b/guides/ipynb/int8_quantization_in_keras.ipynb
@@ -226,6 +226,12 @@
     "# Save INT8 Gemma3 model\n",
     "gemma3.save_to_preset(\"gemma3_int8\")\n",
     "\n",
+    "# Reload and compare outputs\n",
+    "gemma3_int8 = Gemma3CausalLM.from_preset(\"gemma3_int8\")\n",
+    "\n",
+    "output = gemma3_int8.generate(\"Keras is a\", max_length=30)\n",
+    "print(\"Quantized reloaded output:\", output)\n",
+    "\n",
     "\n",
     "# Compute storage savings\n",
     "def bytes_to_mib(n):\n",
@@ -238,13 +244,7 @@
     "gemma_reduction = 100.0 * (1.0 - (gemma_int8_size / max(gemma_fp32_size, 1)))\n",
     "print(f\"Gemma3: FP32 file size: {bytes_to_mib(gemma_fp32_size):.2f} MiB\")\n",
     "print(f\"Gemma3: INT8 file size: {bytes_to_mib(gemma_int8_size):.2f} MiB\")\n",
-    "print(f\"Gemma3: Size reduction: {gemma_reduction:.1f}%\")\n",
-    "\n",
-    "# Reload and compare outputs\n",
-    "gemma3_int8 = Gemma3CausalLM.from_preset(\"gemma3_int8\")\n",
-    "\n",
-    "output = gemma3_int8.generate(\"Keras is a\", max_length=30)\n",
-    "print(\"Quantized reloaded output:\", output)"
+    "print(f\"Gemma3: Size reduction: {gemma_reduction:.1f}%\")"
    ]
   },
   {
diff --git a/guides/md/int8_quantization_in_keras.md b/guides/md/int8_quantization_in_keras.md
@@ -194,6 +194,12 @@ print("Quantized output:", output)
 # Save INT8 Gemma3 model
 gemma3.save_to_preset("gemma3_int8")
 
+# Reload and compare outputs
+gemma3_int8 = Gemma3CausalLM.from_preset("gemma3_int8")
+
+output = gemma3_int8.generate("Keras is a", max_length=30)
+print("Quantized reloaded output:", output)
+
 
 # Compute storage savings
 def bytes_to_mib(n):
@@ -207,12 +213,6 @@ gemma_reduction = 100.0 * (1.0 - (gemma_int8_size / max(gemma_fp32_size, 1)))
 print(f"Gemma3: FP32 file size: {bytes_to_mib(gemma_fp32_size):.2f} MiB")
 print(f"Gemma3: INT8 file size: {bytes_to_mib(gemma_int8_size):.2f} MiB")
 print(f"Gemma3: Size reduction: {gemma_reduction:.1f}%")
-
-# Reload and compare outputs
-gemma3_int8 = Gemma3CausalLM.from_preset("gemma3_int8")
-
-output = gemma3_int8.generate("Keras is a", max_length=30)
-print("Quantized reloaded output:", output)
 ```
 
 <div class="k-default-codeblock">