dropbox
diff --git a/‎README.md‎
Lines changed: 7 additions & 1 deletion b/‎README.md‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎gemlite/__init__.py‎
Lines changed: 21 additions & 3 deletions b/‎gemlite/__init__.py‎
Lines changed: 21 additions & 3 deletions
diff --git a/‎gemlite/configs/4090.json‎
Lines changed: 1 addition & 1 deletion b/‎gemlite/configs/4090.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gemlite/configs/6000_ada.json‎
Lines changed: 1 addition & 1 deletion b/‎gemlite/configs/6000_ada.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gemlite/configs/a100.json‎
Lines changed: 1 addition & 1 deletion b/‎gemlite/configs/a100.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gemlite/configs/a40.json‎
Lines changed: 1 addition & 1 deletion b/‎gemlite/configs/a40.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gemlite/configs/a6000.json‎
Lines changed: 1 addition & 1 deletion b/‎gemlite/configs/a6000.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gemlite/configs/h100.json‎
Lines changed: 1 addition & 1 deletion b/‎gemlite/configs/h100.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gemlite/configs/l40.json‎
Lines changed: 1 addition & 1 deletion b/‎gemlite/configs/l40.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gemlite/configs/l40s.json‎
Lines changed: 1 addition & 1 deletion b/‎gemlite/configs/l40s.json‎
Lines changed: 1 addition & 1 deletion
@@ -66,6 +66,12 @@ from gemlite import DType, GemLiteLinear
 #Reset the default cache to get the best perf but warm-up will be slow. 
 #gemlite.reset_cache()
 
+#Set autotune mode: fast:faste start-up (default), max: long startt-up but best perf, default/False: no autotune
+#gemlite.set_autotune("fast")
+
+#Enable kernel caching: makes some kernels faster, but might break with some torch.compile settings
+#gemlite.set_kernel_caching(True)
+
 #Main constructor
 gemlite_linear = GemLiteLinear(
     W_nbits, #weight quantization bitwidth. supported: [8, 4, 2, 1]
@@ -77,7 +83,7 @@ gemlite_linear = GemLiteLinear(
     scaled_activations=False, #If the activations are scaled or not
 )
 
-#Packing: we follow the same format as hqq (https://github.com/mobiusml/hqq/)
+#Packing: we follow the hqq format (W_q - zeros) * scales ~ W (https://github.com/mobiusml/hqq/)
 gemlite_linear.pack(W_q, scales, zeros, bias)
 
 #Forward
 
@@ -1,9 +1,27 @@
-__version__ = "0.4.6"
+__version__ = "0.4.7"
 __author__  = 'Dr. Hicham Badri'
 __credits__ = 'Mobius Labs GmbH'
 
-from .core import GemLiteLinearTriton, GemLiteLinear, DType, GEMLITE_ACC_DTYPE, set_autotune_setting, set_packing_bitwidth, set_acc_dtype
-from .helper import A16W8, A8W8_int8_dynamic, A8W8_fp8_dynamic, A16Wn, A8Wn_dynamic
+from .core import (
+    GemLiteLinearTriton,
+    GemLiteLinear,
+    DType,
+    GEMLITE_ACC_DTYPE,
+    set_autotune_setting,
+    set_packing_bitwidth,
+    set_acc_dtype,
+    set_autotune,
+    set_kernel_caching,
+    forward_functional,
+)
+from .helper import (
+    A16W8,
+    A8W8_int8_dynamic,
+    A8W8_fp8_dynamic,
+    A16Wn,
+    A8Wn_dynamic,
+)
+
 
 load_config  = GemLiteLinear.load_config
 cache_config = GemLiteLinear.cache_config