Remove missing weights silencers in favor of HFQuantizer solution (#1017)

kylesayrs · web-flow · commit 2f7c620c6034 · 2025-03-12T00:41:50.000Z
## Purpose ## * Remove warning silencing code that was previously needed for loading quantized models but is now handled by huggingface/transformers#36152 --------- Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>
diff --git a/src/llmcompressor/transformers/sparsification/compressed_tensors_utils.py b/src/llmcompressor/transformers/sparsification/compressed_tensors_utils.py
@@ -86,15 +86,6 @@ def save_pretrained_wrapper(
             # https://github.com/huggingface/transformers/pull/30488
             transformers.modeling_utils.dtype_byte_size = new_dtype_byte_size
 
-            def skip(*args, **kwargs):
-                pass
-
-            # Skip the initializer step. This accelerates the loading
-            # of the models, especially for the quantized models
-            torch.nn.init.kaiming_uniform_ = skip
-            torch.nn.init.uniform_ = skip
-            torch.nn.init.normal_ = skip
-
             # state_dict gets passed in as a kwarg for FSDP models
             state_dict = kwargs.pop("state_dict", None)
             if state_dict is None:
diff --git a/tests/llmcompressor/transformers/sparsification/test_compress_tensor_utils.py b/tests/llmcompressor/transformers/sparsification/test_compress_tensor_utils.py
@@ -1,4 +1,3 @@
-import logging
 import math
 import shutil
 
@@ -70,19 +69,10 @@ def test_sparse_model_reload(compressed, config, dtype, tmp_path):
         clear_sparse_session=False,
     )
 
-    # temporarily set the log level to error, to ignore printing out long missing
-    # and unexpected key error messages (these are EXPECTED for quantized models)
-    transformers_logger = logging.getLogger("transformers.modeling_utils")
-    restore_log_level = transformers_logger.getEffectiveLevel()
-    transformers_logger.setLevel(level=logging.ERROR)
-
     model = AutoModelForCausalLM.from_pretrained(
         tmp_path / "oneshot_out", torch_dtype=dtype
     )
 
-    # restore transformers logging level now that model shell is loaded
-    transformers_logger.setLevel(level=restore_log_level)
-
     # assert that sample layer has the intended sparsity
     assert math.isclose(
         tensor_sparsity(model.state_dict()[one_of_sparse_weights]),