huggingface · MekkCyber · May 16, 2025 · May 2, 2025 · May 2, 2025 · May 7, 2025
diff --git a/src/transformers/quantizers/quantizer_torchao.py b/src/transformers/quantizers/quantizer_torchao.py
@@ -188,7 +188,11 @@ def _process_model_before_weight_loading(
         if self.quantization_config.include_embedding:
             input_emb = model.get_input_embeddings()
             input_emb_names = [name for name, module in model.named_modules() if id(module) == id(input_emb)]
-            self.modules_to_not_convert = [x for x in self.modules_to_not_convert if x not in input_emb_names]
+            output_emb = model.get_output_embeddings()
+            output_emb_names = [name for name, module in model.named_modules() if id(module) == id(output_emb)]
+            self.modules_to_not_convert = [
+                x for x in self.modules_to_not_convert if x not in input_emb_names + output_emb_names
+            ]
 def get_input_embeddings(self): 
     return self.model.embed_tokens 
 def set_input_embeddings(self, value): 
     self.model.embed_tokens = value 
 def get_output_embeddings(self): 
     return self.lm_head 
 def get_input_embeddings(self): 
     return self.model.embed_tokens 
  
 def set_input_embeddings(self, value): 
     self.model.embed_tokens = value 
  
 def get_output_embeddings(self): 
     return self.lm_head 
         return
 
     def check_quantized_param(

diff --git a/tests/quantization/torchao_integration/test_torchao.py b/tests/quantization/torchao_integration/test_torchao.py
@@ -210,7 +210,9 @@ def test_include_embedding(self):
             granularity=granularity,
             mapping_type=mapping_type,
         )
-        config = AOPerModuleConfig({"_default": None, "model.embed_tokens": embedding_config})
+        config = AOPerModuleConfig(
+            {"_default": None, "model.embed_tokens": embedding_config, "lm_head": embedding_config}
+        )
         # need set `include_embedding` to True
         quant_config = TorchAoConfig(quant_type=config, include_embedding=True)
         quantized_model = AutoModelForCausalLM.from_pretrained(
@@ -220,6 +222,7 @@ def test_include_embedding(self):
         )
         # making sure embedding is quantized
         self.assertTrue(isinstance(quantized_model.model.embed_tokens.weight, AffineQuantizedTensor))
+        self.assertTrue(isinstance(quantized_model.lm_head.weight, AffineQuantizedTensor))
         tokenizer = AutoTokenizer.from_pretrained(self.model_name)
 
         input_ids = tokenizer(self.input_text, return_tensors="pt").to(self.device)