vllm-project · Wangzheee · Dec 9, 2025
diff --git a/src/llmcompressor/modeling/qwen3_vl_moe.py b/src/llmcompressor/modeling/qwen3_vl_moe.py
@@ -97,22 +97,18 @@ def __init__(self, config, original):
         from transformers.models.qwen3_vl_moe.modeling_qwen3_vl_moe import (
             Qwen3VLMoeTextMLP,
         )
-
+        super().__init__()
         self.num_experts = original.gate_up_proj.shape[0]
-        with skip_weights_initialize():
-            super().__init__(
-                [Qwen3VLMoeTextMLP(config) for _ in range(self.num_experts)]
-            )
-
         intermediate_size = original.down_proj.shape[1]
-
         for i in range(self.num_experts):
             gate_up = original.gate_up_proj[i]
             down = original.down_proj[i]
 
-            gate_proj = gate_up[:, :intermediate_size]
-            up_proj = gate_up[:, intermediate_size:]
-
-            self[i].gate_proj.weight.data = gate_proj.t().clone().contiguous()
-            self[i].up_proj.weight.data = up_proj.t().clone().contiguous()
-            self[i].down_proj.weight.data = down.t().clone().contiguous()
+            mlp = Qwen3VLMoeTextMLP(config, config.moe_intermediate_size)
+            mlp.gate_proj.weight = torch.nn.Parameter(
+                gate_up[:, :intermediate_size].t(), requires_grad=False)
+            mlp.up_proj.weight = torch.nn.Parameter(
+                gate_up[:, intermediate_size:].t(), requires_grad=False)
+            mlp.down_proj.weight = torch.nn.Parameter(
+                down.t(), requires_grad=False)
+            self.append(mlp)