Merge pull request #50 from liwei109/quant

baoqian426 · web-flow · commit ed90690bd3c2 · 2025-12-24T17:05:04.000+08:00
[refactor] remove redundant code in linear
diff --git a/vllm_kunlun/models/llama.py b/vllm_kunlun/models/llama.py
@@ -38,7 +38,7 @@
 from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
 from vllm_kunlun.ops.activation import SiluAndMul
 from vllm.model_executor.layers.layernorm import RMSNorm
-from vllm_kunlun.ops.linear import (MergedColumnParallelLinear,
+from vllm.model_executor.layers.linear import (MergedColumnParallelLinear,
                                                QKVParallelLinear,
                                                RowParallelLinear)
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
diff --git a/vllm_kunlun/models/qwen2.py b/vllm_kunlun/models/qwen2.py
@@ -40,7 +40,7 @@
 from vllm.distributed import get_pp_group, get_tensor_model_parallel_world_size
 from vllm_kunlun.ops.activation import SiluAndMul
 from vllm.model_executor.layers.layernorm import RMSNorm
-from vllm_kunlun.ops.linear import (MergedColumnParallelLinear,
+from vllm.model_executor.layers.linear import (MergedColumnParallelLinear,
                                                QKVParallelLinear,
                                                RowParallelLinear)
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
diff --git a/vllm_kunlun/models/qwen3.py b/vllm_kunlun/models/qwen3.py
@@ -38,7 +38,7 @@
 from vllm.logger import init_logger
 from vllm.model_executor.layers.layernorm import RMSNorm
 
-from vllm_kunlun.ops.linear import (QKVParallelLinear,
+from vllm.model_executor.layers.linear import (QKVParallelLinear,
                                                RowParallelLinear)
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
diff --git a/vllm_kunlun/models/qwen3_moe.py b/vllm_kunlun/models/qwen3_moe.py
@@ -40,7 +40,7 @@
 from vllm_kunlun.ops.activation import SiluAndMul
 from vllm_kunlun.ops.fused_moe.layer import FusedMoE
 from vllm.model_executor.layers.layernorm import RMSNorm
-from vllm_kunlun.ops.linear import (MergedColumnParallelLinear,
+from vllm.model_executor.layers.linear import (MergedColumnParallelLinear,
                                                QKVParallelLinear,
                                                RowParallelLinear,
                                                ReplicatedLinear)
diff --git a/vllm_kunlun/models/qwen3_next.py b/vllm_kunlun/models/qwen3_next.py
@@ -33,11 +33,11 @@
 from vllm.model_executor.layers.layernorm import (
     GemmaRMSNorm as Qwen3NextRMSNorm)
 # yapf: enable
-from vllm_kunlun.ops.linear import (ColumnParallelLinear,
+from vllm.model_executor.layers.linear import (ColumnParallelLinear,
                                                MergedColumnParallelLinear,
                                                QKVParallelLinear,
                                                RowParallelLinear)
-from vllm_kunlun.ops.linear import ReplicatedLinear
+from vllm.model_executor.layers.linear import ReplicatedLinear
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.mamba.abstract import MambaBase
 from vllm.model_executor.layers.mamba.mamba_mixer2 import (
diff --git a/vllm_kunlun/models/qwen3_omni_moe_thinker.py b/vllm_kunlun/models/qwen3_omni_moe_thinker.py
@@ -92,7 +92,7 @@
 from vllm.platforms.interface import _Backend
 from vllm.sequence import IntermediateTensors
 
-from vllm_kunlun.ops.linear import (
+from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     MergedColumnParallelLinear,
     QKVParallelLinear,
diff --git a/vllm_kunlun/models/qwen3_vl.py b/vllm_kunlun/models/qwen3_vl.py
@@ -50,7 +50,7 @@
 from vllm.logger import init_logger
 from vllm.model_executor.layers.activation import _ACTIVATION_REGISTRY
 
-from vllm_kunlun.ops.linear import (ColumnParallelLinear,
+from vllm.model_executor.layers.linear import (ColumnParallelLinear,
                                                RowParallelLinear)
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
 from vllm.model_executor.layers.quantization import QuantizationConfig
diff --git a/vllm_kunlun/ops/linear.py b/vllm_kunlun/ops/linear.py