Add enable_without_gamma flag to restrict pattern by plugin

andrew-k-park · andrew-k-park · commit c9733df1ebc9 · 2026-02-04T18:44:11.000+09:00
diff --git a/src/common/transformations/include/transformations/common_optimizations/rms_fusion.hpp b/src/common/transformations/include/transformations/common_optimizations/rms_fusion.hpp
@@ -30,7 +30,7 @@ namespace pass {
 class RMSFusion : public ov::pass::MatcherPass {
 public:
     OPENVINO_MATCHER_PASS_RTTI("RMSFusion");
-    RMSFusion(bool force_tail_convert = true, bool enable_div_x = false);
+    RMSFusion(bool force_tail_convert = true, bool enable_div_x = false, bool enable_without_gamma = false);
 };
 
 }  // namespace pass
diff --git a/src/common/transformations/src/transformations/common_optimizations/rms_fusion.cpp b/src/common/transformations/src/transformations/common_optimizations/rms_fusion.cpp
@@ -42,7 +42,7 @@ std::function<bool(ov::Output<ov::Node>)> constant_value(const float target_valu
 }
 }  // namespace
 
-RMSFusion::RMSFusion(bool force_tail_convert, bool enable_div_x) {
+RMSFusion::RMSFusion(bool force_tail_convert, bool enable_div_x, bool enable_without_gamma) {
     // Detect RMS decomposition pattern
     //  x * 1/Sqrt(ReduceMean(x^2,axes)+eps) * gamma
     auto x = pattern::any_input();
@@ -93,13 +93,17 @@ RMSFusion::RMSFusion(bool force_tail_convert, bool enable_div_x) {
     auto gamma_convert = pattern::optional<v0::Convert>(gamma);
     auto mul_with_gamma = pattern::wrap_type<v1::Multiply>({gamma_convert, mul_or_div});
 
-    // Pattern 2: RMS without gamma, but multiplied with dynamic input
-    // RMS(x) * scale where scale is non-constant (e.g., gate, activation, residual)
-    // This allows partial fusion: only fuse up to mul_or_div
-    auto scale = pattern::any_input(pattern::class_other_than<v0::Constant>());
-    auto mul_with_scale = pattern::wrap_type<v1::Multiply>({mul_or_div, scale});
-
-    auto rms_mul = std::make_shared<pattern::op::Or>(OutputVector{mul_with_gamma, mul_with_scale});
+    std::shared_ptr<ov::Node> rms_mul;
+    if (enable_without_gamma) {
+        // Pattern 2: RMS without gamma, but multiplied with dynamic input
+        // RMS(x) * scale where scale is non-constant (e.g., gate, activation, residual)
+        // This allows partial fusion: only fuse up to mul_or_div
+        auto scale = pattern::any_input(pattern::class_other_than<v0::Constant>());
+        auto mul_with_scale = pattern::wrap_type<v1::Multiply>({mul_or_div, scale});
+        rms_mul = std::make_shared<pattern::op::Or>(OutputVector{mul_with_gamma, mul_with_scale});
+    } else {
+        rms_mul = mul_with_gamma;
+    }
 
     std::shared_ptr<ov::Node> comp = rms_mul;
     if (force_tail_convert) {
diff --git a/src/common/transformations/tests/common_optimizations/rms_norm_decomposition_test.cpp b/src/common/transformations/tests/common_optimizations/rms_norm_decomposition_test.cpp
@@ -341,7 +341,7 @@ TEST_F(TransformationTestsF, RMSNormFusionTest10) {
         auto mul2 = std::make_shared<ov::op::v1::Multiply>(mul1, scale);
 
         model = std::make_shared<ov::Model>(ov::OutputVector{mul2}, ov::ParameterVector{input, scale});
-        manager.register_pass<RMSFusion>(false);
+        manager.register_pass<RMSFusion>(false, false, true);
     }
     {
         auto input = std::make_shared<ov::op::v0::Parameter>(ov::element::f32, ov::Shape{1, 2, 6});
@@ -373,7 +373,7 @@ TEST_F(TransformationTestsF, RMSNormFusionTest11) {
         auto mul2 = std::make_shared<ov::op::v1::Multiply>(mul1, scale);
 
         model = std::make_shared<ov::Model>(ov::OutputVector{mul2}, ov::ParameterVector{input, scale});
-        manager.register_pass<RMSFusion>(false);
+        manager.register_pass<RMSFusion>(false, false, true);
     }
     {
         auto input = std::make_shared<ov::op::v0::Parameter>(ov::element::f32, ov::PartialShape{-1, -1, 6});
diff --git a/src/plugins/intel_gpu/src/plugin/transformations_pipeline.cpp b/src/plugins/intel_gpu/src/plugin/transformations_pipeline.cpp
@@ -566,7 +566,7 @@ void TransformationsPipeline::apply(std::shared_ptr<ov::Model> func) {
             const int32_t vec_size = 8;
             return static_cast<int32_t>((gamma_shape.back() / vec_size)) > static_cast<int32_t>(device_info.max_work_group_size);
         });
-        manager.register_pass<ov::pass::RMSFusion>(false, true);
+        manager.register_pass<ov::pass::RMSFusion>(false, true, true);
         manager.register_pass<DisableFP16CompForGemma3RMSPattern>();
         manager.register_pass<DisableFP16ComForGPTOSSROPEPattern>();
         manager.register_pass<DisableFP16ComSinGenPatternForHiFiGAN>();

Original file line number	Diff line number	Diff line change
`@@ -341,7 +341,7 @@ TEST_F(TransformationTestsF, RMSNormFusionTest10) {`
`341`	`341`	`auto mul2 = std::make_shared<ov::op::v1::Multiply>(mul1, scale);`
`342`	`342`
`343`	`343`	`model = std::make_shared<ov::Model>(ov::OutputVector{mul2}, ov::ParameterVector{input, scale});`
`344`		`- manager.register_pass<RMSFusion>(false);`
	`344`	`+ manager.register_pass<RMSFusion>(false, false, true);`
`345`	`345`	`}`
`346`	`346`	`{`
`347`	`347`	`auto input = std::make_shared<ov::op::v0::Parameter>(ov::element::f32, ov::Shape{1, 2, 6});`
`@@ -373,7 +373,7 @@ TEST_F(TransformationTestsF, RMSNormFusionTest11) {`
`373`	`373`	`auto mul2 = std::make_shared<ov::op::v1::Multiply>(mul1, scale);`
`374`	`374`
`375`	`375`	`model = std::make_shared<ov::Model>(ov::OutputVector{mul2}, ov::ParameterVector{input, scale});`
`376`		`- manager.register_pass<RMSFusion>(false);`
	`376`	`+ manager.register_pass<RMSFusion>(false, false, true);`
`377`	`377`	`}`
`378`	`378`	`{`
`379`	`379`	`auto input = std::make_shared<ov::op::v0::Parameter>(ov::element::f32, ov::PartialShape{-1, -1, 6});`