used to verify ovms pipeline

liubo-intel · liubo-intel · commit c4472b70a446 · 2025-11-06T03:56:33.000-05:00
diff --git a/src/plugins/intel_cpu/src/nodes/eltwise.cpp b/src/plugins/intel_cpu/src/nodes/eltwise.cpp
@@ -11,7 +11,6 @@
 #include <cassert>
 #include <cmath>
 #include <cstddef>
-#include <limits>
 #include <map>
 #include <memory>
 #include <oneapi/dnnl/dnnl.hpp>
@@ -46,7 +45,6 @@
 #include "openvino/core/node.hpp"
 #include "openvino/core/shape.hpp"
 #include "openvino/core/type.hpp"
-#include "openvino/core/type/bfloat16.hpp"
 #include "openvino/core/type/element_type.hpp"
 #include "openvino/op/abs.hpp"
 #include "openvino/op/add.hpp"
@@ -546,20 +544,25 @@ bool Eltwise::isWithBroadcast() {
 }
 
 void Eltwise::init() {
-    // Bf16 saturation handling for gamma parameter when input precision is bf16 to make sure it stays within the valid
-    // range for bfloat16.
+    // Bf16 saturation handling for PowerStatic parameters
+    // to make sure they stay within the valid range for bfloat16.
     if (m_attrs.data.algo == Algorithm::EltwisePowerStatic && getOriginalInputPrecisionAtPort(0) == ov::element::bf16) {
-        const float lowest = static_cast<float>(std::numeric_limits<ov::bfloat16>::lowest());
-        const float max = static_cast<float>(std::numeric_limits<ov::bfloat16>::max());
-        auto& gamma = m_attrs.data.gamma;
-
-        if (gamma < lowest) {
-            gamma = lowest;
-        }
+        // Use the actual float values corresponding to bfloat16 limits
+        // 0xFF7F = -65504.0F (lowest), 0x7F7F = 65504.0F (max)
+        static constexpr float bf16_lowest = -65504.0F;
+        static constexpr float bf16_max = 65504.0F;
+
+        // Helper lambda to clamp parameter values within bf16 range
+        auto clampBf16Parameter = [&](auto& param) {
+            if (std::isfinite(param)) {
+                param = std::clamp(static_cast<float>(param), bf16_lowest, bf16_max);
+            }
+        };
 
-        if (gamma > max) {
-            gamma = max;
-        }
+        // Clamp all PowerStatic parameters
+        clampBf16Parameter(m_attrs.data.alpha);
+        clampBf16Parameter(m_attrs.data.beta);
+        clampBf16Parameter(m_attrs.data.gamma);
     }
 }
 
diff --git a/src/plugins/intel_cpu/src/transformations/cpu_opset/x64/pass/mlp_fusion.cpp b/src/plugins/intel_cpu/src/transformations/cpu_opset/x64/pass/mlp_fusion.cpp
@@ -122,6 +122,26 @@ ov::intel_cpu::MLPFusionPass::MLPFusionPass() {
     matcher_pass_callback callback = [OV_CAPTURE_CPY_AND_THIS](ov::pass::pattern::Matcher& m) {
         const auto& pattern_map = m.get_pattern_value_map();
         auto root = m.get_match_root();
+
+        // Verify VariadicSplit output[1] connects to Multiply (up branch) in combined mode
+        if (pattern_map.count(gate_up_proj_split)) {
+            auto mlp_gated_up_node = pattern_map.at(mlp_gated_up).get_node_shared_ptr();
+            auto input0 = mlp_gated_up_node->input_value(0);
+            auto input1 = mlp_gated_up_node->input_value(1);
+
+            bool found_valid_up_connection = false;
+
+            if (input0.get_node() == pattern_map.at(gate_up_proj_split).get_node() && input0.get_index() == 1) {
+                found_valid_up_connection = true;
+            }
+            if (input1.get_node() == pattern_map.at(gate_up_proj_split).get_node() && input1.get_index() == 1) {
+                found_valid_up_connection = true;
+            }
+
+            if (!found_valid_up_connection) {
+                return false;
+            }
+        }
         auto src = pattern_map.at(input);
         if (!src.get_element_type().is_real()) {
             // FakeQuantize, should skip fusion