[GPU] Fix SmolVLA inference fail (openvinotoolkit#33125)

clee30 · web-flow · commit 634365050a3e · 2025-12-05T10:31:11.000Z
SmolVLA has a VariadicSplit opset prior to FullyConnected.
FullyConnected cannot accept input without default output as
variadicSplit has two outputs. Prevent fc_convert_fusion transformation
to run when input data has two outputs.

Besides, add u8 type to cum_sum.  

CVS-174293
diff --git a/src/plugins/intel_gpu/src/graph/impls/ocl/cum_sum.cpp b/src/plugins/intel_gpu/src/graph/impls/ocl/cum_sum.cpp
@@ -92,6 +92,9 @@ namespace detail {
 
 attach_cum_sum_impl::attach_cum_sum_impl() {
     implementation_map<cum_sum>::add(impl_types::ocl, shape_types::any, typed_primitive_impl_ocl<cum_sum>::create<cum_sum_impl>, {
+        std::make_tuple(data_types::u8, format::bfyx),
+        std::make_tuple(data_types::u8, format::bfzyx),
+        std::make_tuple(data_types::u8, format::bfwzyx),
         std::make_tuple(data_types::i32, format::bfyx),
         std::make_tuple(data_types::i32, format::bfzyx),
         std::make_tuple(data_types::i32, format::bfwzyx),
diff --git a/src/plugins/intel_gpu/src/kernel_selector/kernels/cum_sum/cum_sum_kernel_ref.cpp b/src/plugins/intel_gpu/src/kernel_selector/kernels/cum_sum/cum_sum_kernel_ref.cpp
@@ -10,10 +10,13 @@
 namespace kernel_selector {
 ParamsKey CumSumKernelRef::GetSupportedKey() const {
     ParamsKey k;
+
+    k.EnableInputDataType(Datatype::UINT8);
     k.EnableInputDataType(Datatype::F16);
     k.EnableInputDataType(Datatype::F32);
     k.EnableInputDataType(Datatype::INT32);
     k.EnableInputDataType(Datatype::INT64);
+    k.EnableOutputDataType(Datatype::UINT8);
     k.EnableOutputDataType(Datatype::F16);
     k.EnableOutputDataType(Datatype::F32);
     k.EnableOutputDataType(Datatype::INT32);
diff --git a/src/plugins/intel_gpu/src/plugin/transformations/fc_convert_fusion.cpp b/src/plugins/intel_gpu/src/plugin/transformations/fc_convert_fusion.cpp
@@ -31,7 +31,6 @@ FullyConnectedConvertFusion::FullyConnectedConvertFusion() {
     ov::matcher_pass_callback callback = [=](Matcher& m) {
         const auto& pattern_map = m.get_pattern_value_map();
 
-        const auto& m_data = pattern_map.at(data).get_node_shared_ptr();
         const auto& m_weights = pattern_map.at(weights).get_node_shared_ptr();
         const auto& m_bias = pattern_map.at(bias).get_node_shared_ptr();
         const auto& m_convert = pattern_map.at(convert).get_node_shared_ptr();
@@ -42,17 +41,18 @@ FullyConnectedConvertFusion::FullyConnectedConvertFusion() {
         auto it = pattern_map.find(fully_connected);
         if (it != pattern_map.end()) {
             m_fc = it->second.get_node_shared_ptr();
-            new_fc = std::make_shared<op::FullyConnected>(m_data, m_weights, m_bias, output_type);
+            new_fc = std::make_shared<op::FullyConnected>(m_fc->input_value(0), m_weights, m_bias, output_type);
         } else {
             m_fc = pattern_map.at(fully_connected_compressed).get_node_shared_ptr();
+
             if (m_fc->input_values().size() == 4)
-                new_fc = std::make_shared<op::FullyConnectedCompressed>(m_data,
+                new_fc = std::make_shared<op::FullyConnectedCompressed>(m_fc->input_value(0),
                                                                         m_weights,
                                                                         m_bias,
                                                                         m_fc->input_value(3),
                                                                         output_type);
             else
-                new_fc = std::make_shared<op::FullyConnectedCompressed>(m_data,
+                new_fc = std::make_shared<op::FullyConnectedCompressed>(m_fc->input_value(0),
                                                                         m_weights,
                                                                         m_bias,
                                                                         m_fc->input_value(3),
diff --git a/src/plugins/intel_gpu/tests/unit/test_cases/cum_sum_gpu_test.cpp b/src/plugins/intel_gpu/tests/unit/test_cases/cum_sum_gpu_test.cpp
@@ -158,6 +158,8 @@ class cum_sum_gpu : public ::testing::TestWithParam<cum_sum_params> {
             return data_types::i32;
         else if (std::is_same<input_type, int64_t>::value)
             return data_types::i64;
+        else if (std::is_same<input_type, unsigned char>::value)
+            return data_types::u8;
         else
             throw std::runtime_error("Unsupported cum sum data type in cum_sum_gpu_test.cpp");
     }
@@ -215,11 +217,13 @@ class cum_sum_gpu_fp16 : public ::cum_sum_gpu<cum_sum_test_params, ov::float16,
 class cum_sum_gpu_fp32 : public ::cum_sum_gpu<cum_sum_test_params, float, float> {};
 class cum_sum_gpu_int32 : public ::cum_sum_gpu<cum_sum_test_params, int32_t, int32_t> {};
 class cum_sum_gpu_int64 : public ::cum_sum_gpu<cum_sum_test_params, int64_t, int64_t> {};
+class cum_sum_gpu_uint8 : public ::cum_sum_gpu<cum_sum_test_params, unsigned char, unsigned char> {};
 
 TEST_P(cum_sum_gpu_fp16, basic) { auto p = GetParam(); execute(p); }
 TEST_P(cum_sum_gpu_fp32, basic) { auto p = GetParam(); execute(p); }
 TEST_P(cum_sum_gpu_int32, basic) { auto p = GetParam(); execute(p); }
 TEST_P(cum_sum_gpu_int64, basic) { auto p = GetParam(); execute(p); }
+TEST_P(cum_sum_gpu_uint8, basic) { auto p = GetParam(); execute(p); }
 
 namespace {
     std::vector<std::vector<int>> axes = {
@@ -237,31 +241,37 @@ INSTANTIATE_TEST_SUITE_P(axis_0, cum_sum_gpu_fp16, ::testing::Combine(CASE_CUM_S
 INSTANTIATE_TEST_SUITE_P(axis_0, cum_sum_gpu_fp32, ::testing::Combine(CASE_CUM_SUM_AXIS_0));
 INSTANTIATE_TEST_SUITE_P(axis_0, cum_sum_gpu_int32, ::testing::Combine(CASE_CUM_SUM_AXIS_0));
 INSTANTIATE_TEST_SUITE_P(axis_0, cum_sum_gpu_int64, ::testing::Combine(CASE_CUM_SUM_AXIS_0));
+INSTANTIATE_TEST_SUITE_P(axis_0, cum_sum_gpu_uint8, ::testing::Combine(CASE_CUM_SUM_AXIS_0));
 
 INSTANTIATE_TEST_SUITE_P(axis_1, cum_sum_gpu_fp16, ::testing::Combine(CASE_CUM_SUM_AXIS_1));
 INSTANTIATE_TEST_SUITE_P(axis_1, cum_sum_gpu_fp32, ::testing::Combine(CASE_CUM_SUM_AXIS_1));
 INSTANTIATE_TEST_SUITE_P(axis_1, cum_sum_gpu_int32, ::testing::Combine(CASE_CUM_SUM_AXIS_1));
 INSTANTIATE_TEST_SUITE_P(axis_1, cum_sum_gpu_int64, ::testing::Combine(CASE_CUM_SUM_AXIS_1));
+INSTANTIATE_TEST_SUITE_P(axis_1, cum_sum_gpu_uint8, ::testing::Combine(CASE_CUM_SUM_AXIS_1));
 
 INSTANTIATE_TEST_SUITE_P(axis_2, cum_sum_gpu_fp16, ::testing::Combine(CASE_CUM_SUM_AXIS_2));
 INSTANTIATE_TEST_SUITE_P(axis_2, cum_sum_gpu_fp32, ::testing::Combine(CASE_CUM_SUM_AXIS_2));
 INSTANTIATE_TEST_SUITE_P(axis_2, cum_sum_gpu_int32, ::testing::Combine(CASE_CUM_SUM_AXIS_2));
 INSTANTIATE_TEST_SUITE_P(axis_2, cum_sum_gpu_int64, ::testing::Combine(CASE_CUM_SUM_AXIS_2));
+INSTANTIATE_TEST_SUITE_P(axis_2, cum_sum_gpu_uint8, ::testing::Combine(CASE_CUM_SUM_AXIS_2));
 
 INSTANTIATE_TEST_SUITE_P(axis_3, cum_sum_gpu_fp16, ::testing::Combine(CASE_CUM_SUM_AXIS_3));
 INSTANTIATE_TEST_SUITE_P(axis_3, cum_sum_gpu_fp32, ::testing::Combine(CASE_CUM_SUM_AXIS_3));
 INSTANTIATE_TEST_SUITE_P(axis_3, cum_sum_gpu_int32, ::testing::Combine(CASE_CUM_SUM_AXIS_3));
 INSTANTIATE_TEST_SUITE_P(axis_3, cum_sum_gpu_int64, ::testing::Combine(CASE_CUM_SUM_AXIS_3));
+INSTANTIATE_TEST_SUITE_P(axis_3, cum_sum_gpu_uint8, ::testing::Combine(CASE_CUM_SUM_AXIS_3));
 
 INSTANTIATE_TEST_SUITE_P(axis_4, cum_sum_gpu_fp16, ::testing::Combine(CASE_CUM_SUM_AXIS_4));
 INSTANTIATE_TEST_SUITE_P(axis_4, cum_sum_gpu_fp32, ::testing::Combine(CASE_CUM_SUM_AXIS_4));
 INSTANTIATE_TEST_SUITE_P(axis_4, cum_sum_gpu_int32, ::testing::Combine(CASE_CUM_SUM_AXIS_4));
 INSTANTIATE_TEST_SUITE_P(axis_4, cum_sum_gpu_int64, ::testing::Combine(CASE_CUM_SUM_AXIS_4));
+INSTANTIATE_TEST_SUITE_P(axis_4, cum_sum_gpu_uint8, ::testing::Combine(CASE_CUM_SUM_AXIS_4));
 
 INSTANTIATE_TEST_SUITE_P(axis_5, cum_sum_gpu_fp16, ::testing::Combine(CASE_CUM_SUM_AXIS_5));
 INSTANTIATE_TEST_SUITE_P(axis_5, cum_sum_gpu_fp32, ::testing::Combine(CASE_CUM_SUM_AXIS_5));
 INSTANTIATE_TEST_SUITE_P(axis_5, cum_sum_gpu_int32, ::testing::Combine(CASE_CUM_SUM_AXIS_5));
 INSTANTIATE_TEST_SUITE_P(axis_5, cum_sum_gpu_int64, ::testing::Combine(CASE_CUM_SUM_AXIS_5));
+INSTANTIATE_TEST_SUITE_P(axis_5, cum_sum_gpu_uint8, ::testing::Combine(CASE_CUM_SUM_AXIS_5));
 
 INSTANTIATE_TEST_SUITE_P(export_import, cum_sum_gpu_int64,
     ::testing::Combine(::testing::Values(5), ::testing::Values(5), ::testing::Values(5),
diff --git a/src/plugins/intel_gpu/tests/unit/transformations/fc_convert_fusion_test.cpp b/src/plugins/intel_gpu/tests/unit/transformations/fc_convert_fusion_test.cpp
@@ -20,6 +20,7 @@
 #include "intel_gpu/op/fully_connected.hpp"
 #include "intel_gpu/op/fully_connected_compressed.hpp"
 #include "intel_gpu/op/placeholder.hpp"
+#include "openvino/op/variadic_split.hpp"
 
 using namespace testing;
 using namespace ov::intel_gpu;
@@ -28,7 +29,7 @@ TEST_F(TransformationTestsF, FullyConnectedConvertFusionTest1) {
     {
         auto input = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{ -1, 16 });
         auto weights_const = ov::op::v0::Constant::create(ov::element::u8, ov::Shape{ 32, 16 }, { 1 });
-	auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
+        auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
         auto scale_const = ov::op::v0::Constant::create(ov::element::f16, ov::Shape{ 32, 1 }, { 1 });
         auto zp_const = ov::op::v0::Constant::create(ov::element::f16, ov::Shape{ 32, 1 }, { 1 });
         auto fc_compressed = std::make_shared<ov::intel_gpu::op::FullyConnectedCompressed>(input, weights_const, no_bias, scale_const, zp_const);
@@ -40,7 +41,7 @@ TEST_F(TransformationTestsF, FullyConnectedConvertFusionTest1) {
     {
         auto input = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::PartialShape{ -1, 16 });
         auto weights_const = ov::op::v0::Constant::create(ov::element::u8, ov::Shape{ 32, 16 }, { 1 });
-	auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
+        auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
         auto scale_const = ov::op::v0::Constant::create(ov::element::f16, ov::Shape{ 32, 1 }, { 1 });
         auto zp_const = ov::op::v0::Constant::create(ov::element::f16, ov::Shape{ 32, 1 }, { 1 });
         auto fc_compressed = std::make_shared<ov::intel_gpu::op::FullyConnectedCompressed>(input, weights_const, no_bias, scale_const, zp_const, ov::element::f32);
@@ -53,7 +54,7 @@ TEST_F(TransformationTestsF, FullyConnectedConvertFusionTest2) {
     {
         auto input1 = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::Shape{3, 2, 2});
         auto input2 = ov::op::v0::Constant::create(ov::element::f16, ov::Shape{2, 2}, {1});
-	auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
+        auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
         auto matmul = std::make_shared<op::FullyConnected>(input1, input2, no_bias);
         auto convert = std::make_shared<ov::op::v0::Convert>(matmul, ov::element::f32);
 
@@ -63,7 +64,43 @@ TEST_F(TransformationTestsF, FullyConnectedConvertFusionTest2) {
     {
         auto input1 = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::Shape{3, 2, 2});
         auto input2 = ov::op::v0::Constant::create(ov::element::f16, ov::Shape{2, 2}, {1});
-	auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
+        auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
+        auto matmul = std::make_shared<op::FullyConnected>(input1, input2, no_bias, ov::element::f32);
+
+        model_ref = std::make_shared<ov::Model>(ov::OutputVector{matmul}, ov::ParameterVector{input1});
+    }
+}
+
+TEST_F(TransformationTestsF, FullyConnectedConvertFusionTest3) {
+    {
+        auto input1 = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::Shape{1, 163, 960});
+        auto axis_const = ov::op::v0::Constant::create(ov::element::i64, ov::Shape{1}, {1});
+        auto split_const = ov::op::v0::Constant::create(ov::element::i64, ov::Shape{2}, {113, 50});
+        auto split = std::make_shared<ov::op::v1::VariadicSplit>(input1, axis_const, split_const);
+        auto input2 = ov::op::v0::Constant::create(ov::element::f16, ov::Shape{720, 960}, {1});
+        auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
+
+        bool default_output_mismatch_exception = false;
+        try {
+            auto matmul = std::make_shared<op::FullyConnected>(split, input2, no_bias);
+        } catch(std::exception& exc) {
+            const std::string error = exc.what();
+            default_output_mismatch_exception = error.find("Default output not supported") != std::string::npos;
+        }
+
+        ASSERT_TRUE(default_output_mismatch_exception);
+
+        auto non_split_input = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::Shape{1, 50, 960});
+        auto matmul = std::make_shared<op::FullyConnected>(non_split_input, input2, no_bias);
+        auto convert = std::make_shared<ov::op::v0::Convert>(matmul, ov::element::f32);
+        model = std::make_shared<ov::Model>(ov::OutputVector{convert}, ov::ParameterVector{non_split_input});
+        manager.register_pass<FullyConnectedConvertFusion>();
+
+    }
+    {
+        auto input1 = std::make_shared<ov::op::v0::Parameter>(ov::element::f16, ov::Shape{1, 50, 960});
+        auto input2 = ov::op::v0::Constant::create(ov::element::f16, ov::Shape{720, 960}, {1});
+        auto no_bias = std::make_shared<ov::intel_gpu::op::Placeholder>();
         auto matmul = std::make_shared<op::FullyConnected>(input1, input2, no_bias, ov::element::f32);
 
         model_ref = std::make_shared<ov::Model>(ov::OutputVector{matmul}, ov::ParameterVector{input1});