fix int8 models crash during inference on the GNR platform with fp16 inference_precision

liubo-intel · liubo-intel · commit b88cadeab155 · 2025-06-23T13:39:15.000+08:00
diff --git a/src/plugins/intel_cpu/src/nodes/conv.cpp b/src/plugins/intel_cpu/src/nodes/conv.cpp
@@ -400,6 +400,12 @@ std::tuple<VecMemoryDescs, MemoryDescPtr> Convolution::initMemoryDescriptors(ov:
             srcDescs.push_back(MemoryDescUtils::makeEmptyDesc());
             continue;
         }
+        // int8 convolution with f16 bias is not supported in oneDNN
+        if (i == BIAS && m_attrs.withBias && canBeExecutedInInt8() && srcTypes[i] == ov::element::f16) {
+            auto srcDesc = creatorsMap.at(LayoutType::ncsp)->createSharedDesc(ov::element::f32, getInputShapeAtPort(i));
+            srcDescs.push_back(srcDesc);
+            continue;
+        }
         auto srcDesc = creatorsMap.at(LayoutType::ncsp)->createSharedDesc(srcTypes[i], getInputShapeAtPort(i));
         srcDescs.push_back(srcDesc);
     }

Original file line number	Diff line number	Diff line change
`@@ -400,6 +400,12 @@ std::tuple<VecMemoryDescs, MemoryDescPtr> Convolution::initMemoryDescriptors(ov:`
`400`	`400`	`srcDescs.push_back(MemoryDescUtils::makeEmptyDesc());`
`401`	`401`	`continue;`
`402`	`402`	`}`
	`403`	`+ // int8 convolution with f16 bias is not supported in oneDNN`
	`404`	`+ if (i == BIAS && m_attrs.withBias && canBeExecutedInInt8() && srcTypes[i] == ov::element::f16) {`
	`405`	`+ auto srcDesc = creatorsMap.at(LayoutType::ncsp)->createSharedDesc(ov::element::f32, getInputShapeAtPort(i));`
	`406`	`+ srcDescs.push_back(srcDesc);`
	`407`	`+ continue;`
	`408`	`+ }`
`403`	`409`	`auto srcDesc = creatorsMap.at(LayoutType::ncsp)->createSharedDesc(srcTypes[i], getInputShapeAtPort(i));`
`404`	`410`	`srcDescs.push_back(srcDesc);`
`405`	`411`	`}`