microsoft · guschmue · Feb 5, 2026 · Jan 20, 2026 · Jan 27, 2026 · Feb 3, 2026
diff --git a/onnxruntime/core/providers/webgpu/math/gemm_packed.cc b/onnxruntime/core/providers/webgpu/math/gemm_packed.cc
@@ -109,6 +109,7 @@ Status ApplyGemmPacked(const Tensor* a,
   const bool output_is_vec4 = output_components == 4;
   // The parameter `is_channel_last` is not used for GEMM.
   const bool need_split_k = split_k_config.UseSplitK(
+      &context,
       is_vec4 && output_is_vec4, ActivationKind::None, /*batch_size*/ 1, /*is_gemm*/ true, /*is_channels_last*/ true, M, N, K);
   if (need_split_k) {
     const Tensor* bias = nullptr;

diff --git a/onnxruntime/core/providers/webgpu/math/matmul.cc b/onnxruntime/core/providers/webgpu/math/matmul.cc
@@ -246,7 +246,7 @@ Status ComputeMatMul(ComputeContext* context,
   uint32_t split_dim_inner = 1;
 
   const SplitKConfig& split_k_config = context->GetSplitKConfig();
-  const bool need_split_k = split_k_config.UseSplitK(is_vec4, activation.activation_kind_, batch_size, /*is_gemm*/ false, is_channels_last, dim_a_outer, dim_b_outer, dim_inner);
+  const bool need_split_k = split_k_config.UseSplitK(context, is_vec4, activation.activation_kind_, batch_size, /*is_gemm*/ false, is_channels_last, dim_a_outer, dim_b_outer, dim_inner);
   if (need_split_k) {
     ORT_ENFORCE(batch_size == 1, "Split-K MatMul only supports batch_size == 1.");
     ORT_ENFORCE(is_vec4, "Split-K MatMul only supports bias in vec4 format.");

diff --git a/onnxruntime/core/providers/webgpu/webgpu_utils.cc b/onnxruntime/core/providers/webgpu/webgpu_utils.cc
@@ -3,6 +3,7 @@
 #include "core/providers/webgpu/webgpu_utils.h"
 
 #include <sstream>
+#include "core/providers/webgpu/compute_context.h"
 #include "core/providers/webgpu/shader_variable.h"
 
 namespace onnxruntime {
@@ -71,6 +72,7 @@ uint32_t SplitKConfig::GetMaxDimInnerWithSplitK() const {
 }
 
 bool SplitKConfig::UseSplitK(
+    ComputeContext* context,
     bool is_vec4,
     ActivationKind activation_kind,
     uint64_t batch_size,
@@ -79,6 +81,11 @@ bool SplitKConfig::UseSplitK(
     uint32_t dim_a_outer,
     uint32_t dim_b_outer,
     uint32_t dim_inner) const {
+  // Current Split-K implementation relies on atomic operations, which are not deterministic.
+  if (context->KernelContext().GetUseDeterministicCompute()) {
+    return false;
+  }
+
   if (!enable_split_k_) {
     return false;
   }

diff --git a/onnxruntime/core/providers/webgpu/webgpu_utils.h b/onnxruntime/core/providers/webgpu/webgpu_utils.h
@@ -13,6 +13,7 @@
 namespace onnxruntime {
 namespace webgpu {
 
+class ComputeContext;
 class ShaderVariableHelper;
 
 template <typename T>
@@ -106,6 +107,7 @@ class SplitKConfig {
   explicit SplitKConfig(const wgpu::AdapterInfo& adapter_info);
 
   bool UseSplitK(
+      ComputeContext* context,
       bool is_vec4, ActivationKind activation_kind, uint64_t batch_size, bool is_gemm,
       bool is_channels_last, uint32_t dim_a_outer,
       uint32_t dim_b_outer, uint32_t dim_inner) const;