[webgpu] Fused GeneratePositionIDs into FusedQKRotaryEmbedding (#26400)

xiaofeihan1 · web-flow · commit 771a4d49cd23 · 2025-10-27T12:16:02.000-07:00
### Description
This PR fused GeneratePositionIDs into FusedQKRotaryEmbedding which can
reduce one kernel call.

### Motivation and Context
Previously, for GQA, the processing flow was:
`SplitPackedQKVProgram -&gt; GeneratePositionIDs -&gt; FusedQKRotaryEmbedding
-&gt; FlashAttention`

After this change, the pipeline becomes:
`SplitPackedQKVProgram -&gt; FusedQKRotaryEmbedding -&gt; FlashAttention`

on NV5080, the token generation speed improved ~4%(128tps-&gt;133tps)
diff --git a/onnxruntime/contrib_ops/webgpu/bert/group_query_attention.cc b/onnxruntime/contrib_ops/webgpu/bert/group_query_attention.cc
@@ -67,49 +67,6 @@ Status SplitPackedQKV(onnxruntime::webgpu::ComputeContext& context, const Webgpu
   return context.RunProgram(program);
 }
 
-Status GeneratePositionIDsProgram::GenerateShaderCode(ShaderHelper& sh) const {
-  const auto& output = sh.AddOutput("output", ShaderUsage::UseUniform);
-  const auto& seqlens = sh.AddInput("seqlens", ShaderUsage::UseUniform);
-  sh.MainFunctionBody() << "  var pos_id: i32 = 0;\n"
-                        << "  let batch_idx = global_idx / uniforms.sequence_length;\n"
-                        << "  let sequence_idx = i32(global_idx % uniforms.sequence_length);\n"
-                        << "  let seqlen = " << seqlens.GetByOffset("batch_idx") << ";\n";
-  if (is_first_prompt_) {
-    sh.MainFunctionBody() << "  let total_seqlen = seqlen + 1;\n"
-                          << "  if (sequence_idx < total_seqlen) {\n"
-                          << "    pos_id = sequence_idx;\n"
-                          << "  } else {\n"
-                          << "    pos_id = 1;\n"
-                          << "  }\n"
-                          << "  " << output.SetByOffset("global_idx", "pos_id") << "\n";
-  } else if (is_subsequent_prompt_) {
-    sh.MainFunctionBody() << "  let total_seqlen = seqlen + 1;\n"
-                          << "  let past_seqlen = total_seqlen - i32(uniforms.sequence_length);\n"
-                          << "  if (past_seqlen + sequence_idx < total_seqlen) {\n"
-                          << "    pos_id = past_seqlen + sequence_idx;\n"
-                          << "  } else {\n"
-                          << "    pos_id = 1;\n"
-                          << "  }\n"
-                          << "  " << output.SetByOffset("global_idx", "pos_id") << "\n";
-  } else {
-    sh.MainFunctionBody() << "  if (global_idx < uniforms.batch_size) {\n"
-                          << "    " << output.SetByOffset("global_idx", "seqlen") << "\n"
-                          << "  }\n";
-  }
-  return Status::OK();
-}
-
-Status GeneratePositionIDs(onnxruntime::webgpu::ComputeContext& context, const WebgpuAttentionParameters& params, const Tensor* seqlens, Tensor* output_tensor) {
-  GeneratePositionIDsProgram program(params.is_first_prompt_, params.is_subsequent_prompt_);
-  auto output_size = params.batch_size_ * params.sequence_length_;
-  program.CacheHint(params.is_first_prompt_, params.is_subsequent_prompt_)
-      .AddInput({seqlens, ProgramTensorMetadataDependency::Rank})
-      .AddOutput({output_tensor, ProgramTensorMetadataDependency::Rank})
-      .AddUniformVariables({{static_cast<uint32_t>(params.batch_size_)}, {static_cast<uint32_t>(params.sequence_length_)}})
-      .SetDispatchGroupSize((output_size + WORKGROUP_SIZE - 1) / WORKGROUP_SIZE);
-  return context.RunProgram(program);
-}
-
 // Fused Q/K rotary embedding
 Status RunFusedQKRotaryEmbedding(onnxruntime::webgpu::ComputeContext& context,
                                  const WebgpuAttentionParameters& params,
@@ -120,10 +77,6 @@ Status RunFusedQKRotaryEmbedding(onnxruntime::webgpu::ComputeContext& context,
                                  const Tensor* sin_cache,
                                  Tensor* query_out,
                                  Tensor* key_out) {
-  Tensor pos_ids = context.CreateGPUTensor(DataTypeImpl::GetType<int64_t>(),
-                                           TensorShape({params.batch_size_, params.sequence_length_}));
-  ORT_RETURN_IF_ERROR(GeneratePositionIDs(context, params, seqlen_k, &pos_ids));
-
   const auto half_rotary_embedding_dim = gsl::narrow_cast<uint32_t>(cos_cache->Shape()[1]);
   const auto head_size = params.head_size_;
 
@@ -171,7 +124,7 @@ Status RunFusedQKRotaryEmbedding(onnxruntime::webgpu::ComputeContext& context,
       .AddInputs({
           {query_in, ProgramTensorMetadataDependency::Rank},
           {key_in, ProgramTensorMetadataDependency::Rank},
-          {&pos_ids, ProgramTensorMetadataDependency::Rank},
+          {seqlen_k, ProgramTensorMetadataDependency::Rank},
           {cos_cache, ProgramTensorMetadataDependency::Rank},
           {sin_cache, ProgramTensorMetadataDependency::Rank},
       })
@@ -188,8 +141,7 @@ Status RunFusedQKRotaryEmbedding(onnxruntime::webgpu::ComputeContext& context,
           {gsl::make_span(k_global_dims)},
           {gsl::make_span(k_input_output_strides)},
           {q_domain_size},
-      })
-      .AddIndices(TensorShape{1, 1});
+      });
 
   return context.RunProgram(program);
 }
diff --git a/onnxruntime/contrib_ops/webgpu/bert/group_query_attention.h b/onnxruntime/contrib_ops/webgpu/bert/group_query_attention.h
@@ -14,19 +14,6 @@ namespace webgpu {
 
 using namespace onnxruntime::webgpu;
 
-class GeneratePositionIDsProgram final : public Program<GeneratePositionIDsProgram> {
- public:
-  GeneratePositionIDsProgram(bool is_first_prompt, bool is_subsequent_prompt) : Program{"GeneratePositionIDs"}, is_first_prompt_(is_first_prompt), is_subsequent_prompt_(is_subsequent_prompt) {}
-
-  Status GenerateShaderCode(ShaderHelper& sh) const override;
-
-  WEBGPU_PROGRAM_DEFINE_UNIFORM_VARIABLES({"batch_size", ProgramUniformVariableDataType::Uint32}, {"sequence_length", ProgramUniformVariableDataType::Uint32});
-
- private:
-  bool is_first_prompt_;
-  bool is_subsequent_prompt_;
-};
-
 class SplitPackedQKVProgram final : public Program<SplitPackedQKVProgram> {
  public:
   SplitPackedQKVProgram() : Program{"SplitPackedQKV"} {}
diff --git a/onnxruntime/contrib_ops/webgpu/bert/rotary_embedding.cc b/onnxruntime/contrib_ops/webgpu/bert/rotary_embedding.cc
@@ -54,14 +54,12 @@ Status FusedQKRotaryEmbeddingProgram::GenerateShaderCode(ShaderHelper& shader) c
   // Inputs
   const auto& q_input = shader.AddInput("q_input", ShaderUsage::UseUniform);
   const auto& k_input = shader.AddInput("k_input", ShaderUsage::UseUniform);
-  const auto& position_ids = shader.AddInput("position_ids", ShaderUsage::UseUniform);
+  const auto& seqlens = shader.AddInput("seqlens", ShaderUsage::UseUniform);
   const auto& cos_cache = shader.AddInput("cos_cache", ShaderUsage::UseUniform);
   const auto& sin_cache = shader.AddInput("sin_cache", ShaderUsage::UseUniform);
   // Outputs
   const auto& q_output = shader.AddOutput("q_output", ShaderUsage::UseUniform);
   const auto& k_output = shader.AddOutput("k_output", ShaderUsage::UseUniform);
-  // Indices helper
-  const auto& dummy_indices = shader.AddIndices("dummy_indices", ShaderUsage::None);
 
   const auto interleaved_str = interleaved_ ? "true" : "false";
 
@@ -70,8 +68,13 @@ Status FusedQKRotaryEmbeddingProgram::GenerateShaderCode(ShaderHelper& shader) c
       << "  let half_rotary_dim = uniforms.cos_cache_shape[1];\n"
       << "  let bsnh = global_idx / uniforms.q_global_stride % uniforms.q_global_shape;\n"
       << "  if (bsnh[3] < half_rotary_dim) {\n"
-      << "    let pos_ids_idx = " << position_ids.BroadcastedIndicesToOffset("bsnh.xy", dummy_indices) << ";\n"
-      << "    let position_id = u32(" << position_ids.GetByOffset("pos_ids_idx") << ") + select(0u, bsnh[1], pos_ids_idx == 0u);\n"
+      << "    let batch_idx = bsnh[0];\n"
+      << "    let sequence_idx = bsnh[1];\n"
+      << "    let seqlen_i = " << seqlens.GetByOffset("batch_idx") << ";\n"
+      << "    let seqlen = u32(seqlen_i);\n"
+      << "    let total_seqlen = seqlen + 1u;\n"
+      << "    let past_seqlen = total_seqlen - uniforms.q_global_shape[1];\n"
+      << "    let position_id = past_seqlen + sequence_idx;\n"
       << "    let cos_v = " << cos_cache.GetByIndices("vec2<u32>(position_id, bsnh[3])") << ";\n"
       << "    let sin_v = " << sin_cache.GetByIndices("vec2<u32>(position_id, bsnh[3])") << ";\n"
       << "    let qi = dot(bsnh, uniforms.q_input_output_stride) + select(0u, bsnh[3], " << interleaved_str << ");\n"