microsoft
diff --git a/‎onnxruntime/contrib_ops/webgpu/quantization/dp4a_matmul.wgsl.template‎
Lines changed: 18 additions & 16 deletions b/‎onnxruntime/contrib_ops/webgpu/quantization/dp4a_matmul.wgsl.template‎
Lines changed: 18 additions & 16 deletions
diff --git a/‎onnxruntime/contrib_ops/webgpu/quantization/dp4a_matmul_nbits.cc‎
Lines changed: 29 additions & 16 deletions b/‎onnxruntime/contrib_ops/webgpu/quantization/dp4a_matmul_nbits.cc‎
Lines changed: 29 additions & 16 deletions
diff --git a/‎onnxruntime/contrib_ops/webgpu/quantization/dp4a_matmul_small_m.wgsl.template‎
Lines changed: 12 additions & 9 deletions b/‎onnxruntime/contrib_ops/webgpu/quantization/dp4a_matmul_small_m.wgsl.template‎
Lines changed: 12 additions & 9 deletions
diff --git a/‎onnxruntime/contrib_ops/webgpu/quantization/dp4a_quantize.wgsl.template‎
Lines changed: 9 additions & 7 deletions b/‎onnxruntime/contrib_ops/webgpu/quantization/dp4a_quantize.wgsl.template‎
Lines changed: 9 additions & 7 deletions
diff --git a/‎onnxruntime/contrib_ops/webgpu/quantization/matmul_nbits.cc‎
Lines changed: 16 additions & 8 deletions b/‎onnxruntime/contrib_ops/webgpu/quantization/matmul_nbits.cc‎
Lines changed: 16 additions & 8 deletions
@@ -6,6 +6,8 @@
 #param has_zero_points
 #param is_qualcomm
 
+#use .getByOffset .setByOffset
+
 #include "quantization/dp4a_matmul_common.wgsl.template"
 
 // This shader implements co-operative matrix multiply. The key idea here is to
@@ -57,11 +59,11 @@ fn loadSHMA(a_global_base:u32, kidx_v:u32, row: u32, col: u32)
     {
         return;
     }
-    tile_A[col][row] = input_a[a_global*uniforms.K16+kidx_v+col];
+    tile_A[col][row] = a.getByOffset(a_global*uniforms.K16+kidx_v+col);
     if (col == 0)
     {
         // kidx_v - covers 16 values of k
-        scale_A[row] = scales_a[a_global*(uniforms.K/128) + kidx_v/8];
+        scale_A[row] = scales_a.getByOffset(a_global*(uniforms.K/128) + kidx_v/8);
     }
 }
 
@@ -74,14 +76,14 @@ fn loadSHMA(a_global_base:u32, kidx_v:u32, row: u32, col: u32)
             return;
         }
 
-        let b_value = input_b[b_global*uniforms.K16+kidx_v+col];
+        let b_value = b.getByOffset(b_global*uniforms.K16+kidx_v+col);
         let block_idx = kidx_v/(block_size/16);
         let zero = mm_read_zero(b_global, block_idx, uniforms.N, uniforms.zero_blocks_per_col);
         tile_B[col][row] = DequantizedFrom4BitsTo8Bits(b_value, zero);
         if (col == 0)
         {
             // kidx_v - each kidx_v covers 16 values of k
-            scale_B[row] = scales_b[b_global*(uniforms.K/block_size) + block_idx];
+            scale_B[row] = scales_b.getByOffset(b_global*(uniforms.K/block_size) + block_idx);
         }
     }
 #endif
@@ -95,13 +97,13 @@ fn loadSHMA(a_global_base:u32, kidx_v:u32, row: u32, col: u32)
             return;
         }
 
-        let b_value = input_b[b_global*uniforms.K16+kidx_v+col];
+        let b_value = b.getByOffset(b_global*uniforms.K16+kidx_v+col);
         tile_B[col][row] = AlignWithZeroPoint(b_value);
         if (col == 0)
         {
             // kidx_v - each kidx_v covers 16 values of k
             let block_idx = kidx_v/(block_size/16);
-            scale_B[row] = scales_b[b_global*(uniforms.K/block_size) + block_idx];
+            scale_B[row] = scales_b.getByOffset(b_global*(uniforms.K/block_size) + block_idx);
 #if has_zero_points
             zeroes[row] = mm_read_zero(b_global, block_idx, uniforms.N, uniforms.zero_blocks_per_col);
 #endif
@@ -117,10 +119,10 @@ fn loadSHMA(a_global_base:u32, kidx_v:u32, row: u32, col: u32)
         {
             return;
         }
-        let b_value = input_b[b_global*uniforms.K16+kidx_v+col];
+        let b_value = b.getByOffset(b_global*uniforms.K16+kidx_v+col);
         tile_B[col][row] = DequantizedFrom2BitsTo8Bits(b_value);
         let block_idx = kidx_v/(block_size/16);
-        scale_B[row] = scales_b[b_global*(uniforms.K/block_size) + block_idx];
+        scale_B[row] = scales_b.getByOffset(b_global*(uniforms.K/block_size) + block_idx);
     }
 #endif
 
@@ -362,15 +364,15 @@ $MAIN {
     if (a_global < uniforms.M && b_global < uniforms.N)
     {
 #if is_qualcomm
-        output[output_idx] = vec4<output_element_t>(lane_outputs[0], lane_outputs[1], lane_outputs[2], lane_outputs[3]);
-        output[output_idx+1] = vec4<output_element_t>(lane_outputs[4], lane_outputs[5], lane_outputs[6], lane_outputs[7]);
-        output[output_idx+2] = vec4<output_element_t>(lane_outputs[8], lane_outputs[9], lane_outputs[10], lane_outputs[11]);
-        output[output_idx+3] = vec4<output_element_t>(lane_outputs[12], lane_outputs[13], lane_outputs[14], lane_outputs[15]);
+        output.setByOffset(output_idx, vec4<output_element_t>(lane_outputs[0], lane_outputs[1], lane_outputs[2], lane_outputs[3]));
+        output.setByOffset(output_idx+1, vec4<output_element_t>(lane_outputs[4], lane_outputs[5], lane_outputs[6], lane_outputs[7]));
+        output.setByOffset(output_idx+2, vec4<output_element_t>(lane_outputs[8], lane_outputs[9], lane_outputs[10], lane_outputs[11]));
+        output.setByOffset(output_idx+3, vec4<output_element_t>(lane_outputs[12], lane_outputs[13], lane_outputs[14], lane_outputs[15]));
 #else
-        output[output_idx] = lane_output1;
-        output[output_idx+1] = lane_output2;
-        output[output_idx+2] = lane_output3;
-        output[output_idx+3] = lane_output4;
+        output.setByOffset(output_idx, lane_output1);
+        output.setByOffset(output_idx+1, lane_output2);
+        output.setByOffset(output_idx+2, lane_output3);
+        output.setByOffset(output_idx+3, lane_output4);
 #endif
     }
 }  // MAIN
@@ -10,39 +10,47 @@ namespace contrib {
 namespace webgpu {
 
 Status DP4AMatMulQuantizeProgram::GenerateShaderCode(ShaderHelper& shader) const {
-  shader.AddInput("input_a", ShaderUsage::UseUniform | ShaderUsage::UseIndicesTypeAlias | ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
-  shader.AddOutput("output", ShaderUsage::UseUniform);
-  shader.AddOutput("scales", ShaderUsage::UseUniform);
-  return WGSL_TEMPLATE_APPLY(shader, "quantization/dp4a_quantize.wgsl.template");
+  const auto& a = shader.AddInput("input_a", ShaderUsage::UseUniform | ShaderUsage::UseIndicesTypeAlias | ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
+  const auto& output = shader.AddOutput("output", ShaderUsage::UseUniform);
+  const auto& scales = shader.AddOutput("scales", ShaderUsage::UseUniform);
+  return WGSL_TEMPLATE_APPLY(shader, "quantization/dp4a_quantize.wgsl.template",
+                             WGSL_TEMPLATE_VARIABLE(a, a),
+                             WGSL_TEMPLATE_VARIABLE(output, output),
+                             WGSL_TEMPLATE_VARIABLE(scales, scales));
 }
 
 Status DP4AMatMulNBitsProgram::GenerateShaderCode(ShaderHelper& shader) const {
-  shader.AddInput("input_a", ShaderUsage::UseUniform | ShaderUsage::UseIndicesTypeAlias | ShaderUsage::UseValueTypeAlias);
-  shader.AddInput("scales_a", ShaderUsage::UseUniform);
-  shader.AddInput("input_b", ShaderUsage::UseUniform);
-  shader.AddInput("scales_b", ShaderUsage::UseUniform);
+  const auto& a = shader.AddInput("input_a", ShaderUsage::UseUniform | ShaderUsage::UseIndicesTypeAlias | ShaderUsage::UseValueTypeAlias);
+  const auto& scales_a = shader.AddInput("scales_a", ShaderUsage::UseUniform);
+  const auto& b = shader.AddInput("input_b", ShaderUsage::UseUniform);
+  const auto& scales_b = shader.AddInput("scales_b", ShaderUsage::UseUniform);
   if (has_zero_points_) {
     shader.AddInput("zero_points", ShaderUsage::UseUniform);
   }
-  shader.AddOutput("output", ShaderUsage::UseUniform | ShaderUsage::UseElementTypeAlias);
+  const auto& output = shader.AddOutput("output", ShaderUsage::UseUniform | ShaderUsage::UseElementTypeAlias);
   return WGSL_TEMPLATE_APPLY(shader, "quantization/dp4a_matmul.wgsl.template",
                              WGSL_TEMPLATE_PARAMETER(block_size, block_size_),
                              WGSL_TEMPLATE_PARAMETER(has_zero_points, has_zero_points_),
                              WGSL_TEMPLATE_PARAMETER(is_qualcomm, is_qualcomm_),
                              WGSL_TEMPLATE_PARAMETER(n_bits, nbits_),
-                             WGSL_TEMPLATE_PARAMETER(output_type_i32, true));
+                             WGSL_TEMPLATE_PARAMETER(output_type_i32, true),
+                             WGSL_TEMPLATE_VARIABLE(a, a),
+                             WGSL_TEMPLATE_VARIABLE(b, b),
+                             WGSL_TEMPLATE_VARIABLE(output, output),
+                             WGSL_TEMPLATE_VARIABLE(scales_a, scales_a),
+                             WGSL_TEMPLATE_VARIABLE(scales_b, scales_b));
 }
 
 // scale_A components = 1, b components = 4, output components = 1
 Status DP4AMatMulNBitsSmallMProgram::GenerateShaderCode(ShaderHelper& shader) const {
-  shader.AddInput("input_a", ShaderUsage::UseUniform);
-  shader.AddInput("scales_a", ShaderUsage::UseUniform);
-  shader.AddInput("input_b", ShaderUsage::UseUniform);
-  shader.AddInput("scales_b", ShaderUsage::UseUniform);
+  const auto& a = shader.AddInput("input_a", ShaderUsage::UseUniform);
+  const auto& scales_a = shader.AddInput("scales_a", ShaderUsage::UseUniform);
+  const auto& b = shader.AddInput("input_b", ShaderUsage::UseUniform);
+  const auto& scales_b = shader.AddInput("scales_b", ShaderUsage::UseUniform);
   if (has_zero_points_) {
     shader.AddInput("zero_points", ShaderUsage::UseUniform);
   }
-  shader.AddOutput("output", ShaderUsage::UseUniform | ShaderUsage::UseElementTypeAlias);
+  const auto& output = shader.AddOutput("output", ShaderUsage::UseUniform | ShaderUsage::UseElementTypeAlias);
 
   ORT_ENFORCE(WorkgroupSizeX() % tile_size_k_vec_ == 0 && tile_size_k_vec_ % 4 == 0, "tile_size_k_vec_ must evenly divide workgroup size X and be divisible by 4");
   const uint32_t sub_tile_count = WorkgroupSizeX() / tile_size_k_vec_;
@@ -55,7 +63,12 @@ Status DP4AMatMulNBitsSmallMProgram::GenerateShaderCode(ShaderHelper& shader) co
                              WGSL_TEMPLATE_PARAMETER(single_scale_weights, single_scale_weights_),
                              WGSL_TEMPLATE_PARAMETER(sub_tile_count, sub_tile_count),
                              WGSL_TEMPLATE_PARAMETER(tile_size, tile_size_),
-                             WGSL_TEMPLATE_PARAMETER(tile_size_k_vec, tile_size_k_vec_));
+                             WGSL_TEMPLATE_PARAMETER(tile_size_k_vec, tile_size_k_vec_),
+                             WGSL_TEMPLATE_VARIABLE(a, a),
+                             WGSL_TEMPLATE_VARIABLE(b, b),
+                             WGSL_TEMPLATE_VARIABLE(output, output),
+                             WGSL_TEMPLATE_VARIABLE(scales_a, scales_a),
+                             WGSL_TEMPLATE_VARIABLE(scales_b, scales_b));
 }
 
 Status ApplyDP4AMatrixMatMulNBits(const Tensor* a, const Tensor* b, const Tensor* scales,
 
@@ -8,6 +8,9 @@
 #param n_bits
 #param has_zero_points
 
+#use .getByOffset .setByOffset
+
+
 #include "quantization/dp4a_matmul_common.wgsl.template"
 
 // This algorithm works to compute dot product of k in parallel, by processing k at each step amongst tile_size_k_vec threads,
@@ -47,11 +50,11 @@ fn loadSHMA(a_global: u32, kidx_v: u32, col: u32)
     return;
     }
 
-    tile_A[col] = input_a[a_global*uniforms.K16+k_offset];
+    tile_A[col] = a.getByOffset(a_global*uniforms.K16+k_offset);
     if (col < scale_a_size_in_tile_a)
     {
     // kidx_v - covers 16 values of k in input_a
-    scale_A[col] = scales_a[a_global*(uniforms.K/128) + kidx_v/8 + col];
+    scale_A[col] = scales_a.getByOffset(a_global*(uniforms.K/128) + kidx_v/8 + col);
     }
 }
 
@@ -70,7 +73,7 @@ $MAIN {
 #endif
 #if single_scale_weights
     let zero = mm_read_zero(0, 0, uniforms.N, uniforms.zero_blocks_per_col);
-    let own_scale_b = scales_b[0];
+    let own_scale_b = scales_b.getByOffset(0);
 #endif
 
     for (var kidx_v:u32 = 0; kidx_v < uniforms.K32; kidx_v += tile_size_k_vec)
@@ -95,24 +98,24 @@ $MAIN {
                 let b_offset = b_global * uniforms.K32 + k_offset;
 #if !single_scale_weights
                 let zero = mm_read_zero(b_global, block_idx, uniforms.N, uniforms.zero_blocks_per_col);
-                let own_scale_b = scales_b[b_global * uniforms.K / uniforms.block_size + block_idx];
+                let own_scale_b = scales_b.getByOffset(b_global * uniforms.K / uniforms.block_size + block_idx);
 #endif
 #if n_bits == 4
-                let b_value = input_b[b_offset];
+                let b_value = b.getByOffset(b_offset);
                 let own_b = DequantizedFrom4BitsTo8Bits(b_value.xy, zero);
                 let own_b1 = DequantizedFrom4BitsTo8Bits(b_value.zw, zero);
                 inter_results[row_offset + local_row][local_col] += SDP8AI(own_a, own_b, own_a1, own_b1, own_scale_a * own_scale_b);
 #elif n_bits == 8
-                let own_b = AlignWithZeroPoint(input_b[b_offset * 2]);
-                let own_b1 = AlignWithZeroPoint(input_b[b_offset * 2 + 1]);
+                let own_b = AlignWithZeroPoint(b.getByOffset(b_offset * 2));
+                let own_b1 = AlignWithZeroPoint(b.getByOffset(b_offset * 2 + 1));
 #if has_zero_points
                 inter_results[row_offset + local_row][local_col] += SDP8AI(own_a, own_b, own_a1, own_b1, own_scale_a * own_scale_b, zero);
 #else
                 inter_results[row_offset + local_row][local_col] += SDP8AI(own_a, own_b, own_a1, own_b1, own_scale_a * own_scale_b);
 #endif
 
 #elif n_bits == 2
-                let b_value = input_b[b_offset];
+                let b_value = b.getByOffset(b_offset);
                 let own_b = DequantizedFrom2BitsTo8Bits(b_value.x);
                 let own_b1 = DequantizedFrom2BitsTo8Bits(b_value.y);
                 inter_results[row_offset + local_row][local_col] += SDP8AI(own_a, own_b, own_a1, own_b1, own_scale_a * own_scale_b);
@@ -131,7 +134,7 @@ $MAIN {
       let b_global =  b_global_base + local_idx;
       let output_idx = a_global * uniforms.N + b_global;
       if (b_global < uniforms.N) {
-        output[output_idx] = output_value;
+        output.setByOffset(output_idx, output_value);
       }
     }
 } // MAIN
@@ -5,6 +5,8 @@
 // Quantizes input matrix A for DP4A computation
 // This shader quantizes float values to 8-bit signed integers using pack4x8snorm
 
+#use .getByOffset .setByOffset
+
 var<workgroup> a_values : array<array<input_a_value_t, 32>, 2>;
 var<workgroup> max_values : array<input_a_value_t, 4>;
 
@@ -13,7 +15,7 @@ fn readInput(offset: u32) -> input_a_value_t
   if (offset >= uniforms.output_size) {
     return input_a_value_t(0);
   }
-  return input_a[offset];
+  return a.getByOffset(offset);
 }
 
 $MAIN {
@@ -26,11 +28,11 @@ $MAIN {
     let max_temp = max(max_val.xy, max_val.zw);
     let scale = max(max_temp[0], max_temp[1]);
     let norm_a = local_a/scale;
-    output[global_idx] = pack4x8snorm(vec4<f32>(norm_a));
+    output.setByOffset(global_idx, pack4x8snorm(vec4<f32>(norm_a)));
     if (local_idx % 32 == 0)
     {
       // 127 is the max value of signed int8 [-127,127] used by pack4x8snorm for 1.0f.
-      scales[workgroup_idx * 2 + local_idx / 32] = scale/127;
+      scales.setByOffset(workgroup_idx * 2 + local_idx / 32, scale/127);
     }
   } else if (sg_size == 16) {
     let local_a = readInput(global_idx);
@@ -53,11 +55,11 @@ $MAIN {
     let max_temp = max(max_val.xy, max_val.zw);
     let scale = max(max_temp[0], max_temp[1]);
     let norm_a = local_a/scale;
-    output[global_idx] = pack4x8snorm(vec4<f32>(norm_a));
+    output.setByOffset(global_idx, pack4x8snorm(vec4<f32>(norm_a)));
     if (local_idx % 32 == 0)
     {
       // 127 is the max value of signed int8 [-127,127] used by pack4x8snorm for 1.0f.
-      scales[workgroup_idx * 2 + local_idx / 32] = scale/127;
+      scales.setByOffset(workgroup_idx * 2 + local_idx / 32, scale/127);
     }
   } else {
     let local_row = local_idx / 32u;
@@ -78,11 +80,11 @@ $MAIN {
     let max_temp = max(max_val.xy, max_val.zw);
     let scale = max(max_temp[0], max_temp[1]);
     let norm_a = a_values[local_row][local_col]/scale;
-    output[global_idx] = pack4x8snorm(vec4<f32>(norm_a));
+    output.setByOffset(global_idx, pack4x8snorm(vec4<f32>(norm_a)));
     if (local_col == 0u)
     {
       // 127 is the max value of signed int8 [-127,127] used by pack4x8snorm for 1.0f.
-      scales[workgroup_idx * 2 + local_row] = scale/127;
+      scales.setByOffset(workgroup_idx * 2 + local_row, scale/127);
     }
   }
 }
@@ -42,13 +42,13 @@ ONNX_OPERATOR_KERNEL_EX(
     MatMulNBits);
 
 Status MatMulNBitsWideTileProgram::GenerateShaderCode(ShaderHelper& shader) const {
-  shader.AddInput("input_a", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
-  shader.AddInput("input_b", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
-  shader.AddInput("scales", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
+  const auto& a = shader.AddInput("input_a", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
+  const auto& b = shader.AddInput("input_b", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
+  const auto& scales = shader.AddInput("scales", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
   if (has_zero_points_) {
     shader.AddInput("zero_points", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
   }
-  shader.AddOutput("output", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
+  const auto& output = shader.AddOutput("output", ShaderUsage::UseValueTypeAlias | ShaderUsage::UseElementTypeAlias);
 
   const uint32_t workgroup_size = WorkgroupSizeX() * WorkgroupSizeY();
   ORT_ENFORCE(tile_m_ == workgroup_size / 8, "tile_m must be workgroup_size / 8.");
@@ -59,18 +59,22 @@ Status MatMulNBitsWideTileProgram::GenerateShaderCode(ShaderHelper& shader) cons
                              WGSL_TEMPLATE_PARAMETER(has_zero_points, has_zero_points_),
                              WGSL_TEMPLATE_PARAMETER(nbits, nbits_),
                              WGSL_TEMPLATE_PARAMETER(tile_m, tile_m_),
-                             WGSL_TEMPLATE_PARAMETER(tile_n, tile_n_));
+                             WGSL_TEMPLATE_PARAMETER(tile_n, tile_n_),
+                             WGSL_TEMPLATE_VARIABLE(a, a),
+                             WGSL_TEMPLATE_VARIABLE(b, b),
+                             WGSL_TEMPLATE_VARIABLE(output, output),
+                             WGSL_TEMPLATE_VARIABLE(scales, scales));
 }
 
 // Apply similar idea with DP4AMatMulNBitsSmallMProgram algorithm.
 Status MatMulNBitsProgram::GenerateShaderCode(ShaderHelper& shader) const {
   const auto& a = shader.AddInput("input_a", ShaderUsage::UseValueTypeAlias);
   const auto& b = shader.AddInput("input_b");
-  shader.AddInput("scales_b");
+  const auto& scales_b = shader.AddInput("scales_b");
   if (has_zero_points_) {
     shader.AddInput("zero_points", ShaderUsage::UseUniform);
   }
-  shader.AddOutput("output", ShaderUsage::UseElementTypeAlias);
+  const auto& output = shader.AddOutput("output", ShaderUsage::UseElementTypeAlias);
 
   const uint32_t components_a = a.NumComponents();
   const uint32_t components_b = b.NumComponents() / 4;  // b is stored as uint32 which includes 4 uint8.
@@ -92,7 +96,11 @@ Status MatMulNBitsProgram::GenerateShaderCode(ShaderHelper& shader) const {
                              WGSL_TEMPLATE_PARAMETER(sub_tile_count, sub_tile_count),
                              WGSL_TEMPLATE_PARAMETER(tile_size, tile_size_),
                              WGSL_TEMPLATE_PARAMETER(tile_size_k, tile_size_k),
-                             WGSL_TEMPLATE_PARAMETER(tile_size_k_vec, tile_size_k_vec));
+                             WGSL_TEMPLATE_PARAMETER(tile_size_k_vec, tile_size_k_vec),
+                             WGSL_TEMPLATE_VARIABLE(a, a),
+                             WGSL_TEMPLATE_VARIABLE(b, b),
+                             WGSL_TEMPLATE_VARIABLE(output, output),
+                             WGSL_TEMPLATE_VARIABLE(scales_b, scales_b));
 }
 
 Status MatMulNBits::ComputeInternal(onnxruntime::webgpu::ComputeContext& context) const {
Original file line number	Diff line number	Diff line change
`@@ -6,6 +6,8 @@`
`6`	`6`	`#param has_zero_points`
`7`	`7`	`#param is_qualcomm`
`8`	`8`
	`9`	`+#use .getByOffset .setByOffset`
	`10`	`+`
`9`	`11`	`#include "quantization/dp4a_matmul_common.wgsl.template"`
`10`	`12`
`11`	`13`	`// This shader implements co-operative matrix multiply. The key idea here is to`
`@@ -57,11 +59,11 @@ fn loadSHMA(a_global_base:u32, kidx_v:u32, row: u32, col: u32)`
`57`	`59`	`{`
`58`	`60`	`return;`
`59`	`61`	`}`
`60`		`- tile_A[col][row] = input_a[a_global*uniforms.K16+kidx_v+col];`
	`62`	`+ tile_A[col][row] = a.getByOffset(a_global*uniforms.K16+kidx_v+col);`
`61`	`63`	`if (col == 0)`
`62`	`64`	`{`
`63`	`65`	`// kidx_v - covers 16 values of k`
`64`		`- scale_A[row] = scales_a[a_global*(uniforms.K/128) + kidx_v/8];`
	`66`	`+ scale_A[row] = scales_a.getByOffset(a_global*(uniforms.K/128) + kidx_v/8);`
`65`	`67`	`}`
`66`	`68`	`}`
`67`	`69`
`@@ -74,14 +76,14 @@ fn loadSHMA(a_global_base:u32, kidx_v:u32, row: u32, col: u32)`
`74`	`76`	`return;`
`75`	`77`	`}`
`76`	`78`
`77`		`- let b_value = input_b[b_global*uniforms.K16+kidx_v+col];`
	`79`	`+ let b_value = b.getByOffset(b_global*uniforms.K16+kidx_v+col);`
`78`	`80`	`let block_idx = kidx_v/(block_size/16);`
`79`	`81`	`let zero = mm_read_zero(b_global, block_idx, uniforms.N, uniforms.zero_blocks_per_col);`
`80`	`82`	`tile_B[col][row] = DequantizedFrom4BitsTo8Bits(b_value, zero);`
`81`	`83`	`if (col == 0)`
`82`	`84`	`{`
`83`	`85`	`// kidx_v - each kidx_v covers 16 values of k`
`84`		`- scale_B[row] = scales_b[b_global*(uniforms.K/block_size) + block_idx];`
	`86`	`+ scale_B[row] = scales_b.getByOffset(b_global*(uniforms.K/block_size) + block_idx);`
`85`	`87`	`}`
`86`	`88`	`}`
`87`	`89`	`#endif`
`@@ -95,13 +97,13 @@ fn loadSHMA(a_global_base:u32, kidx_v:u32, row: u32, col: u32)`
`95`	`97`	`return;`
`96`	`98`	`}`
`97`	`99`
`98`		`- let b_value = input_b[b_global*uniforms.K16+kidx_v+col];`
	`100`	`+ let b_value = b.getByOffset(b_global*uniforms.K16+kidx_v+col);`
`99`	`101`	`tile_B[col][row] = AlignWithZeroPoint(b_value);`
`100`	`102`	`if (col == 0)`
`101`	`103`	`{`
`102`	`104`	`// kidx_v - each kidx_v covers 16 values of k`
`103`	`105`	`let block_idx = kidx_v/(block_size/16);`
`104`		`- scale_B[row] = scales_b[b_global*(uniforms.K/block_size) + block_idx];`
	`106`	`+ scale_B[row] = scales_b.getByOffset(b_global*(uniforms.K/block_size) + block_idx);`
`105`	`107`	`#if has_zero_points`
`106`	`108`	`zeroes[row] = mm_read_zero(b_global, block_idx, uniforms.N, uniforms.zero_blocks_per_col);`
`107`	`109`	`#endif`
`@@ -117,10 +119,10 @@ fn loadSHMA(a_global_base:u32, kidx_v:u32, row: u32, col: u32)`
`117`	`119`	`{`
`118`	`120`	`return;`
`119`	`121`	`}`
`120`		`- let b_value = input_b[b_global*uniforms.K16+kidx_v+col];`
	`122`	`+ let b_value = b.getByOffset(b_global*uniforms.K16+kidx_v+col);`
`121`	`123`	`tile_B[col][row] = DequantizedFrom2BitsTo8Bits(b_value);`
`122`	`124`	`let block_idx = kidx_v/(block_size/16);`
`123`		`- scale_B[row] = scales_b[b_global*(uniforms.K/block_size) + block_idx];`
	`125`	`+ scale_B[row] = scales_b.getByOffset(b_global*(uniforms.K/block_size) + block_idx);`
`124`	`126`	`}`
`125`	`127`	`#endif`
`126`	`128`
`@@ -362,15 +364,15 @@ $MAIN {`
`362`	`364`	`if (a_global < uniforms.M && b_global < uniforms.N)`
`363`	`365`	`{`
`364`	`366`	`#if is_qualcomm`
`365`		`- output[output_idx] = vec4<output_element_t>(lane_outputs[0], lane_outputs[1], lane_outputs[2], lane_outputs[3]);`
`366`		`- output[output_idx+1] = vec4<output_element_t>(lane_outputs[4], lane_outputs[5], lane_outputs[6], lane_outputs[7]);`
`367`		`- output[output_idx+2] = vec4<output_element_t>(lane_outputs[8], lane_outputs[9], lane_outputs[10], lane_outputs[11]);`
`368`		`- output[output_idx+3] = vec4<output_element_t>(lane_outputs[12], lane_outputs[13], lane_outputs[14], lane_outputs[15]);`
	`367`	`+ output.setByOffset(output_idx, vec4<output_element_t>(lane_outputs[0], lane_outputs[1], lane_outputs[2], lane_outputs[3]));`
	`368`	`+ output.setByOffset(output_idx+1, vec4<output_element_t>(lane_outputs[4], lane_outputs[5], lane_outputs[6], lane_outputs[7]));`
	`369`	`+ output.setByOffset(output_idx+2, vec4<output_element_t>(lane_outputs[8], lane_outputs[9], lane_outputs[10], lane_outputs[11]));`
	`370`	`+ output.setByOffset(output_idx+3, vec4<output_element_t>(lane_outputs[12], lane_outputs[13], lane_outputs[14], lane_outputs[15]));`
`369`	`371`	`#else`
`370`		`- output[output_idx] = lane_output1;`
`371`		`- output[output_idx+1] = lane_output2;`
`372`		`- output[output_idx+2] = lane_output3;`
`373`		`- output[output_idx+3] = lane_output4;`
	`372`	`+ output.setByOffset(output_idx, lane_output1);`
	`373`	`+ output.setByOffset(output_idx+1, lane_output2);`
	`374`	`+ output.setByOffset(output_idx+2, lane_output3);`
	`375`	`+ output.setByOffset(output_idx+3, lane_output4);`
`374`	`376`	`#endif`
`375`	`377`	`}`
`376`	`378`	`} // MAIN`
Original file line number	Diff line number	Diff line change
`@@ -5,6 +5,8 @@`
`5`	`5`	`// Quantizes input matrix A for DP4A computation`
`6`	`6`	`// This shader quantizes float values to 8-bit signed integers using pack4x8snorm`
`7`	`7`
	`8`	`+#use .getByOffset .setByOffset`
	`9`	`+`
`8`	`10`	`var<workgroup> a_values : array<array<input_a_value_t, 32>, 2>;`
`9`	`11`	`var<workgroup> max_values : array<input_a_value_t, 4>;`
`10`	`12`
`@@ -13,7 +15,7 @@ fn readInput(offset: u32) -> input_a_value_t`
`13`	`15`	`if (offset >= uniforms.output_size) {`
`14`	`16`	`return input_a_value_t(0);`
`15`	`17`	`}`
`16`		`- return input_a[offset];`
	`18`	`+ return a.getByOffset(offset);`
`17`	`19`	`}`
`18`	`20`
`19`	`21`	`$MAIN {`
`@@ -26,11 +28,11 @@ $MAIN {`
`26`	`28`	`let max_temp = max(max_val.xy, max_val.zw);`
`27`	`29`	`let scale = max(max_temp[0], max_temp[1]);`
`28`	`30`	`let norm_a = local_a/scale;`
`29`		`- output[global_idx] = pack4x8snorm(vec4<f32>(norm_a));`
	`31`	`+ output.setByOffset(global_idx, pack4x8snorm(vec4<f32>(norm_a)));`
`30`	`32`	`if (local_idx % 32 == 0)`
`31`	`33`	`{`
`32`	`34`	`// 127 is the max value of signed int8 [-127,127] used by pack4x8snorm for 1.0f.`
`33`		`- scales[workgroup_idx * 2 + local_idx / 32] = scale/127;`
	`35`	`+ scales.setByOffset(workgroup_idx * 2 + local_idx / 32, scale/127);`
`34`	`36`	`}`
`35`	`37`	`} else if (sg_size == 16) {`
`36`	`38`	`let local_a = readInput(global_idx);`
`@@ -53,11 +55,11 @@ $MAIN {`
`53`	`55`	`let max_temp = max(max_val.xy, max_val.zw);`
`54`	`56`	`let scale = max(max_temp[0], max_temp[1]);`
`55`	`57`	`let norm_a = local_a/scale;`
`56`		`- output[global_idx] = pack4x8snorm(vec4<f32>(norm_a));`
	`58`	`+ output.setByOffset(global_idx, pack4x8snorm(vec4<f32>(norm_a)));`
`57`	`59`	`if (local_idx % 32 == 0)`
`58`	`60`	`{`
`59`	`61`	`// 127 is the max value of signed int8 [-127,127] used by pack4x8snorm for 1.0f.`
`60`		`- scales[workgroup_idx * 2 + local_idx / 32] = scale/127;`
	`62`	`+ scales.setByOffset(workgroup_idx * 2 + local_idx / 32, scale/127);`
`61`	`63`	`}`
`62`	`64`	`} else {`
`63`	`65`	`let local_row = local_idx / 32u;`
`@@ -78,11 +80,11 @@ $MAIN {`
`78`	`80`	`let max_temp = max(max_val.xy, max_val.zw);`
`79`	`81`	`let scale = max(max_temp[0], max_temp[1]);`
`80`	`82`	`let norm_a = a_values[local_row][local_col]/scale;`
`81`		`- output[global_idx] = pack4x8snorm(vec4<f32>(norm_a));`
	`83`	`+ output.setByOffset(global_idx, pack4x8snorm(vec4<f32>(norm_a)));`
`82`	`84`	`if (local_col == 0u)`
`83`	`85`	`{`
`84`	`86`	`// 127 is the max value of signed int8 [-127,127] used by pack4x8snorm for 1.0f.`
`85`		`- scales[workgroup_idx * 2 + local_row] = scale/127;`
	`87`	`+ scales.setByOffset(workgroup_idx * 2 + local_row, scale/127);`
`86`	`88`	`}`
`87`	`89`	`}`
`88`	`90`	`}`