Add PER_TOKEN_HEAD FP8 quant and P-scale to batch_prefill

msaffari-amd · cursoragent · msaffari-amd · commit 20e439265f56 · 2026-05-29T10:29:45.000Z
Add a new FP8 quantization scheme (PER_TOKEN_HEAD, enum value 5) for the
batch_prefill FMHA kernel. Unlike PERTENSOR (single scale for all of Q/K/V)
or KV_BLOCKSCALE (per-page K/V scales), PER_TOKEN_HEAD applies fine-grained
descales:

  - Q descale: per-token, per-head  [total_q, nhead_q]
  - K descale: per-token, per-head  [num_total_pages, page_block_size, nhead_k]
  - V descale: per-head             [nhead_k]

The dequantization of the QK dot product is staged through LDS to avoid
inflating the inner-loop instruction footprint. Cross-page tiles
(page_block_size &lt; kN0) are supported via per-column physical page lookup,
unlike KV_BLOCKSCALE which requires page_block_size &gt;= kN0.

Additionally, an optional per-q-head P-scale [num_head_q] is supported.
The kernel folds log2(p_scale) into the exp2 row-max shift, so the scale
factor appears in both P and the rowsum l, cancelling in O = sum(P*V) / l
with no separate V-descale fixup needed.

Also adds page_size=64 to the codegen page size list, and includes SRD
same-page-skip optimizations for K/V window rebasing.

Changes: - block_attention_quant_scale_enum.hpp: PER_TOKEN_HEAD = 5
  - quant.hpp: enum, serialize ("pth"), decode
  - cpp_symbol_map.py: codegen symbol mappings
  - fmha_batch_prefill.py: page_size=64, per_token_head qscale, filter update
  - fmha_fwd.hpp: args struct (stride fields, p_scale_ptr), kargs forwarding
  - fmha_batch_prefill_kernel.hpp: kargs struct, MakeKargs, get_scale_s,
    pipeline dispatch
  - block_fmha_batch_prefill_pipeline_qr_ks_vs_async.hpp: LDS-staged dequant,
    p_scale_log2 exp2-shift fold, cross-page support, SRD same-page skip,
    PER_TOKEN_HEAD convenience overload
Co-authored-by: Cursor &lt;cursoragent@cursor.com&gt;
diff --git a/projects/composablekernel/example/ck_tile/01_fmha/codegen/cpp_symbol_map.py b/projects/composablekernel/example/ck_tile/01_fmha/codegen/cpp_symbol_map.py
@@ -81,6 +81,7 @@ def get_mask_cpp_check_expr(mask: str) -> str:
     "pertensor": "ck_tile::BlockAttentionQuantScaleEnum::PERTENSOR",
     "blockscale": "ck_tile::BlockAttentionQuantScaleEnum::BLOCKSCALE",
     "kv_blockscale": "ck_tile::BlockAttentionQuantScaleEnum::KV_BLOCKSCALE",
+    "per_token_head": "ck_tile::BlockAttentionQuantScaleEnum::PER_TOKEN_HEAD",
     "mx": "ck_tile::BlockAttentionQuantScaleEnum::MX",
 }
 
@@ -89,6 +90,7 @@ def get_mask_cpp_check_expr(mask: str) -> str:
     "pertensor": "quant_scale_enum::pertensor",
     "blockscale": "quant_scale_enum::blockscale",
     "kv_blockscale": "quant_scale_enum::kv_blockscale",
+    "per_token_head": "quant_scale_enum::per_token_head",
     "mx": "quant_scale_enum::mx",
 }
 
diff --git a/projects/composablekernel/example/ck_tile/01_fmha/codegen/ops/fmha_batch_prefill.py b/projects/composablekernel/example/ck_tile/01_fmha/codegen/ops/fmha_batch_prefill.py
@@ -48,7 +48,7 @@
 
 K0_MAX_SUBMAX_MAP = {32: 32, 64: 64, 96: 128, 128: 128, 256: 256}
 
-SUPPORTED_PAGE_SIZE = [1, 16, 1024]
+SUPPORTED_PAGE_SIZE = [1, 16, 64, 1024]
 SUPPORTED_KV_MEMORY_LAYOUT = ["vectorized", "linear"]
 SUPPORTED_KV_LOOKUP_TABLE = ["vllm", "sglang"]
 KV_MEMORY_LAYOUT_ENUM_MAP = {
@@ -733,7 +733,7 @@ def get_pipelines(dtype, hdim, receipt, mask_impl) -> List[FmhaFwdPipeline]:
                 kv_lookup_table,
             ) in itertools.product(
                 ["t", "f"],
-                ["pertensor", "kv_blockscale"],
+                ["pertensor", "kv_blockscale", "per_token_head"],
                 get_mask_map(mask_impl).keys(),
                 ["no"],
                 ["t", "f"],
@@ -819,9 +819,11 @@ def get_fwd_blobs(
                 for page_size in SUPPORTED_PAGE_SIZE:
                     if page_size == 1 and pipeline.F_kv_memory_layout != "linear":
                         continue
-                    # kv_blockscale requires page_size >= kN0 (tile.F_bn0)
-                    # This ensures all tokens in a main loop iteration belong to the same page
-                    if pipeline.F_qscale == "kv_blockscale" and page_size < tile.F_bn0:
+                    # kv_blockscale only supports page_size >= kN0; per_token_head can cross pages.
+                    if (
+                        pipeline.F_qscale == "kv_blockscale"
+                        and page_size < tile.F_bn0
+                    ):
                         continue
                     k = FmhaFwdKernel(
                         F_idx=0,
diff --git a/projects/composablekernel/example/ck_tile/01_fmha/fmha_fwd.hpp b/projects/composablekernel/example/ck_tile/01_fmha/fmha_fwd.hpp
@@ -673,6 +673,17 @@ struct fmha_batch_prefill_args
     // v_descale_ptr: [num_block, num_kv_head] - points to v block descale
     ck_tile::index_t nblock_stride_kv_block_descale = 0; // Stride along num_block dimension
     ck_tile::index_t nhead_stride_kv_block_descale  = 0; // Stride along num_kv_head dimension
+
+    // PER_TOKEN_HEAD: q/k use per-token-per-head descales; v uses per-head descales.
+    ck_tile::index_t stride_q_descale_token       = 0; // Q descale: row stride (per-token)
+    ck_tile::index_t nhead_stride_q_descale       = 0; // Q descale: head stride
+    ck_tile::index_t nblock_stride_k_descale_page = 0; // K descale: page stride
+    ck_tile::index_t stride_k_descale_token       = 0; // K descale: within-page token stride
+    ck_tile::index_t nhead_stride_k_descale       = 0; // K descale: head stride
+    ck_tile::index_t nhead_stride_v_descale       = 0; // V descale: head stride (per-head only)
+
+    // PER_TOKEN_HEAD optional per-q-head P scale [num_head_q] fp32.
+    const void* p_scale_ptr = nullptr;
 };
 
 // Selects the KV-cache load mode for a batch-prefill dispatch arm.
@@ -1342,7 +1353,14 @@ auto fmha_batch_prefill_create_kargs_and_grids(fmha_batch_prefill_args args)
                                          args.drop_seed_offset,
                                          args.sink_ptr,
                                          args.nblock_stride_kv_block_descale,
-                                         args.nhead_stride_kv_block_descale);
+                                         args.nhead_stride_kv_block_descale,
+                                         args.stride_q_descale_token,
+                                         args.nhead_stride_q_descale,
+                                         args.nblock_stride_k_descale_page,
+                                         args.stride_k_descale_token,
+                                         args.nhead_stride_k_descale,
+                                         args.nhead_stride_v_descale,
+                                         args.p_scale_ptr);
         }
         else
         { // create batch mode kernel arguments
@@ -1397,7 +1415,14 @@ auto fmha_batch_prefill_create_kargs_and_grids(fmha_batch_prefill_args args)
                                          args.drop_seed_offset,
                                          args.sink_ptr,
                                          args.nblock_stride_kv_block_descale,
-                                         args.nhead_stride_kv_block_descale);
+                                         args.nhead_stride_kv_block_descale,
+                                         args.stride_q_descale_token,
+                                         args.nhead_stride_q_descale,
+                                         args.nblock_stride_k_descale_page,
+                                         args.stride_k_descale_token,
+                                         args.nhead_stride_k_descale,
+                                         args.nhead_stride_v_descale,
+                                         args.p_scale_ptr);
         }
     }();
 
diff --git a/projects/composablekernel/example/ck_tile/01_fmha/quant.hpp b/projects/composablekernel/example/ck_tile/01_fmha/quant.hpp
@@ -15,11 +15,12 @@
 // keep sync with BlockAttentionQuantScaleEnum
 enum class quant_scale_enum
 {
-    no_scale      = 0,
-    pertensor     = 1,
-    blockscale    = 2,
-    kv_blockscale = 3, // Q per-tensor, K/V per-page block scale
-    mx            = 4, // Microscaling (MX)
+    no_scale       = 0,
+    pertensor      = 1,
+    blockscale     = 2,
+    kv_blockscale  = 3, // Q per-tensor, K/V per-page block scale
+    mx             = 4, // Microscaling (MX)
+    per_token_head = 5, // Q/K per-token per-head, V per-head (FP8 fine-grained)
 };
 
 struct quant_scale_info
@@ -38,6 +39,8 @@ struct quant_scale_info
             os << "kvbs";
         else if(type == quant_scale_enum::mx)
             os << "mx";
+        else if(type == quant_scale_enum::per_token_head)
+            os << "pth";
     }
 
     static quant_scale_info decode(std::string str)
@@ -63,6 +66,10 @@ struct quant_scale_info
         {
             info.type = quant_scale_enum::mx;
         }
+        else if(str == "pth" || str == "5")
+        {
+            info.type = quant_scale_enum::per_token_head;
+        }
         else
         {
             throw std::invalid_argument("invalid quant scale value: " + str);
diff --git a/projects/composablekernel/include/ck_tile/ops/fmha/block/block_attention_quant_scale_enum.hpp b/projects/composablekernel/include/ck_tile/ops/fmha/block/block_attention_quant_scale_enum.hpp
@@ -10,11 +10,12 @@ namespace ck_tile {
 // This class is used for codegen pattern matching
 enum class BlockAttentionQuantScaleEnum
 {
-    NO_SCALE      = 0,
-    PERTENSOR     = 1,
-    BLOCKSCALE    = 2,
-    KV_BLOCKSCALE = 3, // Q per-tensor, K/V per-page block scale
-    MX            = 4, // Microscaling
+    NO_SCALE       = 0,
+    PERTENSOR      = 1,
+    BLOCKSCALE     = 2,
+    KV_BLOCKSCALE  = 3, // Q per-tensor, K/V per-page block scale
+    MX             = 4, // Microscaling
+    PER_TOKEN_HEAD = 5, // Q/K per-token per-head, V per-head (FP8 fine-grained)
 };
 
 template <BlockAttentionQuantScaleEnum>
@@ -45,5 +46,10 @@ struct BlockAttentionQuantScaleEnumToStr<BlockAttentionQuantScaleEnum::MX>
 {
     static constexpr const char* name = "mx";
 };
+template <>
+struct BlockAttentionQuantScaleEnumToStr<BlockAttentionQuantScaleEnum::PER_TOKEN_HEAD>
+{
+    static constexpr const char* name = "per_token_head";
+};
 
 } // namespace ck_tile
diff --git a/projects/composablekernel/include/ck_tile/ops/fmha/kernel/fmha_batch_prefill_kernel.hpp b/projects/composablekernel/include/ck_tile/ops/fmha/kernel/fmha_batch_prefill_kernel.hpp
@@ -205,6 +205,25 @@ struct FmhaBatchPrefillWithPagedKVCacheKernel
         ck_tile::index_t nhead_stride_kv_block_descale  = 0; // Stride along num_kv_head dimension
     };
 
+    // PER_TOKEN_HEAD: Q per-token-per-head, K per-token-per-head (paged-aligned), V per-head
+    //   q_descale: [total_q, nhead_q]
+    //   k_descale: [num_total_pages, page_block_size, nhead_k]
+    //   v_descale: [nhead_k]
+    struct FmhaFwdPerTokenHeadKargs
+    {
+        const void* q_descale_ptr                     = nullptr;
+        const void* k_descale_ptr                     = nullptr;
+        const void* v_descale_ptr                     = nullptr;
+        ck_tile::index_t stride_q_descale_token       = 0;
+        ck_tile::index_t nhead_stride_q_descale       = 0;
+        ck_tile::index_t nblock_stride_k_descale_page = 0;
+        ck_tile::index_t stride_k_descale_token       = 0;
+        ck_tile::index_t nhead_stride_k_descale       = 0;
+        ck_tile::index_t nhead_stride_v_descale       = 0;
+        // Optional per-q-head P scale [num_head_q] fp32.
+        const void* p_scale_ptr = nullptr;
+    };
+
     // Helper template to select QScale Kargs type based on QScaleEnum
     // EmptyType: type to use when QScaleEnum is NO_SCALE (e.g., FmhaFwdEmptyKargs<3>)
     template <BlockAttentionQuantScaleEnum QScale, typename EmptyType>
@@ -225,6 +244,12 @@ struct FmhaBatchPrefillWithPagedKVCacheKernel
         using type = FmhaFwdKVBlockScaleKargs;
     };
 
+    template <typename EmptyType>
+    struct GetQScaleKargs<BlockAttentionQuantScaleEnum::PER_TOKEN_HEAD, EmptyType>
+    {
+        using type = FmhaFwdPerTokenHeadKargs;
+    };
+
     struct FmhaFwdDropoutSeedOffset
     {
         template <typename T>
@@ -379,7 +404,15 @@ struct FmhaBatchPrefillWithPagedKVCacheKernel
                   drop_seed_offset,
               const void* sink_ptr                            = nullptr,
               ck_tile::index_t nblock_stride_kv_block_descale = 0,
-              ck_tile::index_t nhead_stride_kv_block_descale  = 0)
+              ck_tile::index_t nhead_stride_kv_block_descale  = 0,
+              // PER_TOKEN_HEAD strides (only used when QScaleEnum == PER_TOKEN_HEAD)
+              ck_tile::index_t stride_q_descale_token       = 0,
+              ck_tile::index_t nhead_stride_q_descale       = 0,
+              ck_tile::index_t nblock_stride_k_descale_page = 0,
+              ck_tile::index_t stride_k_descale_token       = 0,
+              ck_tile::index_t nhead_stride_k_descale       = 0,
+              ck_tile::index_t nhead_stride_v_descale       = 0,
+              const void* p_scale_ptr                       = nullptr)
     {
         Kargs kargs{{q_ptr,
                      k_ptr,
@@ -458,6 +491,19 @@ struct FmhaBatchPrefillWithPagedKVCacheKernel
             kargs.nblock_stride_kv_block_descale = nblock_stride_kv_block_descale;
             kargs.nhead_stride_kv_block_descale  = nhead_stride_kv_block_descale;
         }
+        else if constexpr(QScaleEnum == BlockAttentionQuantScaleEnum::PER_TOKEN_HEAD)
+        {
+            kargs.q_descale_ptr                = q_descale_ptr;
+            kargs.k_descale_ptr                = k_descale_ptr;
+            kargs.v_descale_ptr                = v_descale_ptr;
+            kargs.stride_q_descale_token       = stride_q_descale_token;
+            kargs.nhead_stride_q_descale       = nhead_stride_q_descale;
+            kargs.nblock_stride_k_descale_page = nblock_stride_k_descale_page;
+            kargs.stride_k_descale_token       = stride_k_descale_token;
+            kargs.nhead_stride_k_descale       = nhead_stride_k_descale;
+            kargs.nhead_stride_v_descale       = nhead_stride_v_descale;
+            kargs.p_scale_ptr                  = p_scale_ptr;
+        }
         if constexpr(kHasDropout)
         {
             if(drop_seed_offset.index() == 0) // seed & offset come from host
@@ -536,7 +582,15 @@ struct FmhaBatchPrefillWithPagedKVCacheKernel
                   drop_seed_offset,
               const void* sink_ptr                            = nullptr,
               ck_tile::index_t nblock_stride_kv_block_descale = 0,
-              ck_tile::index_t nhead_stride_kv_block_descale  = 0)
+              ck_tile::index_t nhead_stride_kv_block_descale  = 0,
+              // PER_TOKEN_HEAD strides (only used when QScaleEnum == PER_TOKEN_HEAD)
+              ck_tile::index_t stride_q_descale_token       = 0,
+              ck_tile::index_t nhead_stride_q_descale       = 0,
+              ck_tile::index_t nblock_stride_k_descale_page = 0,
+              ck_tile::index_t stride_k_descale_token       = 0,
+              ck_tile::index_t nhead_stride_k_descale       = 0,
+              ck_tile::index_t nhead_stride_v_descale       = 0,
+              const void* p_scale_ptr                       = nullptr)
     {
         Kargs kargs{{q_ptr,
                      k_ptr,
@@ -612,6 +666,19 @@ struct FmhaBatchPrefillWithPagedKVCacheKernel
             kargs.nblock_stride_kv_block_descale = nblock_stride_kv_block_descale;
             kargs.nhead_stride_kv_block_descale  = nhead_stride_kv_block_descale;
         }
+        else if constexpr(QScaleEnum == BlockAttentionQuantScaleEnum::PER_TOKEN_HEAD)
+        {
+            kargs.q_descale_ptr                = q_descale_ptr;
+            kargs.k_descale_ptr                = k_descale_ptr;
+            kargs.v_descale_ptr                = v_descale_ptr;
+            kargs.stride_q_descale_token       = stride_q_descale_token;
+            kargs.nhead_stride_q_descale       = nhead_stride_q_descale;
+            kargs.nblock_stride_k_descale_page = nblock_stride_k_descale_page;
+            kargs.stride_k_descale_token       = stride_k_descale_token;
+            kargs.nhead_stride_k_descale       = nhead_stride_k_descale;
+            kargs.nhead_stride_v_descale       = nhead_stride_v_descale;
+            kargs.p_scale_ptr                  = p_scale_ptr;
+        }
         if constexpr(kHasDropout)
         {
             if(drop_seed_offset.index() == 0) // seed & offset come from host
@@ -1222,6 +1289,12 @@ struct FmhaBatchPrefillWithPagedKVCacheKernel
                     float q_descale = *(reinterpret_cast<const float*>(kargs.q_descale_ptr));
                     return kargs.scale_s * q_descale;
                 }
+                else if constexpr(QScaleEnum == BlockAttentionQuantScaleEnum::PER_TOKEN_HEAD)
+                {
+                    // Q/K descales are per-token-per-head, applied as outer product in pipeline.
+                    // Here we only forward the softmax scale (1/sqrt(d)).
+                    return kargs.scale_s;
+                }
                 else
                 {
                     return kargs.scale_s;
@@ -1339,6 +1412,50 @@ struct FmhaBatchPrefillWithPagedKVCacheKernel
                                       kargs.nblock_stride_kv_block_descale,
                                       kargs.nhead_stride_kv_block_descale);
             }
+            else if constexpr(QScaleEnum == BlockAttentionQuantScaleEnum::PER_TOKEN_HEAD)
+            {
+                // PER_TOKEN_HEAD: Q/K descales are per-token-per-head, V is per-head.
+                assert(kargs.q_descale_ptr != nullptr);
+                assert(kargs.k_descale_ptr != nullptr);
+                assert(kargs.v_descale_ptr != nullptr);
+                const float* q_descale_ptr = reinterpret_cast<const float*>(kargs.q_descale_ptr);
+                const float* k_descale_ptr = reinterpret_cast<const float*>(kargs.k_descale_ptr);
+                const float* v_descale_ptr = reinterpret_cast<const float*>(kargs.v_descale_ptr);
+
+                const float* p_scale_ptr = reinterpret_cast<const float*>(kargs.p_scale_ptr);
+
+                return FmhaPipeline{}(q_dram_window,
+                                      k_dram_window,
+                                      v_dram_window,
+                                      bias_dram_window,
+                                      randval_dram_window,
+                                      lse_dram_window,
+                                      mask,
+                                      position_encoding,
+                                      variant_params.sm_scale,
+                                      variant,
+                                      variant_params,
+                                      block_indices,
+                                      smem_ptr,
+                                      page_idx,
+                                      stride_k_for_pipeline,
+                                      stride_v_for_pipeline,
+                                      kargs.batch_stride_k,
+                                      kargs.batch_stride_v,
+                                      dropout,
+                                      sink_value,
+                                      max_page_table_idx,
+                                      q_descale_ptr,
+                                      k_descale_ptr,
+                                      v_descale_ptr,
+                                      kargs.stride_q_descale_token,
+                                      kargs.nhead_stride_q_descale,
+                                      kargs.nblock_stride_k_descale_page,
+                                      kargs.stride_k_descale_token,
+                                      kargs.nhead_stride_k_descale,
+                                      kargs.nhead_stride_v_descale,
+                                      p_scale_ptr);
+            }
             else
             {
                 return FmhaPipeline{}(q_dram_window,
diff --git a/projects/composablekernel/include/ck_tile/ops/fmha/pipeline/block_fmha_batch_prefill_pipeline_qr_ks_vs_async.hpp b/projects/composablekernel/include/ck_tile/ops/fmha/pipeline/block_fmha_batch_prefill_pipeline_qr_ks_vs_async.hpp

Original file line number	Diff line number	Diff line change
`@@ -81,6 +81,7 @@ def get_mask_cpp_check_expr(mask: str) -> str:`
`81`	`81`	`"pertensor": "ck_tile::BlockAttentionQuantScaleEnum::PERTENSOR",`
`82`	`82`	`"blockscale": "ck_tile::BlockAttentionQuantScaleEnum::BLOCKSCALE",`
`83`	`83`	`"kv_blockscale": "ck_tile::BlockAttentionQuantScaleEnum::KV_BLOCKSCALE",`
	`84`	`+ "per_token_head": "ck_tile::BlockAttentionQuantScaleEnum::PER_TOKEN_HEAD",`
`84`	`85`	`"mx": "ck_tile::BlockAttentionQuantScaleEnum::MX",`
`85`	`86`	`}`
`86`	`87`
`@@ -89,6 +90,7 @@ def get_mask_cpp_check_expr(mask: str) -> str:`
`89`	`90`	`"pertensor": "quant_scale_enum::pertensor",`
`90`	`91`	`"blockscale": "quant_scale_enum::blockscale",`
`91`	`92`	`"kv_blockscale": "quant_scale_enum::kv_blockscale",`
	`93`	`+ "per_token_head": "quant_scale_enum::per_token_head",`
`92`	`94`	`"mx": "quant_scale_enum::mx",`
`93`	`95`	`}`
`94`	`96`