flashinfer-ai
diff --git a/‎csrc/flashinfer_topk_binding.cu‎
Lines changed: 4 additions & 3 deletions b/‎csrc/flashinfer_topk_binding.cu‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎csrc/topk.cu‎
Lines changed: 30 additions & 8 deletions b/‎csrc/topk.cu‎
Lines changed: 30 additions & 8 deletions
diff --git a/‎flashinfer/topk.py‎
Lines changed: 27 additions & 2 deletions b/‎flashinfer/topk.py‎
Lines changed: 27 additions & 2 deletions
@@ -24,13 +24,14 @@ void radix_topk(TensorView input, TensorView output_indices, TensorView output_v
 void radix_topk_page_table_transform(TensorView input, TensorView output_page_table,
                                      TensorView src_page_table,
                                      Optional<TensorView> maybe_row_to_batch, TensorView lengths,
+                                     Optional<TensorView> maybe_row_starts,
                                      Optional<TensorView> maybe_row_states_buffer, int64_t top_k,
                                      bool deterministic, int64_t tie_break, bool dsa_graph_safe);
 
 void radix_topk_ragged_transform(TensorView input, TensorView output_indices, TensorView offsets,
-                                 TensorView lengths, Optional<TensorView> maybe_row_states_buffer,
-                                 int64_t top_k, bool deterministic, int64_t tie_break,
-                                 bool dsa_graph_safe);
+                                 TensorView lengths, Optional<TensorView> maybe_row_starts,
+                                 Optional<TensorView> maybe_row_states_buffer, int64_t top_k,
+                                 bool deterministic, int64_t tie_break, bool dsa_graph_safe);
 
 bool can_implement_filtered_topk();
 
 
@@ -83,6 +83,7 @@ void radix_topk(TensorView input, TensorView output_indices, TensorView output_v
 void radix_topk_page_table_transform(TensorView input, TensorView output_page_table,
                                      TensorView src_page_table,
                                      Optional<TensorView> maybe_row_to_batch, TensorView lengths,
+                                     Optional<TensorView> maybe_row_starts,
                                      Optional<TensorView> maybe_row_states_buffer, int64_t top_k,
                                      bool deterministic, int64_t tie_break, bool dsa_graph_safe) {
   CHECK_INPUT(input);
@@ -93,6 +94,10 @@ void radix_topk_page_table_transform(TensorView input, TensorView output_page_ta
   CHECK_DIM(2, output_page_table);  // output_page_table: (num_rows, top_k)
   CHECK_DIM(2, src_page_table);     // src_page_table: (batch_size, max_len)
   CHECK_DIM(1, lengths);            // lengths: (num_rows,)
+  if (maybe_row_starts.has_value()) {
+    CHECK_INPUT(maybe_row_starts.value());
+    CHECK_DIM(1, maybe_row_starts.value());
+  }
 
   unsigned int num_rows = input.size(0);
   unsigned int max_len = input.size(1);
@@ -118,14 +123,21 @@ void radix_topk_page_table_transform(TensorView input, TensorView output_page_ta
   if (maybe_row_to_batch.has_value()) {
     row_to_batch_ptr = static_cast<int32_t*>(maybe_row_to_batch.value().data_ptr());
   }
+  int32_t* row_starts_ptr = nullptr;
+  if (maybe_row_starts.has_value()) {
+    TVM_FFI_ICHECK(static_cast<unsigned int>(maybe_row_starts.value().size(0)) == num_rows)
+        << "row_starts must have shape (num_rows,)";
+    row_starts_ptr = static_cast<int32_t*>(maybe_row_starts.value().data_ptr());
+  }
 
   // Use unified dispatch with heuristics to choose between FilteredTopK and RadixTopK
   DISPATCH_DLPACK_DTYPE_TO_CTYPE_FP32_FP16(dtype, c_type, [&] {
     status = sampling::TopKPageTableTransformDispatch<c_type, int32_t>(
         static_cast<c_type*>(input.data_ptr()), static_cast<int32_t*>(output_page_table.data_ptr()),
-        static_cast<const int32_t*>(src_page_table.data_ptr()), src_stride, row_to_batch_ptr,
-        static_cast<int32_t*>(lengths.data_ptr()), num_rows, static_cast<uint32_t>(top_k), max_len,
-        row_states_ptr, deterministic, tie_break_mode, stream, dsa_graph_safe);
+        static_cast<const int32_t*>(src_page_table.data_ptr()), src_stride,
+        static_cast<int32_t*>(lengths.data_ptr()), row_starts_ptr, row_to_batch_ptr, num_rows,
+        static_cast<uint32_t>(top_k), max_len, row_states_ptr, deterministic, tie_break_mode,
+        stream, dsa_graph_safe);
     return true;
   });
 
@@ -134,9 +146,9 @@ void radix_topk_page_table_transform(TensorView input, TensorView output_page_ta
 }
 
 void radix_topk_ragged_transform(TensorView input, TensorView output_indices, TensorView offsets,
-                                 TensorView lengths, Optional<TensorView> maybe_row_states_buffer,
-                                 int64_t top_k, bool deterministic, int64_t tie_break,
-                                 bool dsa_graph_safe) {
+                                 TensorView lengths, Optional<TensorView> maybe_row_starts,
+                                 Optional<TensorView> maybe_row_states_buffer, int64_t top_k,
+                                 bool deterministic, int64_t tie_break, bool dsa_graph_safe) {
   CHECK_INPUT(input);
   CHECK_INPUT(output_indices);
   CHECK_INPUT(offsets);
@@ -145,6 +157,10 @@ void radix_topk_ragged_transform(TensorView input, TensorView output_indices, Te
   CHECK_DIM(2, output_indices);  // output_indices: (num_rows, top_k)
   CHECK_DIM(1, offsets);         // offsets: (num_rows,)
   CHECK_DIM(1, lengths);         // lengths: (num_rows,)
+  if (maybe_row_starts.has_value()) {
+    CHECK_INPUT(maybe_row_starts.value());
+    CHECK_DIM(1, maybe_row_starts.value());
+  }
 
   unsigned int num_rows = input.size(0);
   unsigned int max_len = input.size(1);
@@ -164,14 +180,20 @@ void radix_topk_ragged_transform(TensorView input, TensorView output_indices, Te
     row_states_ptr =
         static_cast<sampling::RadixRowState*>(maybe_row_states_buffer.value().data_ptr());
   }
+  int32_t* row_starts_ptr = nullptr;
+  if (maybe_row_starts.has_value()) {
+    TVM_FFI_ICHECK(static_cast<unsigned int>(maybe_row_starts.value().size(0)) == num_rows)
+        << "row_starts must have shape (num_rows,)";
+    row_starts_ptr = static_cast<int32_t*>(maybe_row_starts.value().data_ptr());
+  }
 
   // Use unified dispatch with heuristics to choose between FilteredTopK and RadixTopK
   DISPATCH_DLPACK_DTYPE_TO_CTYPE_FP32_FP16(dtype, c_type, [&] {
     status = sampling::TopKRaggedTransformDispatch<c_type, int32_t>(
         static_cast<c_type*>(input.data_ptr()), static_cast<int32_t*>(output_indices.data_ptr()),
         static_cast<const int32_t*>(offsets.data_ptr()), static_cast<int32_t*>(lengths.data_ptr()),
-        num_rows, static_cast<uint32_t>(top_k), max_len, row_states_ptr, deterministic,
-        tie_break_mode, stream, dsa_graph_safe);
+        row_starts_ptr, num_rows, static_cast<uint32_t>(top_k), max_len, row_states_ptr,
+        deterministic, tie_break_mode, stream, dsa_graph_safe);
     return true;
   });
 
 
@@ -249,6 +249,7 @@ def radix_topk_page_table_transform(
         src_page_table: torch.Tensor,
         row_to_batch: Optional[torch.Tensor],
         lengths: torch.Tensor,
+        row_starts: Optional[torch.Tensor],
         row_states_buffer: Optional[torch.Tensor],
         top_k: int,
         deterministic: bool,
@@ -264,6 +265,7 @@ def radix_topk_page_table_transform(
             src_page_table,
             row_to_batch,
             lengths,
+            row_starts,
             row_states_buffer,
             top_k,
             deterministic,
@@ -278,6 +280,7 @@ def _fake_radix_topk_page_table_transform(
         src_page_table: torch.Tensor,
         row_to_batch: Optional[torch.Tensor],
         lengths: torch.Tensor,
+        row_starts: Optional[torch.Tensor],
         row_states_buffer: Optional[torch.Tensor],
         top_k: int,
         deterministic: bool,
@@ -295,6 +298,7 @@ def radix_topk_ragged_transform(
         output_indices: torch.Tensor,
         offsets: torch.Tensor,
         lengths: torch.Tensor,
+        row_starts: Optional[torch.Tensor],
         row_states_buffer: Optional[torch.Tensor],
         top_k: int,
         deterministic: bool,
@@ -309,6 +313,7 @@ def radix_topk_ragged_transform(
             output_indices,
             offsets,
             lengths,
+            row_starts,
             row_states_buffer,
             top_k,
             deterministic,
@@ -322,6 +327,7 @@ def _fake_radix_topk_ragged_transform(
         output_indices: torch.Tensor,
         offsets: torch.Tensor,
         lengths: torch.Tensor,
+        row_starts: Optional[torch.Tensor],
         row_states_buffer: Optional[torch.Tensor],
         top_k: int,
         deterministic: bool,
@@ -655,6 +661,7 @@ def top_k_page_table_transform(
     src_page_table: torch.Tensor,
     lengths: torch.Tensor,
     k: int,
+    row_starts: Optional[torch.Tensor] = None,
     row_to_batch: Optional[torch.Tensor] = None,
     deterministic: bool = False,
     tie_break: int = TopKTieBreak.NONE,
@@ -683,6 +690,10 @@ def top_k_page_table_transform(
         Actual KV lengths per row of shape ``(num_rows,)`` with dtype ``int32``.
     k : int
         Number of top elements to select from each row.
+    row_starts : Optional[torch.Tensor], optional
+        Per-row start indices of shape ``(num_rows,)`` with dtype ``int32``.
+        Top-k is computed over ``[row_starts[i], row_starts[i] + lengths[i])`` for row ``i``.
+        Default is None (equivalent to all zeros).
     row_to_batch : Optional[torch.Tensor], optional
         Mapping from row index to batch index of shape ``(num_rows,)`` with
         dtype ``int32``. If None, uses 1:1 mapping (row_idx == batch_idx).
@@ -714,7 +725,9 @@ def top_k_page_table_transform(
     Note
     ----
     - This is specifically designed for sparse attention's second stage.
-    - If lengths[i] <= k, the output simply contains src_page_table[batch_idx, 0:lengths[i]]
+    - If lengths[i] <= k, the output simply contains
+      ``src_page_table[batch_idx, row_starts[i]:row_starts[i] + lengths[i]]`` (or start 0 when
+      ``row_starts`` is None)
       with remaining positions set to -1.
 
     Examples
@@ -741,6 +754,7 @@ def top_k_page_table_transform(
     if (
         can_use_clusters_topk(input.device, deterministic, dsa_graph_safe)
         and row_to_batch is None
+        and row_starts is None
     ):
         return topk_clusters_page_table_transform(input, lengths, src_page_table, k)
 
@@ -761,6 +775,7 @@ def top_k_page_table_transform(
         src_page_table,
         row_to_batch,
         lengths,
+        row_starts,
         row_states_buffer,
         k,
         deterministic,
@@ -777,6 +792,7 @@ def top_k_ragged_transform(
     offsets: torch.Tensor,
     lengths: torch.Tensor,
     k: int,
+    row_starts: Optional[torch.Tensor] = None,
     deterministic: bool = False,
     tie_break: int = TopKTieBreak.NONE,
     dsa_graph_safe: bool = False,
@@ -801,6 +817,11 @@ def top_k_ragged_transform(
         Actual KV lengths per row of shape ``(num_rows,)`` with dtype ``int32``.
     k : int
         Number of top elements to select from each row.
+    row_starts : Optional[torch.Tensor], optional
+        Per-row start indices of shape ``(num_rows,)`` with dtype ``int32``.
+        Top-k is computed over ``[row_starts[i], row_starts[i] + lengths[i])`` for row ``i``.
+        Output indices remain ``local_topk + offsets[i]`` where ``local_topk`` is relative to
+        ``row_starts[i]``. Default is None (equivalent to all zeros).
     deterministic : bool, optional
         If True, uses deterministic mode.
         Default is False (non-deterministic, which is faster).
@@ -853,7 +874,10 @@ def top_k_ragged_transform(
     if tie_break != TopKTieBreak.NONE:
         deterministic = True
 
-    if can_use_clusters_topk(input.device, deterministic, dsa_graph_safe):
+    if (
+        can_use_clusters_topk(input.device, deterministic, dsa_graph_safe)
+        and row_starts is None
+    ):
         return topk_clusters_ragged_transform(input, lengths, offsets, k)
 
     # Allocate row_states buffer for multi-CTA path
@@ -872,6 +896,7 @@ def top_k_ragged_transform(
         output_indices,
         offsets,
         lengths,
+        row_starts,
         row_states_buffer,
         k,
         deterministic,