kvcache-ai
diff --git a/‎docs/source/python-api-reference/mooncake-store.md‎
Lines changed: 29 additions & 1 deletion b/‎docs/source/python-api-reference/mooncake-store.md‎
Lines changed: 29 additions & 1 deletion
diff --git a/‎mooncake-integration/store/store_py.cpp‎
Lines changed: 74 additions & 7 deletions b/‎mooncake-integration/store/store_py.cpp‎
Lines changed: 74 additions & 7 deletions
diff --git a/‎mooncake-integration/store/store_py_internal.h‎
Lines changed: 1 addition & 1 deletion b/‎mooncake-integration/store/store_py_internal.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎mooncake-integration/store/store_py_parallel_write.h‎
Lines changed: 50 additions & 10 deletions b/‎mooncake-integration/store/store_py_parallel_write.h‎
Lines changed: 50 additions & 10 deletions
@@ -586,8 +586,36 @@ config.preferred_segment = self.get_hostname()
 
 ```python
 config = ReplicateConfig()
-config.prefer_alloc_in_same_node = "True
+config.prefer_alloc_in_same_node = "True"
 ```
+
+#### group_ids
+**Type:** `List[str] | None`
+**Default:** `None`
+**Description:** Optionally assigns object metadata to routing groups during writes. When this field is unset, Mooncake Store preserves the default ungrouped behavior. When it is set, each group ID maps to the object at the same position in the write request. Empty string (`""`) explicitly stores that object as ungrouped.
+
+For batch write APIs, the number of group IDs must match the number of keys:
+
+```python
+config = ReplicateConfig()
+config.group_ids = ["session-a", "", "session-b"]
+
+store.put_batch(
+    ["key-a", "key-b", "key-c"],
+    [b"value-a", b"value-b", b"value-c"],
+    config,
+)
+```
+
+For a single-object write, provide one group ID:
+
+```python
+config = ReplicateConfig()
+config.group_ids = ["session-a"]
+
+store.put("key-a", b"value-a", config)
+```
+
 ---
 
 ## Unified Parallel Tensor IO API
 
@@ -677,6 +677,56 @@ class MooncakeStorePyWrapper {
                                ReplicateConfig{});  // Default config
     }
 
+    ReplicateConfig MakeIndexedConfig(
+        const ReplicateConfig &config,
+        const std::vector<size_t> &original_indices) const {
+        if (!config.group_ids.has_value()) {
+            return config;
+        }
+
+        ReplicateConfig indexed_config = config;
+        std::vector<std::string> group_ids;
+        group_ids.reserve(original_indices.size());
+        for (size_t index : original_indices) {
+            group_ids.push_back(config.group_ids->at(index));
+        }
+        indexed_config.group_ids = std::move(group_ids);
+        return indexed_config;
+    }
+
+    ReplicateConfig MakeRepeatedIndexedConfig(
+        const ReplicateConfig &config,
+        const std::vector<size_t> &original_indices, int repeat_count) const {
+        if (!config.group_ids.has_value()) {
+            return config;
+        }
+
+        ReplicateConfig indexed_config = config;
+        std::vector<std::string> group_ids;
+        group_ids.reserve(original_indices.size() *
+                          static_cast<size_t>(repeat_count));
+        for (size_t index : original_indices) {
+            for (int i = 0; i < repeat_count; ++i) {
+                group_ids.push_back(config.group_ids->at(index));
+            }
+        }
+        indexed_config.group_ids = std::move(group_ids);
+        return indexed_config;
+    }
+
+    std::vector<int> ValidateGroupIdsForBatchConfig(
+        const ReplicateConfig &config, size_t key_count,
+        const char *operation_name) const {
+        if (config.group_ids.has_value() &&
+            config.group_ids->size() != key_count) {
+            LOG(ERROR) << operation_name
+                       << ": group_ids size must match keys size";
+            return std::vector<int>(key_count,
+                                    to_py_ret(ErrorCode::INVALID_PARAMS));
+        }
+        return {};
+    }
+
     int put_tensor_with_tp_impl(
         const std::string &key, pybind11::object tensor,
         const ReplicateConfig &config = ReplicateConfig{}, int tp_rank = 0,
@@ -725,11 +775,12 @@ class MooncakeStorePyWrapper {
         const ReplicateConfig &config = ReplicateConfig{}) {
         return batch_write_tensor_impl(
             keys, infos, config, "put",
-            [this, &config](const std::vector<std::string> &write_keys,
-                            const std::vector<void *> &buffer_ptrs,
-                            const std::vector<size_t> &buffer_sizes) {
+            [this](const std::vector<std::string> &write_keys,
+                   const std::vector<void *> &buffer_ptrs,
+                   const std::vector<size_t> &buffer_sizes,
+                   const ReplicateConfig &write_config) {
                 return store_->batch_put_from(write_keys, buffer_ptrs,
-                                              buffer_sizes, config);
+                                              buffer_sizes, write_config);
             });
     }
 
@@ -769,6 +820,11 @@ class MooncakeStorePyWrapper {
         std::vector<size_t> processed_indices;
         std::vector<int> final_results(base_keys.size(),
                                        to_py_ret(ErrorCode::INVALID_PARAMS));
+        auto group_ids_error = ValidateGroupIdsForBatchConfig(
+            config, base_keys.size(), "batch_put_tensor_with_tp");
+        if (!group_ids_error.empty()) {
+            return group_ids_error;
+        }
         try {
             // Chunking phase (GIL Held)
             for (size_t i = 0; i < base_keys.size(); ++i) {
@@ -799,8 +855,10 @@ class MooncakeStorePyWrapper {
             if (all_chunk_keys.empty()) return final_results;
 
             // Reuse the standard batch_put implementation
-            std::vector<int> chunk_results =
-                batch_put_tensor_impl(all_chunk_keys, all_chunks_list, config);
+            ReplicateConfig chunk_config =
+                MakeRepeatedIndexedConfig(config, processed_indices, tp_size);
+            std::vector<int> chunk_results = batch_put_tensor_impl(
+                all_chunk_keys, all_chunks_list, chunk_config);
 
             // Aggregate results
             for (size_t i = 0; i < processed_indices.size(); ++i) {
@@ -1234,6 +1292,12 @@ class MooncakeStorePyWrapper {
         const std::vector<std::string> &keys,
         const pybind11::list &tensors_list,
         const ReplicateConfig &config = ReplicateConfig{}) {
+        auto group_ids_error = ValidateGroupIdsForBatchConfig(
+            config, keys.size(), "batch_upsert_tensor");
+        if (!group_ids_error.empty()) {
+            return group_ids_error;
+        }
+
         std::vector<PyTensorInfo> infos(keys.size());
         std::vector<int> results(keys.size(), 0);
 
@@ -1287,8 +1351,10 @@ class MooncakeStorePyWrapper {
             }
 
             if (!valid_keys.empty()) {
+                ReplicateConfig write_config =
+                    MakeIndexedConfig(config, original_indices);
                 std::vector<int> op_results = store_->batch_upsert_from(
-                    valid_keys, buffer_ptrs, buffer_sizes, config);
+                    valid_keys, buffer_ptrs, buffer_sizes, write_config);
                 for (size_t i = 0; i < op_results.size(); ++i) {
                     results[original_indices[i]] = op_results[i];
                 }
@@ -1603,6 +1669,7 @@ PYBIND11_MODULE(store, m) {
         .def_readwrite("prefer_alloc_in_same_node",
                        &ReplicateConfig::prefer_alloc_in_same_node)
         .def_readwrite("data_type", &ReplicateConfig::data_type)
+        .def_readwrite("group_ids", &ReplicateConfig::group_ids)
         .def("__str__", [](const ReplicateConfig &config) {
             std::ostringstream oss;
             oss << config;
 
@@ -848,7 +848,7 @@ bool is_default_replicate_config(const ReplicateConfig &config) {
     return config.replica_num == 1 && !config.with_soft_pin &&
            !config.with_hard_pin && config.preferred_segments.empty() &&
            config.preferred_segment.empty() &&
-           !config.prefer_alloc_in_same_node;
+           !config.prefer_alloc_in_same_node && !config.group_ids.has_value();
 }
 
 std::optional<ParallelAxisSpec> parse_parallel_axis_spec(
 
@@ -20,6 +20,12 @@ std::vector<int> batch_write_tensor_impl(const std::vector<std::string> &keys,
                                          const ReplicateConfig &config,
                                          const char *operation_name,
                                          BatchWriteFromFn &&batch_write_from) {
+    auto group_ids_error =
+        ValidateGroupIdsForBatchConfig(config, keys.size(), operation_name);
+    if (!group_ids_error.empty()) {
+        return group_ids_error;
+    }
+
     std::vector<int> results(keys.size(), 0);
 
     {
@@ -65,8 +71,10 @@ std::vector<int> batch_write_tensor_impl(const std::vector<std::string> &keys,
         }
 
         if (!valid_keys.empty()) {
-            std::vector<int> op_results =
-                batch_write_from(valid_keys, buffer_ptrs, buffer_sizes);
+            ReplicateConfig write_config =
+                MakeIndexedConfig(config, original_indices);
+            std::vector<int> op_results = batch_write_from(
+                valid_keys, buffer_ptrs, buffer_sizes, write_config);
             for (size_t i = 0; i < op_results.size(); ++i) {
                 results[original_indices[i]] = op_results[i];
             }
@@ -905,6 +913,12 @@ std::vector<int> batch_put_tensor_with_parallelism(
     const py::object &parallelisms = py::none(),
     const ReplicateConfig &config = ReplicateConfig{},
     const py::object &writer_partitions = py::none()) {
+    auto group_ids_error = ValidateGroupIdsForBatchConfig(
+        config, keys.size(), "batch_put_tensor_with_parallelism");
+    if (!group_ids_error.empty()) {
+        return group_ids_error;
+    }
+
     return execute_batch_parallelism_write_requests(
         keys, tensors_list.size(), parallelisms, writer_partitions,
         "batch_put_tensor_with_parallelism",
@@ -921,14 +935,16 @@ std::vector<int> batch_put_tensor_with_parallelism(
         },
         [this, &keys, &tensors_list, &config](size_t i,
                                               const py::handle &parallelism) {
+            ReplicateConfig key_config = config.ForSingleKey(i);
             return put_tensor_with_parallelism(
                 keys[i], tensors_list[i],
-                py::reinterpret_borrow<py::object>(parallelism), config);
+                py::reinterpret_borrow<py::object>(parallelism), key_config);
         },
         [this, &keys, &tensors_list, &config](
             size_t i, const py::handle &writer_partition) {
+            ReplicateConfig key_config = config.ForSingleKey(i);
             return put_tensor_with_parallelism(
-                keys[i], tensors_list[i], py::none(), config,
+                keys[i], tensors_list[i], py::none(), key_config,
                 py::reinterpret_borrow<py::object>(writer_partition));
         });
 }
@@ -1029,6 +1045,12 @@ std::vector<int> batch_put_tensor_with_parallelism_from(
     const py::object &parallelisms = py::none(),
     const ReplicateConfig &config = ReplicateConfig{},
     const py::object &writer_partitions = py::none()) {
+    auto group_ids_error = ValidateGroupIdsForBatchConfig(
+        config, keys.size(), "batch_put_tensor_with_parallelism_from");
+    if (!group_ids_error.empty()) {
+        return group_ids_error;
+    }
+
     return execute_batch_parallelism_write_requests(
         keys, buffer_ptrs.size(), parallelisms, writer_partitions,
         "batch_put_tensor_with_parallelism_from",
@@ -1070,14 +1092,16 @@ std::vector<int> batch_put_tensor_with_parallelism_from(
         },
         [this, &keys, &buffer_ptrs, &sizes, &config](
             size_t i, const py::handle &parallelism) {
+            ReplicateConfig key_config = config.ForSingleKey(i);
             return put_tensor_with_parallelism_from(
                 keys[i], buffer_ptrs[i], sizes[i],
-                py::reinterpret_borrow<py::object>(parallelism), config);
+                py::reinterpret_borrow<py::object>(parallelism), key_config);
         },
         [this, &keys, &buffer_ptrs, &sizes, &config](
             size_t i, const py::handle &writer_partition) {
+            ReplicateConfig key_config = config.ForSingleKey(i);
             return put_tensor_with_parallelism_from(
-                keys[i], buffer_ptrs[i], sizes[i], py::none(), config,
+                keys[i], buffer_ptrs[i], sizes[i], py::none(), key_config,
                 py::reinterpret_borrow<py::object>(writer_partition));
         });
 }
@@ -1345,6 +1369,12 @@ std::vector<int> batch_upsert_tensor_with_parallelism(
     const py::object &parallelisms = py::none(),
     const ReplicateConfig &config = ReplicateConfig{},
     const py::object &writer_partitions = py::none()) {
+    auto group_ids_error = ValidateGroupIdsForBatchConfig(
+        config, keys.size(), "batch_upsert_tensor_with_parallelism");
+    if (!group_ids_error.empty()) {
+        return group_ids_error;
+    }
+
     return execute_batch_parallelism_write_requests(
         keys, tensors_list.size(), parallelisms, writer_partitions,
         "batch_upsert_tensor_with_parallelism",
@@ -1361,14 +1391,16 @@ std::vector<int> batch_upsert_tensor_with_parallelism(
         },
         [this, &keys, &tensors_list, &config](size_t i,
                                               const py::handle &parallelism) {
+            ReplicateConfig key_config = config.ForSingleKey(i);
             return upsert_tensor_with_parallelism(
                 keys[i], tensors_list[i],
-                py::reinterpret_borrow<py::object>(parallelism), config);
+                py::reinterpret_borrow<py::object>(parallelism), key_config);
         },
         [this, &keys, &tensors_list, &config](
             size_t i, const py::handle &writer_partition) {
+            ReplicateConfig key_config = config.ForSingleKey(i);
             return upsert_tensor_with_parallelism(
-                keys[i], tensors_list[i], py::none(), config,
+                keys[i], tensors_list[i], py::none(), key_config,
                 py::reinterpret_borrow<py::object>(writer_partition));
         });
 }
@@ -1379,6 +1411,12 @@ std::vector<int> batch_upsert_tensor_with_parallelism_from(
     const py::object &parallelisms = py::none(),
     const ReplicateConfig &config = ReplicateConfig{},
     const py::object &writer_partitions = py::none()) {
+    auto group_ids_error = ValidateGroupIdsForBatchConfig(
+        config, keys.size(), "batch_upsert_tensor_with_parallelism_from");
+    if (!group_ids_error.empty()) {
+        return group_ids_error;
+    }
+
     return execute_batch_parallelism_write_requests(
         keys, buffer_ptrs.size(), parallelisms, writer_partitions,
         "batch_upsert_tensor_with_parallelism_from",
@@ -1430,14 +1468,16 @@ std::vector<int> batch_upsert_tensor_with_parallelism_from(
         },
         [this, &keys, &buffer_ptrs, &sizes, &config](
             size_t i, const py::handle &parallelism) {
+            ReplicateConfig key_config = config.ForSingleKey(i);
             return upsert_tensor_with_parallelism_from(
                 keys[i], buffer_ptrs[i], sizes[i],
-                py::reinterpret_borrow<py::object>(parallelism), config);
+                py::reinterpret_borrow<py::object>(parallelism), key_config);
         },
         [this, &keys, &buffer_ptrs, &sizes, &config](
             size_t i, const py::handle &writer_partition) {
+            ReplicateConfig key_config = config.ForSingleKey(i);
             return upsert_tensor_with_parallelism_from(
-                keys[i], buffer_ptrs[i], sizes[i], py::none(), config,
+                keys[i], buffer_ptrs[i], sizes[i], py::none(), key_config,
                 py::reinterpret_borrow<py::object>(writer_partition));
         });
 }
Original file line number	Diff line number	Diff line change
`@@ -848,7 +848,7 @@ bool is_default_replicate_config(const ReplicateConfig &config) {`
`848`	`848`	`return config.replica_num == 1 && !config.with_soft_pin &&`
`849`	`849`	`!config.with_hard_pin && config.preferred_segments.empty() &&`
`850`	`850`	`config.preferred_segment.empty() &&`
`851`		`- !config.prefer_alloc_in_same_node;`
	`851`	`+ !config.prefer_alloc_in_same_node && !config.group_ids.has_value();`
`852`	`852`	`}`
`853`	`853`
`854`	`854`	`std::optional<ParallelAxisSpec> parse_parallel_axis_spec(`