Merge pull request taco-project#31 from nvidia-china-sae/linhu/quickfix-mla-tp

zhuofan1123 · web-flow · commit 7396de7c5559 · 2025-06-25T15:53:21.000+08:00
quick fix for mla + tp
diff --git a/csrc/tp_transfer_thread_group.cpp b/csrc/tp_transfer_thread_group.cpp
@@ -70,12 +70,12 @@ void TPTransferThreadGroup::tp_group_transfer(
                     dst_layer_ptrs = static_cast<void**>(gpu_blocks_ + i * num_layers + layer_id);
                     src_layer_ptrs = static_cast<void**>(cpu_blocks_ + layer_id);
                     dst_startoff_inside_chunks = 0;
-                    src_startoff_inside_chunks = i * dst_chunk_size_in_bytes;
+                    src_startoff_inside_chunks = is_mla ? 0 : i * dst_chunk_size_in_bytes;
                     copy_size_in_bytes = dst_chunk_size_in_bytes;
                 } else {
                     dst_layer_ptrs = static_cast<void**>(cpu_blocks_ + layer_id);
                     src_layer_ptrs = static_cast<void**>(gpu_blocks_ + i * num_layers + layer_id);
-                    dst_startoff_inside_chunks = i * src_chunk_size_in_bytes;
+                    dst_startoff_inside_chunks = is_mla ? 0 : i * src_chunk_size_in_bytes;
                     src_startoff_inside_chunks = 0;
                     copy_size_in_bytes = src_chunk_size_in_bytes;
                 }
diff --git a/tests/test_kvmanager.py b/tests/test_kvmanager.py
@@ -123,7 +123,7 @@ def generate_gpu_blocks(model_config, cache_config, test_config):
         num_layer=num_layers,
         num_block=num_gpu_blocks,
         tokens_per_block=tokens_per_block,
-        num_head=num_kv_heads//tp_size,
+        num_head=num_kv_heads//tp_size if not use_mla else num_kv_heads,
         head_size=head_size,
         is_mla=model_config.use_mla
     )

Original file line number	Diff line number	Diff line change
`@@ -123,7 +123,7 @@ def generate_gpu_blocks(model_config, cache_config, test_config):`
`123`	`123`	`num_layer=num_layers,`
`124`	`124`	`num_block=num_gpu_blocks,`
`125`	`125`	`tokens_per_block=tokens_per_block,`
`126`		`- num_head=num_kv_heads//tp_size,`
	`126`	`+ num_head=num_kv_heads//tp_size if not use_mla else num_kv_heads,`
`127`	`127`	`head_size=head_size,`
`128`	`128`	`is_mla=model_config.use_mla`
`129`	`129`	`)`