kubernetes-sigs · jjk-g · Feb 15, 2026 · Feb 12, 2026 · Feb 12, 2026
diff --git a/inference_perf/datagen/shared_prefix_datagen.py b/inference_perf/datagen/shared_prefix_datagen.py
@@ -127,7 +127,7 @@ def _generate_prompts(self) -> None:
 
         # Shuffle the generated prompts to ensure randomness if served sequentially by different workers
         if self.enable_multi_turn_chat:
-            # no need to sync shuffles - multi-round initial prompt does not include system prompt 
-            random.shuffle(self.user_sessions)        
+            # no need to sync shuffles - multi-round initial prompt does not include system prompt
+            random.shuffle(self.user_sessions)
         else:
             random.shuffle(self.prompts)
diff --git a/inference_perf/loadgen/load_generator.py b/inference_perf/loadgen/load_generator.py
@@ -327,7 +327,7 @@ async def run_stage(
             worker_id = request_data.prefered_worker_id
             if worker_id >= 0:
                 worker_id = worker_id % active_workers
-            request_queue.put((stage_id, request_data, next(time_generator), lora_adapter), request_data.prefered_worker_id)
+            request_queue.put((stage_id, request_data, next(time_generator), lora_adapter), worker_id)
 
         # Wait until all requests are finished processing
         with tqdm(total=1.0, desc=f"Stage {stage_id} progress") as pbar: