Update README.md

JZhao1122 · JZhao1122 · commit cc80f47f7f37 · 2025-04-24T13:23:40.000+08:00
diff --git a/README.md b/README.md
@@ -140,6 +140,18 @@ bash reward_generation/mt_score_generate.sh \
     --loop 1
 ```
 
+Generate reasoning data
+
+```bash
+# example of math
+python rationale_generation/process.py \
+    --model_path "Qwen/QwQ-32B" \
+    --data_path _output/monte_carlo_processed/math_train_Qwen2.5-Math-7B-Instruct_monte_carlo \
+    --save_path _output/reasoning_output/math_train_QwQ_reasoning \
+    --num_gpu_per 1 \
+    --majority_of_N 1
+```
+
 ### Critique-refinement
 
 Execute policy refinement based on GenPRM's split output