PaddlePaddle
diff --git a/‎examples/config/dpo/full.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/config/dpo/full.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/config/dpo/full_function_call.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/config/dpo/full_function_call.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/config/dpo/full_tp_pp.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/config/dpo/full_tp_pp.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/config/dpo/full_tp_pp_ep.yaml‎
Lines changed: 59 additions & 0 deletions b/‎examples/config/dpo/full_tp_pp_ep.yaml‎
Lines changed: 59 additions & 0 deletions
diff --git a/‎examples/config/dpo/lora.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/config/dpo/lora.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/config/dpo/lora_tp_pp.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/config/dpo/lora_tp_pp.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/config/dpo/lora_tp_pp_ep.yaml‎
Lines changed: 56 additions & 0 deletions b/‎examples/config/dpo/lora_tp_pp_ep.yaml‎
Lines changed: 56 additions & 0 deletions
diff --git a/‎examples/config/pt/full.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/config/pt/full.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎examples/config/pt/full_offline_data.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/config/pt/full_offline_data.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/config/pt/full_tp_pp.yaml‎
Lines changed: 3 additions & 3 deletions b/‎examples/config/pt/full_tp_pp.yaml‎
Lines changed: 3 additions & 3 deletions
@@ -1,9 +1,9 @@
 ### data
 train_dataset_type: erniekit
 eval_dataset_type: erniekit
-train_dataset_path: ./data/dpo/train.jsonl
+train_dataset_path: ./tests/fixtures/dummy/dpo/train.jsonl
 train_dataset_prob: "1.0"
-eval_dataset_path: ./data/dpo/dev.jsonl
+eval_dataset_path: ./tests/fixtures/dummy/dpo/eval.jsonl
 eval_dataset_prob: "1.0"
 max_seq_len: 8192
 packing: false
@@ -31,7 +31,7 @@ save_strategy: steps
 logging_steps: 1
 gradient_accumulation_steps: 4
 logging_dir: ./vdl_log
-output_dir: ./checkpoints/qwen3_hf_0p6b_dpo_ckpts
+output_dir: ./checkpoints/qwen3-dpo-full
 disable_tqdm: true
 eval_accumulation_steps: 16
 
 
@@ -1,9 +1,9 @@
 ### data
 train_dataset_type: chatml
 eval_dataset_type: chatml
-train_dataset_path: ./data/dpo_fc/train.jsonl
+train_dataset_path: ./tests/fixtures/dummy/function-call/train.jsonl
 train_dataset_prob: "1.0"
-eval_dataset_path: ./data/dpo_fc/test.jsonl
+eval_dataset_path: ./tests/fixtures/dummy/function-call/eval.jsonl
 eval_dataset_prob: "1.0"
 max_seq_len: 8192
 packing: false
@@ -33,7 +33,7 @@ save_strategy: steps
 logging_steps: 1
 gradient_accumulation_steps: 4
 logging_dir: ./vdl_log
-output_dir: ./checkpoints/qwen3_hf_0p6b_dpo_fc_ckpts
+output_dir: ./checkpoints/qwen3-dpo-full-fc
 disable_tqdm: true
 eval_accumulation_steps: 16
 
 
@@ -1,9 +1,9 @@
 ### data
 train_dataset_type: erniekit
 eval_dataset_type: erniekit
-train_dataset_path: ./data/dpo/train.jsonl
+train_dataset_path: ./tests/fixtures/dummy/dpo/train.jsonl
 train_dataset_prob: "1.0"
-eval_dataset_path: ./data/dpo/dev.jsonl
+eval_dataset_path: ./tests/fixtures/dummy/dpo/eval.jsonl
 eval_dataset_prob: "1.0"
 max_seq_len: 8192
 num_samples_each_epoch: 6000000
@@ -32,7 +32,7 @@ save_strategy: steps
 logging_steps: 1
 gradient_accumulation_steps: 4
 logging_dir: ./vdl_log
-output_dir: ./checkpoints/qwen3_hf_0p6b_dpo_ckpts_parallel
+output_dir: ./checkpoints/qwen3-dpo-full-tp-pp
 disable_tqdm: true
 eval_accumulation_steps: 16
 
 
@@ -0,0 +1,59 @@
+### data
+train_dataset_type: erniekit
+eval_dataset_type: erniekit
+train_dataset_path: ./tests/fixtures/dummy/dpo/train.jsonl
+train_dataset_prob: "1.0"
+eval_dataset_path: ./tests/fixtures/dummy/dpo/eval.jsonl
+eval_dataset_prob: "1.0"
+max_seq_len: 8192
+num_samples_each_epoch: 6000000
+packing: true
+mix_strategy: concat
+
+### model
+model_name_or_path: Qwen/Qwen3-0.6B-Base
+attn_impl: flashmask
+
+### finetuning
+# base
+stage: DPO
+fine_tuning: full
+seed: 23
+do_train: true
+do_eval: true
+per_device_eval_batch_size: 1
+per_device_train_batch_size: 1
+num_train_epochs: 1
+max_steps: 10
+eval_steps: 100
+evaluation_strategy: steps
+save_steps: 100
+save_total_limit: 1
+save_strategy: steps
+logging_steps: 1
+gradient_accumulation_steps: 4
+logging_dir: ./vdl_log
+output_dir: ./checkpoints/qwen3-dpo-full-tp-pp-ep
+disable_tqdm: true
+eval_accumulation_steps: 16
+
+# train
+warmup_steps: 20
+learning_rate: 1.0e-6
+
+# performance
+tensor_parallel_degree: 4
+pipeline_parallel_degree: 2
+pipeline_parallel_config: enable_clear_every_step_cache disable_partial_send_recv disable_batch_p2p_comm
+sequence_parallel: true
+sharding: stage1
+recompute: true
+bf16: true
+fp16_opt_level: O2
+unified_checkpoint: true
+use_expert_parallel: true
+expert_parallel_degree: 4
+sharding_parallel_config: "split_param"
+amp_master_grad: true
+tensor_parallel_config: enable_delay_scale_loss sync_param sync_grad
+unified_checkpoint_config: ignore_merge_optimizer
@@ -1,9 +1,9 @@
 ### data
 train_dataset_type: erniekit
 eval_dataset_type: erniekit
-train_dataset_path: ./data/dpo/train.jsonl
+train_dataset_path: ./tests/fixtures/dummy/dpo/train.jsonl
 train_dataset_prob: "1.0"
-eval_dataset_path: ./data/dpo/dev.jsonl
+eval_dataset_path: ./tests/fixtures/dummy/dpo/eval.jsonl
 eval_dataset_prob: "1.0"
 max_seq_len: 8192
 packing: false
@@ -33,7 +33,7 @@ save_strategy: steps
 logging_steps: 1
 gradient_accumulation_steps: 4
 logging_dir: ./vdl_log
-output_dir: ./checkpoints/qwen3_hf_0p6b_dpo_lora_ckpts
+output_dir: ./checkpoints/qwen3-dpo-lora
 disable_tqdm: true
 eval_accumulation_steps: 16
 
 
@@ -1,9 +1,9 @@
 ### data
 train_dataset_type: erniekit
 eval_dataset_type: erniekit
-train_dataset_path: ./data/dpo/train.jsonl
+train_dataset_path: ./tests/fixtures/dummy/dpo/train.jsonl
 train_dataset_prob: "1.0"
-eval_dataset_path: ./data/dpo/dev.jsonl
+eval_dataset_path: ./tests/fixtures/dummy/dpo/eval.jsonl
 eval_dataset_prob: "1.0"
 max_seq_len: 8192
 packing: true
@@ -33,7 +33,7 @@ save_strategy: steps
 logging_steps: 1
 gradient_accumulation_steps: 4
 logging_dir: ./vdl_log
-output_dir: ./checkpoints/qwen3_hf_0p6b_dpo_lora_ckpts_parallel
+output_dir: ./checkpoints/qwen3-dpo-lora-tp-pp
 disable_tqdm: true
 eval_accumulation_steps: 16
 
 
@@ -0,0 +1,56 @@
+### data
+train_dataset_type: erniekit
+eval_dataset_type: erniekit
+train_dataset_path: ./tests/fixtures/dummy/dpo/train.jsonl
+train_dataset_prob: "1.0"
+eval_dataset_path: ./tests/fixtures/dummy/dpo/eval.jsonl
+eval_dataset_prob: "1.0"
+max_seq_len: 8192
+packing: true
+mix_strategy: concat
+
+### model
+model_name_or_path: Qwen/Qwen3-0.6B-Base
+attn_impl: flashmask
+lora: true
+lora_rank: 8
+
+### finetuning
+# base
+stage: DPO
+fine_tuning: lora
+seed: 23
+do_train: true
+do_eval: true
+per_device_eval_batch_size: 1
+per_device_train_batch_size: 1
+num_train_epochs: 1
+max_steps: 10
+eval_steps: 100
+evaluation_strategy: steps
+save_steps: 100
+save_strategy: steps
+logging_steps: 1
+gradient_accumulation_steps: 4
+logging_dir: ./vdl_log
+output_dir: ./checkpoints/qwen3-dpo-lora-tp-pp-ep
+disable_tqdm: true
+eval_accumulation_steps: 16
+
+# train
+warmup_steps: 20
+learning_rate: 1.0e-4
+
+# performance
+tensor_parallel_degree: 4
+pipeline_parallel_degree: 2
+expert_parallel_degree: 4
+use_expert_parallel: true
+sequence_parallel: true
+pipeline_parallel_config: enable_clear_every_step_cache disable_partial_send_recv
+sharding: stage1
+recompute: true
+bf16: true
+fp16_opt_level: O2
+unified_checkpoint: true
+amp_master_grad: true
@@ -1,9 +1,9 @@
 ### data
 train_dataset_type: erniekit
 eval_dataset_type: erniekit
-train_dataset_path: ./data/pt/train.jsonl
+train_dataset_path: ./tests/fixtures/dummy/pt/train.jsonl
 train_dataset_prob: "1.0"
-eval_dataset_path: ./data/pt/eval.jsonl
+eval_dataset_path: ./tests/fixtures/dummy/pt/eval.jsonl
 eval_dataset_prob: "1.0"
 max_seq_len: 8192
 mix_strategy: concat
@@ -30,7 +30,7 @@ save_strategy: steps
 logging_steps: 1
 gradient_accumulation_steps: 4
 logging_dir: ./vdl_log
-output_dir: ./checkpoints/qwen3_hf_0p6b_sft_ckpts
+output_dir: ./checkpoints/qwen3-pt-full
 disable_tqdm: true
 eval_accumulation_steps: 16
 
 
@@ -28,7 +28,7 @@ save_strategy: steps
 logging_steps: 1
 gradient_accumulation_steps: 4
 logging_dir: ./vdl_log
-output_dir: ./checkpoints/qwen3_hf_0p6b_sft_ckpts
+output_dir: ./checkpoints/qwen3-pt-full-offline
 disable_tqdm: true
 eval_accumulation_steps: 16
 
 
@@ -1,9 +1,9 @@
 ### data
 train_dataset_type: erniekit
 eval_dataset_type: erniekit
-train_dataset_path: ./data/pt/train.jsonl
+train_dataset_path: ./tests/fixtures/dummy/pt/train.jsonl
 train_dataset_prob: "1.0"
-eval_dataset_path: ./data/pt/eval.jsonl
+eval_dataset_path: ./tests/fixtures/dummy/pt/eval.jsonl
 eval_dataset_prob: "1.0"
 max_seq_len: 8192
 mix_strategy: concat
@@ -30,7 +30,7 @@ save_strategy: steps
 logging_steps: 1
 gradient_accumulation_steps: 4
 logging_dir: ./vdl_log
-output_dir: ./checkpoints/qwen3_hf_0p6b_sft_ckpts_parallel
+output_dir: ./checkpoints/qwen3-pt-full-tp-pp
 disable_tqdm: true
 eval_accumulation_steps: 16