Skip to content

Commit dab9fef

Browse files
committed
[WeeklyReports]_2025_09.08-2025_09.21
1 parent f4448a2 commit dab9fef

File tree

1 file changed

+34
-0
lines changed

1 file changed

+34
-0
lines changed
Lines changed: 34 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,34 @@
1+
### 姓名
2+
郑天宇
3+
4+
### 实习项目
5+
自动并行流水并行功能增强和性能优化
6+
7+
### 本周工作
8+
9+
**1.在ernie4.5上验证method1:A->B->A的md5对齐,与loss接续**
10+
- 验证了纯tp、pp、dp、shardingV1、shardingV2,在训练时,moe_group需要设置为dummy,即不划分experts。
11+
- tp2(ep2)->pp4时,关闭tie_weights操作,md5仍无法对齐,查验后发现,需要关闭moe_use_aux_free,否则非pp将多出一份参数。
12+
- tp下,bias为None时,出现bug,主要是MPScale.apply未考虑bias为None的情况。
13+
- 当前ernie_moe跑vpp存在问题跳过。
14+
- 纯DP下,opt未被封装,会导致init_optimizer报错,优化了paddlenlp的fc适配代码。
15+
- DP2、ShardingV1、V2转TP2(EP2)_PP2等出现src_var和dst_var的global_size对不齐的现象,经验证,主要是Ernie下的SequenceParallelLayer未适配sharded_state_dict,做了适配。
16+
17+
**2.在ernie4.5上验证method2:A->B,二者合参后与uc的md5对齐**
18+
- 1.编写自动化脚本,一键训练,转化,合参,并分别与uc对比md5,已经验证了纯tp、pp、dp、shardingV1、shardingV2、sd2(ep2)。
19+
- 2.uc下,sd2(ep2)的md5无法对齐,经验证主要是uc未对expert的id做偏移,而fc做了偏移,对uc的expert_id偏移后,md5对齐。
20+
- 3.涉及TP的都无法对齐,主要是当前ernie_moe与uc在跑tp时存在bug,以及ernie_moe的tp_mappings未对mtp_block层做映射,load_state_dict和_handle_aoa未考虑到多卡转单机,已做适配。
21+
22+
23+
24+
### 下周工作
25+
26+
1.继续在ernie4.5上验证method2。
27+
28+
### 导师评价
29+
30+
31+
32+
33+
34+

0 commit comments

Comments
 (0)