Fix backward compatibility issue with MFSDP --grad-reduce-in-bf16 (#3799)

shjwudp · claude[bot] · web-flow · commit d9978209124e · 2026-03-12T00:54:02.000Z
Co-authored-by: claude[bot] &lt;209825114+claude[bot]@users.noreply.github.com&gt;
diff --git a/megatron/training/arguments.py b/megatron/training/arguments.py
@@ -872,6 +872,8 @@ def validate_args(args, defaults={}):
     args.megatron_fsdp_main_params_dtype = map_dtype(args.megatron_fsdp_main_params_dtype)
     args.megatron_fsdp_main_grads_dtype = map_dtype(args.megatron_fsdp_main_grads_dtype)
     args.megatron_fsdp_grad_comm_dtype = map_dtype(args.megatron_fsdp_grad_comm_dtype)
+    if args.grad_reduce_in_bf16:
+        args.megatron_fsdp_grad_comm_dtype = torch.bfloat16
 
     if args.fp8_param_gather:
         assert args.use_distributed_optimizer or args.use_torch_fsdp2 or args.use_megatron_fsdp or not torch.is_grad_enabled(), \