kohya-ss · FurkanGozukara · Oct 23, 2025 · Oct 25, 2025 · Oct 25, 2025 · Oct 25, 2025
diff --git a/src/musubi_tuner/hv_train.py b/src/musubi_tuner/hv_train.py
@@ -132,12 +132,10 @@ def prepare_accelerator(args: argparse.Namespace) -> Accelerator:
             if torch.cuda.device_count() > 1
             else None
         ),
-        (
-            DistributedDataParallelKwargs(
-                gradient_as_bucket_view=args.ddp_gradient_as_bucket_view, static_graph=args.ddp_static_graph
-            )
-            if args.ddp_gradient_as_bucket_view or args.ddp_static_graph
-            else None
+        DistributedDataParallelKwargs(
+            find_unused_parameters=True,
+            gradient_as_bucket_view=args.ddp_gradient_as_bucket_view,
+            static_graph=args.ddp_static_graph
         ),
     ]
     kwargs_handlers = [i for i in kwargs_handlers if i is not None]
@@ -897,6 +895,12 @@ def train(self, args):
         else:
             transformer = accelerator.prepare(transformer)
 
+        # Ensure DDP is properly configured for models with unused parameters
+        if hasattr(transformer, 'module') and hasattr(transformer.module, 'find_unused_parameters'):
+            transformer.module.find_unused_parameters = True
+        elif hasattr(transformer, 'find_unused_parameters'):
+            transformer.find_unused_parameters = True
+
         optimizer, train_dataloader, lr_scheduler = accelerator.prepare(optimizer, train_dataloader, lr_scheduler)
 
         transformer.train()
@@ -1004,7 +1008,8 @@ def remove_model(old_ckpt_name):
         # training loop
 
         # log device and dtype for each model
-        logger.info(f"DiT dtype: {transformer.dtype}, device: {transformer.device}")
+        unwrapped_transformer = accelerator.unwrap_model(transformer)
+        logger.info(f"DiT dtype: {unwrapped_transformer.dtype}, device: {unwrapped_transformer.device}")
 
         clean_memory_on_device(accelerator.device)
 

diff --git a/src/musubi_tuner/hv_train_network.py b/src/musubi_tuner/hv_train_network.py
@@ -148,12 +148,10 @@ def prepare_accelerator(args: argparse.Namespace) -> Accelerator:
             if torch.cuda.device_count() > 1
             else None
         ),
-        (
-            DistributedDataParallelKwargs(
-                gradient_as_bucket_view=args.ddp_gradient_as_bucket_view, static_graph=args.ddp_static_graph
-            )
-            if args.ddp_gradient_as_bucket_view or args.ddp_static_graph
-            else None
+        DistributedDataParallelKwargs(
+            find_unused_parameters=True,
+            gradient_as_bucket_view=args.ddp_gradient_as_bucket_view,
+            static_graph=args.ddp_static_graph
         ),
     ]
     kwargs_handlers = [i for i in kwargs_handlers if i is not None]
@@ -1881,6 +1879,12 @@ def train(self, args):
         else:
             transformer = accelerator.prepare(transformer)
 
+        # Ensure DDP is properly configured for models with unused parameters
+        if hasattr(transformer, 'module') and hasattr(transformer.module, 'find_unused_parameters'):
+            transformer.module.find_unused_parameters = True
+        elif hasattr(transformer, 'find_unused_parameters'):
+            transformer.find_unused_parameters = True
+
         network, optimizer, train_dataloader, lr_scheduler = accelerator.prepare(network, optimizer, train_dataloader, lr_scheduler)
         training_model = network
 
@@ -2116,7 +2120,8 @@ def remove_model(old_ckpt_name):
         # training loop
 
         # log device and dtype for each model
-        logger.info(f"DiT dtype: {transformer.dtype}, device: {transformer.device}")
+        unwrapped_transformer = accelerator.unwrap_model(transformer)
+        logger.info(f"DiT dtype: {unwrapped_transformer.dtype}, device: {unwrapped_transformer.device}")
 
         clean_memory_on_device(accelerator.device)
 

diff --git a/src/musubi_tuner/qwen_image_train.py b/src/musubi_tuner/qwen_image_train.py
@@ -296,6 +296,12 @@ def train(self, args):
         else:
             transformer = accelerator.prepare(transformer)
 
+        # Ensure DDP is properly configured for models with unused parameters
+        if hasattr(transformer, 'module') and hasattr(transformer.module, 'find_unused_parameters'):
+            transformer.module.find_unused_parameters = True
+        elif hasattr(transformer, 'find_unused_parameters'):
+            transformer.find_unused_parameters = True
+
         optimizer, train_dataloader, lr_scheduler = accelerator.prepare(optimizer, train_dataloader, lr_scheduler)
         training_model = transformer
 
@@ -515,7 +521,8 @@ def remove_model(old_ckpt_name):
         # training loop
 
         # log device and dtype for each model
-        logger.info(f"DiT dtype: {transformer.dtype}, device: {transformer.device}")
+        unwrapped_transformer = accelerator.unwrap_model(transformer)
+        logger.info(f"DiT dtype: {unwrapped_transformer.dtype}, device: {unwrapped_transformer.device}")
 
         clean_memory_on_device(accelerator.device)
 

diff --git a/src/musubi_tuner/qwen_image_train_network.py b/src/musubi_tuner/qwen_image_train_network.py
@@ -436,20 +436,20 @@ def call_dit(
             if is_edit:
                 model_pred = model_pred[:, :img_seq_len]
 
-        # unpack latents
-        model_pred = qwen_image_utils.unpack_latents(
+        # flow matching loss - compute loss on raw model output before unpacking
+        latents = latents.to(device=accelerator.device, dtype=network_dtype)
+        target = noise - latents
+
+        # unpack latents for loss calculation
+        model_pred_unpacked = qwen_image_utils.unpack_latents(
             model_pred,
             lat_h * qwen_image_utils.VAE_SCALE_FACTOR,
             lat_w * qwen_image_utils.VAE_SCALE_FACTOR,
             qwen_image_utils.VAE_SCALE_FACTOR,
         )
 
-        # flow matching loss
-        latents = latents.to(device=accelerator.device, dtype=network_dtype)
-        target = noise - latents
-
         # print(model_pred.dtype, target.dtype)
-        return model_pred, target
+        return model_pred_unpacked, target
 
     # endregion model specific