modelscope
diff --git a/‎diffsynth/diffusion/base_pipeline.py‎
Lines changed: 0 additions & 7 deletions b/‎diffsynth/diffusion/base_pipeline.py‎
Lines changed: 0 additions & 7 deletions
diff --git a/‎diffsynth/pipelines/mova_audio_video.py‎
Lines changed: 27 additions & 23 deletions b/‎diffsynth/pipelines/mova_audio_video.py‎
Lines changed: 27 additions & 23 deletions
diff --git a/‎…/mova/model_inference/MOVA-360p-TI2AV.py‎ ‎…s/mova/model_inference/MOVA-360p-I2AV.py‎examples/mova/model_inference/MOVA-360p-TI2AV.py renamed to examples/mova/model_inference/MOVA-360p-I2AV.py b/‎…/mova/model_inference/MOVA-360p-TI2AV.py‎ ‎…s/mova/model_inference/MOVA-360p-I2AV.py‎examples/mova/model_inference/MOVA-360p-TI2AV.py renamed to examples/mova/model_inference/MOVA-360p-I2AV.py
diff --git a/‎…/mova/model_inference/MOVA-720p-TI2AV.py‎ ‎…s/mova/model_inference/MOVA-720p-I2AV.py‎examples/mova/model_inference/MOVA-720p-TI2AV.py renamed to examples/mova/model_inference/MOVA-720p-I2AV.py b/‎…/mova/model_inference/MOVA-720p-TI2AV.py‎ ‎…s/mova/model_inference/MOVA-720p-I2AV.py‎examples/mova/model_inference/MOVA-720p-TI2AV.py renamed to examples/mova/model_inference/MOVA-720p-I2AV.py
diff --git a/‎examples/mova/model_training/full/MOVA-360P-I2AV.sh‎
Lines changed: 39 additions & 0 deletions b/‎examples/mova/model_training/full/MOVA-360P-I2AV.sh‎
Lines changed: 39 additions & 0 deletions
diff --git a/‎examples/mova/model_training/full/MOVA-720P-I2AV.sh‎
Lines changed: 39 additions & 0 deletions b/‎examples/mova/model_training/full/MOVA-720P-I2AV.sh‎
Lines changed: 39 additions & 0 deletions
diff --git a/‎examples/mova/model_training/lora/MOVA-360P-I2AV.sh‎
Lines changed: 43 additions & 0 deletions b/‎examples/mova/model_training/lora/MOVA-360P-I2AV.sh‎
Lines changed: 43 additions & 0 deletions
diff --git a/‎examples/mova/model_training/lora/MOVA-720P-I2AV.sh‎
Lines changed: 43 additions & 0 deletions b/‎examples/mova/model_training/lora/MOVA-720P-I2AV.sh‎
Lines changed: 43 additions & 0 deletions
@@ -152,13 +152,6 @@ def output_audio_format_check(self, audio_output):
         # remove batch dim
         if audio_output.ndim == 3:
             audio_output = audio_output.squeeze(0)
-        # Transform to stereo
-        if audio_output.shape[0] == 1:
-            audio_output = audio_output.repeat(2, 1)
-        elif audio_output.shape[0] == 2:
-            pass
-        else:
-            raise ValueError("The output audio should be [C, T] or [1, C, T] or [2, C, T].")
         return audio_output.float()
 
     def load_models_to_device(self, model_names):
 
@@ -19,6 +19,7 @@
 from ..models.mova_audio_dit import MovaAudioDit
 from ..models.mova_audio_vae import DacVAE
 from ..models.mova_dual_tower_bridge import DualTowerConditionalBridge
+from ..utils.data.audio import convert_to_mono, resample_waveform
 
 
 class MovaAudioVideoPipeline(BasePipeline):
@@ -81,12 +82,16 @@ def from_pretrained(
 
         # Fetch models
         pipe.text_encoder = model_pool.fetch_model("wan_video_text_encoder")
-        pipe.video_dit, pipe.video_dit2 = model_pool.fetch_model("wan_video_dit", index=2)
+        dit = model_pool.fetch_model("wan_video_dit", index=2)
+        if isinstance(dit, list):
+            pipe.video_dit, pipe.video_dit2 = dit
+        else:
+            pipe.video_dit = dit
         pipe.audio_dit = model_pool.fetch_model("mova_audio_dit")
         pipe.dual_tower_bridge = model_pool.fetch_model("mova_dual_tower_bridge")
         pipe.video_vae = model_pool.fetch_model("wan_video_vae")
         pipe.audio_vae = model_pool.fetch_model("mova_audio_vae")
-        set_to_torch_norm([pipe.video_dit, pipe.video_dit2, pipe.audio_dit, pipe.dual_tower_bridge])
+        set_to_torch_norm([pipe.video_dit, pipe.audio_dit, pipe.dual_tower_bridge] + ([pipe.video_dit2] if pipe.video_dit2 is not None else []))
 
         # Size division factor
         if pipe.video_vae is not None:
@@ -185,7 +190,8 @@ def __call__(
         video = self.video_vae.decode(inputs_shared["video_latents"], device=self.device, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride)
         video = self.vae_output_to_video(video)
         self.load_models_to_device(["audio_vae"])
-        audio = self.audio_vae.decode(inputs_shared["audio_latents"]).to(dtype=torch.float32, device='cpu').squeeze()
+        audio = self.audio_vae.decode(inputs_shared["audio_latents"])
+        audio = self.output_audio_format_check(audio)
         self.load_models_to_device([])
         return video, audio
 
@@ -229,36 +235,33 @@ def __init__(self):
         )
 
     def process(self, pipe: MovaAudioVideoPipeline, input_video, video_noise, tiled, tile_size, tile_stride):
-        if input_video is None:
+        if input_video is None or not pipe.scheduler.training:
             return {"video_latents": video_noise}
-        # TODO: check for train
-        pipe.load_models_to_device(self.onload_model_names)
-        input_video = pipe.preprocess_video(input_video)
-        input_latents = pipe.video_vae.encode(input_video, device=pipe.device, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride).to(dtype=pipe.torch_dtype, device=pipe.device)
-        if pipe.scheduler.training:
-            return {"latents": video_noise, "input_latents": input_latents}
         else:
-            latents = pipe.scheduler.add_noise(input_latents, video_noise, timestep=pipe.scheduler.timesteps[0])
-            return {"latents": latents}
+            pipe.load_models_to_device(self.onload_model_names)
+            input_video = pipe.preprocess_video(input_video)
+            input_latents = pipe.video_vae.encode(input_video, device=pipe.device, tiled=tiled, tile_size=tile_size, tile_stride=tile_stride).to(dtype=pipe.torch_dtype, device=pipe.device)
+            return {"input_latents": input_latents}
 
 
 class MovaAudioVideoUnit_InputAudioEmbedder(PipelineUnit):
     def __init__(self):
         super().__init__(
             input_params=("input_audio", "audio_noise"),
             output_params=("audio_latents", "audio_input_latents"),
-            onload_model_names=("audio_vae_encoder",)
+            onload_model_names=("audio_vae",)
         )
 
     def process(self, pipe: MovaAudioVideoPipeline, input_audio, audio_noise):
-        if input_audio is None:
+        if input_audio is None or not pipe.scheduler.training:
             return {"audio_latents": audio_noise}
         else:
-            # TODO: support audio training
-            if pipe.scheduler.training:
-                return {"audio_latents": audio_noise, "audio_input_latents": audio_noise}
-            else:
-                raise NotImplementedError("Audio-to-video not supported.")
+            input_audio, sample_rate = input_audio
+            input_audio = convert_to_mono(input_audio)
+            input_audio = resample_waveform(input_audio, sample_rate, pipe.audio_vae.sample_rate)
+            input_audio = pipe.audio_vae.preprocess(input_audio.unsqueeze(0), pipe.audio_vae.sample_rate)
+            z, _, _, _, _ = pipe.audio_vae.encode(input_audio)
+            return {"audio_input_latents": z.mode()}
 
 
 class MovaAudioVideoUnit_PromptEmbedder(PipelineUnit):
@@ -329,15 +332,16 @@ def process(self, pipe: MovaAudioVideoPipeline, input_image, end_image, num_fram
         y = y.to(dtype=pipe.torch_dtype, device=pipe.device)
         return {"y": y}
 
+
 class MovaAudioVideoUnit_UnifiedSequenceParallel(PipelineUnit):
     def __init__(self):
         super().__init__(input_params=(), output_params=("use_unified_sequence_parallel",))
 
     def process(self, pipe: MovaAudioVideoPipeline):
-        if hasattr(pipe, "use_unified_sequence_parallel"):
-            if pipe.use_unified_sequence_parallel:
-                return {"use_unified_sequence_parallel": True}
-        return {}
+        if hasattr(pipe, "use_unified_sequence_parallel") and pipe.use_unified_sequence_parallel:
+            return {"use_unified_sequence_parallel": True}
+        return {"use_unified_sequence_parallel": False}
+
 
 def model_fn_mova_audio_video(
     video_dit: WanModel,
 
@@ -0,0 +1,39 @@
+accelerate launch --config_file examples/wanvideo/model_training/full/accelerate_config_14B.yaml examples/mova/model_training/train.py \
+  --dataset_base_path data/example_video_dataset/ltx2 \
+  --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv \
+  --data_file_keys "video,input_audio" \
+  --extra_inputs "input_audio,input_image" \
+  --height 352 \
+  --width 640 \
+  --num_frames 121 \
+  --dataset_repeat 100 \
+  --model_id_with_origin_paths "openmoss/MOVA-360p:video_dit/diffusion_pytorch_model-*.safetensors,openmoss/MOVA-360p:audio_dit/diffusion_pytorch_model.safetensors,openmoss/MOVA-360p:dual_tower_bridge/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:audio_vae/diffusion_pytorch_model.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:Wan2.1_VAE.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:models_t5_umt5-xxl-enc-bf16.safetensors" \
+  --learning_rate 1e-4 \
+  --num_epochs 5 \
+  --remove_prefix_in_ckpt "pipe.video_dit." \
+  --output_path "./models/train/MOVA-360p-I2AV_high_noise_full" \
+  --trainable_models "dit" \
+  --max_timestep_boundary 0.358 \
+  --min_timestep_boundary 0 \
+  --use_gradient_checkpointing
+# boundary corresponds to timesteps [900, 1000]
+
+accelerate launch --config_file examples/wanvideo/model_training/full/accelerate_config_14B.yaml examples/mova/model_training/train.py \
+  --dataset_base_path data/example_video_dataset/ltx2 \
+  --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv \
+  --data_file_keys "video,input_audio" \
+  --extra_inputs "input_audio,input_image" \
+  --height 352 \
+  --width 640 \
+  --num_frames 121 \
+  --dataset_repeat 100 \
+  --model_id_with_origin_paths "openmoss/MOVA-360p:video_dit_2/diffusion_pytorch_model-*.safetensors,openmoss/MOVA-360p:audio_dit/diffusion_pytorch_model.safetensors,openmoss/MOVA-360p:dual_tower_bridge/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:audio_vae/diffusion_pytorch_model.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:Wan2.1_VAE.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:models_t5_umt5-xxl-enc-bf16.safetensors" \
+  --learning_rate 1e-4 \
+  --num_epochs 5 \
+  --remove_prefix_in_ckpt "pipe.video_dit." \
+  --output_path "./models/train/MOVA-360p-I2AV_low_noise_full" \
+  --trainable_models "dit" \
+  --max_timestep_boundary 1 \
+  --min_timestep_boundary 0.358 \
+  --use_gradient_checkpointing
+# boundary corresponds to timesteps [0, 900)
@@ -0,0 +1,39 @@
+accelerate launch --config_file examples/wanvideo/model_training/full/accelerate_config_14B.yaml examples/mova/model_training/train.py \
+  --dataset_base_path data/example_video_dataset/ltx2 \
+  --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv \
+  --data_file_keys "video,input_audio" \
+  --extra_inputs "input_audio,input_image" \
+  --height 720 \
+  --width 1280 \
+  --num_frames 121 \
+  --dataset_repeat 100 \
+  --model_id_with_origin_paths "openmoss/MOVA-720p:video_dit/diffusion_pytorch_model-*.safetensors,openmoss/MOVA-720p:audio_dit/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:dual_tower_bridge/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:audio_vae/diffusion_pytorch_model.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:Wan2.1_VAE.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:models_t5_umt5-xxl-enc-bf16.safetensors" \
+  --learning_rate 1e-4 \
+  --num_epochs 5 \
+  --remove_prefix_in_ckpt "pipe.video_dit." \
+  --output_path "./models/train/MOVA-720p-I2AV_high_noise_full" \
+  --trainable_models "dit" \
+  --max_timestep_boundary 0.358 \
+  --min_timestep_boundary 0 \
+  --use_gradient_checkpointing
+# boundary corresponds to timesteps [900, 1000]
+
+accelerate launch --config_file examples/wanvideo/model_training/full/accelerate_config_14B.yaml examples/mova/model_training/train.py \
+  --dataset_base_path data/example_video_dataset/ltx2 \
+  --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv \
+  --data_file_keys "video,input_audio" \
+  --extra_inputs "input_audio,input_image" \
+  --height 720 \
+  --width 1280 \
+  --num_frames 121 \
+  --dataset_repeat 100 \
+  --model_id_with_origin_paths "openmoss/MOVA-720p:video_dit_2/diffusion_pytorch_model-*.safetensors,openmoss/MOVA-720p:audio_dit/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:dual_tower_bridge/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:audio_vae/diffusion_pytorch_model.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:Wan2.1_VAE.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:models_t5_umt5-xxl-enc-bf16.safetensors" \
+  --learning_rate 1e-4 \
+  --num_epochs 5 \
+  --remove_prefix_in_ckpt "pipe.video_dit." \
+  --output_path "./models/train/MOVA-720p-I2AV_low_noise_full" \
+  --trainable_models "dit" \
+  --max_timestep_boundary 1 \
+  --min_timestep_boundary 0.358 \
+  --use_gradient_checkpointing
+# boundary corresponds to timesteps [0, 900)
@@ -0,0 +1,43 @@
+accelerate launch examples/mova/model_training/train.py \
+  --dataset_base_path data/example_video_dataset/ltx2 \
+  --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv \
+  --data_file_keys "video,input_audio" \
+  --extra_inputs "input_audio,input_image" \
+  --height 352 \
+  --width 640 \
+  --num_frames 121 \
+  --dataset_repeat 100 \
+  --model_id_with_origin_paths "openmoss/MOVA-360p:video_dit/diffusion_pytorch_model-*.safetensors,openmoss/MOVA-360p:audio_dit/diffusion_pytorch_model.safetensors,openmoss/MOVA-360p:dual_tower_bridge/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:audio_vae/diffusion_pytorch_model.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:Wan2.1_VAE.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:models_t5_umt5-xxl-enc-bf16.safetensors" \
+  --learning_rate 1e-4 \
+  --num_epochs 5 \
+  --remove_prefix_in_ckpt "pipe.video_dit." \
+  --output_path "./models/train/MOVA-360p-I2AV_high_noise_lora" \
+  --lora_base_model "video_dit" \
+  --lora_target_modules "q,k,v,o,ffn.0,ffn.2" \
+  --lora_rank 32 \
+  --max_timestep_boundary 0.358 \
+  --min_timestep_boundary 0 \
+  --use_gradient_checkpointing
+# boundary corresponds to timesteps [900, 1000]
+
+# accelerate launch examples/mova/model_training/train.py \
+#   --dataset_base_path data/example_video_dataset/ltx2 \
+#   --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv \
+#   --data_file_keys "video,input_audio" \
+#   --extra_inputs "input_audio,input_image" \
+#   --height 352 \
+#   --width 640 \
+#   --num_frames 121 \
+#   --dataset_repeat 100 \
+#   --model_id_with_origin_paths "openmoss/MOVA-360p:video_dit_2/diffusion_pytorch_model-*.safetensors,openmoss/MOVA-360p:audio_dit/diffusion_pytorch_model.safetensors,openmoss/MOVA-360p:dual_tower_bridge/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:audio_vae/diffusion_pytorch_model.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:Wan2.1_VAE.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:models_t5_umt5-xxl-enc-bf16.safetensors" \
+#   --learning_rate 1e-4 \
+#   --num_epochs 5 \
+#   --remove_prefix_in_ckpt "pipe.video_dit." \
+#   --output_path "./models/train/MOVA-360p-I2AV_low_noise_lora" \
+#   --lora_base_model "video_dit" \
+#   --lora_target_modules "q,k,v,o,ffn.0,ffn.2" \
+#   --lora_rank 32 \
+#   --max_timestep_boundary 1 \
+#   --min_timestep_boundary 0.358 \
+#   --use_gradient_checkpointing
+# boundary corresponds to timesteps [0, 900)
@@ -0,0 +1,43 @@
+accelerate launch examples/mova/model_training/train.py \
+  --dataset_base_path data/example_video_dataset/ltx2 \
+  --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv \
+  --data_file_keys "video,input_audio" \
+  --extra_inputs "input_audio,input_image" \
+  --height 720 \
+  --width 1280 \
+  --num_frames 121 \
+  --dataset_repeat 100 \
+  --model_id_with_origin_paths "openmoss/MOVA-720p:video_dit/diffusion_pytorch_model-*.safetensors,openmoss/MOVA-720p:audio_dit/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:dual_tower_bridge/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:audio_vae/diffusion_pytorch_model.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:Wan2.1_VAE.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:models_t5_umt5-xxl-enc-bf16.safetensors" \
+  --learning_rate 1e-4 \
+  --num_epochs 5 \
+  --remove_prefix_in_ckpt "pipe.video_dit." \
+  --output_path "./models/train/MOVA-720p-I2AV_high_noise_lora" \
+  --lora_base_model "video_dit" \
+  --lora_target_modules "q,k,v,o,ffn.0,ffn.2" \
+  --lora_rank 32 \
+  --max_timestep_boundary 0.358 \
+  --min_timestep_boundary 0 \
+  --use_gradient_checkpointing
+# boundary corresponds to timesteps [900, 1000]
+
+accelerate launch examples/mova/model_training/train.py \
+  --dataset_base_path data/example_video_dataset/ltx2 \
+  --dataset_metadata_path data/example_video_dataset/ltx2_t2av.csv \
+  --data_file_keys "video,input_audio" \
+  --extra_inputs "input_audio,input_image" \
+  --height 720 \
+  --width 1280 \
+  --num_frames 121 \
+  --dataset_repeat 100 \
+  --model_id_with_origin_paths "openmoss/MOVA-720p:video_dit_2/diffusion_pytorch_model-*.safetensors,openmoss/MOVA-720p:audio_dit/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:dual_tower_bridge/diffusion_pytorch_model.safetensors,openmoss/MOVA-720p:audio_vae/diffusion_pytorch_model.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:Wan2.1_VAE.safetensors,DiffSynth-Studio/Wan-Series-Converted-Safetensors:models_t5_umt5-xxl-enc-bf16.safetensors" \
+  --learning_rate 1e-4 \
+  --num_epochs 5 \
+  --remove_prefix_in_ckpt "pipe.video_dit." \
+  --output_path "./models/train/MOVA-720p-I2AV_low_noise_lora" \
+  --lora_base_model "video_dit" \
+  --lora_target_modules "q,k,v,o,ffn.0,ffn.2" \
+  --lora_rank 32 \
+  --max_timestep_boundary 1 \
+  --min_timestep_boundary 0.358 \
+  --use_gradient_checkpointing
+# boundary corresponds to timesteps [0, 900)