huggingface
diff --git a/‎README.md‎
Lines changed: 1 addition & 0 deletions b/‎README.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎docs/source/index.mdx‎
Lines changed: 1 addition & 0 deletions b/‎docs/source/index.mdx‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎examples/stable-diffusion/README.md‎
Lines changed: 45 additions & 0 deletions b/‎examples/stable-diffusion/README.md‎
Lines changed: 45 additions & 0 deletions
diff --git a/‎examples/stable-diffusion/image_to_video_generation.py‎
Lines changed: 42 additions & 1 deletion b/‎examples/stable-diffusion/image_to_video_generation.py‎
Lines changed: 42 additions & 1 deletion
diff --git a/‎examples/stable-diffusion/requirements.txt‎
Lines changed: 2 additions & 0 deletions b/‎examples/stable-diffusion/requirements.txt‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎examples/stable-diffusion/text_to_video_generation.py‎
Lines changed: 32 additions & 2 deletions b/‎examples/stable-diffusion/text_to_video_generation.py‎
Lines changed: 32 additions & 2 deletions
diff --git a/‎optimum/habana/diffusers/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎optimum/habana/diffusers/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎optimum/habana/diffusers/models/attention_processor.py‎
Lines changed: 112 additions & 0 deletions b/‎optimum/habana/diffusers/models/attention_processor.py‎
Lines changed: 112 additions & 0 deletions
@@ -306,6 +306,7 @@ The following model architectures, tasks and device distributions have been vali
 | Text to Video    |               | <li>Single card</li> | <li>[text-to-video generation](/examples/stable-diffusion#text-to-video-generation)</li> |
 | Image to Video   |               | <li>Single card</li> | <li>[image-to-video generation](/examples/stable-diffusion#image-to-video-generation)</li> |
 | i2vgen-xl   |               | <li>Single card</li> | <li>[image-to-video generation](/examples/stable-diffusion#I2vgen-xl)</li> |
+| Wan         |               | <li>Single card</li> |  <li>[text-to-video generation](/examples/stable-diffusion#text-to-video-with-wan-22)</li><li>[image-to-video generation](/examples/stable-diffusion#image-to-video-with-wan-22)</li> |
 
 ### PyTorch Image Models/TIMM:
 
 
@@ -131,6 +131,7 @@ In the tables below, ✅ means single-card, multi-card and DeepSpeed have all be
 | Text to Video       |          | <li>Single card</li> | <li>[text-to-video generation](/examples/stable-diffusion#text-to-video-generation)</li> |
 | Image to Video      |               | <li>Single card</li> | <li>[image-to-video generation](/examples/stable-diffusion#image-to-video-generation)</li> |
 | i2vgen-xl       |          | <li>Single card</li> | <li>[image-to-video generation](/examples/stable-diffusion#I2vgen-xl)</li> |
+| Wan             |          | <li>Single card</li> | <li>[text-to-video generation](/examples/stable-diffusion#text-to-video-with-wan-22)</li><li>[image-to-video generation](/examples/stable-diffusion#image-to-video-with-wan-22)</li> |
 
 - PyTorch Image Models/TIMM:
 
 
@@ -457,6 +457,51 @@ python image_to_video_generation.py \
     --bf16
 ```
 
+### Image-to-Video with Wan 2.2
+Wan2.2 is a comprehensive and open suite of video foundation models. Please refer to [Huggingface Wan2.2 doc](https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B)
+
+Here is how to generate a video with one image and text prompt:
+
+```bash
+PT_HPU_LAZY_MODE=1 \
+python image_to_video_generation.py \
+    --model_name_or_path "Wan-AI/Wan2.2-TI2V-5B-Diffusers" \
+    --image_path "https://raw.githubusercontent.com/Wan-Video/Wan2.2/main/examples/i2v_input.JPG" \
+    --video_save_dir ./wan2.2-output \
+    --prompts "The cat removes the glasses from its eyes." \
+    --use_habana \
+    --use_hpu_graphs \
+    --height 1088 \
+    --width 800 \
+    --fps 24 \
+    --num_frames 121 \
+    --sdp_on_bf16 \
+    --bf16 
+```
+
+### Text-to-Video with Wan 2.2
+Wan2.2 is a comprehensive and open suite of video foundation models. Please refer to [Huggingface Wan2.2 doc](https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B)
+
+Here is how to generate a video with text prompt:
+
+```bash
+PT_HPU_LAZY_MODE=1 \
+python text_to_video_generation.py \
+    --model_name_or_path "Wan-AI/Wan2.2-TI2V-5B-Diffusers" \
+    --prompts "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage." \
+    --pipeline_type wan \
+    --num_videos_per_prompt 1 \
+    --use_habana \
+    --use_hpu_graphs \
+    --height 704 \
+    --width 1280 \
+    --num_frames 121 \
+    --num_inference_steps 50 \
+    --guidance_scale 5.0 \
+    --output_type mp4 \
+    --dtype bf16
+```
+
 ### Text-to-Video with CogvideoX
 
 CogVideoX is an open-source version of the video generation model originating from QingYing, unveiled in https://huggingface.co/THUDM/CogVideoX-5b.
 
@@ -26,7 +26,9 @@
     GaudiEulerDiscreteScheduler,
     GaudiI2VGenXLPipeline,
     GaudiStableVideoDiffusionPipeline,
+    GaudiWanImageToVideoPipeline,
 )
+from optimum.habana.transformers.gaudi_configuration import GaudiConfig
 from optimum.habana.utils import set_seed
 
 
@@ -236,6 +238,18 @@ def main():
     is_i2v_model = any(model in args.model_name_or_path for model in i2v_models)
     cogvideo_models = ["cogvideo"]
     is_cogvideo_model = any(model in args.model_name_or_path.lower() for model in cogvideo_models)
+    wan_i2v_models = ["Wan2.2"]
+    is_wan_i2v_model = any(model in args.model_name_or_path for model in wan_i2v_models)
+
+    if is_wan_i2v_model:
+        gaudi_config_kwargs = {"use_fused_adam": True, "use_fused_clip_norm": True}
+        if args.bf16:
+            gaudi_config_kwargs["use_torch_autocast"] = True
+
+        gaudi_config = GaudiConfig(**gaudi_config_kwargs)
+        args.gaudi_config_name = gaudi_config
+    logger.info(f"Gaudi Config: {gaudi_config}")
+
     # Load input image(s)
     input = []
     logger.info("Input image(s):")
@@ -245,6 +259,11 @@ def main():
         image = load_image(image_path)
         if is_i2v_model:
             image = image.convert("RGB")
+        elif is_wan_i2v_model:
+            image = image.resize((args.height, args.width))
+            # wan2.2 i2v pipeline only accepts 1 image
+            input = image
+            break
         else:
             image = image.resize((args.height, args.width))
         input.append(image)
@@ -342,6 +361,26 @@ def main():
             num_frames=args.num_frames,
             generator=generator,
         )
+    elif is_wan_i2v_model:
+        del kwargs["scheduler"]  # WAN I2V uses its own scheduler
+        pipeline = GaudiWanImageToVideoPipeline.from_pretrained(
+            args.model_name_or_path,
+            **kwargs,
+        )
+        outputs = pipeline(
+            image=input,
+            prompt=args.prompts,
+            negative_prompt=args.negative_prompts,
+            num_videos_per_prompt=args.num_videos_per_prompt,
+            height=args.height,
+            width=args.width,
+            num_frames=args.num_frames,
+            num_inference_steps=args.num_inference_steps,
+            guidance_scale=5.0,  # WAN I2V recommended guidance scale
+            output_type=args.output_type,
+            profiling_warmup_steps=args.profiling_warmup_steps,
+            profiling_steps=args.profiling_steps,
+        )
     else:
         pipeline = GaudiStableVideoDiffusionPipeline.from_pretrained(
             args.model_name_or_path,
@@ -385,7 +424,9 @@ def main():
                 if args.gif:
                     export_to_gif(frames, args.video_save_dir + "/gen_video_" + str(i).zfill(2) + ".gif")
                 else:
-                    export_to_video(frames, args.video_save_dir + "/gen_video_" + str(i).zfill(2) + ".mp4", fps=7)
+                    export_to_video(
+                        frames, args.video_save_dir + "/gen_video_" + str(i).zfill(2) + ".mp4", fps=args.fps
+                    )
 
                 if args.save_frames_as_images:
                     for j, frame in enumerate(frames):
 
@@ -2,3 +2,5 @@ opencv-python
 compel
 sentencepiece
 peft == 0.17.0
+ftfy
+
@@ -23,7 +23,7 @@
 import torch
 from diffusers.utils.export_utils import export_to_video
 
-from optimum.habana.diffusers import GaudiCogVideoXPipeline, GaudiTextToVideoSDPipeline
+from optimum.habana.diffusers import GaudiCogVideoXPipeline, GaudiTextToVideoSDPipeline, GaudiWanPipeline
 from optimum.habana.transformers.gaudi_configuration import GaudiConfig
 from optimum.habana.utils import set_seed
 
@@ -56,7 +56,7 @@ def main():
         "--pipeline_type",
         type=str,
         default="stable_diffusion",
-        help="pipeline type:stable_diffusion or cogvideoX",
+        help="pipeline type:stable_diffusion, cogvideoX or wan",
     )
     # Pipeline arguments
     parser.add_argument(
@@ -192,6 +192,8 @@ def main():
         pipeline: GaudiCogVideoXPipeline = GaudiCogVideoXPipeline.from_pretrained(args.model_name_or_path, **kwargs)
         pipeline.vae.enable_tiling()
         pipeline.vae.enable_slicing()
+    elif args.pipeline_type == "wan":
+        pipeline: GaudiWanPipeline = GaudiWanPipeline.from_pretrained(args.model_name_or_path, **kwargs)
     else:
         logger.error(f"unsupported pipeline type {args.pipeline_type}")
         return None
@@ -239,6 +241,34 @@ def main():
         video_save_dir.mkdir(parents=True, exist_ok=True)
         filename = video_save_dir / "cogvideoX_out.mp4"
         export_to_video(video, str(filename.resolve()), fps=8)
+    elif args.pipeline_type == "wan":
+        set_seed(args.seed)
+        outputs = pipeline(
+            prompt=args.prompts,
+            num_videos_per_prompt=args.num_videos_per_prompt,
+            num_inference_steps=args.num_inference_steps,
+            guidance_scale=args.guidance_scale,
+            negative_prompt=args.negative_prompts,
+            output_type="np" if args.output_type == "mp4" else args.output_type,
+            **kwargs_call,
+        )
+
+        # Save the pipeline in the specified directory if not None
+        if args.pipeline_save_dir is not None:
+            pipeline.save_pretrained(args.pipeline_save_dir)
+
+        # Save videos in the specified directory if not None
+        if args.video_save_dir is not None:
+            if args.output_type == "mp4":
+                video_save_dir = Path(args.video_save_dir)
+                video_save_dir.mkdir(parents=True, exist_ok=True)
+                logger.info(f"Saving videos in {video_save_dir.resolve()}...")
+
+                for i, video in enumerate(outputs.frames):
+                    filename = video_save_dir / f"wan_video_{i + 1}.mp4"
+                    export_to_video(video, str(filename.resolve()), fps=16)
+            else:
+                logger.warning("--output_type should be equal to 'mp4' to save videos in --video_save_dir.")
 
 
 if __name__ == "__main__":
 
@@ -28,6 +28,8 @@
 from .pipelines.stable_diffusion_xl.pipeline_stable_diffusion_xl_inpaint import GaudiStableDiffusionXLInpaintPipeline
 from .pipelines.stable_video_diffusion.pipeline_stable_video_diffusion import GaudiStableVideoDiffusionPipeline
 from .pipelines.text_to_video_synthesis.pipeline_text_to_video_synth import GaudiTextToVideoSDPipeline
+from .pipelines.wan.pipeline_wan import GaudiWanPipeline
+from .pipelines.wan.pipeline_wan_i2v import GaudiWanImageToVideoPipeline
 from .schedulers import (
     GaudiDDIMScheduler,
     GaudiEulerAncestralDiscreteScheduler,
 
@@ -19,6 +19,7 @@
 import torch
 import torch.nn.functional as F
 from diffusers.models.attention_processor import Attention
+from diffusers.models.transformers.transformer_wan import WanAttention, _get_added_kv_projections, _get_qkv_projections
 from diffusers.utils import deprecate, logging
 from diffusers.utils.import_utils import is_xformers_available
 from torch import nn
@@ -535,4 +536,115 @@ def __call__(
             return hidden_states
 
 
+class GaudiWanAttnProcessor:
+    r"""
+    Adapted from: https://github.com/huggingface/diffusers/blob/v0.35.1/src/diffusers/models/transformers/transformer_wan.py#L67
+
+    This class copied from `WanAttnProcessor` and overrides methods to use Gaudi-specific implementations.
+    Add a func _native_attention which uses FusedSDPA on Gaudi
+    Use hpex.kernels.apply_rotary_pos_emb on Gaudi
+    """
+
+    _attention_backend = None
+
+    def __init__(self, is_training=False):
+        if not hasattr(F, "scaled_dot_product_attention"):
+            raise ImportError(
+                "WanAttnProcessor requires PyTorch 2.0. To use it, please upgrade PyTorch to version 2.0 or higher."
+            )
+        self.is_training = is_training
+
+    def _native_attention(
+        self,
+        query: torch.Tensor,
+        key: torch.Tensor,
+        value: torch.Tensor,
+        attn_mask: Optional[torch.Tensor] = None,
+        dropout_p: float = 0.0,
+        is_causal: bool = False,
+        scale: Optional[float] = None,
+        enable_gqa: bool = False,
+    ) -> torch.Tensor:
+        # apply gaudi fused SDPA
+        from habana_frameworks.torch.hpex.kernels import FusedSDPA
+
+        # Fast FSDPA is not supported in training mode
+        fsdpa_mode = "None" if self.is_training else "fast"
+        query, key, value = (x.permute(0, 2, 1, 3) for x in (query, key, value))
+        out = FusedSDPA.apply(query, key, value, attn_mask, dropout_p, is_causal, scale, fsdpa_mode, None)
+        out = out.permute(0, 2, 1, 3)
+        return out
+
+    def __call__(
+        self,
+        attn: "WanAttention",
+        hidden_states: torch.Tensor,
+        encoder_hidden_states: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        rotary_emb: Optional[Tuple[torch.Tensor, torch.Tensor]] = None,
+    ) -> torch.Tensor:
+        encoder_hidden_states_img = None
+        if attn.add_k_proj is not None:
+            # 512 is the context length of the text encoder, hardcoded for now
+            image_context_length = encoder_hidden_states.shape[1] - 512
+            encoder_hidden_states_img = encoder_hidden_states[:, :image_context_length]
+            encoder_hidden_states = encoder_hidden_states[:, image_context_length:]
+
+        query, key, value = _get_qkv_projections(attn, hidden_states, encoder_hidden_states)
+
+        query = attn.norm_q(query)
+        key = attn.norm_k(key)
+
+        query = query.unflatten(2, (attn.heads, -1))
+        key = key.unflatten(2, (attn.heads, -1))
+        value = value.unflatten(2, (attn.heads, -1))
+
+        if rotary_emb is not None:
+            """
+            Wan's ROPE is pairwised, like this:
+            def apply_rotary_emb(
+                hidden_states: torch.Tensor,
+                freqs_cos: torch.Tensor,
+                freqs_sin: torch.Tensor,
+            ):
+                x1, x2 = hidden_states.unflatten(-1, (-1, 2)).unbind(-1)
+                cos = freqs_cos[..., 0::2]
+                sin = freqs_sin[..., 1::2]
+                out = torch.empty_like(hidden_states)
+                out[..., 0::2] = x1 * cos - x2 * sin
+                out[..., 1::2] = x1 * sin + x2 * cos
+                return out.type_as(hidden_states)
+            """
+            from habana_frameworks.torch.hpex.kernels import RotaryPosEmbeddingMode, apply_rotary_pos_emb
+
+            query = apply_rotary_pos_emb(query, *rotary_emb, None, 0, RotaryPosEmbeddingMode.PAIRWISE)
+            key = apply_rotary_pos_emb(key, *rotary_emb, None, 0, RotaryPosEmbeddingMode.PAIRWISE)
+
+        # I2V task
+        hidden_states_img = None
+        if encoder_hidden_states_img is not None:
+            key_img, value_img = _get_added_kv_projections(attn, encoder_hidden_states_img)
+            key_img = attn.norm_added_k(key_img)
+
+            key_img = key_img.unflatten(2, (attn.heads, -1))
+            value_img = value_img.unflatten(2, (attn.heads, -1))
+
+            hidden_states_img = self._native_attention(query, key_img, value_img, None, 0.0, False, None)
+
+            hidden_states_img = hidden_states_img.flatten(2, 3)
+            hidden_states_img = hidden_states_img.type_as(query)
+
+        hidden_states = self._native_attention(query, key, value, attention_mask, 0.0, False, None)
+
+        hidden_states = hidden_states.flatten(2, 3)
+        hidden_states = hidden_states.type_as(query)
+
+        if hidden_states_img is not None:
+            hidden_states = hidden_states + hidden_states_img
+
+        hidden_states = attn.to_out[0](hidden_states)
+        hidden_states = attn.to_out[1](hidden_states)
+        return hidden_states
+
+
 AttentionProcessor = Union[AttnProcessor2_0,]