support sp

david6666666 · david6666666 · commit 72bb6c8ad26e · 2026-01-27T16:58:57.000+08:00
Signed-off-by: David Chen &lt;530634352@qq.com&gt;
diff --git a/examples/offline_inference/image_to_video/image_to_video.py b/examples/offline_inference/image_to_video/image_to_video.py
@@ -34,6 +34,7 @@
 import PIL.Image
 import torch
 
+from vllm_omni.diffusion.data import DiffusionParallelConfig
 from vllm_omni.entrypoints.omni import Omni
 from vllm_omni.outputs import OmniRequestOutput
 from vllm_omni.utils.platform_utils import detect_device_type, is_npu
@@ -110,6 +111,18 @@ def parse_args() -> argparse.Namespace:
             "Default: None (no cache acceleration)."
         ),
     )
+    parser.add_argument(
+        "--ulysses_degree",
+        type=int,
+        default=1,
+        help="Number of GPUs used for ulysses sequence parallelism.",
+    )
+    parser.add_argument(
+        "--ring_degree",
+        type=int,
+        default=1,
+        help="Number of GPUs used for ring sequence parallelism.",
+    )
     return parser.parse_args()
 
 
@@ -183,6 +196,11 @@ def main():
             "rel_l1_thresh": 0.2,
         }
 
+    parallel_config = DiffusionParallelConfig(
+        ulysses_degree=args.ulysses_degree,
+        ring_degree=args.ring_degree,
+    )
+
     # Check if profiling is requested via environment variable
     profiler_enabled = bool(os.getenv("VLLM_TORCH_PROFILER_DIR"))
 
@@ -196,6 +214,7 @@ def main():
         model_class_name=model_class_name,
         cache_backend=args.cache_backend,
         cache_config=cache_config,
+        parallel_config=parallel_config,
     )
 
     if profiler_enabled:
diff --git a/vllm_omni/diffusion/models/ltx2/ltx2_transformer.py b/vllm_omni/diffusion/models/ltx2/ltx2_transformer.py
@@ -22,7 +22,6 @@
 import torch.nn as nn
 from diffusers.configuration_utils import ConfigMixin, register_to_config
 from diffusers.loaders import FromOriginalModelMixin, PeftAdapterMixin
-from diffusers.models._modeling_parallel import ContextParallelInput, ContextParallelOutput
 from diffusers.models.attention import AttentionMixin, AttentionModuleMixin, FeedForward
 from diffusers.models.cache_utils import CacheMixin
 from diffusers.models.embeddings import PixArtAlphaCombinedTimestepSizeEmbeddings, PixArtAlphaTextProjection
@@ -41,6 +40,8 @@
 
 from vllm_omni.diffusion.attention.backends.abstract import AttentionMetadata
 from vllm_omni.diffusion.attention.layer import Attention
+from vllm_omni.diffusion.distributed.sp_plan import SequenceParallelInput, SequenceParallelOutput
+from vllm_omni.diffusion.forward_context import get_forward_context, is_forward_context_available
 
 logger = logging.get_logger(__name__)  # pylint: disable=invalid-name
 
@@ -204,10 +205,27 @@ def __call__(
         )
 
         if attention_mask is not None:
-            attention_mask = attn.prepare_attention_mask(attention_mask, sequence_length, batch_size)
-            attention_mask = attention_mask.view(batch_size, attn.heads, -1, attention_mask.shape[-1])
-            if attn.attn.attn_backend.get_name().upper() == "FLASH_ATTN":
-                attention_mask = self._to_padding_mask(attention_mask)
+            sp_enabled = False
+            if is_forward_context_available():
+                try:
+                    od_config = get_forward_context().omni_diffusion_config
+                    parallel_config = getattr(od_config, "parallel_config", None) if od_config is not None else None
+                    sp_enabled = getattr(parallel_config, "sequence_parallel_size", 1) > 1
+                except Exception:
+                    sp_enabled = False
+
+            if sp_enabled:
+                # In SP, Ulysses expects a 2D padding mask that matches query length.
+                # For cross-attention, encoder sequence length != query length, so drop the mask.
+                if encoder_hidden_states is not None and encoder_hidden_states.shape[1] != hidden_states.shape[1]:
+                    attention_mask = None
+                else:
+                    attention_mask = self._to_padding_mask(attention_mask)
+            else:
+                attention_mask = attn.prepare_attention_mask(attention_mask, sequence_length, batch_size)
+                attention_mask = attention_mask.view(batch_size, attn.heads, -1, attention_mask.shape[-1])
+                if attn.attn.attn_backend.get_name().upper() == "FLASH_ATTN":
+                    attention_mask = self._to_padding_mask(attention_mask)
 
         if is_self_attention:
             encoder_hidden_states = hidden_states
@@ -953,18 +971,66 @@ class LTX2VideoTransformer3DModel(
     _supports_gradient_checkpointing = True
     _skip_layerwise_casting_patterns = ["norm"]
     _repeated_blocks = ["LTX2VideoTransformerBlock"]
-    _cp_plan = {
-        "": {
-            "hidden_states": ContextParallelInput(split_dim=1, expected_dims=3, split_output=False),
-            "encoder_hidden_states": ContextParallelInput(split_dim=1, expected_dims=3, split_output=False),
-            "encoder_attention_mask": ContextParallelInput(split_dim=1, expected_dims=2, split_output=False),
-        },
-        "rope": {
-            0: ContextParallelInput(split_dim=1, expected_dims=3, split_output=True),
-            1: ContextParallelInput(split_dim=1, expected_dims=3, split_output=True),
-        },
-        "proj_out": ContextParallelOutput(gather_dim=1, expected_dims=3),
-    }
+    _sp_plan: dict[str, Any] | None = None
+
+    @staticmethod
+    def _build_sp_plan(rope_type: str) -> dict[str, Any]:
+        if rope_type == "split":
+            # split RoPE returns (B, H, T, D/2) -> shard along T dim
+            rope_expected_dims = 4
+            rope_split_dim = 2
+        else:
+            # interleaved RoPE returns (B, T, D) -> shard along T dim
+            rope_expected_dims = 3
+            rope_split_dim = 1
+
+        return {
+            "": {
+                # Shard video/audio latents across sequence
+                "hidden_states": SequenceParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                "audio_hidden_states": SequenceParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                # Shard prompt embeds across sequence
+                "encoder_hidden_states": SequenceParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                "audio_encoder_hidden_states": SequenceParallelInput(split_dim=1, expected_dims=3, split_output=False),
+                # Shard video timestep when provided as (B, seq_len)
+                "timestep": SequenceParallelInput(split_dim=1, expected_dims=2, split_output=False),
+            },
+            "rope": {
+                0: SequenceParallelInput(
+                    split_dim=rope_split_dim, expected_dims=rope_expected_dims, split_output=True
+                ),
+                1: SequenceParallelInput(
+                    split_dim=rope_split_dim, expected_dims=rope_expected_dims, split_output=True
+                ),
+            },
+            "audio_rope": {
+                0: SequenceParallelInput(
+                    split_dim=rope_split_dim, expected_dims=rope_expected_dims, split_output=True
+                ),
+                1: SequenceParallelInput(
+                    split_dim=rope_split_dim, expected_dims=rope_expected_dims, split_output=True
+                ),
+            },
+            "cross_attn_rope": {
+                0: SequenceParallelInput(
+                    split_dim=rope_split_dim, expected_dims=rope_expected_dims, split_output=True
+                ),
+                1: SequenceParallelInput(
+                    split_dim=rope_split_dim, expected_dims=rope_expected_dims, split_output=True
+                ),
+            },
+            "cross_attn_audio_rope": {
+                0: SequenceParallelInput(
+                    split_dim=rope_split_dim, expected_dims=rope_expected_dims, split_output=True
+                ),
+                1: SequenceParallelInput(
+                    split_dim=rope_split_dim, expected_dims=rope_expected_dims, split_output=True
+                ),
+            },
+            # Gather outputs before returning
+            "proj_out": SequenceParallelOutput(gather_dim=1, expected_dims=3),
+            "audio_proj_out": SequenceParallelOutput(gather_dim=1, expected_dims=3),
+        }
 
     @register_to_config
     def __init__(
@@ -1153,6 +1219,7 @@ def __init__(
         self.audio_proj_out = nn.Linear(audio_inner_dim, audio_out_channels)
 
         self.gradient_checkpointing = False
+        self._sp_plan = self._build_sp_plan(rope_type)
 
     def forward(
         self,
diff --git a/vllm_omni/diffusion/models/ltx2/pipeline_ltx2.py b/vllm_omni/diffusion/models/ltx2/pipeline_ltx2.py
@@ -539,11 +539,21 @@ def prepare_audio_latents(
         latents_per_second = float(sampling_rate) / float(hop_length) / float(self.audio_vae_temporal_compression_ratio)
         latent_length = round(duration_s * latents_per_second)
 
+        latent_mel_bins = num_mel_bins // self.audio_vae_mel_compression_ratio
+
+        sp_size = getattr(self.od_config.parallel_config, "sequence_parallel_size", 1)
+        if sp_size > 1 and latent_length < sp_size:
+            pad_len = sp_size - latent_length
+            if latents is not None:
+                pad_shape = list(latents.shape)
+                pad_shape[2] = pad_len
+                padding = torch.zeros(pad_shape, dtype=latents.dtype, device=latents.device)
+                latents = torch.cat([latents, padding], dim=2)
+            latent_length = sp_size
+
         if latents is not None:
             return latents.to(device=device, dtype=dtype), latent_length
 
-        latent_mel_bins = num_mel_bins // self.audio_vae_mel_compression_ratio
-
         shape = (batch_size, num_channels_latents, latent_length, latent_mel_bins)
 
         if isinstance(generator, list) and len(generator) != batch_size: