feat: Fused Triton RoPE — 2.81 → 0.97 ms @16k (H100, FP16) #434

MiMindMendinc · 2025-11-13T03:05:59Z

2.9× faster than PyTorch baseline.
In-place, FMA, warp-optimal.
Tested: 16k context, 8 heads, head_dim=128, FP16 on H100.
Ready for Grok-1 attention stack.

@16k

…97 ms @16k (H100, FP16)

Add fused Triton RoPE kernel — 2.81 → 0.97 ms @16k

7efb0ac

gauravagerwala added a commit to gauravagerwala/grok-1 that referenced this pull request Dec 7, 2025

Update design for PR xai-org#434: feat: Fused Triton RoPE — 2.81 → 0.…

c52884f

…97 ms @16k (H100, FP16)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

feat: Fused Triton RoPE — 2.81 → 0.97 ms @16k (H100, FP16) #434

feat: Fused Triton RoPE — 2.81 → 0.97 ms @16k (H100, FP16) #434

Uh oh!

MiMindMendinc commented Nov 13, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

feat: Fused Triton RoPE — 2.81 → 0.97 ms @16k (H100, FP16) #434

Are you sure you want to change the base?

feat: Fused Triton RoPE — 2.81 → 0.97 ms @16k (H100, FP16) #434

Uh oh!

Conversation

MiMindMendinc commented Nov 13, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant