FP8 MoE requant: shard_map + lax.scan on TPU by rohan-reddy · Pull Request #3 · rohan-reddy/tpu-inference

rohan-reddy · 2026-03-10T02:33:36Z

Summary

Draft PR for reviewing the diff of the updated model-loading branch (with shard_map) against main.

This is NOT meant to be merged — it's for reviewing the change

Signed-off-by: Rohan Reddy <rreddy.nyc@gmail.com>

rohan-reddy added 2 commits March 10, 2026 02:35

Shard FP8 MoE weights to TPU before requantization

9d62031

Signed-off-by: Rohan Reddy <rreddy.nyc@gmail.com>

lax.scan FP8 MoE requantization with memory-budget batch sizing

cc7d47d

Signed-off-by: Rohan Reddy <rreddy.nyc@gmail.com>

rohan-reddy force-pushed the model-loading-shard branch from a5ec0a9 to b94d9a7 Compare March 10, 2026 02:36

Use shard_map for FP8 MoE requant to reduce XLA reservation by 48%

41ab4c6

Signed-off-by: Rohan Reddy <rreddy.nyc@gmail.com>

rohan-reddy force-pushed the model-loading-shard branch from b94d9a7 to 41ab4c6 Compare March 10, 2026 02:44

rohan-reddy closed this Mar 10, 2026