marin-community
diff --git a/‎experiments/grug/moe/model.py‎
Lines changed: 20 additions & 19 deletions b/‎experiments/grug/moe/model.py‎
Lines changed: 20 additions & 19 deletions
diff --git a/‎lib/levanter/src/levanter/grug/custom_vjp_moe.py‎
Lines changed: 143 additions & 0 deletions b/‎lib/levanter/src/levanter/grug/custom_vjp_moe.py‎
Lines changed: 143 additions & 0 deletions
@@ -26,7 +26,12 @@
     from jax.experimental.shard_map import shard_map
 from jaxtyping import Array, Float, Int, PRNGKeyArray
 from levanter.grug.attention import AttentionMask, RotaryConfig, align_kv_heads, apply_rotary_embedding, attention
-from levanter.grug.grug_moe import MoeActivation, MoeImplementation, moe_mlp
+from levanter.grug.grug_moe import (
+    MoeActivation,
+    MoEExpertMlp,
+    MoeImplementation,
+    resolve_moe_implementation,
+)
 from levanter.grug.loss import fused_linear_softmax_cross_entropy_loss
 from levanter.grug.sharding import Pembed_vocab, Plm_head, unshard
 from levanter.tracker.histogram import Histogram
@@ -89,6 +94,7 @@ def __post_init__(self) -> None:
             raise ValueError("num_experts_per_token must be <= num_experts")
         if self.shared_expert_intermediate_dim < 0:
             raise ValueError("shared_expert_intermediate_dim must be non-negative")
+        resolve_moe_implementation(self.moe_implementation)
 
     @property
     def inferred_head_dim(self) -> int:
@@ -312,32 +318,33 @@ class MoEMLP(eqx.Module):
 
     router: jax.Array
     router_bias: jax.Array
-    w_gate_up: jax.Array
-    w_down: jax.Array
+    expert_mlp: MoEExpertMlp
     cfg: GrugModelConfig = eqx.field(static=True)
 
     @staticmethod
     def init(cfg: GrugModelConfig, *, key: PRNGKeyArray) -> "MoEMLP":
-        k_router, k_gate, k_up, k_down = random.split(key, 4)
+        k_router, k_expert_mlp = random.split(key, 2)
         mesh = get_abstract_mesh()
 
         expert_axis_size = _mesh_axis_size(mesh, "expert")
         if cfg.num_experts % expert_axis_size != 0:
             raise ValueError(f"num_experts={cfg.num_experts} must be divisible by expert axis size={expert_axis_size}")
 
         d, e, i = cfg.hidden_dim, cfg.num_experts, cfg.intermediate_dim
-        w_gate = _init_weight(k_gate, (e, d, i), cfg.initializer_std)
-        w_up = _init_weight(k_up, (e, d, i), cfg.initializer_std)
-        # TODO: Explore whether concatenating gate/up at init (instead of keeping separate params)
-        # is (1) a meaningful MFU speedup and (2) a meaningful perf hit due to AdamH treating the
-        # concatenated tensor as a single parameter for its scale-invariant norm computation.
-        w_gate_up = jnp.concatenate([w_gate, w_up], axis=-1)
 
         return MoEMLP(
             router=reshard(_init_weight(k_router, (d, e), cfg.initializer_std), P(None, None)),
             router_bias=jnp.zeros((e,)),
-            w_gate_up=reshard(w_gate_up, P("expert", "data", "model")),
-            w_down=reshard(_init_weight(k_down, (e, i, d), cfg.initializer_std), P("expert", "model", "data")),
+            expert_mlp=MoEExpertMlp.init(
+                num_experts=e,
+                hidden_dim=d,
+                intermediate_dim=i,
+                initializer_std=cfg.initializer_std,
+                key=k_expert_mlp,
+                implementation=cfg.moe_implementation,
+                activation=ActivationFunctionEnum.silu,
+                capacity_factor=_DEFAULT_EP_CAPACITY_FACTOR,
+            ),
             cfg=cfg,
         )
 
@@ -389,16 +396,11 @@ def _local_qb_beta(s_ma):
             out_specs=P(),
         )(s_minus_alpha)
 
-        routed_flat = moe_mlp(
+        routed_flat = self.expert_mlp(
             x_flat,
             selected_experts.astype(jnp.int32),
             combine_weights,
-            self.w_gate_up,
-            self.w_down,
-            activation=ActivationFunctionEnum.silu,
-            implementation=self.cfg.moe_implementation,
             mesh=get_abstract_mesh(),
-            capacity_factor=_DEFAULT_EP_CAPACITY_FACTOR,
         )
 
         routed = rearrange(routed_flat, "(b s) d -> b s d", b=b, s=s)
@@ -592,5 +594,4 @@ def debug_mesh_and_token_pspec(num_devices: int) -> tuple[jax.sharding.AbstractM
     "RMSNorm",
     "Transformer",
     "debug_mesh_and_token_pspec",
-    "moe_mlp",
 ]
@@ -0,0 +1,143 @@
+# Copyright The Levanter Authors
+# SPDX-License-Identifier: Apache-2.0
+
+"""Custom-VJP down/gather implementation for local Grug MoE."""
+
+from __future__ import annotations
+
+import jax
+import jax.numpy as jnp
+from haliax.nn.ragged_dot import ragged_dot
+from levanter.grug.grug_moe import _gather_sum_reference
+
+
+def _custom_vjp_down_bwd(
+    dout: jax.Array,
+    h_interleaved: jax.Array,
+    w_down: jax.Array,
+    combine_weights: jax.Array,
+    token_ids_sort: jax.Array,
+    sorted_assignment_ids: jax.Array,
+    expert_frequency_offset: jax.Array,
+    dispatch_output: jax.Array,
+) -> tuple[jax.Array, jax.Array, jax.Array]:
+    group_sizes = jnp.diff(expert_frequency_offset)
+    assignments = h_interleaved.shape[0]
+    sorted_scores = combine_weights.reshape(assignments)[sorted_assignment_ids].astype(jnp.float32)
+    dout_sorted = dout[token_ids_sort]
+
+    def activation_forward(h: jax.Array) -> jax.Array:
+        gate = h[:, 0::2]
+        up = h[:, 1::2]
+        return jax.nn.silu(gate) * up
+
+    hidden, activation_pullback = jax.vjp(activation_forward, h_interleaved)
+    weighted_dout = (dout_sorted.astype(jnp.float32) * sorted_scores[:, None]).astype(dispatch_output.dtype)
+    _, down_pullback = jax.vjp(lambda h, w: ragged_dot(h, w, group_sizes), hidden, w_down)
+    d_hidden, d_w_down = down_pullback(weighted_dout)
+    (d_h_interleaved,) = activation_pullback(d_hidden)
+    d_scores_sorted = jnp.sum(dout_sorted.astype(jnp.float32) * dispatch_output.astype(jnp.float32), axis=-1)
+    d_scores = jnp.zeros_like(sorted_scores).at[sorted_assignment_ids].set(d_scores_sorted)
+    return d_h_interleaved, d_scores, d_w_down
+
+
+@jax.custom_vjp
+def custom_vjp_interleaved_down_gather_sum(
+    w13_out_interleaved: jax.Array,
+    combine_weights: jax.Array,
+    w_down: jax.Array,
+    token_ids_sort: jax.Array,
+    sorted_assignment_ids: jax.Array,
+    dispatch_positions: jax.Array,
+    group_sizes: jax.Array,
+) -> jax.Array:
+    out, _ = _custom_vjp_interleaved_down_gather_sum_forward(
+        w13_out_interleaved,
+        combine_weights,
+        w_down,
+        token_ids_sort,
+        sorted_assignment_ids,
+        dispatch_positions,
+        group_sizes,
+    )
+    return out
+
+
+def _custom_vjp_interleaved_down_gather_sum_forward(
+    w13_out_interleaved: jax.Array,
+    combine_weights: jax.Array,
+    w_down: jax.Array,
+    token_ids_sort: jax.Array,
+    sorted_assignment_ids: jax.Array,
+    dispatch_positions: jax.Array,
+    group_sizes: jax.Array,
+) -> tuple[jax.Array, tuple[jax.Array, ...]]:
+    del sorted_assignment_ids
+    hidden = jax.nn.silu(w13_out_interleaved[:, 0::2]) * w13_out_interleaved[:, 1::2]
+    dispatch_output = ragged_dot(hidden, w_down, group_sizes)
+    out = _gather_sum_reference(dispatch_output, dispatch_positions, combine_weights)
+    expert_frequency_offset = jnp.concatenate(
+        [jnp.zeros((1,), dtype=jnp.int32), jnp.cumsum(group_sizes, dtype=jnp.int32)]
+    )
+    return out, (
+        w13_out_interleaved,
+        combine_weights,
+        w_down,
+        token_ids_sort,
+        expert_frequency_offset,
+        dispatch_output,
+    )
+
+
+def _custom_vjp_interleaved_down_gather_sum_fwd(
+    w13_out_interleaved: jax.Array,
+    combine_weights: jax.Array,
+    w_down: jax.Array,
+    token_ids_sort: jax.Array,
+    sorted_assignment_ids: jax.Array,
+    dispatch_positions: jax.Array,
+    group_sizes: jax.Array,
+) -> tuple[jax.Array, tuple[jax.Array, ...]]:
+    out, residuals = _custom_vjp_interleaved_down_gather_sum_forward(
+        w13_out_interleaved,
+        combine_weights,
+        w_down,
+        token_ids_sort,
+        sorted_assignment_ids,
+        dispatch_positions,
+        group_sizes,
+    )
+    return out, (*residuals, sorted_assignment_ids)
+
+
+def _custom_vjp_interleaved_down_gather_sum_bwd(
+    residuals: tuple[jax.Array, ...],
+    dout: jax.Array,
+) -> tuple[jax.Array, jax.Array, jax.Array, None, None, None, None]:
+    (
+        w13_out_interleaved,
+        combine_weights,
+        w_down,
+        token_ids_sort,
+        expert_frequency_offset,
+        dispatch_output,
+        sorted_assignment_ids,
+    ) = residuals
+    d_h_interleaved, d_scores_flat, d_w_down = _custom_vjp_down_bwd(
+        dout,
+        w13_out_interleaved,
+        w_down,
+        combine_weights,
+        token_ids_sort,
+        sorted_assignment_ids,
+        expert_frequency_offset,
+        dispatch_output,
+    )
+    d_combine_weights = d_scores_flat.reshape(combine_weights.shape).astype(combine_weights.dtype)
+    return d_h_interleaved, d_combine_weights, d_w_down.astype(w_down.dtype), None, None, None, None
+
+
+custom_vjp_interleaved_down_gather_sum.defvjp(
+    _custom_vjp_interleaved_down_gather_sum_fwd,
+    _custom_vjp_interleaved_down_gather_sum_bwd,
+)