marin-community
diff --git a/‎lib/levanter/src/levanter/kernels/pallas/autotune_utils.py‎
Lines changed: 161 additions & 0 deletions b/‎lib/levanter/src/levanter/kernels/pallas/autotune_utils.py‎
Lines changed: 161 additions & 0 deletions
diff --git a/‎lib/levanter/src/levanter/kernels/pallas/fused_cross_entropy_loss/api.py‎
Lines changed: 11 additions & 101 deletions b/‎lib/levanter/src/levanter/kernels/pallas/fused_cross_entropy_loss/api.py‎
Lines changed: 11 additions & 101 deletions
@@ -0,0 +1,161 @@
+# Copyright The Levanter Authors
+# SPDX-License-Identifier: Apache-2.0
+
+from collections.abc import Callable, Sequence
+from concurrent.futures import ThreadPoolExecutor
+import time
+from typing import Any, cast
+
+import jax
+from jax import core as jax_core
+from jax._src import mesh as mesh_lib
+from jax.sharding import NamedSharding
+
+
+_AUTOTUNE_THREAD_POOL = ThreadPoolExecutor(max_workers=1, thread_name_prefix="pallas_autotune")
+
+
+def sharding_of(value: jax.Array):
+    """Return array sharding metadata when available."""
+    sharding = None
+    try:
+        sharding = value.sharding  # type: ignore[attr-defined]
+    except Exception:
+        sharding = None
+    if sharding is not None:
+        return sharding
+
+    aval = getattr(value, "aval", None)
+    if aval is None:
+        return None
+    return getattr(aval, "sharding", None)
+
+
+def named_sharding_of(value: jax.Array) -> NamedSharding | None:
+    """Return a NamedSharding for the value when one is attached."""
+    sharding = sharding_of(value)
+    if isinstance(sharding, NamedSharding):
+        return sharding
+    return None
+
+
+def hlo_sharding_of(value: jax.Array):
+    """Return XLA HLO sharding metadata when it can be derived."""
+    sharding = sharding_of(value)
+    if sharding is None:
+        return None
+    to_hlo = getattr(sharding, "_to_xla_hlo_sharding", None)
+    if to_hlo is None:
+        return None
+    try:
+        return to_hlo(value.ndim)
+    except Exception:
+        return None
+
+
+def value_uses_manual_sharding(value: jax.Array) -> bool:
+    """Detect shard_map-local tracer values that carry manual sharding."""
+    hlo_sharding = hlo_sharding_of(value)
+    return hlo_sharding is not None and hlo_sharding.is_manual()
+
+
+def shape_dtype_struct_for_benchmark(value: jax.Array) -> jax.ShapeDtypeStruct:
+    """Build a lowering spec while preserving compatible global sharding."""
+    sharding = sharding_of(value)
+    if sharding is None or value_uses_manual_sharding(value):
+        return jax.ShapeDtypeStruct(value.shape, value.dtype)
+    return jax.ShapeDtypeStruct(value.shape, value.dtype, sharding=sharding)
+
+
+def contains_tracer(*values: jax.Array) -> bool:
+    """Whether any lowering input is already a tracer."""
+    return any(isinstance(value, jax_core.Tracer) for value in values)
+
+
+def benchmark_lowering_args(*values: jax.Array) -> tuple[jax.Array | jax.ShapeDtypeStruct, ...]:
+    """Choose tracer-aware lowering inputs for autotune benchmarks."""
+    if contains_tracer(*values):
+        return values
+    return tuple(shape_dtype_struct_for_benchmark(value) for value in values)
+
+
+def should_offload_compile(*values: jax.Array) -> bool:
+    """Whether benchmark lowering should run on the shared autotune thread."""
+    return (
+        contains_tracer(*values)
+        or any(value_uses_manual_sharding(value) for value in values)
+        or jax_core.unsafe_am_i_under_a_jit_DO_NOT_USE()
+        or not mesh_lib.thread_resources.env.physical_mesh.empty
+    )
+
+
+def compile_benchmark_fn_current_thread(
+    benchmark_fn: Callable[..., jax.Array],
+    lowering_args: tuple[jax.Array | jax.ShapeDtypeStruct, ...],
+) -> float:
+    """Compile a benchmark function on the current thread and return compile time."""
+    jitted = jax.jit(benchmark_fn)
+    start = time.perf_counter()
+    lowered = jitted.lower(*lowering_args)
+    lowered.compile()
+    return time.perf_counter() - start
+
+
+def compile_benchmark_fn(
+    *,
+    benchmark_fn: Callable[..., jax.Array],
+    lowering_args: tuple[jax.Array | jax.ShapeDtypeStruct, ...],
+    args: Sequence[jax.Array],
+) -> float:
+    """Compile a benchmark function, offloading when JAX thread-local state is unsafe."""
+    if not should_offload_compile(*args):
+        return compile_benchmark_fn_current_thread(benchmark_fn, lowering_args)
+    return _AUTOTUNE_THREAD_POOL.submit(
+        compile_benchmark_fn_current_thread,
+        benchmark_fn,
+        lowering_args,
+    ).result()
+
+
+def maybe_wrap_in_shard_map(
+    fn: Callable[..., jax.Array],
+    *,
+    args: Sequence[jax.Array],
+    out_specs: Any,
+    check_vma: bool = False,
+) -> Callable[..., jax.Array]:
+    """Wrap a benchmark function in shard_map when inputs are globally NamedSharded."""
+    if not args or any(value_uses_manual_sharding(value) for value in args):
+        return fn
+
+    shardings = tuple(named_sharding_of(value) for value in args)
+    if any(sharding is None for sharding in shardings):
+        return fn
+
+    named_shardings = cast(tuple[NamedSharding, ...], shardings)
+    mesh = named_shardings[0].mesh
+    if any(sharding.mesh != mesh for sharding in named_shardings[1:]):
+        return fn
+
+    return jax.shard_map(
+        fn,
+        mesh=mesh,
+        in_specs=tuple(sharding.spec for sharding in named_shardings),
+        out_specs=out_specs,
+        check_vma=check_vma,
+    )
+
+
+__all__ = [
+    "benchmark_lowering_args",
+    "compile_benchmark_fn",
+    "compile_benchmark_fn_current_thread",
+    "contains_tracer",
+    "hlo_sharding_of",
+    "maybe_wrap_in_shard_map",
+    "named_sharding_of",
+    "shape_dtype_struct_for_benchmark",
+    "sharding_of",
+    "should_offload_compile",
+    "value_uses_manual_sharding",
+]
@@ -10,12 +10,10 @@
 import warnings
 
 import jax
-from jax import core as jax_core
 import jax.numpy as jnp
-from jax.sharding import NamedSharding
 from jaxtyping import Array, Float, Int
 
-from levanter.kernels.pallas import autotune_cache_utils
+from levanter.kernels.pallas import autotune_cache_utils, autotune_utils
 
 from .config import BlockSizes
 from .tuned_block_sizes import (
@@ -114,80 +112,6 @@ def _is_tpu_vmem_compile_error(exc: Exception) -> bool:
     return "resource_exhausted" in message and "vmem" in message
 
 
-def _sharding_of(value: jax.Array):
-    sharding = None
-    try:
-        sharding = value.sharding  # type: ignore[attr-defined]
-    except Exception:
-        sharding = None
-    if sharding is not None:
-        return sharding
-
-    aval = getattr(value, "aval", None)
-    if aval is None:
-        return None
-    return getattr(aval, "sharding", None)
-
-
-def _named_sharding_of(value: jax.Array) -> NamedSharding | None:
-    sharding = _sharding_of(value)
-    if isinstance(sharding, NamedSharding):
-        return sharding
-    return None
-
-
-def _hlo_sharding_of(value: jax.Array):
-    sharding = _sharding_of(value)
-    if sharding is None:
-        return None
-    to_hlo = getattr(sharding, "_to_xla_hlo_sharding", None)
-    if to_hlo is None:
-        return None
-    try:
-        return to_hlo(value.ndim)
-    except Exception:
-        return None
-
-
-def _value_uses_manual_sharding(value: jax.Array) -> bool:
-    hlo_sharding = _hlo_sharding_of(value)
-    return hlo_sharding is not None and hlo_sharding.is_manual()
-
-
-def _shape_dtype_struct_for_benchmark(value: jax.Array) -> jax.ShapeDtypeStruct:
-    sharding = _sharding_of(value)
-    if sharding is None or _value_uses_manual_sharding(value):
-        return jax.ShapeDtypeStruct(value.shape, value.dtype)
-    return jax.ShapeDtypeStruct(value.shape, value.dtype, sharding=sharding)
-
-
-def _maybe_wrap_loss_in_shard_map_for_benchmark(
-    fn: Callable[[jax.Array, jax.Array, jax.Array], jax.Array],
-    *,
-    x: jax.Array,
-    labels: jax.Array,
-    w: jax.Array,
-) -> Callable[[jax.Array, jax.Array, jax.Array], jax.Array]:
-    if _value_uses_manual_sharding(x) or _value_uses_manual_sharding(labels) or _value_uses_manual_sharding(w):
-        return fn
-
-    x_sharding = _named_sharding_of(x)
-    labels_sharding = _named_sharding_of(labels)
-    w_sharding = _named_sharding_of(w)
-    if x_sharding is None or labels_sharding is None or w_sharding is None:
-        return fn
-    if x_sharding.mesh != labels_sharding.mesh or x_sharding.mesh != w_sharding.mesh:
-        return fn
-
-    return jax.shard_map(
-        fn,
-        mesh=x_sharding.mesh,
-        in_specs=(x_sharding.spec, labels_sharding.spec, w_sharding.spec),
-        out_specs=labels_sharding.spec,
-        check_vma=False,
-    )
-
-
 def _warn_vmem_compile_fallback_once(exc: Exception, *, impl_name: str) -> None:
     message = str(exc)
     key = f"{impl_name}|{message}"
@@ -403,10 +327,6 @@ def _candidate_block_sizes(
     return deduped
 
 
-def _is_tracer(x: jax.Array) -> bool:
-    return isinstance(x, jax_core.Tracer)
-
-
 def _benchmark_block_sizes_candidate(
     *,
     fn: ArrayImpl,
@@ -431,38 +351,28 @@ def _loss_only(x_value: jax.Array, labels_value: jax.Array, w_value: jax.Array)
         out = fn(x_value, labels_value, w_value, **kwargs)
         return out[0]
 
-    benchmark_fn = _maybe_wrap_loss_in_shard_map_for_benchmark(
+    benchmark_fn = autotune_utils.maybe_wrap_in_shard_map(
         _loss_only,
-        x=x,
-        labels=labels,
-        w=w,
+        args=(x, labels, w),
+        out_specs=autotune_utils.named_sharding_of(labels).spec if autotune_utils.named_sharding_of(labels) else None,
     )
-    jitted = jax.jit(benchmark_fn)
-
-    use_tracer_lowering = _is_tracer(x) or _is_tracer(labels) or _is_tracer(w)
-    lowering_args = (
-        (x, labels, w)
-        if use_tracer_lowering
-        else (
-            _shape_dtype_struct_for_benchmark(x),
-            _shape_dtype_struct_for_benchmark(labels),
-            _shape_dtype_struct_for_benchmark(w),
-        )
+    lowering_args = autotune_utils.benchmark_lowering_args(x, labels, w)
+    compile_time = autotune_utils.compile_benchmark_fn(
+        benchmark_fn=benchmark_fn,
+        lowering_args=lowering_args,
+        args=(x, labels, w),
     )
-    start = time.perf_counter()
-    lowered = jitted.lower(*lowering_args)
-    lowered.compile()
-    compile_time = time.perf_counter() - start
     if compile_time <= _AUTOTUNE_COMPILE_HIT_THRESHOLD_S:
         logger.info(
             "Fused CE autotune candidate %s likely hit JAX compilation cache (compile %.3fs).",
             candidate,
             compile_time,
         )
 
-    if _is_tracer(x) or _is_tracer(labels) or _is_tracer(w):
+    if autotune_utils.contains_tracer(x, labels, w):
         return compile_time
 
+    jitted = jax.jit(benchmark_fn)
     start = time.perf_counter()
     out = jitted(x, labels, w)
     jax.block_until_ready(out)