marin-community · eric-czech · Apr 12, 2026 · Apr 12, 2026 · chatgpt-codex-connector · Apr 12, 2026
diff --git a/lib/levanter/src/levanter/eval_harness.py b/lib/levanter/src/levanter/eval_harness.py
@@ -42,7 +42,7 @@
 from jax.sharding import PartitionSpec
 
 import levanter.tracker
-from levanter.compat.hf_checkpoints import HFCheckpointConverter, load_tokenizer
+from levanter.compat.hf_checkpoints import HFCheckpointConverter
 from levanter.data.packing import (
     PromptCompletion,
     greedy_pack_prompt_completions,
@@ -56,7 +56,7 @@
 from levanter.models.gpt2 import Gpt2Config
 from levanter.models.loss import fused_cross_entropy_loss_and_logsumexp_penalty
 from levanter.utils.background_iterable import BackgroundIterator
-from levanter.tokenizers import MarinTokenizer
+from levanter.tokenizers import MarinTokenizer, load_tokenizer
 from levanter.utils.py_utils import set_global_rng_seeds
 
 try:

diff --git a/lib/levanter/tests/test_eval_harness.py b/lib/levanter/tests/test_eval_harness.py
@@ -183,3 +183,16 @@ def test_task_config():
     q = config.to_task_dict()
 
     assert len(q) == 3
+
+
+def test_eval_harness_config_loads_marin_tokenizer():
+    """Verify EvalHarnessMainConfig.the_tokenizer returns a MarinTokenizer."""
+    from levanter.eval_harness import EvalHarnessMainConfig, LmEvalHarnessConfig
+    from levanter.tokenizers import MarinTokenizer
+
+    config = EvalHarnessMainConfig(
+        eval_harness=LmEvalHarnessConfig(task_spec=["hellaswag"]),
+        tokenizer="stanford-crfm/marin-tokenizer",
+        checkpoint_path="/nonexistent",
+    )
+    assert isinstance(config.the_tokenizer, MarinTokenizer)