[nightshift] fix documentation drift in tutorials (#3966)

github-actions[bot] · web-flow · commit a243fe562853 · 2026-03-23T14:15:27.000-07:00
&gt; *Pages left behind,*
&gt; *code rewrites its own story—*
&gt; *docs echo the old.*

- **`add-optimizer.md`**: Fixed `TrainLmConfig` import path
(`levanter.trainer` → `levanter.main.train_lm`)
- **`first-experiment.md`**: Added required `gpu_type` arg to
`ResourceConfig.with_gpu(count=1)` → `ResourceConfig.with_gpu("H100",
count=1)`
- **`train-an-lm.md`**: Added required `gpu_type` arg to
`ResourceConfig.with_gpu(count=4)`, added missing `EvalTaskConfig`
import, fixed trailing comma
- **`train-dpo.md`**: `llama_3_1_8b` is a module-level `LlamaConfig`
variable, not a callable — removed erroneous `()` that would cause
`TypeError`
- **`train_test_overlap.md`**: Renamed `DedupeConfig` → `DeconConfig`
and `DedupMode` → `DeconMode` to match actual class names in
`marin.processing.classification.decon`
diff --git a/docs/tutorials/add-optimizer.md b/docs/tutorials/add-optimizer.md
@@ -101,7 +101,7 @@ In this guide, we’ll walk through adding an [AdaMax](https://optax.readthedocs
     and use it in `TrainLmConfig`:
 
     ```python
-    from levanter.trainer import TrainLmConfig
+    from levanter.main.train_lm import TrainLmConfig
 
     trainer_config = TrainLmConfig(
         ...
diff --git a/docs/tutorials/first-experiment.md b/docs/tutorials/first-experiment.md
@@ -105,7 +105,7 @@ This class defines basic training configuration that is sufficient for most expe
 
         nano_train_config = SimpleTrainConfig(
             # Here we define the hardware resources we need.
-            resources=ResourceConfig.with_gpu(count=1),
+            resources=ResourceConfig.with_gpu("H100", count=1),
             train_batch_size=32,
             num_train_steps=100,
             # set hyperparameters
diff --git a/docs/tutorials/train-an-lm.md b/docs/tutorials/train-an-lm.md
@@ -29,6 +29,9 @@ from levanter.models.llama import LlamaConfig
 # Import the executor framework for running experiments
 from marin.execution.executor import executor_main
 
+# Import evaluation task configuration
+from marin.evaluation.evaluation_config import EvalTaskConfig
+
 # Import logging utilities
 import logging
 ```
@@ -70,7 +73,7 @@ Set up your training configuration by calculating the number of training steps a
     NUM_TRAIN_STEPS = NUM_TRAIN_TOKENS // (BATCH_SIZE * SEQ_LEN)
 
     training_config = SimpleTrainConfig(
-        resources=ResourceConfig.with_gpu(count=4), # Hardware configuration: 4 GPUs
+        resources=ResourceConfig.with_gpu("H100", count=4), # Hardware configuration: 4 GPUs
         train_batch_size=BATCH_SIZE,                # Sequences processed per step
         num_train_steps=NUM_TRAIN_STEPS,            # Total optimization steps
         learning_rate=3e-3,                         # Peak learning rate
@@ -116,7 +119,7 @@ model = default_train(
     model_config=model_config,              # Model architecture
     train_config=training_config,           # Training hyperparameters
     tags=["${YOUR_TAG1}", "${YOUR_TAG2}"],  # Tags for experiment tracking
-    eval_harness_tasks = [EvalTaskConfig("mmlu", 0, task_alias="mmlu_0shot"), EvalTaskConfig("mmlu", 5, task_alias="mmlu_5shot")] # Evaluation Tasks to run on the checkpoint
+    eval_harness_tasks = [EvalTaskConfig("mmlu", 0, task_alias="mmlu_0shot"), EvalTaskConfig("mmlu", 5, task_alias="mmlu_5shot")],  # Evaluation Tasks to run on the checkpoint
 )
 
 # Set up the experiment execution
diff --git a/docs/tutorials/train-dpo.md b/docs/tutorials/train-dpo.md
@@ -53,7 +53,7 @@ from the loss by default.
 ## Configuring the DPO Run
 
 ```python
-model_config = llama_3_1_8b()
+model_config = llama_3_1_8b
 
 dpo_config = SimpleDPOConfig(
     resources=ResourceConfig.with_tpu("v5p-32"),
diff --git a/docs/tutorials/train_test_overlap.md b/docs/tutorials/train_test_overlap.md
@@ -148,15 +148,15 @@ NGRAM_CONFIG = NGramConfig(
 
 
 def build_step(dataset_config: DatasetConfig) -> ExecutorStep:
-    dedupe_config = DedupeConfig(
+    dedupe_config = DeconConfig(
         input_path=dataset_config.path,
         output_path=this_output_path(),
         decontaminate_source=EVAL_DATASET_STEPS,
         attribute_name="ngram_overlap",
         false_positive_rate=1e-20,
         ngram=NGRAM_CONFIG,
         processes=1024,
-        mode=DedupMode.TRAIN_TEST_OVERLAP,
+        mode=DeconMode.TRAIN_TEST_OVERLAP,
         text_field=dataset_config.text_field,
     )
 
@@ -188,7 +188,7 @@ Zephyr handles file discovery and parallelism automatically. You can control the
 ```python
 # In build_step function - adjust processes for parallelism
 def build_step(dataset_config: DatasetConfig) -> ExecutorStep:
-    dedupe_config = DedupeConfig(
+    dedupe_config = DeconConfig(
         # ...
         processes=128,  # Control parallelism level
     )
@@ -247,7 +247,7 @@ DEFAULT_NGRAM_CONFIG = NGramConfig(
 
 # Edit the processes parameter in build_step
 def build_step(dataset_config: DatasetConfig) -> ExecutorStep:
-    dedupe_config = DedupeConfig(
+    dedupe_config = DeconConfig(
         # ...
         processes=32,  # Increase for more parallelism
     )