Extract nemotron_v2 download definitions into datakit/download/nemotron_v2.py

ravwojdyla · claude · ravwojdyla · commit a90123e7e2ff · 2026-03-25T15:14:39.000-07:00
Moves NEMOTRON_V2_DATASETS and nemotron_v2_download_step() from
experiments/pretraining_datasets/nemotron_v2.py into a datakit module.
Replaces the raw dict with a NemotronV2Dataset dataclass. The experiment
file now imports definitions and only wires tokenization.

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/experiments/pretraining_datasets/__init__.py b/experiments/pretraining_datasets/__init__.py
@@ -130,7 +130,7 @@
     # Nemotron v2 datasets (from nvidia/Nemotron-Pre-Training-Datasets collection)
     **{
         family: {
-            "subsets": list(info["subsets"].keys()),
+            "subsets": list(info.subsets.keys()),
             "download": nemotron_v2_downloads[family],
             "tokenize_fn": lambda f=family: tokenize_nemotron_v2_family(f),
         }
diff --git a/experiments/pretraining_datasets/nemotron_v2.py b/experiments/pretraining_datasets/nemotron_v2.py
@@ -2,134 +2,26 @@
 # SPDX-License-Identifier: Apache-2.0
 
 """
-Nemotron v2 pre-training dataset definitions and tokenization.
+Nemotron v2 pre-training dataset tokenization.
 
-These datasets come from the nvidia/Nemotron-Pre-Training-Datasets collection
-on HuggingFace. They are additive to the original Nemotron-CC (v1) dataset
-defined in nemotron.py.
-
-Most of these datasets are gated and require HF_TOKEN at download time.
-All use parquet format with a "text" field.
+Download definitions live in marin.datakit.download.nemotron_v2.
+This file wires them into tokenization steps for experiment pipelines.
 """
 
 import os.path
 
-from marin.datakit.download.huggingface import DownloadConfig, download_hf
+from marin.datakit.download.nemotron_v2 import NEMOTRON_V2_DATASETS, nemotron_v2_download_step
 from marin.execution.executor import ExecutorStep, this_output_path, versioned
 from marin.processing.tokenize import TokenizeConfig, tokenize
 from marin.processing.tokenize.data_configs import TokenizerStep
 
-# ============================================================================
-# DATASET DEFINITIONS
-# ============================================================================
-
-# Each entry: (hf_id, revision, subsets_dict)
-# subsets_dict maps subset_name -> glob pattern for parquet files within the download
-
-NEMOTRON_V2_DATASETS = {
-    "nemotron_cc_v2": {
-        "hf_dataset_id": "nvidia/Nemotron-CC-v2",
-        "revision": "229a2e7",
-        "subsets": {
-            "diverse_qa": "Diverse-QA/**/*.parquet",
-            "high_quality": "High-Quality/**/*.parquet",
-            "high_quality_synthetic": "High-Quality-Synthetic/**/*.parquet",
-            "medium_high_quality": "Medium-High-Quality/**/*.parquet",
-            "medium_quality": "Medium-Quality/**/*.parquet",
-            "translated_diverse_qa": "Translated-Diverse-QA/**/*.parquet",
-        },
-    },
-    "nemotron_cc_v2_1": {
-        "hf_dataset_id": "nvidia/Nemotron-CC-v2.1",
-        "revision": "ba6f2aa",
-        "subsets": {
-            "high_quality": "High-Quality/**/*.parquet",
-            "high_quality_dqa": "High-Quality-DQA/**/*.parquet",
-            "high_quality_synthetic": "High-Quality-Synthetic/**/*.parquet",
-            "high_quality_translated": "High-Quality-Translated-To-English/**/*.parquet",
-            "high_quality_translated_synthetic": "High-Quality-Translated-To-English-Synthetic/**/*.parquet",
-            "medium_high_quality": "Medium-High-Quality/**/*.parquet",
-            "medium_high_quality_synthetic": "Medium-High-Quality-Synthetic/**/*.parquet",
-            "medium_high_quality_translated": "Medium-High-Quality-Translated-To-English/**/*.parquet",
-            "medium_quality": "Medium-Quality/**/*.parquet",
-        },
-    },
-    "nemotron_cc_code_v1": {
-        "hf_dataset_id": "nvidia/Nemotron-CC-Code-v1",
-        "revision": "5c5bebc",
-        "subsets": {
-            "all": "data/**/*.parquet",
-        },
-    },
-    "nemotron_cc_math_v1": {
-        "hf_dataset_id": "nvidia/Nemotron-CC-Math-v1",
-        "revision": "397a250",
-        "subsets": {
-            "3": "3/**/*.parquet",
-            "4plus": "4plus/**/*.parquet",
-            "4plus_mind": "4plus_MIND/**/*.parquet",
-        },
-    },
-    "nemotron_pretraining_code_v1": {
-        "hf_dataset_id": "nvidia/Nemotron-Pretraining-Code-v1",
-        "revision": "01393d3",
-        "subsets": {
-            "synthetic_code": "Synthetic-Code/**/*.parquet",
-            "code_metadata": "Nemotron-Code-Metadata/**/*.parquet",
-        },
-    },
-    "nemotron_pretraining_code_v2": {
-        "hf_dataset_id": "nvidia/Nemotron-Pretraining-Code-v2",
-        "revision": "7b1a453",
-        "subsets": {
-            "code_metadata": "Nemotron-Code-Metadata/**/*.parquet",
-            "synthetic_question_answering": "Synthetic-Question-Answering/**/*.parquet",
-            "synthetic_student_teacher": "Synthetic-Student-Teacher/**/*.parquet",
-            "synthetic_code_review": "Synthetic-Code-Review/**/*.parquet",
-            "synthetic_rewriting": "Synthetic-Rewriting/**/*.parquet",
-            "synthetic_transpilation": "Synthetic-Transpilation/**/*.parquet",
-        },
-    },
-    "nemotron_pretraining_specialized_v1": {
-        "hf_dataset_id": "nvidia/Nemotron-Pretraining-Specialized-v1",
-        "revision": "9ed3718",
-        "subsets": {
-            "wiki_rewrite": "Nemotron-Pretraining-Wiki-Rewrite/**/*.parquet",
-            "math_textbooks": "Nemotron-Pretraining-Math-Textbooks/**/*.parquet",
-            "stem_sft": "Nemotron-Pretraining-STEM-SFT/**/*.parquet",
-            "scientific_coding": "Nemotron-Pretraining-Scientific-Coding/**/*.parquet",
-            "rqa": "Nemotron-Pretraining-RQA/**/*.parquet",
-            "infinibyte_reasoning": "Nemotron-Pretraining-InfiniByte-Reasoning/**/*.parquet",
-        },
-    },
-    "nemotron_pretraining_sft_v1": {
-        "hf_dataset_id": "nvidia/Nemotron-Pretraining-SFT-v1",
-        "revision": "3f1a5b8",
-        "subsets": {
-            "sft_code": "Nemotron-SFT-Code/**/*.parquet",
-            "sft_general": "Nemotron-SFT-General/**/*.parquet",
-            "sft_math": "Nemotron-SFT-MATH/**/*.parquet",
-        },
-    },
-}
-
-
 # ============================================================================
 # RAW DATASET DOWNLOADS
 # ============================================================================
 
-downloads: dict[str, ExecutorStep] = {}
-for _family, _info in NEMOTRON_V2_DATASETS.items():
-    downloads[_family] = ExecutorStep(
-        name=f"raw/{_family}",
-        fn=download_hf,
-        config=DownloadConfig(
-            hf_dataset_id=_info["hf_dataset_id"],
-            revision=versioned(_info["revision"]),
-            gcs_output_path=this_output_path(),
-            wait_for_completion=True,
-        ),
-    )
+downloads: dict[str, ExecutorStep] = {
+    family: nemotron_v2_download_step(family).as_executor_step() for family in NEMOTRON_V2_DATASETS
+}
 
 
 # ============================================================================
@@ -152,7 +44,7 @@ def tokenize_nemotron_v2_family(
     download_step = downloads[family]
 
     steps: dict[str, ExecutorStep[TokenizeConfig]] = {}
-    for subset, glob_pattern in info["subsets"].items():
+    for subset, glob_pattern in info.subsets.items():
         output_name = os.path.join("tokenized", family, subset)
         step = ExecutorStep(
             name=output_name,
diff --git a/lib/marin/src/marin/datakit/download/nemotron_v2.py b/lib/marin/src/marin/datakit/download/nemotron_v2.py
@@ -0,0 +1,122 @@
+# Copyright The Marin Authors
+# SPDX-License-Identifier: Apache-2.0
+
+"""Nemotron v2 pre-training dataset download definitions.
+
+These datasets come from the nvidia/Nemotron-Pre-Training-Datasets collection
+on HuggingFace. They are additive to the original Nemotron-CC (v1) dataset.
+
+Most of these datasets are gated and require HF_TOKEN at download time.
+All use parquet format with a "text" field.
+"""
+
+from dataclasses import dataclass, field
+
+from marin.datakit.download.huggingface import download_hf_step
+from marin.execution.step_spec import StepSpec
+
+
+@dataclass(frozen=True)
+class NemotronV2Dataset:
+    """Metadata for a single Nemotron v2 HuggingFace dataset."""
+
+    hf_dataset_id: str
+    revision: str
+    subsets: dict[str, str] = field(default_factory=dict)
+    """Maps subset_name -> glob pattern for parquet files within the download."""
+
+
+NEMOTRON_V2_DATASETS: dict[str, NemotronV2Dataset] = {
+    "nemotron_cc_v2": NemotronV2Dataset(
+        hf_dataset_id="nvidia/Nemotron-CC-v2",
+        revision="229a2e7",
+        subsets={
+            "diverse_qa": "Diverse-QA/**/*.parquet",
+            "high_quality": "High-Quality/**/*.parquet",
+            "high_quality_synthetic": "High-Quality-Synthetic/**/*.parquet",
+            "medium_high_quality": "Medium-High-Quality/**/*.parquet",
+            "medium_quality": "Medium-Quality/**/*.parquet",
+            "translated_diverse_qa": "Translated-Diverse-QA/**/*.parquet",
+        },
+    ),
+    "nemotron_cc_v2_1": NemotronV2Dataset(
+        hf_dataset_id="nvidia/Nemotron-CC-v2.1",
+        revision="ba6f2aa",
+        subsets={
+            "high_quality": "High-Quality/**/*.parquet",
+            "high_quality_dqa": "High-Quality-DQA/**/*.parquet",
+            "high_quality_synthetic": "High-Quality-Synthetic/**/*.parquet",
+            "high_quality_translated": "High-Quality-Translated-To-English/**/*.parquet",
+            "high_quality_translated_synthetic": "High-Quality-Translated-To-English-Synthetic/**/*.parquet",
+            "medium_high_quality": "Medium-High-Quality/**/*.parquet",
+            "medium_high_quality_synthetic": "Medium-High-Quality-Synthetic/**/*.parquet",
+            "medium_high_quality_translated": "Medium-High-Quality-Translated-To-English/**/*.parquet",
+            "medium_quality": "Medium-Quality/**/*.parquet",
+        },
+    ),
+    "nemotron_cc_code_v1": NemotronV2Dataset(
+        hf_dataset_id="nvidia/Nemotron-CC-Code-v1",
+        revision="5c5bebc",
+        subsets={"all": "data/**/*.parquet"},
+    ),
+    "nemotron_cc_math_v1": NemotronV2Dataset(
+        hf_dataset_id="nvidia/Nemotron-CC-Math-v1",
+        revision="397a250",
+        subsets={
+            "3": "3/**/*.parquet",
+            "4plus": "4plus/**/*.parquet",
+            "4plus_mind": "4plus_MIND/**/*.parquet",
+        },
+    ),
+    "nemotron_pretraining_code_v1": NemotronV2Dataset(
+        hf_dataset_id="nvidia/Nemotron-Pretraining-Code-v1",
+        revision="01393d3",
+        subsets={
+            "synthetic_code": "Synthetic-Code/**/*.parquet",
+            "code_metadata": "Nemotron-Code-Metadata/**/*.parquet",
+        },
+    ),
+    "nemotron_pretraining_code_v2": NemotronV2Dataset(
+        hf_dataset_id="nvidia/Nemotron-Pretraining-Code-v2",
+        revision="7b1a453",
+        subsets={
+            "code_metadata": "Nemotron-Code-Metadata/**/*.parquet",
+            "synthetic_question_answering": "Synthetic-Question-Answering/**/*.parquet",
+            "synthetic_student_teacher": "Synthetic-Student-Teacher/**/*.parquet",
+            "synthetic_code_review": "Synthetic-Code-Review/**/*.parquet",
+            "synthetic_rewriting": "Synthetic-Rewriting/**/*.parquet",
+            "synthetic_transpilation": "Synthetic-Transpilation/**/*.parquet",
+        },
+    ),
+    "nemotron_pretraining_specialized_v1": NemotronV2Dataset(
+        hf_dataset_id="nvidia/Nemotron-Pretraining-Specialized-v1",
+        revision="9ed3718",
+        subsets={
+            "wiki_rewrite": "Nemotron-Pretraining-Wiki-Rewrite/**/*.parquet",
+            "math_textbooks": "Nemotron-Pretraining-Math-Textbooks/**/*.parquet",
+            "stem_sft": "Nemotron-Pretraining-STEM-SFT/**/*.parquet",
+            "scientific_coding": "Nemotron-Pretraining-Scientific-Coding/**/*.parquet",
+            "rqa": "Nemotron-Pretraining-RQA/**/*.parquet",
+            "infinibyte_reasoning": "Nemotron-Pretraining-InfiniByte-Reasoning/**/*.parquet",
+        },
+    ),
+    "nemotron_pretraining_sft_v1": NemotronV2Dataset(
+        hf_dataset_id="nvidia/Nemotron-Pretraining-SFT-v1",
+        revision="3f1a5b8",
+        subsets={
+            "sft_code": "Nemotron-SFT-Code/**/*.parquet",
+            "sft_general": "Nemotron-SFT-General/**/*.parquet",
+            "sft_math": "Nemotron-SFT-MATH/**/*.parquet",
+        },
+    ),
+}
+
+
+def nemotron_v2_download_step(family: str) -> StepSpec:
+    """Create a download StepSpec for a Nemotron v2 dataset family."""
+    info = NEMOTRON_V2_DATASETS[family]
+    return download_hf_step(
+        f"raw/{family}",
+        hf_dataset_id=info.hf_dataset_id,
+        revision=info.revision,
+    )

Original file line number	Diff line number	Diff line change
`@@ -130,7 +130,7 @@`
`130`	`130`	`# Nemotron v2 datasets (from nvidia/Nemotron-Pre-Training-Datasets collection)`
`131`	`131`	`**{`
`132`	`132`	`family: {`
`133`		`- "subsets": list(info["subsets"].keys()),`
	`133`	`+ "subsets": list(info.subsets.keys()),`
`134`	`134`	`"download": nemotron_v2_downloads[family],`
`135`	`135`	`"tokenize_fn": lambda f=family: tokenize_nemotron_v2_family(f),`
`136`	`136`	`}`