marin-community
diff --git a/‎.github/workflows/marin-datakit-nemotron-ferry.yaml‎
Lines changed: 141 additions & 0 deletions b/‎.github/workflows/marin-datakit-nemotron-ferry.yaml‎
Lines changed: 141 additions & 0 deletions
diff --git a/‎experiments/defaults.py‎
Lines changed: 5 additions & 0 deletions b/‎experiments/defaults.py‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎experiments/evals/fineweb2_multilingual.py‎
Lines changed: 197 additions & 0 deletions b/‎experiments/evals/fineweb2_multilingual.py‎
Lines changed: 197 additions & 0 deletions
@@ -0,0 +1,141 @@
+name: Marin - Datakit Nemotron Ferry
+
+on:
+  schedule:
+    - cron: '0 1 * * 1'  # Weekly, Monday 01:00 UTC
+  workflow_dispatch:
+
+permissions:
+  contents: read
+
+jobs:
+  datakit-nemotron-ferry:
+    runs-on: ubuntu-latest
+    timeout-minutes: 1440  # 24h — nemotron medium is ~3.4 TiB
+    concurrency:
+      group: datakit-nemotron-ferry
+      cancel-in-progress: true
+    env:
+      SMOKE_RUN_ID: datakit-nemotron-ferry-${{ github.run_id }}-${{ github.run_attempt }}
+      FERRY_STATUS_PATH: gs://marin-tmp-eu-west4/ttl=1d/ci/datakit-nemotron-ferry-${{ github.run_id }}-${{ github.run_attempt }}/ferry_run_status.json
+      WANDB_ENTITY: marin-community
+      WANDB_PROJECT: marin
+      IRIS_CONFIG: lib/iris/examples/marin.yaml
+      IRIS_CONTROLLER_SERVICE_ACCOUNT: iris-controller@hai-gcp-models.iam.gserviceaccount.com
+
+    steps:
+      - name: Checkout code
+        uses: actions/checkout@v4
+
+      - name: Set up Python 3.12
+        uses: actions/setup-python@v5
+        with:
+          python-version: "3.12"
+
+      - name: Install uv
+        uses: astral-sh/setup-uv@v7
+        with:
+          enable-cache: true
+
+      - name: Install dependencies
+        run: uv sync --all-packages --extra=cpu --no-default-groups
+
+      - name: Authenticate to Google Cloud
+        uses: google-github-actions/auth@v2
+        with:
+          credentials_json: ${{ secrets.IRIS_CI_GCP_SA_KEY }}
+
+      - name: Set up Google Cloud SDK
+        uses: google-github-actions/setup-gcloud@v2
+        with:
+          project_id: ${{ secrets.GCP_PROJECT_ID }}
+
+      - name: Install SSH key
+        env:
+          SSH_KEY: ${{ secrets.IRIS_CI_GCP_SSH_KEY }}
+          SSH_KEY_PUB: ${{ secrets.IRIS_CI_GCP_SSH_KEY_PUB }}
+        run: |
+          mkdir -p ~/.ssh
+          printf '%s\n' "$SSH_KEY" > ~/.ssh/google_compute_engine
+          printf '%s\n' "$SSH_KEY_PUB" > ~/.ssh/google_compute_engine.pub
+          chmod 600 ~/.ssh/google_compute_engine
+          chmod 644 ~/.ssh/google_compute_engine.pub
+
+      - name: Submit datakit nemotron ferry
+        id: submit
+        shell: bash -l {0}
+        run: |
+          JOB_ID=$(.venv/bin/iris --config=${{ env.IRIS_CONFIG }} \
+            job run --no-wait \
+            --region=europe-west4 \
+            --memory=3G --disk=5G --cpu=1 --extra=cpu \
+            --priority production \
+            -e SMOKE_RUN_ID "$SMOKE_RUN_ID" \
+            -e FERRY_STATUS_PATH "$FERRY_STATUS_PATH" \
+            -e WANDB_ENTITY "$WANDB_ENTITY" \
+            -e WANDB_PROJECT "$WANDB_PROJECT" \
+            -e WANDB_API_KEY "$WANDB_API_KEY" \
+            -e HF_TOKEN "$HF_TOKEN" \
+            -- python -m experiments.ferries.datakit_nemotron_ferry)
+          echo "job_id=$JOB_ID" >> "$GITHUB_OUTPUT"
+          echo "Submitted job: $JOB_ID"
+        env:
+          WANDB_API_KEY: ${{ secrets.WANDB_API_KEY }}
+          HF_TOKEN: ${{ secrets.HF_TOKEN }}
+
+      - name: Wait for datakit nemotron ferry
+        shell: bash -l {0}
+        run: |
+          JOB_ID="${{ steps.submit.outputs.job_id }}"
+          echo "Polling job status: $JOB_ID"
+          while true; do
+            STATE=$(.venv/bin/iris --config=${{ env.IRIS_CONFIG }} \
+              job list --json --prefix "$JOB_ID" \
+              | jq -r --arg id "$JOB_ID" '[.[] | select(.job_id == $id)][0].state // empty')
+            case "$STATE" in
+              JOB_STATE_SUCCEEDED)
+                echo "Job succeeded"
+                exit 0
+                ;;
+              JOB_STATE_PENDING|JOB_STATE_BUILDING|JOB_STATE_RUNNING)
+                echo "$(date -u +%H:%M:%S) Job state: $STATE"
+                sleep 30
+                ;;
+              "")
+                echo "Job not found: $JOB_ID"
+                exit 1
+                ;;
+              *)
+                echo "Job finished with state: $STATE"
+                .venv/bin/iris --config=${{ env.IRIS_CONFIG }} \
+                  job list --json --prefix "$JOB_ID" \
+                  | jq --arg id "$JOB_ID" '.[] | {job_id, state, error}' || true
+                exit 1
+                ;;
+            esac
+          done
+
+      - name: Capture failure diagnostics
+        if: failure() || cancelled()
+        run: |
+          echo "=== Controller logs ==="
+          .venv/bin/iris --config=${{ env.IRIS_CONFIG }} \
+            process logs --max-lines=200 || true
+          echo "=== Job list ==="
+          .venv/bin/iris --config=${{ env.IRIS_CONFIG }} \
+            job list --json 2>/dev/null | jq '.[0:5]' || true
+
+  # Separate job so Slack always fires, even if the main job is force-killed
+  # after its grace window. See the datakit-smoke workflow for rationale.
+  notify-slack:
+    needs: datakit-nemotron-ferry
+    if: always() && (needs.datakit-nemotron-ferry.result == 'failure' || needs.datakit-nemotron-ferry.result == 'cancelled') && github.event_name == 'schedule'
+    runs-on: ubuntu-latest
+    steps:
+      - name: Notify Slack
+        env:
+          SLACK_WEBHOOK_URL: ${{ secrets.SLACK_WEBHOOK_URL }}
+          TEXT: ":red_circle: *Datakit Nemotron Ferry failed*\nRun: ${{ github.server_url }}/${{ github.repository }}/actions/runs/${{ github.run_id }}"
+        run: |
+          PAYLOAD=$(python3 -c "import sys,json; print(json.dumps({'text': sys.stdin.read()}))" <<< "$TEXT")
+          curl -sf -X POST -H 'Content-Type: application/json' -d "$PAYLOAD" "$SLACK_WEBHOOK_URL"
@@ -207,6 +207,7 @@ def default_tokenize(
     sample_count: int | VersionedValue[int] | None = None,
     is_validation: bool = False,
     levanter_batch_size: int | None = None,
+    tags: Sequence[str] = (),
     resources: ResourceConfig | None = None,
     worker_resources: ResourceConfig | None = None,
 ) -> ExecutorStep:
@@ -227,6 +228,7 @@ def default_tokenize(
             for more details.
         sample_count: Optional limit on the number of samples to tokenize per shard. If ``None``, tokenize everything.
         is_validation: Whether the dataset is a validation set. Doesn't do anything for HF datasets.
+        tags: Tags to attach to the Levanter dataset source for tagged evaluation.
     Returns:
         An ExecutorStep that represents the tokenized dataset.
     """
@@ -246,6 +248,7 @@ def default_tokenize(
             format=format,
             sample_count=ensure_versioned(sample_count) if sample_count is not None else None,
             levanter_batch_size=levanter_batch_size,
+            tags=[*tags],
             **extra_kwargs,
         )
     elif (
@@ -261,6 +264,7 @@ def default_tokenize(
             format=format,
             sample_count=ensure_versioned(sample_count) if sample_count is not None else None,
             levanter_batch_size=levanter_batch_size,
+            tags=[*tags],
             **extra_kwargs,
         )
     else:
@@ -272,6 +276,7 @@ def default_tokenize(
             format=format,
             sample_count=ensure_versioned(sample_count) if sample_count is not None else None,
             levanter_batch_size=levanter_batch_size,
+            tags=[*tags],
             **extra_kwargs,
         )
 
 
@@ -0,0 +1,197 @@
+# Copyright The Marin Authors
+# SPDX-License-Identifier: Apache-2.0
+
+"""
+FineWeb2 multilingual data and held-out eval bundles.
+
+The eval bundle tokenizes FineWeb2's per-language ``test`` split directly from Hugging Face parquet files. This avoids
+downloading the full train split while still making held-out documents available as Levanter validation caches.
+"""
+
+import os.path
+from collections.abc import Sequence
+from typing import Literal
+
+from experiments.defaults import default_tokenize
+from experiments.llama import llama3_tokenizer
+from marin.execution.executor import executor_main
+from marin.processing.tokenize.data_configs import TokenizerStep
+
+FINEWEB2_DATASET_ID = "HuggingFaceFW/fineweb-2"
+FINEWEB2_PARQUET_REVISION = "345aeeb34ec379862323beb9b5530d9e7f94522d"
+FineWeb2Split = Literal["train", "test"]
+LevanterCacheSplit = Literal["train", "validation"]
+FINEWEB2_EVAL_SPLIT: FineWeb2Split = "test"
+
+# Top 50 configs by total row count from the Hugging Face Dataset Viewer /size endpoint for
+# HuggingFaceFW/fineweb-2 source revision af9c13333eb981300149d5ca60a8e9d659b276b9.
+FINEWEB2_TOP_50_BY_ROWS = (
+    "rus_Cyrl",
+    "cmn_Hani",
+    "deu_Latn",
+    "jpn_Jpan",
+    "fra_Latn",
+    "ita_Latn",
+    "por_Latn",
+    "pol_Latn",
+    "nld_Latn",
+    "ind_Latn",
+    "ces_Latn",
+    "arb_Arab",
+    "vie_Latn",
+    "kor_Hang",
+    "swe_Latn",
+    "fas_Arab",
+    "ron_Latn",
+    "ukr_Cyrl",
+    "hun_Latn",
+    "ell_Grek",
+    "dan_Latn",
+    "nob_Latn",
+    "fin_Latn",
+    "tha_Thai",
+    "slk_Latn",
+    "bul_Cyrl",
+    "hin_Deva",
+    "bos_Latn",
+    "cat_Latn",
+    "ben_Beng",
+    "heb_Hebr",
+    "lit_Latn",
+    "slv_Latn",
+    "ekk_Latn",
+    "zsm_Latn",
+    "als_Latn",
+    "lvs_Latn",
+    "azj_Latn",
+    "hrv_Latn",
+    "tam_Taml",
+    "npi_Deva",
+    "urd_Arab",
+    "mkd_Cyrl",
+    "srp_Cyrl",
+    "mar_Deva",
+    "kat_Geor",
+    "kaz_Cyrl",
+    "mal_Mlym",
+    "isl_Latn",
+    "glg_Latn",
+)
+
+# Native-script South Asian/Indic configs available in FineWeb2, including every config written in an Indic script.
+# Romanized variants are deliberately omitted so the supplement tracks the primary written form of each language.
+FINEWEB2_INDIC_LANGUAGE_CONFIGS = (
+    "anp_Deva",
+    "asm_Beng",
+    "awa_Deva",
+    "ben_Beng",
+    "bho_Deva",
+    "bpy_Beng",
+    "brx_Deva",
+    "div_Thaa",
+    "doi_Deva",
+    "gom_Deva",
+    "grt_Beng",
+    "guj_Gujr",
+    "hin_Deva",
+    "hne_Deva",
+    "kan_Knda",
+    "kas_Arab",
+    "kas_Deva",
+    "kle_Deva",
+    "lif_Deva",
+    "mag_Deva",
+    "mai_Deva",
+    "mal_Mlym",
+    "mar_Deva",
+    "mni_Beng",
+    "mni_Mtei",
+    "mup_Deva",
+    "new_Deva",
+    "npi_Deva",
+    "ory_Orya",
+    "pan_Guru",
+    "rav_Deva",
+    "san_Deva",
+    "sat_Olck",
+    "sck_Deva",
+    "sin_Sinh",
+    "skr_Arab",
+    "snd_Arab",
+    "snd_Deva",
+    "suz_Deva",
+    "taj_Deva",
+    "tam_Taml",
+    "tcy_Knda",
+    "tel_Telu",
+    "thl_Deva",
+    "urd_Arab",
+    "xsr_Deva",
+)
+
+FINEWEB2_MULTILINGUAL_EVAL_CONFIGS = tuple(dict.fromkeys((*FINEWEB2_TOP_50_BY_ROWS, *FINEWEB2_INDIC_LANGUAGE_CONFIGS)))
+
+_FINEWEB2_TOP_50_BY_ROWS_SET = frozenset(FINEWEB2_TOP_50_BY_ROWS)
+_FINEWEB2_INDIC_LANGUAGE_CONFIGS_SET = frozenset(FINEWEB2_INDIC_LANGUAGE_CONFIGS)
+
+
+def fineweb2_multilingual_parquet_pattern(config: str, split: FineWeb2Split) -> str:
+    """Return the pinned Hugging Face parquet pattern for a FineWeb2 language config split."""
+    return f"hf://datasets/{FINEWEB2_DATASET_ID}@{FINEWEB2_PARQUET_REVISION}/{config}/{split}/*.parquet"
+
+
+def fineweb2_multilingual_tags(config: str) -> list[str]:
+    """Return Levanter eval tags for aggregate multilingual, script, language, and subset metrics."""
+    assert "_" in config, f"Expected FineWeb2 config in lang_Script form, got {config!r}"
+    language, script = config.rsplit("_", maxsplit=1)
+    tags = [
+        "fineweb2_multilingual",
+        f"fineweb2_multilingual/script/{script}",
+        f"fineweb2_multilingual/language/{language}",
+    ]
+    if config in _FINEWEB2_TOP_50_BY_ROWS_SET:
+        tags.append("fineweb2_multilingual/top_50_by_rows")
+    if config in _FINEWEB2_INDIC_LANGUAGE_CONFIGS_SET:
+        tags.append("fineweb2_multilingual/indic")
+    return tags
+
+
+def fineweb2_multilingual_tokenized(
+    *,
+    split: FineWeb2Split,
+    configs: Sequence[str] = FINEWEB2_MULTILINGUAL_EVAL_CONFIGS,
+    cache_split: LevanterCacheSplit = "train",
+    name_prefix: str | None = None,
+    tokenizer: str = llama3_tokenizer,
+) -> dict[str, TokenizerStep]:
+    """Return tokenization steps for selected FineWeb2 multilingual configs and split."""
+    steps: dict[str, TokenizerStep] = {}
+    if name_prefix is None:
+        name_prefix = os.path.join("fineweb2_multilingual", split)
+    for config in configs:
+        name = os.path.join(name_prefix, config)
+        steps[name] = default_tokenize(
+            name=name,
+            dataset=fineweb2_multilingual_parquet_pattern(config, split),
+            tokenizer=tokenizer,
+            is_validation=cache_split == "validation",
+            tags=fineweb2_multilingual_tags(config),
+        )
+    return steps
+
+
+def fineweb2_multilingual_eval_bundle(*, tokenizer: str = llama3_tokenizer) -> dict[str, TokenizerStep]:
+    """Return the opt-in tokenization bundle for selected FineWeb2 multilingual held-out eval configs."""
+    return fineweb2_multilingual_tokenized(
+        split=FINEWEB2_EVAL_SPLIT,
+        cache_split="validation",
+        name_prefix="fineweb2_multilingual_eval",
+        tokenizer=tokenizer,
+    )
+
+
+if __name__ == "__main__":
+    executor_main(
+        steps=list(fineweb2_multilingual_eval_bundle().values()),
+        description="Tokenize FineWeb2 multilingual held-out eval sets",
+    )