chtc: train_grpo.sub/sh + submit wrapper; merge SFT adapter then run verl

Devesh-Maheshwari · Devesh-Maheshwari · commit 20bf6ec387a1 · 2026-04-25T01:34:46.000-05:00
diff --git a/chtc/submit_train_grpo.sh b/chtc/submit_train_grpo.sh
@@ -0,0 +1,47 @@
+#!/bin/bash
+# Submit a verl GRPO training job to CHTC. Run from the head node.
+#
+# Usage:
+#   ./submit_train_grpo.sh <run-name> [config-name] [n-gpus] [adapter-name]
+#
+#   run-name      identifier for this run (e.g. "grpo-v1-smoke")
+#   config-name   matches configs/<name>.yaml, default: grpo_qwen1_5b
+#   n-gpus        1 for 1.5B, 4 for 7B. Default: 1.
+#   adapter-name  SFT adapter under results/sft_checkpoints/, default:
+#                 qwen-1.5b-sft-v1. Pass empty string ("") to skip the
+#                 merge and train from base model in the config.
+
+set -euo pipefail
+
+cd "$(dirname "$0")"
+
+# shellcheck disable=SC1091
+source .env
+
+RUN_NAME="${1:?usage: $0 <run-name> [config-name] [n-gpus] [adapter-name]}"
+CONFIG_NAME="${2:-grpo_qwen1_5b}"
+N_GPUS="${3:-1}"
+ADAPTER_NAME="${4:-qwen-1.5b-sft-v1}"
+
+RUN_DIR="results/${RUN_NAME}"
+LOG_DIR="logs/${RUN_NAME}"
+mkdir -p "${RUN_DIR}" "${LOG_DIR}"
+
+cp .env "${RUN_DIR}/.env"
+cp train_grpo.sh "${RUN_DIR}/train_grpo.sh"
+
+condor_submit train_grpo.sub \
+    results_dir="${RUN_DIR}" \
+    log_dir="${LOG_DIR}" \
+    config_name="${CONFIG_NAME}" \
+    n_gpus="${N_GPUS}" \
+    adapter_name="${ADAPTER_NAME}"
+
+echo ""
+echo "==> submitted."
+echo "    run-name:   ${RUN_NAME}"
+echo "    config:     configs/${CONFIG_NAME}.yaml"
+echo "    n_gpus:     ${N_GPUS}"
+echo "    adapter:    ${ADAPTER_NAME:-<none — training from base>}"
+echo "    watch:      condor_q  /  tail -f $(pwd)/${LOG_DIR}/job.out"
+echo "    checkpoint: $(pwd)/${RUN_DIR}/checkpoint.tar.gz  (after job completes)"
diff --git a/chtc/train_grpo.sh b/chtc/train_grpo.sh
@@ -0,0 +1,132 @@
+#!/bin/bash
+# Execute-node script for Week 4 GRPO training via verl.
+#
+# Steps:
+#   1. Standard CHTC env setup (USER, HOME, UUID remap, caches)
+#   2. Untar repo from /staging
+#   3. pip install our package (verl + deps already in container)
+#   4. If an SFT adapter name was passed, merge it into base → starting policy
+#   5. Run verl's main_ppo with the config; override model.path if merged
+#   6. Tar the final checkpoint dir for transfer back
+
+set -euo pipefail
+
+# shellcheck disable=SC1091
+source .env
+
+CONFIG_NAME="${1:-grpo_qwen1_5b}"
+ADAPTER_NAME="${2:-}"
+
+# Container has no /etc/passwd entry for the job UID.
+export USER="${CHTC_USER:-runner}"
+export LOGNAME="${USER}"
+
+INITIAL_PWD=$(pwd)
+
+export HOME=$_CONDOR_SCRATCH_DIR
+export HF_HOME=$_CONDOR_SCRATCH_DIR/hf_home
+export TRANSFORMERS_CACHE=$HF_HOME/transformers
+export HF_DATASETS_CACHE=$HF_HOME/datasets
+export HF_MODULES_CACHE=$HF_HOME/modules
+export TORCHINDUCTOR_CACHE_DIR=$_CONDOR_SCRATCH_DIR/torch_cache
+export XDG_CACHE_HOME=$_CONDOR_SCRATCH_DIR/xdg_cache
+export WANDB_DIR=$_CONDOR_SCRATCH_DIR/wandb
+export RAY_TMPDIR=/tmp/ray_$USER
+
+# vllm: remap UUID-form CUDA_VISIBLE_DEVICES (multi-GPU keeps integer indexing
+# correctly when HTCondor allocates by index; remap only if uuid-form).
+if [[ "${CUDA_VISIBLE_DEVICES:-}" =~ ^(GPU-|MIG-) ]]; then
+    echo "[info] remapping CUDA_VISIBLE_DEVICES='${CUDA_VISIBLE_DEVICES}' -> '0'"
+    export CUDA_VISIBLE_DEVICES=0
+fi
+
+export VLLM_USAGE_DISABLE=1
+export OUTLINES_CACHE_DIR=/tmp/.outlines
+
+REPO=verifiable-rl-coder
+echo "==> fetching code from /staging/${CHTC_USER}/${REPO}.tar.gz"
+cp "/staging/${CHTC_USER}/${REPO}.tar.gz" .
+tar -xzf "${REPO}.tar.gz"
+rm "${REPO}.tar.gz"
+cd "${REPO}"
+
+echo "==> pip install -e .[dev,gpu]"
+pip install -e ".[dev,gpu]" --quiet
+
+if [ -n "${HF_TOKEN:-}" ]; then
+    hf auth login --token "${HF_TOKEN}" || true
+fi
+if [ -n "${WANDB_API_KEY:-}" ]; then
+    wandb login --relogin "${WANDB_API_KEY}" || true
+fi
+
+# Pre-warm evalplus (used by SubprocessVerifier inside compute_reward).
+python -c "from evalplus.data import get_human_eval_plus, get_mbpp_plus; get_human_eval_plus(); get_mbpp_plus()"
+
+# Sanity-check that the GRPO dataset is in the tarball.
+DATA_PATH="results/grpo_dataset/v1/train.parquet"
+if [ ! -f "${DATA_PATH}" ]; then
+    echo "ERROR: GRPO dataset not found at ${DATA_PATH}"
+    echo "Did you run scripts/build_grpo_dataset.py before transfer.sh?"
+    exit 1
+fi
+echo "==> dataset: ${DATA_PATH}"
+
+# Always produce a placeholder tarball so HTCondor's transfer never holds
+# the job — overwritten on training success.
+tar -czf "${INITIAL_PWD}/checkpoint.tar.gz" --files-from /dev/null
+
+# --- Optional: merge SFT adapter into base for warm-start ---
+MODEL_OVERRIDE=""
+if [ -n "${ADAPTER_NAME}" ]; then
+    ADAPTER_DIR="results/sft_checkpoints/${ADAPTER_NAME}"
+    if [ ! -d "${ADAPTER_DIR}" ]; then
+        echo "ERROR: adapter not found at ${ADAPTER_DIR}"
+        exit 1
+    fi
+    MERGED_DIR="${_CONDOR_SCRATCH_DIR}/merged_${ADAPTER_NAME}"
+    echo "==> merging adapter -> ${MERGED_DIR}"
+    python scripts/merge_lora.py --adapter-dir "${ADAPTER_DIR}" --out "${MERGED_DIR}"
+    MODEL_OVERRIDE="actor_rollout_ref.model.path=${MERGED_DIR}"
+    echo "==> using merged SFT as GRPO starting policy"
+else
+    echo "==> using base model (no SFT warm-start)"
+fi
+
+# --- Launch verl ---
+echo "==> python -m verl.trainer.main_ppo --config-path=configs --config-name=${CONFIG_NAME}"
+
+# Don't bail on training failure — we still want the placeholder tarball
+# transferred so the job doesn't end up held.
+set +e
+python -m verl.trainer.main_ppo \
+    --config-path=configs \
+    --config-name="${CONFIG_NAME}" \
+    ${MODEL_OVERRIDE}
+TRAIN_EXIT=$?
+set -e
+
+if [ "${TRAIN_EXIT}" -ne 0 ]; then
+    echo "ERROR: verl exited ${TRAIN_EXIT}. Placeholder tarball will be transferred."
+fi
+
+# --- Tar checkpoint for transfer back ---
+# verl writes to default_local_dir from the config. Parse it.
+DEFAULT_LOCAL_DIR=$(python -c "
+import yaml
+with open('configs/${CONFIG_NAME}.yaml') as f:
+    cfg = yaml.safe_load(f)
+print(cfg['trainer']['default_local_dir'])
+" 2>/dev/null || echo "")
+
+if [ -n "${DEFAULT_LOCAL_DIR}" ] && [ -d "${DEFAULT_LOCAL_DIR}" ]; then
+    echo "==> tarring checkpoint dir: ${DEFAULT_LOCAL_DIR}"
+    tar -czf "${INITIAL_PWD}/checkpoint.tar.gz" \
+        -C "$(dirname "${DEFAULT_LOCAL_DIR}")" \
+        "$(basename "${DEFAULT_LOCAL_DIR}")"
+    ls -lh "${INITIAL_PWD}/checkpoint.tar.gz"
+else
+    echo "WARNING: ${DEFAULT_LOCAL_DIR} not found — placeholder tarball stays."
+fi
+
+exit "${TRAIN_EXIT}"
diff --git a/chtc/train_grpo.sub b/chtc/train_grpo.sub
@@ -0,0 +1,44 @@
+# HTCondor submit file for Week 4 GRPO training (verl).
+#
+# Variables passed by submit_train_grpo.sh via condor_submit:
+#   config_name    e.g. "grpo_qwen1_5b" (matches configs/<name>.yaml)
+#   n_gpus         1 for 1.5B; 4 for 7B
+#   adapter_name   optional SFT adapter to merge in as starting policy.
+#                  Empty = train from base model in the config.
+
+universe        = container
+container_image = docker://verlai/verl:vllm012.latest
+
+executable   = train_grpo.sh
+initial_dir  = $(results_dir)
+# adapter_name is LAST because it may be empty — HTCondor collapses empty
+# middle positionals, see Week 2 lessons.
+arguments    = $(config_name) $(adapter_name)
+
+log    = ../../$(log_dir)/job.log
+output = ../../$(log_dir)/job.out
+error  = ../../$(log_dir)/job.err
+
+stream_output           = true
+should_transfer_files   = YES
+when_to_transfer_output = ON_EXIT
+transfer_input_files    = .env, train_grpo.sh
+transfer_output_files   = checkpoint.tar.gz
+
+# Compute — GRPO holds rollout + training in memory simultaneously.
+request_cpus   = 8
+request_memory = 96GB
+request_disk   = 300GB
+
+# GPU — 1 for 1.5B, 4 for 7B (passed via $(n_gpus)).
+request_gpus = $(n_gpus)
+require_gpus = (GlobalMemoryMb >= 40000) && (Capability >= 8.0)
+requirements = (Target.HasCHTCStaging == true) && (Target.CUDADriverVersion >= 12.1)
+
++WantGPULab   = true
++WantFlocking = false
++WantGlidein  = false
+# "medium" allows up to 24h — full GRPO runs of 500-1000 steps may need it.
++GPUJobLength = "medium"
+
+queue 1