NovaSky-AI · erictang000 · May 8, 2026 · May 4, 2026 · May 4, 2026 · May 4, 2026
diff --git a/.github/workflows/tinker_skyrl_train_backend_gpu.yaml b/.github/workflows/tinker_skyrl_train_backend_gpu.yaml
@@ -0,0 +1,72 @@
+name: Tinker-SkyRL-Train-Backend-GPU
+
+on:
+  push:
+    branches:
+      - main
+    paths:
+      - 'ci/anyscale_tinker_skyrl_train_backend_gpu.yaml'
+      - 'ci/gpu_ci_run_tinker_skyrl_train_backend.sh'
+      - 'skyrl/backends/skyrl_train/workers/megatron/**'
+      - 'skyrl/backends/skyrl_train/workers/worker_dispatch.py'
+      - 'skyrl/backends/skyrl_train_backend.py'
+      - 'skyrl/tinker/**'
+      - 'tests/tinker/skyrl_train/**'
+      - 'pyproject.toml'
+      - '!docs/**'
+      - '!examples/**'
+      - '.github/workflows/tinker_skyrl_train_backend_gpu.yaml'
+  pull_request_target:
+    types: [labeled]
+  workflow_dispatch:
+
+
+permissions:
+  checks: write   # for status checks to appear
+  contents: read
+
+jobs:
+
+  tinker_skyrl_train_backend_gpu_tests:
+    if: >
+      github.event_name == 'push' ||
+      github.event_name == 'workflow_dispatch' ||
+      (
+        github.event_name == 'pull_request_target' &&
+        !github.event.pull_request.draft &&
+        contains(github.event.pull_request.labels.*.name, 'run_tinker_skyrl_train_backend_gpu_ci') &&
+        (
+          github.event.pull_request.author_association == 'MEMBER' ||
+          github.event.pull_request.author_association == 'OWNER' ||
+          github.event.pull_request.author_association == 'COLLABORATOR'
+        )
+      )
+    runs-on: ubuntu-latest
+    defaults:
+      run:
+        shell: bash
+        working-directory: .
+
+    steps:
+      - uses: actions/checkout@v4
+        with:
+          ref: ${{ github.event.pull_request.head.sha || github.ref }}
+      - name: Set up Python
+        uses: actions/setup-python@v5
+        with:
+          python-version: '3.12'
+          cache: 'pip'
+      - name: Install the latest version of uv
+        uses: astral-sh/setup-uv@v6
+        with:
+          activate-environment: true
+      - name: Install basic dependencies
+        run: uv pip install anyscale==0.24.79 typer==0.9.0
+      # Run tests
+      - name: GPU tests
+        env:
+          ANYSCALE_CLI_TOKEN: ${{ secrets.ANYSCALE_CLI_TOKEN }}
+          ANYSCALE_HOST: https://console.anyscale.com
+        run: |
+          anyscale job submit -f ci/anyscale_tinker_skyrl_train_backend_gpu.yaml --timeout 5000
+          anyscale job wait --cloud sky-anyscale-aws-us-east-1 --name tinker-skyrl-train-backend-gpu --timeout 5000
diff --git a/ci/anyscale_tinker_skyrl_train_backend_gpu.yaml b/ci/anyscale_tinker_skyrl_train_backend_gpu.yaml
@@ -0,0 +1,8 @@
+name: tinker-skyrl-train-backend-gpu
+entrypoint: bash ci/gpu_ci_run_tinker_skyrl_train_backend.sh
+image_uri: novaskyai/skyrl-train-ray-2.51.1-py3.12-cu12.8-megatron
+cloud: sky-anyscale-aws-us-east-1
+ray_version: "2.51.1"
+compute_config: l4_ci
+working_dir: .
+max_retries: 0
diff --git a/ci/gpu_ci_run_tinker_skyrl_train_backend.sh b/ci/gpu_ci_run_tinker_skyrl_train_backend.sh
@@ -0,0 +1,11 @@
+#!/usr/bin/env bash
+set -xeuo pipefail
+
+export CI=true
+
+# End-to-end multi-LoRA tests: spin up a real Tinker API server backed by
+# SkyRL-Train Megatron and exercise per-adapter swap, signature gating,
+# v1 single-tenant sample guard, per-adapter Adam step isolation, and
+# delete-then-train continuity.
+uv run --directory . --isolated --extra tinker --extra megatron --with pytest --with pytest-timeout \
+    pytest -s --timeout=600 tests/tinker/skyrl_train/test_multi_lora_megatron.py