Terminal-Bench Regression #5

Workflow file for this run

.github/workflows/terminal-bench-regression.yml at 18176c5

	name: Terminal-Bench Regression

	on:
	schedule:
	- cron: "0 12 * * 1" # Monday 5am PT (12pm UTC)
	workflow_dispatch:
	inputs:
	model:
	description: "Override model (blank = run both defaults)"
	default: ""
	concurrency:
	description: "Max concurrent tasks"
	default: "10"

	env:
	FORCE_JAVASCRIPT_ACTIONS_TO_NODE24: true

	jobs:
	regression:
	runs-on: ubuntu-latest
	timeout-minutes: 180
	strategy:
	fail-fast: false
	matrix:
	model: [sonnet-4.6-xhigh, gpt-5.3-codex-xhigh]
	steps:
	- name: Checkout
	uses: actions/checkout@v6

	- name: Setup Python + uv
	uses: astral-sh/setup-uv@v6
	with:
	enable-cache: false

	- name: Create venv and install deps
	run: \|
	uv venv .venv
	source .venv/bin/activate
	uv pip install "harbor>=0.1.45" "litellm>=1.0.0" "modal>=1.3.5"

	- name: Configure Modal
	env:
	MODAL_TOKEN_ID: ${{ secrets.MODAL_TOKEN_ID }}
	MODAL_TOKEN_SECRET: ${{ secrets.MODAL_TOKEN_SECRET }}
	run: \|
	printf '[letta]\ntoken_id = "%s"\ntoken_secret = "%s"\nactive = true\nenvironment = "terminal-bench"\nimage_builder_version = "2025.06"\n' \
	"$MODAL_TOKEN_ID" "$MODAL_TOKEN_SECRET" > ~/.modal.toml

	- name: Run regression tasks
	env:
	LETTA_API_KEY: ${{ secrets.LETTA_API_KEY }}
	ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
	OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
	run: \|
	source .venv/bin/activate

	harbor run \
	--dataset terminal-bench@2.0 \
	--agent-import-path benchmarks.terminal_bench.letta_code_agent:LettaCode \
	--model "${{ matrix.model }}" \
	--env modal \
	--n-concurrent ${{ inputs.concurrency \|\| '10' }} \
	--job-name "regression-${{ matrix.model }}-$(date +%Y%m%d)"

	- name: Upload results artifact
	if: always()
	uses: actions/upload-artifact@v4
	with:
	name: tb-results-${{ matrix.model }}
	path: jobs/

	report:
	needs: regression
	if: always()
	runs-on: ubuntu-latest
	permissions:
	issues: write
	contents: read
	steps:
	- name: Checkout
	uses: actions/checkout@v6

	- name: Download all result artifacts
	uses: actions/download-artifact@v4
	with:
	path: results/

	- name: Setup Python + uv
	uses: astral-sh/setup-uv@v6
	with:
	enable-cache: false

	- name: Generate report and update GitHub Issue
	env:
	GH_TOKEN: ${{ secrets.GITHUB_TOKEN }}
	GITHUB_REPOSITORY: ${{ github.repository }}
	GITHUB_RUN_ID: ${{ github.run_id }}
	GITHUB_SERVER_URL: ${{ github.server_url }}
	run: \|
	uv run python benchmarks/terminal_bench/report.py \
	--results-dir results/ \
	--baseline benchmarks/terminal_bench/baseline.json \
	--repo "${{ github.repository }}"

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Terminal-Bench Regression #5

Workflow file

Terminal-Bench Regression #5

Uh oh!

Workflow file for this run