docs/bench: architecture gaps cleanup + HBM OOM finding + cold bench numbers #124

	name: CI

	on:
	push:
	branches: [main]
	pull_request:

	jobs:
	lint:
	runs-on: ubuntu-latest
	steps:
	- uses: actions/checkout@v6
	- uses: actions/setup-python@v6
	with:
	python-version: "3.12"
	- run: pip install "ruff>=0.6"
	- run: ruff check .
	- run: ruff format --check .

	test:
	runs-on: ubuntu-latest
	strategy:
	matrix:
	python-version: ["3.10", "3.11", "3.12"]
	steps:
	- uses: actions/checkout@v6
	- uses: actions/setup-python@v6
	with:
	python-version: ${{ matrix.python-version }}
	- run: pip install -e ".[dev]"
	- run: pytest tests/ -v -x --tb=short -m "not neuron and not nki_simulator" --cov=trnblas --cov-report=xml
	- name: Upload coverage reports to Codecov
	uses: codecov/codecov-action@v5
	with:
	token: ${{ secrets.CODECOV_TOKEN }}
	slug: trnsci/trnblas

	nki-simulator:
	# Runs NKI kernels through nki.simulate(kernel)(numpy_args) on CPU.
	# Catches Python-trace-level errors (bad kwargs, dropped ops, shape
	# mismatches) pre-merge without AWS round-trips. MLIR verifier
	# errors remain hardware-only (simulator explicitly skips compile).
	runs-on: ubuntu-latest
	steps:
	- uses: actions/checkout@v6
	- uses: actions/setup-python@v6
	with:
	python-version: "3.12"
	- name: Install trnblas + NKI simulator deps
	run: \|
	pip install -e ".[dev]"
	pip install --extra-index-url https://pip.repos.neuron.amazonaws.com \
	"nki>=0.3.0"
	- name: Run simulator-backed kernel tests
	env:
	TRNBLAS_USE_SIMULATOR: "1"
	run: pytest tests/ -v -m nki_simulator --tb=short

Provide feedback