fix: reduce gpt-oss-120b GPU memory utilization to 0.90

Evrard-Nil · claude · Evrard-Nil · commit 3f7b26628103 · 2026-03-04T14:23:47.000+01:00
Lower --gpu-memory-utilization from 0.95 to 0.90 to address CUDA OOM
crashes in vllm-gpt-oss containers under load.

Co-Authored-By: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/small-models.yaml b/small-models.yaml
@@ -70,7 +70,7 @@ x-gpt-oss-common: &gpt-oss-common
   command: >
       openai/gpt-oss-120b
       --tensor-parallel-size 1
-      --gpu-memory-utilization 0.95
+      --gpu-memory-utilization 0.90
       --enable-prefix-caching
       --async-scheduling
       --max-num-seqs 64