fix: use secretKeyRef for VLLM tokens to prevent credential leaks in logs

Ygnas · Ygnas · commit 273080214553 · 2026-03-19T10:12:46.000Z
Move VLLM_API_TOKEN and VLLM_EMBEDDING_API_TOKEN from plain env var
values to K8s secretKeyRef, matching the existing pattern used for
POSTGRES_PASSWORD. Add both tokens to LLAMA_STACK_DISTRIBUTION_SECRET_DATA
and relocate the dict after all secret variables are defined.

Signed-off-by: Ignas Baranauskas &lt;ibaranau@redhat.com&gt;
diff --git a/tests/llama_stack/conftest.py b/tests/llama_stack/conftest.py
@@ -48,11 +48,6 @@
 POSTGRESQL_USER = os.getenv("LLS_VECTOR_IO_POSTGRESQL_USER", "ps_user")
 POSTGRESQL_PASSWORD = os.getenv("LLS_VECTOR_IO_POSTGRESQL_PASSWORD", "ps_password")
 
-LLAMA_STACK_DISTRIBUTION_SECRET_DATA = {
-    "postgres-user": POSTGRESQL_USER,
-    "postgres-password": POSTGRESQL_PASSWORD,
-}
-
 LLS_CORE_INFERENCE_MODEL = os.getenv("LLS_CORE_INFERENCE_MODEL", "")
 LLS_CORE_VLLM_URL = os.getenv("LLS_CORE_VLLM_URL", "")
 LLS_CORE_VLLM_API_TOKEN = os.getenv("LLS_CORE_VLLM_API_TOKEN", "")
@@ -68,6 +63,13 @@
 LLS_CORE_VLLM_EMBEDDING_MAX_TOKENS = os.getenv("LLS_CORE_VLLM_EMBEDDING_MAX_TOKENS", "8192")
 LLS_CORE_VLLM_EMBEDDING_TLS_VERIFY = os.getenv("LLS_CORE_VLLM_EMBEDDING_TLS_VERIFY", "true")
 
+LLAMA_STACK_DISTRIBUTION_SECRET_DATA = {
+    "postgres-user": POSTGRESQL_USER,
+    "postgres-password": POSTGRESQL_PASSWORD,
+    "vllm-api-token": LLS_CORE_VLLM_API_TOKEN,
+    "vllm-embedding-api-token": LLS_CORE_VLLM_EMBEDDING_API_TOKEN,
+}
+
 IBM_EARNINGS_DOC_URL = "https://www.ibm.com/downloads/documents/us-en/1550f7eea8c0ded6"
 
 UPGRADE_DISTRIBUTION_NAME = "llama-stack-distribution-upgrade"
@@ -171,11 +173,12 @@ def test_with_remote_milvus(llama_stack_server_config):
         inference_model = LLS_CORE_INFERENCE_MODEL
     env_vars.append({"name": "INFERENCE_MODEL", "value": inference_model})
 
-    if params.get("vllm_api_token"):
-        vllm_api_token = str(params.get("vllm_api_token"))
-    else:
-        vllm_api_token = LLS_CORE_VLLM_API_TOKEN
-    env_vars.append({"name": "VLLM_API_TOKEN", "value": vllm_api_token})
+    env_vars.append(
+        {
+            "name": "VLLM_API_TOKEN",
+            "valueFrom": {"secretKeyRef": {"name": "llamastack-distribution-secret", "key": "vllm-api-token"}},
+        },
+    )
 
     if params.get("vllm_url_fixture"):
         vllm_url = str(request.getfixturevalue(argname=params.get("vllm_url_fixture")))
@@ -200,7 +203,14 @@ def test_with_remote_milvus(llama_stack_server_config):
         env_vars.append({"name": "EMBEDDING_MODEL", "value": LLS_CORE_EMBEDDING_MODEL})
         env_vars.append({"name": "EMBEDDING_PROVIDER_MODEL_ID", "value": LLS_CORE_EMBEDDING_PROVIDER_MODEL_ID})
         env_vars.append({"name": "VLLM_EMBEDDING_URL", "value": LLS_CORE_VLLM_EMBEDDING_URL})
-        env_vars.append({"name": "VLLM_EMBEDDING_API_TOKEN", "value": LLS_CORE_VLLM_EMBEDDING_API_TOKEN})
+        env_vars.append(
+            {
+                "name": "VLLM_EMBEDDING_API_TOKEN",
+                "valueFrom": {
+                    "secretKeyRef": {"name": "llamastack-distribution-secret", "key": "vllm-embedding-api-token"}
+                },
+            },
+        )
         env_vars.append({"name": "VLLM_EMBEDDING_MAX_TOKENS", "value": LLS_CORE_VLLM_EMBEDDING_MAX_TOKENS})
         env_vars.append({"name": "VLLM_EMBEDDING_TLS_VERIFY", "value": LLS_CORE_VLLM_EMBEDDING_TLS_VERIFY})
     elif embedding_provider == "sentence-transformers":