nitpick comments

threcc · threcc · commit a2618da960eb · 2026-03-11T12:42:45.000+01:00
diff --git a/tests/model_serving/model_server/llmd/conftest.py b/tests/model_serving/model_server/llmd/conftest.py
@@ -159,7 +159,7 @@ def llmisvc_auth_pair(
 
 
 # ===========================================
-#  Auth — SA + RBAC + token
+#  Auth — SA + RBAC + token 
 # ===========================================
 @pytest.fixture(scope="class")
 def llmisvc_token(
diff --git a/tests/model_serving/model_server/llmd/llmd_configs/config_prefill_decode.py b/tests/model_serving/model_server/llmd/llmd_configs/config_prefill_decode.py
@@ -9,13 +9,6 @@ class PrefillDecodeConfig(QwenS3Config):
     enable_auth = False
     name = "llmisvc-prefill-decode-gpu"
 
-    @classmethod
-    def container_resources(cls):
-        return {
-            "limits": {"cpu": "4", "memory": "32Gi", "nvidia.com/gpu": "1"},
-            "requests": {"cpu": "2", "memory": "16Gi", "nvidia.com/gpu": "1"},
-        }
-
     @classmethod
     def prefill_config(cls):
         return {
diff --git a/tests/model_serving/model_server/llmd/utils.py b/tests/model_serving/model_server/llmd/utils.py
@@ -154,8 +154,11 @@ def send_chat_completions(
 
 def parse_completion_text(response_body: str) -> str:
     """Extract completion text from a chat completion response."""
-    data = json.loads(response_body)
-    return data["choices"][0]["message"]["content"]
+    try:
+        data = json.loads(response_body)
+        return data["choices"][0]["message"]["content"]
+    except (json.JSONDecodeError, KeyError, IndexError, TypeError) as e:
+        raise ValueError(f"Failed to parse completion response: {e}\nBody: {response_body[:500]}") from e
 
 
 def get_llmd_workload_pods(
@@ -292,8 +295,8 @@ def send_prefix_cache_requests(
             status, _ = send_chat_completions(llmisvc=llmisvc, prompt=prompt, token=token, insecure=False)
             if status == 200:
                 successful += 1
-        except Exception as e:  # noqa: BLE001
-            LOGGER.error(f"Request {i + 1}/{count} failed: {e}")
+        except Exception:
+            LOGGER.exception(f"Request {i + 1}/{count} failed")
     LOGGER.info(f"{successful}/{count} requests succeeded")
     assert successful >= count * min_ratio, f"Too many failures: {successful}/{count} (need {min_ratio * 100}%)"
     return successful