[Configuration Explorer] Add json file as "GPU database" (llm-d#453)

maugustosilva · web-flow · commit 0c834dc5a971 · 2025-10-17T14:03:11.000-04:00
The goal of this emulated database is to allow it to available for both
Configuration Explorer/Capacity Planner and Standup

Also silenced the "None of PyTorch, TensorFlow &gt;= 2.0, or Flax have been
found" message

Finally, re-enabled the CI/CD testing on `kind` cluster.

Signed-off-by: maugustosilva &lt;maugusto.silva@gmail.com&gt;
diff --git a/.github/workflows/ci-pr-benchmark.yaml b/.github/workflows/ci-pr-benchmark.yaml
@@ -28,6 +28,8 @@ jobs:
 
       - name: Create k8s Kind Cluster
         uses: helm/kind-action@v1
+        with:
+          version: v0.30.0
 
       - name: Label Node Affinity from inference-sim Scenario
         run: |
@@ -47,14 +49,26 @@ jobs:
 
       - name: Standup a modelservice using llm-d-inference-sim
         run: |
-          ./setup/standup.sh -c kind_sim_fb -t modelservice -s 0,1,2,4,7,8,9 || true
+          ./setup/standup.sh -c kind_sim_fb -t modelservice -s 0,1,2,4,7,8
+        shell: bash
+
+      - name: Check
+        run: sleep 120; kubectl get crd | grep inference
+        shell: bash
+
+      - name: Standup a modelservice using llm-d-inference-sim
+        run: |
+          ./setup/standup.sh -c kind_sim_fb -t modelservice -s 0,1,2,4,7,8,9
+        shell: bash
 
       - name: Run harness (mock)
         env:
           LLMD_CONTROL_DRY_RUN: 1 # TODO: harness doesn't work now for kind bc no harness endpoint
         run: |
-          ./setup/run.sh -c kind_sim_fb --dry-run || true
+          ./setup/run.sh -c kind_sim_fb --dry-run
+        shell: bash
 
       - name: Teardown
         run: |
           ./setup/teardown.sh -c kind_sim_fb
+        shell: bash
diff --git a/build/Dockerfile b/build/Dockerfile
@@ -47,7 +47,7 @@ RUN cd fmperf; \
 
 ARG INFERENCE_PERF_REPO=https://github.com/kubernetes-sigs/inference-perf.git
 ARG INFERENCE_PERF_BRANCH=main
-ARG INFERENCE_PERF_COMMIT=1ccc48b6bb9c9abb61558b719041fb000b265e59
+ARG INFERENCE_PERF_COMMIT=b81afa49e026417749884ac905425e70837ebfd3
 RUN git clone --branch ${INFERENCE_PERF_BRANCH} ${INFERENCE_PERF_REPO}
 RUN cd inference-perf; \
     git checkout ${INFERENCE_PERF_COMMIT}; \
diff --git a/config_explorer/db.json b/config_explorer/db.json
@@ -0,0 +1,50 @@
+{
+    "AMD_INSTINCT_MI300X": {
+        "memory": 192,
+        "prefix": "MI300X"
+    },
+    "NVIDIA-H100-80GB-HBM3": {
+        "memory": 80,
+        "prefix": "H100"
+    },
+    "NVIDIA-A100-40GB": {
+        "memory": 40,
+        "prefix": "A100"
+    },
+    "NVIDIA-A100-80GB": {
+        "memory": 80,
+        "prefix": "A100"
+    },
+    "NVIDIA-H100-80GB": {
+        "memory": 80,
+        "prefix": "H100"
+    },
+    "NVIDIA-L40-40GB": {
+        "memory": 40,
+        "prefix": "L40"
+    },
+    "NVIDIA-RTX-4090": {
+        "memory": 24,
+        "prefix": "RTX4090"
+    },
+    "NVIDIA-RTX-5090": {
+        "memory": 32,
+        "prefix": "RTX5090"
+    },
+    "NVIDIA-RTX-6000": {
+        "memory": 48,
+        "prefix": "RTX6000"
+    },
+    "NVIDIA-A6000": {
+        "memory": 48,
+        "prefix": "A6000"
+    },
+    "NVIDIA-A4000": {
+        "memory": 16,
+        "prefix": "A4000"
+    },
+    "NVIDIA-T4": {
+        "memory": 16,
+        "prefix": "T4"
+    }
+}
diff --git a/config_explorer/db.py b/config_explorer/db.py
@@ -1,42 +1,5 @@
 """
 Mocks DB storing info about common accelerators used for LLM serving and inference
 """
-
-gpu_specs = {
-    # https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf
-    # https://medium.com/@bijit211987/top-nvidia-gpus-for-llm-inference-8a5316184a10
-    # https://www.databasemart.com/blog/best-nvidia-gpus-for-llm-inference-2025?srsltid=AfmBOopcvcdN6yzBF24k7_DyRS_csYOmNyDLJK7zq9Rg89weW6AQAx5F
-    "NVIDIA-H100-80GB-HBM3": {
-        "memory": 80
-    },
-    "NVIDIA-A100-40GB": {
-        "memory": 40
-    },
-     "NVIDIA-A100-80GB": {
-        "memory": 80
-    },
-     "NVIDIA-H100-80GB": {
-        "memory": 80
-    },
-     "NVIDIA-L40-40GB": {
-         "memory": 40
-     },
-     "NVIDIA-RTX-4090": {
-         "memory": 24
-     },
-     "NVIDIA-RTX-5090": {
-         "memory": 32
-     },
-     "NVIDIA-RTX-6000":{
-        "memory": 48
-     },
-     "NVIDIA-A6000": {
-        "memory": 48
-     },
-     "NVIDIA-A4000": {
-        "memory": 16
-     },
-     "NVIDIA-T4": {
-         "memory": 16
-     }
-}
+import json,os
+gpu_specs=json.loads('db.json')
diff --git a/config_explorer/src/config_explorer/capacity_planner.py b/config_explorer/src/config_explorer/capacity_planner.py
@@ -9,7 +9,11 @@
 import re
 from typing import List
 from huggingface_hub import HfApi, ModelInfo
-from transformers import AutoConfig, AutoModel
+
+import contextlib
+import io
+with contextlib.redirect_stdout(io.StringIO()), contextlib.redirect_stderr(io.StringIO()):
+    from transformers import AutoConfig, AutoModel
 
 class AttentionType(StrEnum):
     """
@@ -537,4 +541,4 @@ def bytes_to_gib(bytes: int) -> float:
     Convert number of bytes to GiB
     """
 
-    return bytes / (1024 ** 3)
+    return bytes / (1024 ** 3)
diff --git a/scenarios/cicd/kind_sim_fb.sh b/scenarios/cicd/kind_sim_fb.sh
@@ -19,5 +19,4 @@ export LLMDBENCH_VLLM_MODELSERVICE_PREFILL_CPU_MEM=100Mi
 export LLMDBENCH_VLLM_MODELSERVICE_URI_PROTOCOL="hf"
 export LLMDBENCH_DEPLOY_MODEL_LIST="facebook/opt-125m"
 export LLMDBENCH_HARNESS_PVC_SIZE=3Gi
-export LLMDBENCH_VLLM_MODELSERVICE_INFERENCE_MODEL=true
 export LLMDBENCH_VLLM_COMMON_ACCELERATOR_MEMORY=24  # To pass capacity planner sanity checking
diff --git a/setup/env.sh b/setup/env.sh
@@ -118,7 +118,7 @@ export LLMDBENCH_VLLM_GAIE_CHART_VERSION=${LLMDBENCH_VLLM_GAIE_CHART_VERSION:-v1
 #export LLMDBENCH_VLLM_GAIE_CHART_VERSION=${LLMDBENCH_VLLM_GAIE_CHART_VERSION:-v0.5.1}
 
 # Gateway API and GAIE CRD versions
-export LLMDBENCH_GATEWAY_API_CRD_REVISION=${LLMDBENCH_GATEWAY_API_CRD_REVISION:-"v1.2.0"}
+export LLMDBENCH_GATEWAY_API_CRD_REVISION=${LLMDBENCH_GATEWAY_API_CRD_REVISION:-"v1.4.0"}
 export LLMDBENCH_GATEWAY_API_INFERENCE_EXTENSION_CRD_REVISION=${LLMDBENCH_GATEWAY_API_INFERENCE_EXTENSION_CRD_REVISION:-$LLMDBENCH_VLLM_GAIE_CHART_VERSION}
 
 export LLMDBENCH_VLLM_MODELSERVICE_RELEASE=${LLMDBENCH_VLLM_MODELSERVICE_RELEASE:-"llmdbench"}
diff --git a/setup/steps/00_ensure_llm-d-infra.py b/setup/steps/00_ensure_llm-d-infra.py
@@ -17,7 +17,7 @@
 else:
     os.environ["PYTHONPATH"] = f"{config_explorer_src}:{setup_dir}:{workspace_root}"
 
-print(f"Workspace root directory added to PYTHONPATH: {os.environ['PYTHONPATH']}")
+#print(f"Workspace root directory added to PYTHONPATH: {os.environ['PYTHONPATH']}")
 
 # ---------------- Import local packages ----------------
 try: