fix: use importlib.metadata for all framework probes, add tensorrt_llm to identity

alec-flowers · alec-flowers · commit 3df88e190b75 · 2026-04-10T12:20:55.000-07:00
import tensorrt_llm loads native CUDA extensions which crash without GPU
context. The fingerprint script runs before the worker starts, so GPU may
not be available. importlib.metadata.version() only reads package metadata
from dist-info — no native code, no GPU needed. Applied to all framework
probes (vllm, sglang, tensorrt_llm, torch, dynamo).
diff --git a/recipes/mocker/kimi-trace-agg.yaml b/recipes/mocker/kimi-trace-agg.yaml
@@ -56,4 +56,5 @@ identity:
     revision: "c0285e649c34d4386b01e38abca642c06cbe014e"
   frameworks:
     dynamo: "1.0.0"
+    tensorrt_llm: "1.3.0rc9"
     torch: "2.10.0a0+b4e4ee81d3.nv25.12"
diff --git a/src/srtctl/core/fingerprint.py b/src/srtctl/core/fingerprint.py
@@ -246,16 +246,21 @@ def probe_nccl_version() -> ProbeResult:
 
 
 def probe_frameworks() -> ProbeResult:
-    """Get versions of inference frameworks (only detected ones)."""
+    """Get versions of inference frameworks (only detected ones).
+
+    Uses importlib.metadata instead of importing modules directly to avoid
+    loading native CUDA extensions (tensorrt_llm, torch) which fail without
+    GPU context.
+    """
     versions: dict[str, str] = {}
-    for name, cmd in [
-        ("vllm", 'python3 -c "import vllm; print(vllm.__version__)"'),
-        ("sglang", 'python3 -c "import sglang; print(sglang.__version__)"'),
-        ("tensorrt_llm", 'python3 -c "import tensorrt_llm; print(tensorrt_llm.__version__)"'),
-        ("dynamo", "python3 -c \"import importlib.metadata; print(importlib.metadata.version('ai-dynamo'))\""),
-        ("torch", 'python3 -c "import torch; print(torch.__version__)"'),
+    for name, pkg in [
+        ("vllm", "vllm"),
+        ("sglang", "sglang"),
+        ("tensorrt_llm", "tensorrt-llm"),
+        ("torch", "torch"),
+        ("dynamo", "ai-dynamo"),
     ]:
-        v = _run_cmd(cmd)
+        v = _run_cmd(f"python3 -c \"import importlib.metadata; print(importlib.metadata.version('{pkg}'))\"")
         if v:
             versions[name] = v
     return ProbeResult.success(versions)
@@ -779,20 +784,19 @@ def gpu_info():
     return {{'available': True, 'driver': gpus[0]['driver'] if gpus else 'unknown', 'gpus': gpus}}
 
 def framework_versions():
+    # Use importlib.metadata for all packages — avoids loading native CUDA
+    # extensions (tensorrt_llm, torch) which fail without GPU context.
     versions = {{}}
-    for name, mod in [
+    for name, pkg in [
         ('vllm', 'vllm'),
         ('sglang', 'sglang'),
-        ('tensorrt_llm', 'tensorrt_llm'),
+        ('tensorrt_llm', 'tensorrt-llm'),
         ('torch', 'torch'),
+        ('dynamo', 'ai-dynamo'),
     ]:
-        v = run(f'{{PY}} -c "import {{mod}}; print({{mod}}.__version__)"'.format(PY=PY, mod=mod))
+        v = run(f"{{PY}} -c \\"import importlib.metadata; print(importlib.metadata.version('{{pkg}}'))\\"".format(PY=PY, pkg=pkg))
         if v:
             versions[name] = v
-    # dynamo uses ai-dynamo package name
-    v = run(f"{{PY}} -c \\"import importlib.metadata; print(importlib.metadata.version('ai-dynamo'))\\"".format(PY=PY))
-    if v:
-        versions['dynamo'] = v
     return versions
 
 def model_identity(model_path):