NVIDIA
diff --git a/‎docs/conformance/cncf/evidence/ai-service-metrics.md‎
Lines changed: 159 additions & 71 deletions b/‎docs/conformance/cncf/evidence/ai-service-metrics.md‎
Lines changed: 159 additions & 71 deletions
diff --git a/‎pkg/evidence/collector.go‎
Lines changed: 13 additions & 9 deletions b/‎pkg/evidence/collector.go‎
Lines changed: 13 additions & 9 deletions
diff --git a/‎pkg/evidence/collector_test.go‎
Lines changed: 3 additions & 1 deletion b/‎pkg/evidence/collector_test.go‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎pkg/evidence/requirements.go‎
Lines changed: 5 additions & 5 deletions b/‎pkg/evidence/requirements.go‎
Lines changed: 5 additions & 5 deletions
@@ -1,118 +1,206 @@
-# AI Service Metrics (Prometheus ServiceMonitor Discovery)
+# AI Service Metrics (Prometheus Discovery)
 
-**Cluster:** `EKS / p5.48xlarge / NVIDIA-H100-80GB-HBM3`
-**Generated:** 2026-03-24 14:06:00 UTC
 **Kubernetes Version:** v1.35
 **Platform:** linux/amd64
+**Validated on:** EKS / p5.48xlarge / NVIDIA H100 80GB HBM3
 
 ---
 
 Demonstrates that Prometheus discovers and collects metrics from AI workloads
-that expose them in Prometheus exposition format, using the ServiceMonitor CRD
-for automatic target discovery.
+that expose them in Prometheus exposition format, using PodMonitor and
+ServiceMonitor CRDs for automatic target discovery across both inference and
+training workloads.
 
-## vLLM Inference Workload
+## Inference: Dynamo Platform (PodMonitor)
 
-A vLLM inference server (serving Qwen/Qwen3-0.6B on GPU via DRA ResourceClaim)
-exposes application-level metrics in Prometheus format at `:8000/metrics`.
-A ServiceMonitor enables Prometheus to automatically discover and scrape the endpoint.
+**Cluster:** `aicr-cuj2` (EKS, inference)
+**Generated:** 2026-03-25 10:18:30 UTC
 
-**vLLM workload pod**
+The Dynamo operator auto-creates PodMonitors for worker and frontend pods.
+The Dynamo vLLM runtime exposes both Dynamo-specific and embedded vLLM metrics
+on port 9090 (`system` port) in Prometheus format.
+
+### Dynamo Workload Pods
+
+**Dynamo workload pods**
 ```
-$ kubectl get pods -n vllm-metrics-test -o wide
-NAME          READY   STATUS    RESTARTS   AGE
-vllm-server   1/1     Running   0          5m
+$ kubectl get pods -n dynamo-workload -o wide
+NAME                                READY   STATUS    RESTARTS   AGE     IP             NODE                           NOMINATED NODE   READINESS GATES
+vllm-agg-0-frontend-qqrff           1/1     Running   0          3m29s   10.0.159.241   ip-10-0-184-187.ec2.internal   <none>           <none>
+vllm-agg-0-vllmdecodeworker-95ths   1/1     Running   0          3m29s   10.0.214.229   ip-10-0-180-136.ec2.internal   <none>           <none>
 ```
 
-**vLLM metrics endpoint (sampled after 10 inference requests)**
+### Worker Metrics Endpoint
+
+**Worker metrics (sampled after 10 inference requests)**
 ```
-$ kubectl exec -n vllm-metrics-test vllm-server -- python3 -c "..." | grep vllm:
-vllm:request_success_total{engine="0",finished_reason="length",model_name="Qwen/Qwen3-0.6B"} 10.0
-vllm:prompt_tokens_total{engine="0",model_name="Qwen/Qwen3-0.6B"} 80.0
-vllm:generation_tokens_total{engine="0",model_name="Qwen/Qwen3-0.6B"} 500.0
-vllm:time_to_first_token_seconds_count{engine="0",model_name="Qwen/Qwen3-0.6B"} 10.0
-vllm:time_to_first_token_seconds_sum{engine="0",model_name="Qwen/Qwen3-0.6B"} 0.205
-vllm:inter_token_latency_seconds_count{engine="0",model_name="Qwen/Qwen3-0.6B"} 490.0
-vllm:inter_token_latency_seconds_sum{engine="0",model_name="Qwen/Qwen3-0.6B"} 0.864
-vllm:e2e_request_latency_seconds_count{engine="0",model_name="Qwen/Qwen3-0.6B"} 10.0
-vllm:kv_cache_usage_perc{engine="0",model_name="Qwen/Qwen3-0.6B"} 0.0
-vllm:prefix_cache_queries_total{engine="0",model_name="Qwen/Qwen3-0.6B"} 80.0
-vllm:num_requests_running{engine="0",model_name="Qwen/Qwen3-0.6B"} 0.0
-vllm:num_requests_waiting{engine="0",model_name="Qwen/Qwen3-0.6B"} 0.0
+dynamo_component_request_bytes_total{dynamo_component="backend",dynamo_endpoint="generate",model="Qwen/Qwen3-0.6B"} 11230
+dynamo_component_request_duration_seconds_sum{dynamo_component="backend",dynamo_endpoint="generate",model="Qwen/Qwen3-0.6B"} 0.984
+dynamo_component_request_duration_seconds_count{dynamo_component="backend",dynamo_endpoint="generate",model="Qwen/Qwen3-0.6B"} 10
+dynamo_component_requests_total{dynamo_component="backend",dynamo_endpoint="generate",model="Qwen/Qwen3-0.6B"} 10
+dynamo_component_response_bytes_total{dynamo_component="backend",dynamo_endpoint="generate",model="Qwen/Qwen3-0.6B"} 31826
+dynamo_component_uptime_seconds 223.250
+vllm:engine_sleep_state{engine="0",model_name="Qwen/Qwen3-0.6B",sleep_state="awake"} 1.0
+vllm:prefix_cache_queries_total{engine="0",model_name="Qwen/Qwen3-0.6B"} 50.0
 ```
 
-## ServiceMonitor
+### PodMonitors (Auto-Created by Dynamo Operator)
 
-**ServiceMonitor for vLLM**
+**Dynamo PodMonitors**
+```
+$ kubectl get podmonitors -n dynamo-system
+NAME              AGE
+dynamo-frontend   11d
+dynamo-planner    11d
+dynamo-worker     11d
 ```
-$ kubectl get servicemonitor vllm-inference -n vllm-metrics-test -o yaml
+
+**Worker PodMonitor spec**
+```
+$ kubectl get podmonitor dynamo-worker -n dynamo-system -o yaml
 apiVersion: monitoring.coreos.com/v1
-kind: ServiceMonitor
+kind: PodMonitor
 metadata:
-  labels:
-    release: prometheus
-  name: vllm-inference
-  namespace: vllm-metrics-test
+  name: dynamo-worker
+  namespace: dynamo-system
 spec:
-  endpoints:
-  - interval: 15s
+  namespaceSelector:
+    any: true
+  podMetricsEndpoints:
+  - interval: 5s
     path: /metrics
-    port: http
+    port: system
   selector:
     matchLabels:
-      app: vllm-inference
+      nvidia.com/dynamo-component-type: worker
+      nvidia.com/metrics-enabled: "true"
 ```
 
-**Service endpoint**
+### Prometheus Target Discovery
+
+**Prometheus scrape targets (active)**
 ```
-$ kubectl get endpoints vllm-inference -n vllm-metrics-test
-NAME             ENDPOINTS          AGE
-vllm-inference   10.0.170.78:8000   5m
+{
+  "job": "dynamo-system/dynamo-frontend",
+  "endpoint": "http://10.0.159.241:8000/metrics",
+  "health": "up",
+  "lastScrape": "2026-03-25T10:19:21.101766071Z"
+}
+{
+  "job": "dynamo-system/dynamo-worker",
+  "endpoint": "http://10.0.214.229:9090/metrics",
+  "health": "up",
+  "lastScrape": "2026-03-25T10:19:22.70334816Z"
+}
+```
+
+### Dynamo Metrics in Prometheus
+
+**Dynamo metrics queried from Prometheus (after 10 inference requests)**
+```
+dynamo_component_requests_total{endpoint="generate"} = 10
+dynamo_component_request_bytes_total{endpoint="generate"} = 11230
+dynamo_component_response_bytes_total{endpoint="generate"} = 31826
+dynamo_component_request_duration_seconds_count{endpoint="generate"} = 10
+dynamo_component_request_duration_seconds_sum{endpoint="generate"} = 0.984
+dynamo_component_uptime_seconds = 223.250
+dynamo_frontend_input_sequence_tokens_sum = 50
+dynamo_frontend_input_sequence_tokens_count = 10
+dynamo_frontend_inter_token_latency_seconds_sum = 0.866
+dynamo_frontend_inter_token_latency_seconds_count = 490
+dynamo_frontend_model_context_length = 40960
+dynamo_frontend_model_total_kv_blocks = 37710
 ```
 
-## Prometheus Target Discovery
+**Result: PASS** — Prometheus discovers Dynamo inference workloads (frontend + worker) via operator-managed PodMonitors and actively scrapes their Prometheus-format metrics endpoints. Application-level AI inference metrics (request count, request duration, inter-token latency, token throughput, KV cache utilization) are collected and queryable.
+
+---
+
+## Training: Kubeflow Trainer (ServiceMonitor)
+
+**Cluster:** `aicr-cuj1` (EKS, training)
+**Generated:** 2026-03-25 10:38:58 UTC
 
-Prometheus automatically discovers the vLLM workload as a scrape target via
-the ServiceMonitor and actively collects metrics.
+The Kubeflow Trainer controller-manager exposes training-specific metrics
+(TrainJob reconciliation, webhook latency) on port 8443 (HTTPS) in Prometheus
+format, discovered via ServiceMonitor.
+
+### Kubeflow Trainer Components
+
+**Kubeflow Trainer deployments**
+```
+$ kubectl get deploy -n kubeflow
+NAME                                  READY   UP-TO-DATE   AVAILABLE   AGE
+jobset-controller                     1/1     1            1           12d
+kubeflow-trainer-controller-manager   1/1     1            1           12d
+```
+
+### ServiceMonitor
+
+**Kubeflow Trainer ServiceMonitor**
+```
+$ kubectl get servicemonitor kubeflow-trainer -n kubeflow -o yaml
+apiVersion: monitoring.coreos.com/v1
+kind: ServiceMonitor
+metadata:
+  labels:
+    release: kube-prometheus-stack
+  name: kubeflow-trainer
+  namespace: kubeflow
+spec:
+  endpoints:
+  - interval: 15s
+    path: /metrics
+    port: metrics
+    scheme: https
+    tlsConfig:
+      insecureSkipVerify: true
+  selector:
+    matchLabels:
+      app.kubernetes.io/component: manager
+      app.kubernetes.io/name: kubeflow-trainer
+```
+
+### Prometheus Target Discovery
 
 **Prometheus scrape target (active)**
 ```
-$ kubectl exec -n monitoring prometheus-kube-prometheus-prometheus-0 -- \
-    wget -qO- 'http://localhost:9090/api/v1/targets?state=active' | \
-    jq '.data.activeTargets[] | select(.labels.job=="vllm-inference")'
 {
-  "job": "vllm-inference",
-  "endpoint": "http://10.0.170.78:8000/metrics",
+  "job": "kubeflow-trainer-controller-manager",
+  "endpoint": "https://10.0.7.127:8443/metrics",
   "health": "up",
-  "lastScrape": "2026-03-24T14:06:50.899967845Z"
+  "lastScrape": "2026-03-25T10:39:07.735479672Z"
 }
 ```
 
-## vLLM Metrics in Prometheus
-
-Prometheus collects vLLM application-level inference metrics including request
-throughput, token counts, latency distributions, and KV cache utilization.
+### Kubeflow Trainer Metrics in Prometheus
 
-**vLLM metrics queried from Prometheus (after 10 inference requests)**
+**Kubeflow Trainer metrics queried from Prometheus**
 ```
-$ kubectl exec -n monitoring prometheus-kube-prometheus-prometheus-0 -- \
-    wget -qO- 'http://localhost:9090/api/v1/query?query={job="vllm-inference",__name__=~"vllm:.*"}'
-vllm:request_success_total{model_name="Qwen/Qwen3-0.6B"} 10
-vllm:prompt_tokens_total{model_name="Qwen/Qwen3-0.6B"} 80
-vllm:generation_tokens_total{model_name="Qwen/Qwen3-0.6B"} 500
-vllm:time_to_first_token_seconds_count{model_name="Qwen/Qwen3-0.6B"} 10
-vllm:time_to_first_token_seconds_sum{model_name="Qwen/Qwen3-0.6B"} 0.205
-vllm:inter_token_latency_seconds_count{model_name="Qwen/Qwen3-0.6B"} 490
-vllm:inter_token_latency_seconds_sum{model_name="Qwen/Qwen3-0.6B"} 0.864
-vllm:prefix_cache_queries_total{model_name="Qwen/Qwen3-0.6B"} 80
-vllm:iteration_tokens_total_sum{model_name="Qwen/Qwen3-0.6B"} 580
+controller_runtime_max_concurrent_reconciles{controller="trainjob_controller"} = 1
+controller_runtime_reconcile_total{controller="trainjob_controller"} = 112
+controller_runtime_reconcile_errors_total{controller="trainjob_controller"} = 7
+controller_runtime_reconcile_time_seconds_sum{controller="trainjob_controller"} = 0.458
+controller_runtime_reconcile_time_seconds_count{controller="trainjob_controller"} = 112
+controller_runtime_webhook_latency_seconds_sum = 0.001
+controller_runtime_webhook_latency_seconds_count = 2
+controller_runtime_webhook_requests_total = 2
 ```
 
-**Result: PASS** — Prometheus discovers the vLLM inference workload via ServiceMonitor and actively scrapes its Prometheus-format metrics endpoint. Application-level AI inference metrics (request success count, prompt/generation token throughput, time-to-first-token latency, inter-token latency, KV cache usage, prefix cache queries) are collected and queryable in Prometheus.
+**Result: PASS** — Prometheus discovers the Kubeflow Trainer controller via ServiceMonitor and actively scrapes its Prometheus-format metrics endpoint. Training-specific metrics (TrainJob reconciliation, webhook latency) are collected and queryable.
+
+---
+
+## Summary
+
+| Workload | Discovery | Metrics Port | Metrics Type | Result |
+|----------|-----------|-------------|--------------|--------|
+| **Dynamo vLLM** (inference) | PodMonitor (auto-created) | 9090 (HTTP) | `dynamo_component_*`, `dynamo_frontend_*`, `vllm:*` | **PASS** |
+| **Kubeflow Trainer** (training) | ServiceMonitor | 8443 (HTTPS) | `controller_runtime_*{controller="trainjob_controller"}` | **PASS** |
 
 ## Cleanup
 
-**Delete test namespace**
+**Delete inference workload**
 ```
-$ kubectl delete ns vllm-metrics-test
+$ kubectl delete ns dynamo-workload
 ```
@@ -39,6 +39,7 @@ var ValidFeatures = []string{
 	"gang-scheduling",
 	"secure-access",
 	"accelerator-metrics",
+	"ai-service-metrics",
 	"inference-gateway",
 	"robust-operator",
 	"pod-autoscaling",
@@ -50,7 +51,8 @@ var featureToScript = map[string]string{
 	"dra-support":         "dra",
 	"gang-scheduling":     "gang",
 	"secure-access":       "secure",
-	"accelerator-metrics": "metrics",
+	"accelerator-metrics": "accelerator-metrics",
+	"ai-service-metrics":  "service-metrics",
 	"inference-gateway":   "gateway",
 	"robust-operator":     "operator",
 	"pod-autoscaling":     "hpa",
@@ -59,13 +61,14 @@ var featureToScript = map[string]string{
 
 // featureAliases maps short names to canonical feature names for convenience.
 var featureAliases = map[string]string{
-	"dra":      "dra-support",
-	"gang":     "gang-scheduling",
-	"secure":   "secure-access",
-	"metrics":  "accelerator-metrics",
-	"gateway":  "inference-gateway",
-	"operator": "robust-operator",
-	"hpa":      "pod-autoscaling",
+	"dra":             "dra-support",
+	"gang":            "gang-scheduling",
+	"secure":          "secure-access",
+	"metrics":         "accelerator-metrics",
+	"service-metrics": "ai-service-metrics",
+	"gateway":         "inference-gateway",
+	"operator":        "robust-operator",
+	"hpa":             "pod-autoscaling",
 }
 
 // ResolveFeature returns the canonical feature name, resolving aliases.
@@ -103,7 +106,8 @@ var FeatureDescriptions = map[string]string{
 	"dra-support":         "DRA GPU allocation test",
 	"gang-scheduling":     "Gang scheduling co-scheduling test",
 	"secure-access":       "Secure accelerator access verification",
-	"accelerator-metrics": "Accelerator & AI service metrics",
+	"accelerator-metrics": "Accelerator metrics (DCGM exporter)",
+	"ai-service-metrics":  "AI service metrics (Prometheus ServiceMonitor discovery)",
 	"inference-gateway":   "Inference API gateway conditions",
 	"robust-operator":     "Robust AI operator + webhook test",
 	"pod-autoscaling":     "HPA pod autoscaling (scale-up + scale-down)",
 
@@ -31,6 +31,7 @@ func TestResolveFeature(t *testing.T) {
 		{"alias gang", "gang", "gang-scheduling"},
 		{"alias secure", "secure", "secure-access"},
 		{"alias metrics", "metrics", "accelerator-metrics"},
+		{"alias service-metrics", "service-metrics", "ai-service-metrics"},
 		{"alias gateway", "gateway", "inference-gateway"},
 		{"alias operator", "operator", "robust-operator"},
 		{"alias hpa", "hpa", "pod-autoscaling"},
@@ -56,7 +57,8 @@ func TestScriptSection(t *testing.T) {
 		{"dra-support", "dra-support", "dra"},
 		{"gang-scheduling", "gang-scheduling", "gang"},
 		{"secure-access", "secure-access", "secure"},
-		{"accelerator-metrics", "accelerator-metrics", "metrics"},
+		{"accelerator-metrics", "accelerator-metrics", "accelerator-metrics"},
+		{"ai-service-metrics", "ai-service-metrics", "service-metrics"},
 		{"inference-gateway", "inference-gateway", "gateway"},
 		{"robust-operator", "robust-operator", "operator"},
 		{"pod-autoscaling", "pod-autoscaling", "hpa"},
 
@@ -47,15 +47,15 @@ var requirements = map[string]requirementMeta{
 	},
 	"accelerator-metrics": {
 		RequirementID: "accelerator_metrics",
-		Title:         "Accelerator & AI Service Metrics",
+		Title:         "Accelerator Metrics (DCGM Exporter)",
 		Description:   "Demonstrates that the DCGM exporter exposes per-GPU metrics (utilization, memory, temperature, power) in Prometheus format.",
 		File:          "accelerator-metrics.md",
 	},
 	"ai-service-metrics": {
-		RequirementID: "accelerator_metrics",
-		Title:         "Accelerator & AI Service Metrics",
-		Description:   "Demonstrates that GPU metrics flow through Prometheus and are available via the Kubernetes custom metrics API for HPA scaling.",
-		File:          "accelerator-metrics.md",
+		RequirementID: "ai_service_metrics",
+		Title:         "AI Service Metrics (Prometheus ServiceMonitor Discovery)",
+		Description:   "Demonstrates that Prometheus discovers and collects metrics from AI workloads exposing Prometheus exposition format via ServiceMonitors.",
+		File:          "ai-service-metrics.md",
 	},
 	"inference-gateway": {
 		RequirementID: "ai_inference",