llm-d
diff --git a/‎kv_connectors/llmd_fs_backend/README.md‎
Lines changed: 19 additions & 5 deletions b/‎kv_connectors/llmd_fs_backend/README.md‎
Lines changed: 19 additions & 5 deletions
diff --git a/‎kv_connectors/llmd_fs_backend/csrc/storage/logger.hpp‎
Lines changed: 1 addition & 1 deletion b/‎kv_connectors/llmd_fs_backend/csrc/storage/logger.hpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎kv_connectors/llmd_fs_backend/csrc/storage/thread_pool.hpp‎
Lines changed: 1 addition & 1 deletion b/‎kv_connectors/llmd_fs_backend/csrc/storage/thread_pool.hpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎kv_connectors/llmd_fs_backend/docs/deployment/monitoring/grafana-dashboard-configmap.yaml‎
Lines changed: 372 additions & 0 deletions b/‎kv_connectors/llmd_fs_backend/docs/deployment/monitoring/grafana-dashboard-configmap.yaml‎
Lines changed: 372 additions & 0 deletions
diff --git a/‎kv_connectors/llmd_fs_backend/docs/deployment/monitoring/grafana.yaml‎
Lines changed: 92 additions & 0 deletions b/‎kv_connectors/llmd_fs_backend/docs/deployment/monitoring/grafana.yaml‎
Lines changed: 92 additions & 0 deletions
diff --git a/‎kv_connectors/llmd_fs_backend/docs/deployment/monitoring/prometheus-servicemonitor.yaml‎
Lines changed: 28 additions & 0 deletions b/‎kv_connectors/llmd_fs_backend/docs/deployment/monitoring/prometheus-servicemonitor.yaml‎
Lines changed: 28 additions & 0 deletions
diff --git a/‎kv_connectors/llmd_fs_backend/docs/deployment/monitoring/prometheus.yaml‎
Lines changed: 62 additions & 0 deletions b/‎kv_connectors/llmd_fs_backend/docs/deployment/monitoring/prometheus.yaml‎
Lines changed: 62 additions & 0 deletions
diff --git a/‎kv_connectors/llmd_fs_backend/docs/deployment/vllm-pvc.yaml‎
Lines changed: 0 additions & 2 deletions b/‎kv_connectors/llmd_fs_backend/docs/deployment/vllm-pvc.yaml‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎kv_connectors/llmd_fs_backend/docs/deployment/vllm-storage.yaml‎
Lines changed: 6 additions & 4 deletions b/‎kv_connectors/llmd_fs_backend/docs/deployment/vllm-storage.yaml‎
Lines changed: 6 additions & 4 deletions
@@ -68,11 +68,29 @@ pip install -e .
 - `max_staging_memory_gb`: total staging memory limit
 
 ### Environment variables
-- `STORAGE_LOG_LEVEL`: set the C++ storage log level (`trace`, `debug`, `info`, `warn`, `error`). Default: `info`
+- `STORAGE_LOG_LEVEL`: set the log level for both C++ and Python (`trace`, `debug`, `info`, `warn`, `error`). Default: `info`
 - `STORAGE_CONNECTOR_DEBUG`: legacy flag — setting to `1` enables debug-level logging (equivalent to `STORAGE_LOG_LEVEL=debug`)
 - `USE_KERNEL_COPY_WRITE` : enable GPU-kernel-based writes using GPU SMs (default 0 - uses DMA copy).
 - `USE_KERNEL_COPY_READ`: enable GPU-kernel-based reads using GPU SMs (default 0 - uses DMA copy).
 
+## Metrics
+
+The fs backend populates vLLM's built-in offloading metrics. When Prometheus metrics are enabled in vLLM, the following metrics are automatically exported:
+
+| Metric | Type | Description |
+|--------|------|-------------|
+| `vllm:kv_offload_total_bytes` | Counter | Total bytes transferred, labeled by `transfer_type` |
+| `vllm:kv_offload_total_time` | Counter | Total time spent on transfers (seconds), labeled by `transfer_type` |
+| `vllm:kv_offload_size` | Histogram | Distribution of transfer sizes in bytes, labeled by `transfer_type` |
+
+The `transfer_type` label distinguishes transfer directions:
+- `GPU_to_SHARED_STORAGE` — GPU to storage (PUT)
+- `SHARED_STORAGE_to_GPU` — storage to GPU (GET)
+
+These metrics are also available through vLLM's internal StatLogger.
+
+For a complete monitoring setup (Prometheus, Grafana, port-forwarding, and benchmarking), see the [Monitoring Guide](./docs/monitoring.md).
+
 ## Example vLLM YAML
 
 To load the fs backend:
@@ -126,10 +144,6 @@ Then apply the full vLLM deployment (including the offloading connector with a f
 kubectl apply -f ./docs/deployment/vllm-storage.yaml
 ```
 
-## Storage Cleanup
-
-TBD
-
 ## Troubleshooting
 
 ### Missing `numa.h`
 
@@ -131,6 +131,6 @@ inline bool get_env_flag(const char* name, bool default_val) {
     __VA_OPT__(__fs_time_oss << " | "; [&]<typename... Args>(Args&&... args) { \
       ((__fs_time_oss << args), ...);                                          \
     }(__VA_ARGS__);)                                                           \
-    FS_LOG_DEBUG(__fs_time_oss.str());                                         \
+    FS_LOG_TRACE(__fs_time_oss.str());                                         \
     return __ret;                                                              \
   })()
@@ -120,7 +120,7 @@ auto ThreadPool::enqueue(F&& f, TaskPriority priority)
         (priority == TaskPriority::kHigh) ? m_high_tasks : m_normal_tasks;
     target_queue.emplace([task]() { (*task)(); });
 
-    FS_LOG_DEBUG("Enqueued task with priority "
+    FS_LOG_TRACE("Enqueued task with priority "
                  << (priority == TaskPriority::kHigh ? "HIGH" : "NORMAL")
                  << " | high_queue=" << m_high_tasks.size()
                  << " normal_queue=" << m_normal_tasks.size());
 
@@ -0,0 +1,92 @@
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: grafana-datasources
+data:
+  datasources.yaml: |
+    apiVersion: 1
+    datasources:
+      - name: Prometheus
+        type: prometheus
+        access: proxy
+        url: http://prometheus-svc:9090
+        isDefault: true
+        editable: true
+---
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: grafana-dashboard-provider
+data:
+  dashboards.yaml: |
+    apiVersion: 1
+    providers:
+      - name: default
+        folder: ""
+        type: file
+        options:
+          path: /var/lib/grafana/dashboards
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: grafana
+  labels:
+    app: grafana
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: grafana
+  template:
+    metadata:
+      labels:
+        app: grafana
+    spec:
+      containers:
+      - name: grafana
+        image: grafana/grafana:11.2.0
+        env:
+        - name: GF_AUTH_ANONYMOUS_ENABLED
+          value: "true"
+        - name: GF_AUTH_ANONYMOUS_ORG_ROLE
+          value: "Admin"
+        - name: GF_SERVER_ROOT_URL
+          value: "http://localhost:3000"
+        - name: GF_SERVER_SERVE_FROM_SUB_PATH
+          value: "false"
+        - name: GF_SECURITY_ADMIN_PASSWORD
+          value: "admin"
+        ports:
+        - containerPort: 3000
+        volumeMounts:
+        - name: datasources
+          mountPath: /etc/grafana/provisioning/datasources
+        - name: dashboard-provider
+          mountPath: /etc/grafana/provisioning/dashboards
+        - name: dashboards
+          mountPath: /var/lib/grafana/dashboards
+      volumes:
+      - name: datasources
+        configMap:
+          name: grafana-datasources
+      - name: dashboard-provider
+        configMap:
+          name: grafana-dashboard-provider
+      - name: dashboards
+        configMap:
+          name: vllm-kv-offload-dashboard
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: grafana-svc
+  labels:
+    app: grafana
+spec:
+  type: ClusterIP
+  ports:
+  - port: 3000
+    targetPort: 3000
+  selector:
+    app: grafana
@@ -0,0 +1,28 @@
+# ServiceMonitor for Prometheus Operator to scrape vLLM metrics.
+# Requires: prometheus-operator CRDs installed in the cluster.
+#
+# If not using the Prometheus Operator, add a scrape config to your
+# prometheus.yml instead:
+#
+#   scrape_configs:
+#     - job_name: vllm
+#       kubernetes_sd_configs:
+#         - role: endpoints
+#       relabel_configs:
+#         - source_labels: [__meta_kubernetes_service_label_app]
+#           action: keep
+#           regex: vllm-storage
+apiVersion: monitoring.coreos.com/v1
+kind: ServiceMonitor
+metadata:
+  name: vllm-storage-monitor
+  labels:
+    app: vllm-storage
+spec:
+  selector:
+    matchLabels:
+      app: vllm-storage
+  endpoints:
+  - port: default
+    path: /metrics
+    interval: 15s
@@ -0,0 +1,62 @@
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: prometheus-config
+data:
+  prometheus.yml: |
+    global:
+      scrape_interval: 15s
+    scrape_configs:
+      - job_name: vllm
+        static_configs:
+          - targets: ["vllm-storage-svc:8000"]
+---
+apiVersion: apps/v1
+kind: Deployment
+metadata:
+  name: prometheus
+  labels:
+    app: prometheus
+spec:
+  replicas: 1
+  selector:
+    matchLabels:
+      app: prometheus
+  template:
+    metadata:
+      labels:
+        app: prometheus
+    spec:
+      containers:
+      - name: prometheus
+        image: prom/prometheus:v2.53.0
+        args:
+        - "--config.file=/etc/prometheus/prometheus.yml"
+        - "--storage.tsdb.retention.time=7d"
+        ports:
+        - containerPort: 9090
+        volumeMounts:
+        - name: config
+          mountPath: /etc/prometheus
+        - name: data
+          mountPath: /prometheus
+      volumes:
+      - name: config
+        configMap:
+          name: prometheus-config
+      - name: data
+        emptyDir: {}
+---
+apiVersion: v1
+kind: Service
+metadata:
+  name: prometheus-svc
+  labels:
+    app: prometheus
+spec:
+  type: ClusterIP
+  ports:
+  - port: 9090
+    targetPort: 9090
+  selector:
+    app: prometheus
@@ -8,7 +8,6 @@ spec:
   resources:
     requests:
       storage: 300Gi
-  storageClassName: ocs-storagecluster-cephfs
 ---
 apiVersion: v1
 kind: PersistentVolumeClaim
@@ -20,4 +19,3 @@ spec:
   resources:
     requests:
       storage: 2000Gi
-  storageClassName: ocs-storagecluster-cephfs
@@ -34,14 +34,14 @@ spec:
         fsGroup: 1001060000
       containers:
       - name: vllm
-        image: vllm/vllm-openai:v0.16.0
+        image: vllm/vllm-openai:v0.18.0
         imagePullPolicy: IfNotPresent
         command: ["/bin/sh", "-c"]
         args:
         - |
-          pip install https://raw.githubusercontent.com/llm-d/llm-d-kv-cache/main/kv_connectors/llmd_fs_backend/wheels/llmd_fs_connector-0.16.0-cp312-cp312-linux_x86_64.whl
-          vllm serve meta-llama/Meta-Llama-3.1-70B \
-          --tensor-parallel-size 4 \
+          pip install https://raw.githubusercontent.com/llm-d/llm-d-kv-cache/main/kv_connectors/llmd_fs_backend/wheels/llmd_fs_connector-0.18.0-cp312-cp312-linux_x86_64.whl
+          vllm serve Qwen/Qwen3-32B \
+          --tensor-parallel-size 2 \
           --trust-remote-code \
           --enable-chunked-prefill \
           --gpu-memory-utilization 0.85 \
@@ -66,6 +66,8 @@ spec:
           value: /mnt/pvc/hf
         - name: VLLM_LOGGING_LEVEL
           value: "INFO"
+        - name: STORAGE_LOG_LEVEL
+          value: "INFO"
         ports:
         - containerPort: 8000
         resources: