llm-d-incubation
diff --git a/‎README.md‎
Lines changed: 58 additions & 1 deletion b/‎README.md‎
Lines changed: 58 additions & 1 deletion
diff --git a/‎charts/llm-d-modelservice/Chart.yaml‎
Lines changed: 2 additions & 2 deletions b/‎charts/llm-d-modelservice/Chart.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎charts/llm-d-modelservice/templates/_dra.tpl‎
Lines changed: 0 additions & 45 deletions b/‎charts/llm-d-modelservice/templates/_dra.tpl‎
Lines changed: 0 additions & 45 deletions
diff --git a/‎charts/llm-d-modelservice/templates/_helpers-dra.tpl‎
Lines changed: 106 additions & 0 deletions b/‎charts/llm-d-modelservice/templates/_helpers-dra.tpl‎
Lines changed: 106 additions & 0 deletions
diff --git a/‎charts/llm-d-modelservice/templates/_helpers.tpl‎
Lines changed: 37 additions & 24 deletions b/‎charts/llm-d-modelservice/templates/_helpers.tpl‎
Lines changed: 37 additions & 24 deletions
diff --git a/‎charts/llm-d-modelservice/templates/resource-claim-template.yaml‎
Lines changed: 33 additions & 4 deletions b/‎charts/llm-d-modelservice/templates/resource-claim-template.yaml‎
Lines changed: 33 additions & 4 deletions
@@ -9,7 +9,7 @@ TL;DR:
 Active scenarios supported:
 - P/D disaggregation
 - Multi-node inference, utilizing data parallelism
-- One pod per DP rank
+- Dynamic Resource Allocation (DRA) for flexible accelerator management
 
 Integration with `llm-d` components:
 - Quickstart guide in `llm-d-infra` depends on ModelService
@@ -90,7 +90,12 @@ Below are the values you can set.
 | `decode.parallelism.workers`           | Number of workers over which data parallelism is implemented                                                      | int             | 1                                           |
 | `decode.acceleratorTypes.labelKey`     | Key of label on node that identifies the hosted GPU type                                                          | string          | N/A                                         |
 | `decode.acceleratorTypes.labelValue`   | Value of label on node that identifies type of hosted GPU                                                         | string          | N/A                                         |
+| `decode.resourceClaims`                | List of non-accelerator ResourceClaims to create and attach to decode pods                                        | List            | []                                          |
 | `prefill`                              | Same fields supported in `decode`                                                                                 | See above       | See above                                   |
+| `prefill.resourceClaims`               | List of non-accelerator ResourceClaims to create and attach to prefill pods                                       | List            | []                                          |
+| `accelerator.type`                     | Accelerator type (nvidia, intel-gaudi, intel-i915, intel-xe, amd, google)                                         | string          | N/A                                         |
+| `accelerator.dra`                      | Enable Dynamic Resource Allocation (DRA) for accelerators. When true, uses ResourceClaimTemplates instead of device plugins | bool            | `false`                                     |
+| `accelerator.resourceClaimTemplates`   | Map of accelerator types to ResourceClaimTemplate definitions for DRA mode                                        | map             | See values.yaml                             |
 | `extraObjects`                         | Additional Kubernetes objects to be deployed alongside the main application                                       | List            | []                                          |
 
 ### Accelerator Resource Configuration
@@ -126,6 +131,58 @@ decode:
 
 This is useful for accelerators like TPUs where tensor parallelism does not equal the number of accelerators.
 
+### Dynamic Resource Allocation (DRA)
+
+The chart supports Kubernetes Dynamic Resource Allocation for flexible accelerator management. Enable DRA mode with `accelerator.dra: true`.
+
+**DRA vs Device Plugin Mode:**
+
+| Aspect | Device Plugin (default) | DRA Mode (`accelerator.dra: true`) |
+|--------|------------------------|-----------------------------------|
+| Accelerator allocation | Via `resources.limits` (e.g., `nvidia.com/gpu: 4`) | Via ResourceClaims and ResourceClaimTemplates |
+| Device count | Manual or auto-calculated | Auto-calculated from parallelism settings |
+| Flexibility | Standard device plugin constraints | Advanced selection criteria via claim templates |
+| Non-accelerator resources | Specified in `resources.limits/requests` | Specified in `resources.limits/requests` (pass-through) |
+
+**Example - DRA Mode:**
+```yaml
+accelerator:
+  type: intel-gaudi
+  dra: true  # Enable DRA
+  resourceClaimTemplates:
+    intel-gaudi:
+      name: gaudi-claim-template
+      class: gaudi.intel.com
+      match: "exactly"
+      count: 2  # Optional override; auto-calculated from parallelism if omitted
+
+decode:
+  parallelism:
+    tensor: 2
+    dataLocal: 1
+  containers:
+    - name: vllm
+      resources:
+        limits:
+          cpu: "4"       # Non-accelerator resources work normally
+          memory: "16Gi"
+        requests:
+          cpu: "2"
+          memory: "8Gi"
+        claims:          # Optional: add non-accelerator claims
+        - name: custom-resource-claim
+  resourceClaims:        # Define non-accelerator claims here
+  - name: custom-resource-claim
+    resourceClaimTemplateName: my-custom-template
+```
+
+**Key Points:**
+- When `accelerator.dra: true`, do NOT specify accelerator resources in `resources.limits` (e.g., don't use `nvidia.com/gpu`)
+- Accelerator allocation is handled automatically via claims
+- Device count is auto-calculated as `parallelism.tensor * parallelism.dataLocal` unless explicitly overridden in `resourceClaimTemplates[].count`
+- CPU, memory, and other non-accelerator resources are specified normally in `resources.limits/requests`
+- User-defined claims for non-accelerator resources (e.g., RDMA, custom devices) can be added via `resourceClaims` and referenced in `resources.claims`
+
 ## Contribute
 
 We welcome contributions to llm-d-modelservice! Please see our [Contributing Guide](CONTRIBUTING.md) for detailed information on how to contribute to this project, including guidelines for submitting issues, pull requests, and development setup.
 
@@ -12,8 +12,8 @@ description: A Helm chart for ModelService in llm-d
 type: application
 # This is the chart version. This version number should be incremented each time you make changes
 # to the chart and its templates, including the app version.
-# Versions are expected to follow Semantic Versioning (https://semver.org/)
-version: "v0.3.18"
+# Versions are expected to follow Semantic Versioning (https://semver.org/)<<<<<<< HEAD
+version: "v0.4.0"
 # This is the version number of the application being deployed. This version number should be
 # incremented each time you make changes to the application. Versions are not expected to
 # follow Semantic Versioning. They should reflect the version the application is using.
 
@@ -0,0 +1,106 @@
+{{/*
+DRA (Dynamic Resource Allocation) Helper Functions
+*/}}
+
+{{/* Check if DRA is enabled */}}
+{{- define "llm-d-modelservice.draEnabled" -}}
+{{- if .Values.accelerator.dra -}}
+true
+{{- else -}}
+false
+{{- end -}}
+{{- end }}
+
+{{/* Get accelerator type */}}
+{{- define "llm-d-modelservice.acceleratorType" -}}
+{{- .Values.accelerator.type | default "nvidia" -}}
+{{- end }}
+
+{{/* Get accelerator claim name based on type */}}
+{{- define "llm-d-modelservice.acceleratorClaimName" -}}
+{{- $acceleratorType := include "llm-d-modelservice.acceleratorType" . -}}
+{{- if hasKey .Values.accelerator.resourceClaimTemplates $acceleratorType -}}
+  {{- $template := index .Values.accelerator.resourceClaimTemplates $acceleratorType -}}
+  {{- $template.name | default (printf "%s-claim" $acceleratorType) -}}
+{{- else -}}
+  {{- printf "%s-claim" $acceleratorType -}}
+{{- end -}}
+{{- end }}
+
+{{/* Get accelerator claim template name */}}
+{{- define "llm-d-modelservice.acceleratorClaimTemplateName" -}}
+{{- $acceleratorType := include "llm-d-modelservice.acceleratorType" . -}}
+{{- if hasKey .Values.accelerator.resourceClaimTemplates $acceleratorType -}}
+  {{- $template := index .Values.accelerator.resourceClaimTemplates $acceleratorType -}}
+  {{- $template.name | default (printf "%s-claim-template" $acceleratorType) -}}
+{{- else -}}
+  {{- printf "%s-claim-template" $acceleratorType -}}
+{{- end -}}
+{{- end }}
+
+{{/* Get DRA claim count (auto-calculate from parallelism if not set) */}}
+{{- define "llm-d-modelservice.draClaimCount" -}}
+{{- $acceleratorType := include "llm-d-modelservice.acceleratorType" . -}}
+{{- $count := 1 -}}
+{{- if hasKey .Values.accelerator.resourceClaimTemplates $acceleratorType -}}
+  {{- $template := index .Values.accelerator.resourceClaimTemplates $acceleratorType -}}
+  {{- if hasKey $template "count" -}}
+    {{- $count = $template.count -}}
+  {{- else -}}
+    {{- /* Auto-calculate from parallelism */}}
+    {{- $count = int (include "llm-d-modelservice.numGpuPerWorker" .parallelism) -}}
+  {{- end -}}
+{{- else -}}
+  {{- $count = int (include "llm-d-modelservice.numGpuPerWorker" .parallelism) -}}
+{{- end -}}
+{{- $count -}}
+{{- end }}
+
+{{/* Generate pod-level resourceClaims (merges accelerator + user-defined claims) */}}
+{{- define "llm-d-modelservice.podResourceClaims" -}}
+{{- $claims := list -}}
+{{- $draEnabled := eq (include "llm-d-modelservice.draEnabled" .) "true" -}}
+{{- if $draEnabled -}}
+  {{- $claimName := include "llm-d-modelservice.acceleratorClaimName" . -}}
+  {{- $templateName := include "llm-d-modelservice.acceleratorClaimTemplateName" . -}}
+  {{- $claims = append $claims (dict "name" $claimName "resourceClaimTemplateName" $templateName) -}}
+{{- end -}}
+{{- if .pdSpec.resourceClaims -}}
+  {{- $claims = concat $claims .pdSpec.resourceClaims -}}
+{{- end -}}
+{{- if $claims -}}
+resourceClaims:
+{{- toYaml $claims | nindent 2 }}
+{{- end -}}
+{{- end }}
+
+{{/* Generate container-level resource claims (merges accelerator + user-defined claims) */}}
+{{- define "llm-d-modelservice.containerResourceClaims" -}}
+{{- $claims := list -}}
+{{- $draEnabled := eq (include "llm-d-modelservice.draEnabled" .) "true" -}}
+{{- if $draEnabled -}}
+  {{- $claimName := include "llm-d-modelservice.acceleratorClaimName" . -}}
+  {{- $claims = append $claims (dict "name" $claimName) -}}
+{{- end -}}
+{{- if and .resources .resources.claims -}}
+  {{- if kindIs "slice" .resources.claims -}}
+    {{- $claims = concat $claims .resources.claims -}}
+  {{- else -}}
+    {{- fail "resources.claims must be a list of objects with 'name' field, e.g., [{\"name\": \"claim-name\"}]" -}}
+  {{- end -}}
+{{- end -}}
+{{- if $claims -}}
+claims:
+{{- toYaml $claims | nindent 2 }}
+{{- end -}}
+{{- end }}
+
+{{/* Get DRA ResourceClaimTemplate configuration for the current accelerator type */}}
+{{- define "llm-d-modelservice.draResourceClaimTemplateConfig" -}}
+{{- $acceleratorType := include "llm-d-modelservice.acceleratorType" . -}}
+{{- $config := dict -}}
+{{- if hasKey .Values.accelerator.resourceClaimTemplates $acceleratorType -}}
+  {{- $config = index .Values.accelerator.resourceClaimTemplates $acceleratorType -}}
+{{- end -}}
+{{- $config | toJson -}}
+{{- end }}
@@ -272,34 +272,52 @@ nvidia.com/gpu
 
 {{/* P/D deployment container resources */}}
 {{- define "llm-d-modelservice.resources" -}}
-{{- $numGpus := int (include "llm-d-modelservice.numGpuPerWorker" .parallelism) -}}
-{{- $acceleratorResource := include "llm-d-modelservice.acceleratorResource" . -}}
 {{- $limits := dict }}
 {{- if and .resources .resources.limits }}
-{{- $limits = deepCopy .resources.limits }}
-{{- end }}
-{{- if and (ge (int $numGpus) 1) (ne $acceleratorResource "") }}
-{{- /* Respect user's explicit accelerator setting; only auto-fill if not set */}}
-{{- /* This allows TPUs where tensor_parallelism != num_accelerators (e.g., TP=8 needs 4 TPUs) */}}
-{{- if not (hasKey $limits $acceleratorResource) }}
-{{- $limits = mergeOverwrite $limits (dict $acceleratorResource (toString $numGpus)) }}
-{{- end }}
+  {{- $limits = deepCopy .resources.limits }}
 {{- end }}
 {{- $requests := dict }}
 {{- if and .resources .resources.requests }}
-{{- $requests = deepCopy .resources.requests }}
-{{- end }}
-{{- if and (ge (int $numGpus) 1) (ne $acceleratorResource "") }}
-{{- /* Respect user's explicit accelerator setting; only auto-fill if not set */}}
-{{- if not (hasKey $requests $acceleratorResource) }}
-{{- $requests = mergeOverwrite $requests (dict $acceleratorResource (toString $numGpus)) }}
-{{- end }}
+  {{- $requests = deepCopy .resources.requests }}
 {{- end }}
+{{- $draEnabled := eq (include "llm-d-modelservice.draEnabled" .) "true" -}}
+{{- if $draEnabled -}}
+  {{- /* DRA mode: pass through user-defined limits/requests as-is, add claims */}}
+  {{- /* Users should not include accelerator resources in limits when DRA is enabled */}}
+resources:
+  limits:
+    {{- toYaml $limits | nindent 4 }}
+  requests:
+    {{- toYaml $requests | nindent 4 }}
+  {{- include "llm-d-modelservice.containerResourceClaims" . | nindent 2 }}
+{{- else -}}
+  {{- /* Device Plugin mode: existing logic */}}
+  {{- $numGpus := int (include "llm-d-modelservice.numGpuPerWorker" .parallelism) -}}
+  {{- $acceleratorResource := include "llm-d-modelservice.acceleratorResource" . -}}
+  {{- if and (ge (int $numGpus) 1) (ne $acceleratorResource "") }}
+    {{- /* Respect user's explicit accelerator setting; only auto-fill if not set */}}
+    {{- /* This allows TPUs where tensor_parallelism != num_accelerators (e.g., TP=8 needs 4 TPUs) */}}
+    {{- if not (hasKey $limits $acceleratorResource) }}
+      {{- $limits = mergeOverwrite $limits (dict $acceleratorResource (toString $numGpus)) }}
+    {{- end }}
+  {{- end }}
+  {{- if and (ge (int $numGpus) 1) (ne $acceleratorResource "") }}
+    {{- /* Respect user's explicit accelerator setting; only auto-fill if not set */}}
+    {{- if not (hasKey $requests $acceleratorResource) }}
+      {{- $requests = mergeOverwrite $requests (dict $acceleratorResource (toString $numGpus)) }}
+    {{- end }}
+  {{- end }}
 resources:
   limits:
     {{- toYaml $limits | nindent 4 }}
   requests:
     {{- toYaml $requests | nindent 4 }}
+  {{- /* Include user-defined claims even in Device Plugin mode */}}
+  {{- if and .resources .resources.claims }}
+  claims:
+    {{- toYaml .resources.claims | nindent 4 }}
+  {{- end }}
+{{- end -}}
 {{- end }}
 
 {{/* prefill name */}}
@@ -416,9 +434,8 @@ context is a pdSpec
   {{- if $hasModelVolume }}
   {{ include "llm-d-modelservice.mountModelVolumeVolumes" .Values.modelArtifacts | nindent 4}}
   {{- end -}}
-  {{- if .Values.dra.enabled -}}
-    {{- (include "llm-d-modelservice.draResourceClaims" (dict "Values" .Values)) | nindent 2 }}
-  {{- end -}}
+  {{- /* Add resourceClaims for DRA (new and old API) */}}
+  {{- include "llm-d-modelservice.podResourceClaims" . | nindent 2 }}
 {{- end }}
 
 {{/*
@@ -477,11 +494,7 @@ context is a dict with helm root context plus:
   startupProbe:
     {{- toYaml . | nindent 4 }}
   {{- end }}
-  {{- if .Values.dra.enabled }}
-  {{- (include "llm-d-modelservice.draResources" (dict "resources" .container.resources "parallelism" .parallelism "container" .container "Values" .Values)) | nindent 2 }}
-  {{- else }}
   {{- (include "llm-d-modelservice.resources" (dict "resources" .container.resources "parallelism" .parallelism "container" .container "Values" .Values)) | nindent 2 }}
-  {{- end }}
   {{- include "llm-d-modelservice.mountModelVolumeVolumeMounts" (dict "container" .container "Values" .Values) | nindent 2 }}
   {{- /* DEPRECATED; use extraConfig.workingDir instead */ -}}
   {{- with .container.workingDir }}
 
@@ -1,10 +1,39 @@
-{{- if .Values.dra.enabled -}}
+{{- $draEnabled := eq (include "llm-d-modelservice.draEnabled" .) "true" -}}
+{{- if $draEnabled -}}
+{{- $acceleratorType := include "llm-d-modelservice.acceleratorType" . -}}
+{{- $templateName := include "llm-d-modelservice.acceleratorClaimTemplateName" . -}}
+{{- $configJson := include "llm-d-modelservice.draResourceClaimTemplateConfig" . -}}
+{{- $config := $configJson | fromJson -}}
+{{- if $config -}}
+{{- /* Calculate count from parallelism if not explicitly set */}}
+{{- $count := 1 -}}
+{{- if hasKey $config "count" -}}
+  {{- $count = $config.count -}}
+{{- else -}}
+  {{- /* Auto-calculate from decode parallelism (use decode as default) */}}
+  {{- $count = int (include "llm-d-modelservice.numGpuPerWorker" .Values.decode.parallelism) -}}
+{{- end -}}
+{{- $class := $config.class | default (printf "gpu.%s.com" $acceleratorType) -}}
+{{- $match := $config.match | default "exactly" -}}
+{{- $selectors := $config.selectors | default list -}}
+---
 apiVersion: resource.k8s.io/v1
 kind: ResourceClaimTemplate
 metadata:
-  name: {{ .Values.dra.type }}-resource-claim-template
+  name: {{ $templateName }}
+  labels:
+    {{- include "llm-d-modelservice.labels" . | nindent 4 }}
 spec:
   spec:
     devices:
-      {{- (include "llm-d-modelservice.draResourceClaimDeviceClaim" (dict "Values" .Values)) | nindent 6 }}
-{{- end}}
+      requests:
+      - name: {{ $acceleratorType }}
+        {{ $match }}:
+          deviceClassName: {{ $class }}
+          count: {{ $count }}
+          {{- if $selectors }}
+          selectors:
+          {{- toYaml $selectors | nindent 10 }}
+          {{- end }}
+{{- end -}}
+{{- end -}}