Add P/D-aware SLO scheduling support

RishabhSaini · RishabhSaini · commit 38add61bf4ea · 2026-02-02T10:58:47.000-05:00
- Add PDPredictionRequestBuilder to populate PodType from llm-d.ai/role labels
  - Add pd-slo-aware-scorer plugin wrapping slo_aware_router with P/D builder
  - Register pd-slo-aware-scorer in plugin registry
  - Add example EPP config for P/D SLO-aware scheduling (pd-slo-epp-config.yaml)
  - Add comprehensive guide on P/D SLO scheduling (docs/pd-slo-aware-scheduling.md)

  Enables separate latency prediction models for prefill vs decode workloads.
diff --git a/deploy/config/pd-slo-epp-config.yaml b/deploy/config/pd-slo-epp-config.yaml
@@ -0,0 +1,37 @@
+apiVersion: inference.networking.x-k8s.io/v1alpha1
+kind: EndpointPickerConfig
+plugins:
+- type: prefill-filter
+- type: decode-filter
+- type: prefill-header-handler
+- type: prefix-cache-scorer
+  parameters:
+    blockSize: 5
+- type: pd-slo-aware-scorer
+  parameters:
+    sloBufferFactor: 1.0
+    headroomSelectionStrategy: "least"
+- type: max-score-picker
+- type: pd-profile-handler
+  parameters:
+    threshold: 100
+    decodeProfile: "decode"
+    prefillProfile: "prefill"
+    hashBlockSize: 5
+
+schedulingProfiles:
+- name: decode
+  plugins:
+  - pluginRef: decode-filter
+  - pluginRef: prefix-cache-scorer
+  - pluginRef: pd-slo-scorer
+    weight: 100
+  - pluginRef: max-score-picker
+
+- name: prefill
+  plugins:
+  - pluginRef: prefill-filter
+  - pluginRef: prefix-cache-scorer
+  - pluginRef: pd-slo-scorer
+    weight: 100
+  - pluginRef: max-score-picker
diff --git a/go.mod b/go.mod
@@ -29,6 +29,8 @@ require (
 	sigs.k8s.io/gateway-api-inference-extension v0.0.0-20260128235548-fd30cb97714a
 )
 
+replace sigs.k8s.io/gateway-api-inference-extension => github.com/RishabhSaini/gateway-api-inference-extension v0.0.0-20260202150317-4d55e2564b01
+
 require (
 	cel.dev/expr v0.24.0 // indirect
 	github.com/Masterminds/semver/v3 v3.4.0 // indirect
diff --git a/go.sum b/go.sum
@@ -16,6 +16,8 @@ github.com/AzureAD/microsoft-authentication-library-for-go v1.6.0 h1:XRzhVemXdgv
 github.com/AzureAD/microsoft-authentication-library-for-go v1.6.0/go.mod h1:HKpQxkWaGLJ+D/5H8QRpyQXA1eKjxkFlOMwck5+33Jk=
 github.com/Masterminds/semver/v3 v3.4.0 h1:Zog+i5UMtVoCU8oKka5P7i9q9HgrJeGzI9SA1Xbatp0=
 github.com/Masterminds/semver/v3 v3.4.0/go.mod h1:4V+yj/TJE1HU9XfppCwVMZq3I84lprf4nC11bSS5beM=
+github.com/RishabhSaini/gateway-api-inference-extension v0.0.0-20260202150317-4d55e2564b01 h1:TWmpkx/DH6LasXPCGYkbyIugalQuiEvcZTvw6qWb7v8=
+github.com/RishabhSaini/gateway-api-inference-extension v0.0.0-20260202150317-4d55e2564b01/go.mod h1:lvMpB9a+Lk+xBi5Pk6teUG+NqA16WR8nRpmBNFJbflU=
 github.com/alecthomas/units v0.0.0-20240927000941-0f3dac36c52b h1:mimo19zliBX/vSQ6PWWSL9lK8qwHozUj03+zLoEB8O0=
 github.com/alecthomas/units v0.0.0-20240927000941-0f3dac36c52b/go.mod h1:fvzegU4vN3H1qMT+8wDmzjAcDONcgo2/SZ/TyfdUOFs=
 github.com/alicebob/miniredis/v2 v2.35.0 h1:QwLphYqCEAo1eu1TqPRN2jgVMPBweeQcR21jeqDCONI=
@@ -211,8 +213,6 @@ github.com/kr/text v0.2.0 h1:5Nx0Ya0ZqY2ygV366QzturHI13Jq95ApcVaJBhpS+AY=
 github.com/kr/text v0.2.0/go.mod h1:eLer722TekiGuMkidMxC/pM04lWEeraHUUmBw8l2grE=
 github.com/kylelemons/godebug v1.1.0 h1:RPNrshWIDI6G2gRW9EHilWtl7Z6Sb1BR0xunSBf0SNc=
 github.com/kylelemons/godebug v1.1.0/go.mod h1:9/0rRGxNHcop5bhtWyNeEfOS8JIWk580+fNqagV/RAw=
-github.com/llm-d/llm-d-kv-cache v0.5.0-rc1 h1:UkJZU8hGRdZKPeCiXnuGjLivqIS6yeFAl9pv4QDQcWY=
-github.com/llm-d/llm-d-kv-cache v0.5.0-rc1/go.mod h1:XyhzHBYeOWamBMPkuRySB5nJ0zzQpK/mbuXKqJRFT6A=
 github.com/llm-d/llm-d-kv-cache v0.5.0 h1:XQpkbg1yedGxn2w7QS/v/2YtrOZGp16Sw49KvMlQ1s0=
 github.com/llm-d/llm-d-kv-cache v0.5.0/go.mod h1:XyhzHBYeOWamBMPkuRySB5nJ0zzQpK/mbuXKqJRFT6A=
 github.com/maruel/natural v1.1.1 h1:Hja7XhhmvEFhcByqDoHz9QZbkWey+COd9xWfCfn1ioo=
@@ -448,10 +448,6 @@ sigs.k8s.io/controller-runtime v0.22.5 h1:v3nfSUMowX/2WMp27J9slwGFyAt7IV0YwBxAkr
 sigs.k8s.io/controller-runtime v0.22.5/go.mod h1:pc5SoYWnWI6I+cBHYYdZ7B6YHZVY5xNfll88JB+vniI=
 sigs.k8s.io/gateway-api v1.4.1 h1:NPxFutNkKNa8UfLd2CMlEuhIPMQgDQ6DXNKG9sHbJU8=
 sigs.k8s.io/gateway-api v1.4.1/go.mod h1:AR5RSqciWP98OPckEjOjh2XJhAe2Na4LHyXD2FUY7Qk=
-sigs.k8s.io/gateway-api-inference-extension v0.0.0-20260128073548-aea9ebe8cea3 h1:sobxO5HxXOd9RdhIUbUP0p+rZyn3ZFJAL6NolaHx1ZQ=
-sigs.k8s.io/gateway-api-inference-extension v0.0.0-20260128073548-aea9ebe8cea3/go.mod h1:lvMpB9a+Lk+xBi5Pk6teUG+NqA16WR8nRpmBNFJbflU=
-sigs.k8s.io/gateway-api-inference-extension v0.0.0-20260128235548-fd30cb97714a h1:Ce5CZ0R3c5H475uEuJ92FMgux3j99wDrSsI4ivTBEXQ=
-sigs.k8s.io/gateway-api-inference-extension v0.0.0-20260128235548-fd30cb97714a/go.mod h1:lvMpB9a+Lk+xBi5Pk6teUG+NqA16WR8nRpmBNFJbflU=
 sigs.k8s.io/json v0.0.0-20250730193827-2d320260d730 h1:IpInykpT6ceI+QxKBbEflcR5EXP7sU1kvOlxwZh5txg=
 sigs.k8s.io/json v0.0.0-20250730193827-2d320260d730/go.mod h1:mdzfpAEoE6DHQEN0uh9ZbOCuHbLK5wOm7dK4ctXE9Tg=
 sigs.k8s.io/kustomize/api v0.21.0 h1:I7nry5p8iDJbuRdYS7ez8MUvw7XVNPcIP5GkzzuXIIQ=
diff --git a/pkg/plugins/register.go b/pkg/plugins/register.go
@@ -10,16 +10,17 @@ import (
 
 // RegisterAllPlugins registers the factory functions of all plugins in this repository.
 func RegisterAllPlugins() {
-	plugin.Register(filter.ByLabelType, filter.ByLabelFactory)
-	plugin.Register(filter.ByLabelSelectorType, filter.ByLabelSelectorFactory)
-	plugin.Register(filter.DecodeRoleType, filter.DecodeRoleFactory)
-	plugin.Register(filter.PrefillRoleType, filter.PrefillRoleFactory)
-	plugin.Register(prerequest.PrefillHeaderHandlerType, prerequest.PrefillHeaderHandlerFactory)
-	plugin.Register(profile.DataParallelProfileHandlerType, profile.DataParallelProfileHandlerFactory)
-	plugin.Register(profile.PdProfileHandlerType, profile.PdProfileHandlerFactory)
-	plugin.Register(scorer.PrecisePrefixCachePluginType, scorer.PrecisePrefixCachePluginFactory)
-	plugin.Register(scorer.LoadAwareType, scorer.LoadAwareFactory)
-	plugin.Register(scorer.SessionAffinityType, scorer.SessionAffinityFactory)
-	plugin.Register(scorer.ActiveRequestType, scorer.ActiveRequestFactory)
-	plugin.Register(scorer.NoHitLRUType, scorer.NoHitLRUFactory)
+	plugins.Register(filter.ByLabelType, filter.ByLabelFactory)
+	plugins.Register(filter.ByLabelSelectorType, filter.ByLabelSelectorFactory)
+	plugins.Register(filter.DecodeRoleType, filter.DecodeRoleFactory)
+	plugins.Register(filter.PrefillRoleType, filter.PrefillRoleFactory)
+	plugins.Register(prerequest.PrefillHeaderHandlerType, prerequest.PrefillHeaderHandlerFactory)
+	plugins.Register(profile.DataParallelProfileHandlerType, profile.DataParallelProfileHandlerFactory)
+	plugins.Register(profile.PdProfileHandlerType, profile.PdProfileHandlerFactory)
+	plugins.Register(scorer.PrecisePrefixCachePluginType, scorer.PrecisePrefixCachePluginFactory)
+	plugins.Register(scorer.LoadAwareType, scorer.LoadAwareFactory)
+	plugins.Register(scorer.SessionAffinityType, scorer.SessionAffinityFactory)
+	plugins.Register(scorer.ActiveRequestType, scorer.ActiveRequestFactory)
+	plugins.Register(scorer.NoHitLRUType, scorer.NoHitLRUFactory)
+	plugins.Register(scorer.PDSLOAwareScorerType, scorer.PDSLOAwareScorerFactory)
 }
diff --git a/pkg/plugins/scorer/pd_prediction_builder.go b/pkg/plugins/scorer/pd_prediction_builder.go
@@ -0,0 +1,109 @@
+// Package scorer provides scoring plugins for the llm-d scheduler.
+package scorer
+
+import (
+	"context"
+	"time"
+
+	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/framework/interface/datalayer"
+	schedulingtypes "sigs.k8s.io/gateway-api-inference-extension/pkg/epp/framework/interface/scheduling"
+	predictedlatency "sigs.k8s.io/gateway-api-inference-extension/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency"
+	latencypredictor "sigs.k8s.io/gateway-api-inference-extension/sidecars/latencypredictorasync"
+
+	"github.com/llm-d/llm-d-inference-scheduler/pkg/plugins/filter"
+)
+
+// PDPredictionRequestBuilder extends the default builder with P/D pod type awareness.
+// This builder reads the llm-d.ai/role label from pods and populates the PodType field
+// in prediction and training requests, enabling the latency predictor to learn separate
+// models for prefill and decode workloads.
+type PDPredictionRequestBuilder struct {
+	predictedlatency.DefaultPredictionRequestBuilder
+}
+
+// NewPDPredictionRequestBuilder creates a new P/D-aware prediction request builder.
+func NewPDPredictionRequestBuilder() *PDPredictionRequestBuilder {
+	return &PDPredictionRequestBuilder{}
+}
+
+// extractPodType reads the llm-d.ai/role label from a pod and maps it to the predictor's pod_type field.
+// Returns:
+//   - "prefill" for pods with llm-d.ai/role=prefill
+//   - "decode" for pods with llm-d.ai/role=decode
+//   - "" (empty) for pods with llm-d.ai/role=both or no label (monolithic)
+func (b *PDPredictionRequestBuilder) extractPodType(pod schedulingtypes.Endpoint) string {
+	// Get pod labels from the underlying endpoint metadata
+	backendPod := pod.GetMetadata()
+	if backendPod == nil {
+		return "" // No pod info, treat as monolithic
+	}
+
+	labels := backendPod.Labels
+	if labels == nil {
+		return "" // No labels, treat as monolithic
+	}
+
+	role, exists := labels[filter.RoleLabel] // "llm-d.ai/role"
+	if !exists {
+		return "" // No role label, treat as monolithic
+	}
+
+	// Map llm-d roles to predictor pod types
+	switch role {
+	case filter.RolePrefill:
+		return "prefill"
+	case filter.RoleDecode:
+		return "decode"
+	case filter.RoleBoth:
+		// Pods that can do both are treated as monolithic
+		// (predictor doesn't have a specialized model for this)
+		return ""
+	default:
+		return ""
+	}
+}
+
+// BuildPredictionRequest constructs a prediction request with pod type information.
+// Extends the default implementation by populating the PodType field based on the pod's role label.
+func (b *PDPredictionRequestBuilder) BuildPredictionRequest(
+	ctx context.Context,
+	pod schedulingtypes.Endpoint,
+	metrics *datalayer.Metrics,
+	prompt string,
+	generatedTokens int,
+	prefixCacheScore float64,
+) latencypredictor.PredictionRequest {
+	// Get base request from parent implementation
+	req := b.DefaultPredictionRequestBuilder.BuildPredictionRequest(
+		ctx, pod, metrics, prompt, generatedTokens, prefixCacheScore,
+	)
+
+	// Customize with pod type from llm-d.ai/role label
+	req.PodType = b.extractPodType(pod)
+
+	return req
+}
+
+// BuildTrainingEntry constructs a training entry with pod type information.
+// Extends the default implementation by populating the PodType field based on the pod's role label.
+func (b *PDPredictionRequestBuilder) BuildTrainingEntry(
+	ctx context.Context,
+	pod schedulingtypes.Endpoint,
+	metrics *datalayer.Metrics,
+	prompt string,
+	actualTTFT float64,
+	actualTPOT float64,
+	timestamp time.Time,
+	generatedTokens int,
+	prefixCacheScore float64,
+) latencypredictor.TrainingEntry {
+	// Get base entry from parent implementation
+	entry := b.DefaultPredictionRequestBuilder.BuildTrainingEntry(
+		ctx, pod, metrics, prompt, actualTTFT, actualTPOT, timestamp, generatedTokens, prefixCacheScore,
+	)
+
+	// Customize with pod type from llm-d.ai/role label
+	entry.PodType = b.extractPodType(pod)
+
+	return entry
+}
diff --git a/pkg/plugins/scorer/pd_slo_aware_router_hooks.go b/pkg/plugins/scorer/pd_slo_aware_router_hooks.go
@@ -0,0 +1,170 @@
+/*
+Copyright 2025 The llm-d Authors.
+
+Licensed under the Apache License, Version 2.0 (the "License");
+you may not use this file except in compliance with the License.
+You may obtain a copy of the License at
+
+    http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+*/
+
+package scorer
+
+import (
+	"context"
+	"strconv"
+	"time"
+
+	"sigs.k8s.io/controller-runtime/pkg/log"
+
+	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/framework/interface/datalayer"
+	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/framework/interface/requestcontrol"
+	schedulingtypes "sigs.k8s.io/gateway-api-inference-extension/pkg/epp/framework/interface/scheduling"
+	predictedlatency "sigs.k8s.io/gateway-api-inference-extension/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency"
+	logutil "sigs.k8s.io/gateway-api-inference-extension/pkg/common/util/logging"
+	requtil "sigs.k8s.io/gateway-api-inference-extension/pkg/epp/util/request"
+	latencypredictor "sigs.k8s.io/gateway-api-inference-extension/sidecars/latencypredictorasync"
+)
+
+// PDSLOAwareRouter wraps the base PredictedLatency to add P/D-specific hook logic.
+// This keeps P/D disaggregation concerns in llm-d-inference-scheduler rather than
+// leaking them into the generic gateway-api-inference-extension.
+type PDSLOAwareRouter struct {
+	*predictedlatency.PredictedLatency
+}
+
+var _ requestcontrol.PreRequest = &PDSLOAwareRouter{}
+var _ requestcontrol.ResponseReceived = &PDSLOAwareRouter{}
+var _ requestcontrol.ResponseStreaming = &PDSLOAwareRouter{}
+var _ requestcontrol.ResponseComplete = &PDSLOAwareRouter{}
+
+// PreRequest delegates to the base router
+func (p *PDSLOAwareRouter) PreRequest(ctx context.Context, request *schedulingtypes.LLMRequest, schedulingResult *schedulingtypes.SchedulingResult) {
+	p.PredictedLatency.PreRequest(ctx, request, schedulingResult)
+}
+
+// ResponseReceived adds P/D-specific logic to extract prefill timing headers
+// before delegating to the base router.
+func (p *PDSLOAwareRouter) ResponseReceived(ctx context.Context, request *schedulingtypes.LLMRequest, response *requestcontrol.Response, targetPod *datalayer.EndpointMetadata) {
+	logger := log.FromContext(ctx)
+
+	// P/D-specific: Check for prefill timing headers from the decode sidecar
+	if prefillTTFTStr, ok := response.Headers["x-prefill-ttft-ms"]; ok && prefillTTFTStr != "" {
+		logger.V(logutil.DEBUG).Info("Detected prefill timing header",
+			"ttft_ms", prefillTTFTStr,
+			"requestID", request.Headers[requtil.RequestIdHeaderKey])
+
+		// Parse prefill TTFT
+		prefillTTFT, err := strconv.ParseFloat(prefillTTFTStr, 64)
+		if err != nil {
+			logger.V(logutil.DEBUG).Error(err, "Failed to parse prefill TTFT header", "value", prefillTTFTStr)
+		} else {
+			// Record training data for the prefill pod
+			p.recordPrefillTrainingData(ctx, request, prefillTTFT)
+		}
+	}
+
+	// Delegate to base router for decode prediction logic
+	p.PredictedLatency.ResponseReceived(ctx, request, response, targetPod)
+}
+
+// ResponseStreaming delegates to the base router
+func (p *PDSLOAwareRouter) ResponseStreaming(ctx context.Context, request *schedulingtypes.LLMRequest, response *requestcontrol.Response, pod *datalayer.EndpointMetadata) {
+	p.PredictedLatency.ResponseStreaming(ctx, request, response, pod)
+}
+
+// ResponseComplete delegates to the base router
+func (p *PDSLOAwareRouter) ResponseComplete(ctx context.Context, request *schedulingtypes.LLMRequest, response *requestcontrol.Response, pod *datalayer.EndpointMetadata) {
+	p.PredictedLatency.ResponseComplete(ctx, request, response, pod)
+}
+
+// recordPrefillTrainingData records training data for the prefill pod based on timing
+// reported by the decode sidecar via x-prefill-ttft-ms header.
+//
+// This method is P/D-specific and lives in llm-d-inference-scheduler because it:
+// - Assumes two-phase scheduling with "prefill" and "decode" profiles
+// - Knows about the llm-d.ai/role label structure
+// - Understands that prefill pods only handle TTFT (no TPOT)
+func (p *PDSLOAwareRouter) recordPrefillTrainingData(
+	ctx context.Context,
+	request *schedulingtypes.LLMRequest,
+	actualPrefillTTFT float64,
+) {
+	logger := log.FromContext(ctx)
+
+	// Get scheduling result for this request
+	schedulingResult, err := p.PredictedLatency.GetSchedulingResultForRequest(request)
+	if err != nil {
+		logger.V(logutil.DEBUG).Error(err, "Failed to get scheduling result for prefill training")
+		return
+	}
+
+	// P/D-specific: Extract prefill pod from the "prefill" profile
+	prefillResult, exists := schedulingResult.ProfileResults["prefill"]
+	if !exists || prefillResult == nil || len(prefillResult.TargetPods) == 0 {
+		logger.V(logutil.DEBUG).Info("No prefill pod in scheduling result, skipping prefill training")
+		return
+	}
+
+	prefillPod := prefillResult.TargetPods[0]
+
+	// Get metrics for the prefill pod
+	lastSeenMetrics, err := p.PredictedLatency.GetLastSeenMetricsForRequest(request)
+	if err != nil {
+		logger.V(logutil.DEBUG).Error(err, "Failed to get metrics for prefill training")
+		return
+	}
+
+	prefillMetrics, exists := lastSeenMetrics["prefill"]
+	if !exists || prefillMetrics == nil {
+		logger.V(logutil.DEBUG).Info("No metrics available for prefill pod")
+		return
+	}
+
+	// Get prefix cache score
+	prefixCacheScores, err := p.PredictedLatency.GetPrefixCacheScoresForRequest(request)
+	if err != nil {
+		logger.V(logutil.DEBUG).Error(err, "Failed to get prefix cache scores")
+		return
+	}
+	prefixCacheScore := prefixCacheScores[prefillPod.GetMetadata().String()]
+
+	// Get prompt
+	prompt, err := p.PredictedLatency.GetRequestPrompt(request)
+	if err != nil {
+		logger.V(logutil.DEBUG).Error(err, "Failed to get prompt for prefill training")
+		return
+	}
+
+	// Build training entry using the PDPredictionRequestBuilder
+	// This will automatically populate PodType="prefill" based on llm-d.ai/role label
+	requestBuilder := p.PredictedLatency.GetRequestBuilder()
+	entry := requestBuilder.BuildTrainingEntry(
+		ctx,
+		prefillPod,
+		prefillMetrics,
+		prompt,
+		actualPrefillTTFT, // Actual TTFT from sidecar
+		0,                  // TPOT not applicable for prefill
+		time.Now(),
+		0, // No tokens generated yet for prefill
+		prefixCacheScore,
+	)
+
+	// Record training data
+	latencyPredictor := p.PredictedLatency.GetLatencyPredictor().(latencypredictor.PredictorInterface)
+	if err := latencyPredictor.AddTrainingDataBulk([]latencypredictor.TrainingEntry{entry}); err != nil {
+		logger.V(logutil.DEBUG).Error(err, "Failed to record prefill training data")
+	} else {
+		logger.V(logutil.DEBUG).Info("Recorded prefill training data",
+			"pod", prefillPod.GetPod().String(),
+			"ttft_ms", actualPrefillTTFT,
+			"pod_type", "prefill")
+	}
+}
diff --git a/pkg/plugins/scorer/pd_slo_aware_scorer.go b/pkg/plugins/scorer/pd_slo_aware_scorer.go
diff --git a/pkg/sidecar/proxy/connector_nixlv2.go b/pkg/sidecar/proxy/connector_nixlv2.go
diff --git a/pkg/sidecar/proxy/timing_writer.go b/pkg/sidecar/proxy/timing_writer.go

Original file line number	Diff line number	Diff line change
`@@ -29,6 +29,8 @@ require (`
`29`	`29`	`sigs.k8s.io/gateway-api-inference-extension v0.0.0-20260128235548-fd30cb97714a`
`30`	`30`	`)`
`31`	`31`
	`32`	`+replace sigs.k8s.io/gateway-api-inference-extension => github.com/RishabhSaini/gateway-api-inference-extension v0.0.0-20260202150317-4d55e2564b01`
	`33`	`+`
`32`	`34`	`require (`
`33`	`35`	`cel.dev/expr v0.24.0 // indirect`
`34`	`36`	`github.com/Masterminds/semver/v3 v3.4.0 // indirect`