removing DefaultPredictionRequestBuilder

RishabhSaini · RishabhSaini · commit f5dcf0c051d5 · 2026-02-03T12:19:59.000-05:00
diff --git a/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/latencypredictor_helper.go b/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/latencypredictor_helper.go
@@ -174,18 +174,27 @@ func recordTTFTTrainingData(
 	prefixCacheScore float64,
 ) {
 	logger := log.FromContext(ctx)
-	// Build training entry using the builder
-	entry := requestBuilder.BuildTrainingEntry(
-		ctx,
-		pod,
-		m,
-		predictedLatencyCtx.schedulingRequest.Body.Completions.Prompt,
-		predictedLatencyCtx.ttft,
-		0, // TTFT training
-		now,
-		0,
-		prefixCacheScore,
-	)
+
+	// Build training entry inline (default monolithic behavior)
+	prompt := predictedLatencyCtx.schedulingRequest.Body.Completions.Prompt
+	entry := latencypredictor.TrainingEntry{
+		KVCachePercentage:  m.KVCacheUsagePercent,
+		InputTokenLength:   len(strings.Fields(prompt)),
+		ActualTTFT:         predictedLatencyCtx.ttft,
+		ActualTPOT:         0, // TTFT training
+		Timestamp:          now,
+		NumRequestWaiting:  m.WaitingQueueSize,
+		NumRequestRunning:  m.RunningRequestsSize,
+		NumTokensGenerated: 0,
+		PrefixCacheScore:   prefixCacheScore,
+		PodType:            "", // Empty for monolithic deployments
+	}
+
+	// Allow customization if builder is provided (for disaggregated deployments)
+	if requestBuilder != nil {
+		entry = requestBuilder.BuildTrainingEntry(ctx, pod, m, prompt, predictedLatencyCtx.ttft, 0, now, 0, prefixCacheScore)
+	}
+
 	if err := predictor.AddTrainingDataBulk([]latencypredictor.TrainingEntry{entry}); err != nil {
 		logger.V(logutil.DEBUG).Error(err, "record TTFT training failed")
 	}
@@ -264,18 +273,27 @@ func processTokenForLatencyPrediction(
 			"error", err)
 		return
 	}
-	// Record actual TPOT using builder
-	entry := requestBuilder.BuildTrainingEntry(
-		ctx,
-		pod,
-		m,
-		predictedLatencyCtx.schedulingRequest.Body.Completions.Prompt,
-		0, // TTFT not recorded for TPOT
-		latencyMs,
-		now,
-		predictedLatencyCtx.generatedTokenCount-1,
-		0, // TPOT does not use prefix cache score
-	)
+
+	// Build training entry inline (default monolithic behavior)
+	prompt := predictedLatencyCtx.schedulingRequest.Body.Completions.Prompt
+	entry := latencypredictor.TrainingEntry{
+		KVCachePercentage:  m.KVCacheUsagePercent,
+		InputTokenLength:   len(strings.Fields(prompt)),
+		ActualTTFT:         0, // TTFT not recorded for TPOT
+		ActualTPOT:         latencyMs,
+		Timestamp:          now,
+		NumRequestWaiting:  m.WaitingQueueSize,
+		NumRequestRunning:  m.RunningRequestsSize,
+		NumTokensGenerated: predictedLatencyCtx.generatedTokenCount - 1,
+		PrefixCacheScore:   0, // TPOT does not use prefix cache score
+		PodType:            "", // Empty for monolithic deployments
+	}
+
+	// Allow customization if builder is provided (for disaggregated deployments)
+	if requestBuilder != nil {
+		entry = requestBuilder.BuildTrainingEntry(ctx, pod, m, prompt, 0, latencyMs, now, predictedLatencyCtx.generatedTokenCount-1, 0)
+	}
+
 	if err := predictor.AddTrainingDataBulk([]latencypredictor.TrainingEntry{entry}); err != nil {
 		logger.V(logutil.DEBUG).Error(err, "record TPOT training failed")
 	}
@@ -344,17 +362,25 @@ func bulkPredictWithMetrics(
 		}
 	}
 
-	// Build bulk prediction requests using the builder
+	// Build bulk prediction requests inline (default monolithic behavior)
 	bulkRequests := make([]latencypredictor.PredictionRequest, len(metricsStates))
 	for i := range metricsStates {
-		bulkRequests[i] = requestBuilder.BuildPredictionRequest(
-			ctx,
-			pods[i],
-			metricsStates[i],
-			prompts[i],
-			generatedTokenCounts[i],
-			prefixCacheScores[i],
-		)
+		req := latencypredictor.PredictionRequest{
+			KVCachePercentage:  metricsStates[i].KVCacheUsagePercent,
+			InputTokenLength:   len(strings.Fields(prompts[i])),
+			NumRequestWaiting:  metricsStates[i].WaitingQueueSize,
+			NumRequestRunning:  metricsStates[i].RunningRequestsSize,
+			NumTokensGenerated: generatedTokenCounts[i],
+			PrefixCacheScore:   prefixCacheScores[i],
+			PodType:            "", // Empty for monolithic deployments
+		}
+
+		// Allow customization if builder is provided (for disaggregated deployments)
+		if requestBuilder != nil {
+			req = requestBuilder.BuildPredictionRequest(ctx, pods[i], metricsStates[i], prompts[i], generatedTokenCounts[i], prefixCacheScores[i])
+		}
+
+		bulkRequests[i] = req
 	}
 
 	// Perform bulk prediction
diff --git a/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/latencypredictor_helper_test.go b/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/latencypredictor_helper_test.go
@@ -41,7 +41,7 @@ func TestBulkPredictWithMetrics(t *testing.T) {
 		{KVCacheUsagePercent: 0.5},
 		{KVCacheUsagePercent: 0.6},
 	}
-	requestBuilder := &DefaultPredictionRequestBuilder{}
+	requestBuilder := PredictionRequestBuilder(nil) // nil = default monolithic behavior
 	pods := []schedulingtypes.Endpoint{
 		fwkdl.NewEndpoint(&fwkdl.EndpointMetadata{
 			NamespacedName: types.NamespacedName{Namespace: "default", Name: "pod1"},
@@ -72,7 +72,7 @@ func TestBulkPredictWithMetrics_Error(t *testing.T) {
 	metricsStates := []*fwkdl.Metrics{
 		{KVCacheUsagePercent: 0.5},
 	}
-	requestBuilder := &DefaultPredictionRequestBuilder{}
+	requestBuilder := PredictionRequestBuilder(nil) // nil = default monolithic behavior
 	pods := []schedulingtypes.Endpoint{
 		fwkdl.NewEndpoint(&fwkdl.EndpointMetadata{
 			NamespacedName: types.NamespacedName{Namespace: "default", Name: "pod1"},
@@ -91,7 +91,7 @@ func TestBulkPredictWithMetrics_Error(t *testing.T) {
 func TestBulkPredictWithMetrics_InputMismatch(t *testing.T) {
 	mockPredictor := &mockPredictor{}
 	metricsStates := []*fwkdl.Metrics{{}}
-	requestBuilder := &DefaultPredictionRequestBuilder{}
+	requestBuilder := PredictionRequestBuilder(nil) // nil = default monolithic behavior
 	pods := []schedulingtypes.Endpoint{
 		fwkdl.NewEndpoint(&fwkdl.EndpointMetadata{
 			NamespacedName: types.NamespacedName{Namespace: "default", Name: "pod1"},
@@ -111,7 +111,7 @@ func TestBulkPredictWithMetrics_InputMismatch(t *testing.T) {
 func TestBulkPredictWithMetrics_NilMetricsState(t *testing.T) {
 	mockPredictor := &mockPredictor{}
 	metricsStates := []*fwkdl.Metrics{nil} // Nil metrics state
-	requestBuilder := &DefaultPredictionRequestBuilder{}
+	requestBuilder := PredictionRequestBuilder(nil) // nil = default monolithic behavior
 	pods := []schedulingtypes.Endpoint{
 		fwkdl.NewEndpoint(&fwkdl.EndpointMetadata{
 			NamespacedName: types.NamespacedName{Namespace: "default", Name: "pod1"},
diff --git a/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/requestcontrol_hooks_test.go b/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/requestcontrol_hooks_test.go
@@ -62,7 +62,7 @@ func createTestRouter() *PredictedLatency {
 		sloContextStore:     sync.Map{},
 		runningRequestLists: make(map[types.NamespacedName]*requestPriorityQueue),
 		latencypredictor:    nil,
-		requestBuilder:      &DefaultPredictionRequestBuilder{},
+		requestBuilder:      nil, // nil = default monolithic behavior
 		config:              DefaultConfig,
 	}
 }
diff --git a/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/scorer.go b/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/scorer.go
@@ -69,7 +69,7 @@ type Config struct {
 
 	// RequestBuilder allows customization of prediction and training request construction.
 	// This field is not serialized and must be set programmatically.
-	// If nil, defaults to DefaultPredictionRequestBuilder.
+	// If nil, uses default monolithic behavior (PodType="").
 	RequestBuilder PredictionRequestBuilder `json:"-"`
 }
 
@@ -101,10 +101,8 @@ func PredictedLatencyFactory(name string, rawParameters json.RawMessage, handle
 		}
 	}
 
-	// Use provided builder or default to DefaultPredictionRequestBuilder
-	if parameters.RequestBuilder == nil {
-		parameters.RequestBuilder = &DefaultPredictionRequestBuilder{}
-	}
+	// RequestBuilder is optional - nil means use default monolithic behavior
+	// Downstream projects can provide a custom builder for disaggregated serving
 
 	if err := parameters.validate(); err != nil {
 		return nil, fmt.Errorf("invalid PredictedLatency config: %w", err)
@@ -168,16 +166,10 @@ func NewPredictedLatency(config Config, predictor latencypredictor.PredictorInte
 		strategy = headroomStrategyLeast
 	}
 
-	// Ensure requestBuilder is set
-	requestBuilder := config.RequestBuilder
-	if requestBuilder == nil {
-		requestBuilder = &DefaultPredictionRequestBuilder{}
-	}
-
 	return &PredictedLatency{
 		typedName:           plugin.TypedName{Type: PredictedLatencyPluginType, Name: PredictedLatencyPluginType},
 		latencypredictor:    predictor,
-		requestBuilder:      requestBuilder,
+		requestBuilder:      config.RequestBuilder, // nil = default monolithic behavior
 		runningRequestLists: make(map[types.NamespacedName]*requestPriorityQueue),
 		sloContextStore:     sync.Map{},
 		headroomStrategy:    strategy,
diff --git a/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/types.go b/pkg/epp/framework/plugins/scheduling/scorer/predictedlatency/types.go
@@ -19,7 +19,6 @@ package predictedlatency
 
 import (
 	"context"
-	"strings"
 	"time"
 
 	"sigs.k8s.io/gateway-api-inference-extension/pkg/epp/framework/interface/datalayer"
@@ -92,52 +91,3 @@ type PredictionRequestBuilder interface {
 	) latencypredictor.TrainingEntry
 }
 
-// DefaultPredictionRequestBuilder provides the default monolithic behavior for building prediction requests.
-// This implementation leaves PodType empty, suitable for monolithic (non-disaggregated) deployments.
-type DefaultPredictionRequestBuilder struct{}
-
-// BuildPredictionRequest constructs a standard prediction request without pod type information
-func (b *DefaultPredictionRequestBuilder) BuildPredictionRequest(
-	ctx context.Context,
-	pod schedulingtypes.Endpoint,
-	metrics *datalayer.Metrics,
-	prompt string,
-	generatedTokens int,
-	prefixCacheScore float64,
-) latencypredictor.PredictionRequest {
-	return latencypredictor.PredictionRequest{
-		KVCachePercentage:  metrics.KVCacheUsagePercent,
-		InputTokenLength:   len(strings.Fields(prompt)), // Simple word-based tokenization
-		NumRequestWaiting:  metrics.WaitingQueueSize,
-		NumRequestRunning:  metrics.RunningRequestsSize,
-		NumTokensGenerated: generatedTokens,
-		PrefixCacheScore:   prefixCacheScore,
-		PodType:            "", // Empty for monolithic deployments
-	}
-}
-
-// BuildTrainingEntry constructs a standard training entry without pod type information
-func (b *DefaultPredictionRequestBuilder) BuildTrainingEntry(
-	ctx context.Context,
-	pod schedulingtypes.Endpoint,
-	metrics *datalayer.Metrics,
-	prompt string,
-	actualTTFT float64,
-	actualTPOT float64,
-	timestamp time.Time,
-	generatedTokens int,
-	prefixCacheScore float64,
-) latencypredictor.TrainingEntry {
-	return latencypredictor.TrainingEntry{
-		KVCachePercentage:  metrics.KVCacheUsagePercent,
-		InputTokenLength:   len(strings.Fields(prompt)), // Simple word-based tokenization
-		ActualTTFT:         actualTTFT,
-		ActualTPOT:         actualTPOT,
-		Timestamp:          timestamp,
-		NumRequestWaiting:  metrics.WaitingQueueSize,
-		NumRequestRunning:  metrics.RunningRequestsSize,
-		NumTokensGenerated: generatedTokens,
-		PrefixCacheScore:   prefixCacheScore,
-		PodType:            "", // Empty for monolithic deployments
-	}
-}

Original file line number	Diff line number	Diff line change
`@@ -62,7 +62,7 @@ func createTestRouter() *PredictedLatency {`
`62`	`62`	`sloContextStore: sync.Map{},`
`63`	`63`	`runningRequestLists: make(map[types.NamespacedName]*requestPriorityQueue),`
`64`	`64`	`latencypredictor: nil,`
`65`		`- requestBuilder: &DefaultPredictionRequestBuilder{},`
	`65`	`+ requestBuilder: nil, // nil = default monolithic behavior`
`66`	`66`	`config: DefaultConfig,`
`67`	`67`	`}`
`68`	`68`	`}`