llm-d
diff --git a/‎api/v1alpha1/variantautoscaling_types.go‎
Lines changed: 2 additions & 1 deletion b/‎api/v1alpha1/variantautoscaling_types.go‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎api/v1alpha1/variantautoscaling_types_test.go‎
Lines changed: 5 additions & 3 deletions b/‎api/v1alpha1/variantautoscaling_types_test.go‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎api/v1alpha1/zz_generated.deepcopy.go‎
Lines changed: 5 additions & 0 deletions b/‎api/v1alpha1/zz_generated.deepcopy.go‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎charts/workload-variant-autoscaler/crds/llmd.ai_variantautoscalings.yaml‎
Lines changed: 4 additions & 3 deletions b/‎charts/workload-variant-autoscaler/crds/llmd.ai_variantautoscalings.yaml‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎config/crd/bases/llmd.ai_variantautoscalings.yaml‎
Lines changed: 4 additions & 3 deletions b/‎config/crd/bases/llmd.ai_variantautoscalings.yaml‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎docs/user-guide/crd-reference.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/user-guide/crd-reference.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎internal/actuator/actuator.go‎
Lines changed: 30 additions & 29 deletions b/‎internal/actuator/actuator.go‎
Lines changed: 30 additions & 29 deletions
diff --git a/‎internal/actuator/actuator_test.go‎
Lines changed: 26 additions & 19 deletions b/‎internal/actuator/actuator_test.go‎
Lines changed: 26 additions & 19 deletions
diff --git a/‎internal/controller/variantautoscaling_controller.go‎
Lines changed: 2 additions & 2 deletions b/‎internal/controller/variantautoscaling_controller.go‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎internal/controller/variantautoscaling_controller_test.go‎
Lines changed: 1 addition & 1 deletion b/‎internal/controller/variantautoscaling_controller_test.go‎
Lines changed: 1 addition & 1 deletion
@@ -76,8 +76,9 @@ type OptimizedAlloc struct {
 	Accelerator string `json:"accelerator"`
 
 	// NumReplicas is the number of replicas for the optimized allocation.
+	// nil means no optimization decision has been made yet.
 	// +kubebuilder:validation:Minimum=0
-	NumReplicas int `json:"numReplicas"`
+	NumReplicas *int32 `json:"numReplicas,omitempty"`
 }
 
 // ActuationStatus provides details about the actuation process and its current status.
 
@@ -11,6 +11,8 @@ import (
 	"k8s.io/apimachinery/pkg/runtime"
 )
 
+func int32Ptr(v int32) *int32 { return &v }
+
 // helper: build a valid VariantAutoscaling object
 // TODO: move to utils??
 func makeValidVA() *VariantAutoscaling {
@@ -39,7 +41,7 @@ func makeValidVA() *VariantAutoscaling {
 			DesiredOptimizedAlloc: OptimizedAlloc{
 				LastRunTime: metav1.NewTime(time.Unix(1730000000, 0).UTC()),
 				Accelerator: "nvidia.com/mig-1g.5gb",
-				NumReplicas: 2,
+				NumReplicas: int32Ptr(2),
 			},
 			Actuation: ActuationStatus{
 				Applied: true,
@@ -163,7 +165,7 @@ func TestStatusOmitEmpty(t *testing.T) {
 		Status struct {
 			DesiredOptimizedAlloc struct {
 				LastRunTime *string `json:"lastRunTime"`
-				NumReplicas int     `json:"numReplicas"`
+				NumReplicas *int32  `json:"numReplicas,omitempty"`
 			} `json:"desiredOptimizedAlloc"`
 			Actuation struct {
 				Applied bool `json:"applied"`
@@ -173,7 +175,7 @@ func TestStatusOmitEmpty(t *testing.T) {
 	if err := json.Unmarshal(b, &probe); err != nil {
 		t.Fatalf("unmarshal probe failed: %v", err)
 	}
-	if probe.Status.DesiredOptimizedAlloc.NumReplicas != 0 ||
+	if probe.Status.DesiredOptimizedAlloc.NumReplicas != nil ||
 		probe.Status.Actuation.Applied != false {
 		t.Errorf("unexpected non-zero defaults in status: %+v", probe.Status)
 	}
 
@@ -211,13 +211,14 @@ spec:
                     format: date-time
                     type: string
                   numReplicas:
-                    description: NumReplicas is the number of replicas for the optimized
-                      allocation.
+                    description: |-
+                      NumReplicas is the number of replicas for the optimized allocation.
+                      nil means no optimization decision has been made yet.
+                    format: int32
                     minimum: 0
                     type: integer
                 required:
                 - accelerator
-                - numReplicas
                 type: object
             type: object
         type: object
 
@@ -211,13 +211,14 @@ spec:
                     format: date-time
                     type: string
                   numReplicas:
-                    description: NumReplicas is the number of replicas for the optimized
-                      allocation.
+                    description: |-
+                      NumReplicas is the number of replicas for the optimized allocation.
+                      nil means no optimization decision has been made yet.
+                    format: int32
                     minimum: 0
                     type: integer
                 required:
                 - accelerator
-                - numReplicas
                 type: object
             type: object
         type: object
 
@@ -45,7 +45,7 @@ _Appears in:_
 | --- | --- | --- | --- |
 | `lastRunTime` _[Time](https://kubernetes.io/docs/reference/generated/kubernetes-api/v1.32/#time-v1-meta)_ | LastRunTime is the timestamp of the last optimization run. |  |  |
 | `accelerator` _string_ | Accelerator is the type of accelerator for the optimized allocation. |  | MinLength: 2 <br /> |
-| `numReplicas` _integer_ | NumReplicas is the number of replicas for the optimized allocation. |  | Minimum: 0 <br /> |
+| `numReplicas` _integer_ | NumReplicas is the number of replicas for the optimized allocation.<br />nil means no optimization decision has been made yet. |  | Minimum: 0 <br /> |
 
 
 #### VariantAutoscaling
 
@@ -58,39 +58,40 @@ func (a *Actuator) GetCurrentDeploymentReplicasFromDeployment(va *llmdOptv1alpha
 }
 
 func (a *Actuator) EmitMetrics(ctx context.Context, VariantAutoscaling *llmdOptv1alpha1.VariantAutoscaling) error {
-	// Emit replica metrics with real-time data for external autoscalers
 	logger := log.FromContext(ctx)
-	if VariantAutoscaling.Status.DesiredOptimizedAlloc.NumReplicas >= 0 {
+	if VariantAutoscaling.Status.DesiredOptimizedAlloc.NumReplicas == nil {
+		logger.Info("Skipping EmitReplicaMetrics - no optimization decision yet",
+			"variantName", VariantAutoscaling.Name)
+		return nil
+	}
+
+	desiredReplicas := *VariantAutoscaling.Status.DesiredOptimizedAlloc.NumReplicas
 
-		// Get real current replicas from Deployment (not stale VariantAutoscaling status)
-		currentReplicas, err := a.GetCurrentDeploymentReplicasFromVA(ctx, VariantAutoscaling)
-		if err != nil {
-			logger.Error(err, "Could not get current deployment replicas, using VariantAutoscaling status",
-				"variantName", VariantAutoscaling.Name)
-			currentReplicas = 0 // Fallback to 0 since CurrentAlloc is removed
-		}
+	// Get real current replicas from Deployment (not stale VariantAutoscaling status)
+	currentReplicas, err := a.GetCurrentDeploymentReplicasFromVA(ctx, VariantAutoscaling)
+	if err != nil {
+		logger.Error(err, "Could not get current deployment replicas, using VariantAutoscaling status",
+			"variantName", VariantAutoscaling.Name)
+		currentReplicas = 0 // Fallback to 0 since CurrentAlloc is removed
+	}
 
-		if err := a.MetricsEmitter.EmitReplicaMetrics(
-			ctx,
-			VariantAutoscaling,
-			currentReplicas, // Real current from Deployment
-			int32(VariantAutoscaling.Status.DesiredOptimizedAlloc.NumReplicas), // Inferno's optimization target
-			VariantAutoscaling.Status.DesiredOptimizedAlloc.Accelerator,
-		); err != nil {
-			logger.Error(err, "Failed to emit optimization signals for variantAutoscaling",
-				"variantName", VariantAutoscaling.Name)
-			// Don't fail the reconciliation for metric emission errors
-			// Metrics are critical for HPA, but emission failures shouldn't break core functionality
-			return nil
-		}
-		logger.Info("EmitReplicaMetrics completed",
-			"variantName", VariantAutoscaling.Name,
-			"currentReplicas", currentReplicas,
-			"desiredReplicas", VariantAutoscaling.Status.DesiredOptimizedAlloc.NumReplicas,
-			"accelerator", VariantAutoscaling.Status.DesiredOptimizedAlloc.Accelerator)
+	if err := a.MetricsEmitter.EmitReplicaMetrics(
+		ctx,
+		VariantAutoscaling,
+		currentReplicas,
+		desiredReplicas, // Inferno's optimization target
+		VariantAutoscaling.Status.DesiredOptimizedAlloc.Accelerator,
+	); err != nil {
+		logger.Error(err, "Failed to emit optimization signals for variantAutoscaling",
+			"variantName", VariantAutoscaling.Name)
+		// Don't fail the reconciliation for metric emission errors
+		// Metrics are critical for HPA, but emission failures shouldn't break core functionality
 		return nil
 	}
-	logger.Info("Skipping EmitReplicaMetrics - NumReplicas is 0",
-		"variantName", VariantAutoscaling.Name)
+	logger.Info("EmitReplicaMetrics completed",
+		"variantName", VariantAutoscaling.Name,
+		"currentReplicas", currentReplicas,
+		"desiredReplicas", desiredReplicas,
+		"accelerator", VariantAutoscaling.Status.DesiredOptimizedAlloc.Accelerator)
 	return nil
 }
@@ -35,6 +35,13 @@ import (
 	"sigs.k8s.io/controller-runtime/pkg/client"
 )
 
+func fmtNumReplicas(nr *int32) string {
+	if nr == nil {
+		return "<nil>"
+	}
+	return fmt.Sprintf("%d", *nr)
+}
+
 var _ = Describe("Actuator", func() {
 	var (
 		ctx          context.Context
@@ -341,15 +348,15 @@ var _ = Describe("Actuator", func() {
 				},
 				Status: llmdVariantAutoscalingV1alpha1.VariantAutoscalingStatus{
 					DesiredOptimizedAlloc: llmdVariantAutoscalingV1alpha1.OptimizedAlloc{
-						NumReplicas: 4,
+						NumReplicas: ctrlutils.Ptr(int32(4)),
 						Accelerator: "A100",
 					},
 				},
 			}
 
 			Expect(k8sClient.Create(ctx, deployment)).To(Succeed())
 			Expect(k8sClient.Create(ctx, va)).To(Succeed())
-			va.Status.DesiredOptimizedAlloc.NumReplicas = 4
+			va.Status.DesiredOptimizedAlloc.NumReplicas = ctrlutils.Ptr(int32(4))
 			va.Status.DesiredOptimizedAlloc.Accelerator = "A100"
 		})
 
@@ -359,7 +366,7 @@ var _ = Describe("Actuator", func() {
 		})
 
 		It("should emit metrics successfully when desired replicas > 0", func() {
-			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %d\n", va.Name, va.Status.DesiredOptimizedAlloc.NumReplicas)
+			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %s\n", va.Name, fmtNumReplicas(va.Status.DesiredOptimizedAlloc.NumReplicas))
 			err := actuator.EmitMetrics(ctx, va)
 			Expect(err).NotTo(HaveOccurred())
 
@@ -368,9 +375,9 @@ var _ = Describe("Actuator", func() {
 			// but we can verify the method completed without error
 		})
 
-		It("should skip metrics emission when desired replicas is 0", func() {
-			va.Status.DesiredOptimizedAlloc.NumReplicas = 0
-			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %d\n", va.Name, va.Status.DesiredOptimizedAlloc.NumReplicas)
+		It("should skip metrics emission when NumReplicas is nil (no decision)", func() {
+			va.Status.DesiredOptimizedAlloc.NumReplicas = nil
+			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %s\n", va.Name, fmtNumReplicas(va.Status.DesiredOptimizedAlloc.NumReplicas))
 			err := actuator.EmitMetrics(ctx, va)
 			Expect(err).NotTo(HaveOccurred())
 
@@ -389,7 +396,7 @@ var _ = Describe("Actuator", func() {
 					Namespace: namespace,
 				}, &dep)
 			}).Should(HaveOccurred())
-			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %d\n", va.Name, va.Status.DesiredOptimizedAlloc.NumReplicas)
+			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %s\n", va.Name, fmtNumReplicas(va.Status.DesiredOptimizedAlloc.NumReplicas))
 			err := actuator.EmitMetrics(ctx, va)
 			Expect(err).NotTo(HaveOccurred())
 
@@ -401,7 +408,7 @@ var _ = Describe("Actuator", func() {
 			// This test verifies that metrics emission errors don't fail the method
 			// We can't easily simulate a metrics emission error without mocking,
 			// but we can verify the error handling logic exists
-			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %d\n", va.Name, va.Status.DesiredOptimizedAlloc.NumReplicas)
+			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %s\n", va.Name, fmtNumReplicas(va.Status.DesiredOptimizedAlloc.NumReplicas))
 			err := actuator.EmitMetrics(ctx, va)
 			Expect(err).NotTo(HaveOccurred())
 		})
@@ -460,15 +467,15 @@ var _ = Describe("Actuator", func() {
 				},
 				Status: llmdVariantAutoscalingV1alpha1.VariantAutoscalingStatus{
 					DesiredOptimizedAlloc: llmdVariantAutoscalingV1alpha1.OptimizedAlloc{
-						NumReplicas: 3,
+						NumReplicas: ctrlutils.Ptr(int32(3)),
 						Accelerator: "A100",
 					},
 				},
 			}
 
 			Expect(k8sClient.Create(ctx, deployment)).To(Succeed())
 			Expect(k8sClient.Create(ctx, va)).To(Succeed())
-			va.Status.DesiredOptimizedAlloc.NumReplicas = 3
+			va.Status.DesiredOptimizedAlloc.NumReplicas = ctrlutils.Ptr(int32(3))
 			va.Status.DesiredOptimizedAlloc.Accelerator = "A100"
 
 		})
@@ -480,20 +487,20 @@ var _ = Describe("Actuator", func() {
 		})
 
 		It("should verify that metrics emitter can emit scaling metrics", func() {
-			fmt.Printf("Emitting scaling metrics for variantAutoscaling - name: %s\n numReplicas: %d\n", va.Name, va.Status.DesiredOptimizedAlloc.NumReplicas)
+			fmt.Printf("Emitting scaling metrics for variantAutoscaling - name: %s\n numReplicas: %s\n", va.Name, fmtNumReplicas(va.Status.DesiredOptimizedAlloc.NumReplicas))
 			err := actuator.MetricsEmitter.EmitReplicaScalingMetrics(ctx, va, "up", "optimization")
 			Expect(err).NotTo(HaveOccurred())
 		})
 
 		It("should verify that metrics emitter can emit replica metrics", func() {
-			fmt.Printf("Emitting replica metrics for variantAutoscaling - name: %s\n numReplicas: %d\n", va.Name, va.Status.DesiredOptimizedAlloc.NumReplicas)
+			fmt.Printf("Emitting replica metrics for variantAutoscaling - name: %s\n numReplicas: %s\n", va.Name, fmtNumReplicas(va.Status.DesiredOptimizedAlloc.NumReplicas))
 			err := actuator.MetricsEmitter.EmitReplicaMetrics(ctx, va, 1, 3, "A100")
 			Expect(err).NotTo(HaveOccurred())
 		})
 
 		It("should verify full metric emission workflow", func() {
 			// Test the complete workflow
-			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %d\n", va.Name, va.Status.DesiredOptimizedAlloc.NumReplicas)
+			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %s\n", va.Name, fmtNumReplicas(va.Status.DesiredOptimizedAlloc.NumReplicas))
 			err := actuator.EmitMetrics(ctx, va)
 			Expect(err).NotTo(HaveOccurred())
 
@@ -520,9 +527,9 @@ var _ = Describe("Actuator", func() {
 					MaxReplicas: 2,
 				},
 				Status: llmdVariantAutoscalingV1alpha1.VariantAutoscalingStatus{
-					// DesiredOptimizedAlloc.NumReplicas will be 0 by default
+					// DesiredOptimizedAlloc.NumReplicas is nil (no decision yet)
 					DesiredOptimizedAlloc: llmdVariantAutoscalingV1alpha1.OptimizedAlloc{
-						NumReplicas: 0, // This should cause EmitMetrics to skip
+						NumReplicas: nil, // This should cause EmitMetrics to skip
 						Accelerator: "A100",
 					},
 				},
@@ -532,9 +539,9 @@ var _ = Describe("Actuator", func() {
 			defer func() {
 				Expect(client.IgnoreNotFound(k8sClient.Delete(ctx, va))).To(Succeed())
 			}()
-			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %d\n", va.Name, va.Status.DesiredOptimizedAlloc.NumReplicas)
+			fmt.Printf("Emitting metrics for variantAutoscaling - name: %s\n numReplicas: %s\n", va.Name, fmtNumReplicas(va.Status.DesiredOptimizedAlloc.NumReplicas))
 			err := actuator.EmitMetrics(ctx, va)
-			Expect(err).NotTo(HaveOccurred()) // Should skip metrics emission due to 0 replicas
+			Expect(err).NotTo(HaveOccurred()) // Should skip metrics emission due to nil NumReplicas
 		})
 	})
 
@@ -591,15 +598,15 @@ var _ = Describe("Actuator", func() {
 				},
 				Status: llmdVariantAutoscalingV1alpha1.VariantAutoscalingStatus{
 					DesiredOptimizedAlloc: llmdVariantAutoscalingV1alpha1.OptimizedAlloc{
-						NumReplicas: 5,
+						NumReplicas: ctrlutils.Ptr(int32(5)),
 						Accelerator: "A100",
 					},
 				},
 			}
 
 			Expect(k8sClient.Create(ctx, deployment)).To(Succeed())
 			Expect(k8sClient.Create(ctx, va)).To(Succeed())
-			va.Status.DesiredOptimizedAlloc.NumReplicas = 5
+			va.Status.DesiredOptimizedAlloc.NumReplicas = ctrlutils.Ptr(int32(5))
 			va.Status.DesiredOptimizedAlloc.Accelerator = "A100"
 
 		})
 
@@ -245,8 +245,8 @@ func (r *VariantAutoscalingReconciler) Reconcile(ctx context.Context, req ctrl.R
 // fullDesiredAllocPatchBase returns a patch base that forces the full
 // desiredOptimizedAlloc object into the JSON merge patch. Without this,
 // MergeFrom only includes changed fields within nested structs, and the
-// CRD validates the partial patch — rejecting it when required fields
-// (numReplicas, accelerator) are absent from the partial object.
+// CRD validates the partial patch — rejecting it when the required field
+// (accelerator) is absent from the partial object.
 // When desiredOptimizedAlloc hasn't been set yet (accelerator is empty),
 // the base is left unchanged so the zero-valued struct is not included.
 func fullDesiredAllocPatchBase(originalVA *llmdVariantAutoscalingV1alpha1.VariantAutoscaling, va *llmdVariantAutoscalingV1alpha1.VariantAutoscaling) *llmdVariantAutoscalingV1alpha1.VariantAutoscaling {
 
@@ -488,7 +488,7 @@ var _ = Describe("VariantAutoscalings Controller", func() {
 
 			// DesiredOptimizedAlloc should remain at zero values (not set)
 			Expect(resource.Status.DesiredOptimizedAlloc.Accelerator).To(BeEmpty(), "Accelerator should remain empty")
-			Expect(resource.Status.DesiredOptimizedAlloc.NumReplicas).To(Equal(0), "NumReplicas should remain 0")
+			Expect(resource.Status.DesiredOptimizedAlloc.NumReplicas).To(BeNil(), "NumReplicas should remain nil")
 		})
 	})
Original file line number	Diff line number	Diff line change
`@@ -76,8 +76,9 @@ type OptimizedAlloc struct {`
`76`	`76`	Accelerator string `json:"accelerator"`
`77`	`77`
`78`	`78`	`// NumReplicas is the number of replicas for the optimized allocation.`
	`79`	`+ // nil means no optimization decision has been made yet.`
`79`	`80`	`// +kubebuilder:validation:Minimum=0`
`80`		- NumReplicas int `json:"numReplicas"`
	`81`	+ NumReplicas *int32 `json:"numReplicas,omitempty"`
`81`	`82`	`}`
`82`	`83`
`83`	`84`	`// ActuationStatus provides details about the actuation process and its current status.`