Improve debugging

MikeSpreitzer · MikeSpreitzer · commit 105a60be2c82 · 2026-03-26T00:35:21.000-04:00
Signed-off-by: Mike Spreitzer &lt;mspreitz@us.ibm.com&gt;
diff --git a/pkg/controller/dual-pods/inference-server.go b/pkg/controller/dual-pods/inference-server.go
@@ -106,10 +106,13 @@ func (item launcherPodItem) process(ctx context.Context, ctl *controller, nodeDa
 
 func (item infSvrItem) process(urCtx context.Context, ctl *controller, nodeDat *nodeData) (error, bool) {
 	logger := klog.FromContext(urCtx).WithValues("serverUID", item.UID, "requesterName", item.RequesterName)
+	serverDat := ctl.getServerData(nodeDat, item.RequesterName, item.UID)
+	if serverDat.InstanceID != "" {
+		logger = logger.WithValues("instanceID", serverDat.InstanceID)
+	}
 	ctx := klog.NewContext(urCtx, logger)
 	requesterRV := "(non existent)"
 	providerRV := "(non existent)"
-	serverDat := ctl.getServerData(nodeDat, item.RequesterName, item.UID)
 	var requesterDeletionTimestamp, providerDeletionTimestamp *string
 	var requesterRCS, providerRCS *reducedContainerState
 
@@ -356,11 +359,10 @@ func (item infSvrItem) process(urCtx context.Context, ctl *controller, nodeDat *
 			serverDat.Sleeping = &sleeping
 		}
 		if *(serverDat.Sleeping) {
-			err = ctl.wakeSleeper(ctx, serverDat, requestingPod, providingPod, serverPort)
+			err = ctl.wakeSleeper(ctx, serverDat, requestingPod, providingPod, serverPort, "discovered-bound")
 			if err != nil {
 				return err, true
 			}
-			logger.V(2).Info("Woke discovered-bound inference server")
 		}
 		if err := ctl.ensureSleepingLabel(ctx, providingPod, *(serverDat.Sleeping)); err != nil {
 			return err, true
@@ -433,7 +435,7 @@ func (item infSvrItem) process(urCtx context.Context, ctl *controller, nodeDat *
 				logger.V(2).Info("Unexpected: multiple sleeping Pods match; using the first", "requesterName", requestingPod.Name)
 			}
 			providingPod = sleepingAnys[0].(*corev1.Pod)
-			return ctl.bind(ctx, serverDat, requestingPod, providingPod, false, -1)
+			return ctl.bind(ctx, serverDat, requestingPod, providingPod, nil, -1)
 		}
 		// What remains is to make a new server-providing Pod --- if the sleeper budget allows.
 
@@ -531,7 +533,7 @@ func (item infSvrItem) process(urCtx context.Context, ctl *controller, nodeDat *
 				}
 				launcherDat.Instances[iscHash] = time.Now()
 				// TODO(waltforme): the bind method may need more revision to fully handle launcher-based server providing Pods
-				return ctl.bind(ctx, serverDat, requestingPod, launcherPod, true, int16(isc.Spec.ModelServerConfig.Port))
+				return ctl.bind(ctx, serverDat, requestingPod, launcherPod, &iscHash, int16(isc.Spec.ModelServerConfig.Port))
 			} else {
 				// Slower path: create new instance in launcher with capacity
 				logger.V(5).Info("Creating new vLLM instance", "iscHash", iscHash)
@@ -545,7 +547,7 @@ func (item infSvrItem) process(urCtx context.Context, ctl *controller, nodeDat *
 				)
 				launcherDat.Instances[iscHash] = time.Now()
 				// TODO(waltforme): the bind method may need more revision to fully handle launcher-based server providing Pods
-				return ctl.bind(ctx, serverDat, requestingPod, launcherPod, true, int16(isc.Spec.ModelServerConfig.Port))
+				return ctl.bind(ctx, serverDat, requestingPod, launcherPod, &iscHash, int16(isc.Spec.ModelServerConfig.Port))
 			}
 		}
 	}
@@ -693,11 +695,12 @@ func (ctl *controller) configInferenceServer(isc *fmav1alpha1.InferenceServerCon
 
 func (ctl *controller) wakeupInstance(ctx context.Context, lClient *LauncherClient, instanceID string, instancePort int32) error {
 	logger := klog.FromContext(ctx)
-	err := doPost("http://" + lClient.baseURL.Hostname() + ":" + strconv.Itoa(int(instancePort)) + "/wake_up")
+	endpoint := lClient.baseURL.Hostname() + ":" + strconv.Itoa(int(instancePort))
+	err := doPost("http://" + endpoint + "/wake_up")
 	if err != nil {
-		return fmt.Errorf("failed to wake up vLLM instance %q: %w", instanceID, err)
+		return fmt.Errorf("failed to wake up vLLM instance %q (at %s): %w", instanceID, endpoint, err)
 	}
-	logger.V(2).Info("Woke up vLLM instance", "instanceID", instanceID)
+	logger.V(2).Info("Woke up vLLM instance", "instanceID", instanceID, "endpoint", endpoint)
 	return nil
 }
 
@@ -794,7 +797,8 @@ func (ctl *controller) enforceSleeperBudget(ctx context.Context, serverDat *serv
 }
 
 // Note: instPort is used only for launcher-based server-providing Pods.
-func (ctl *controller) bind(ctx context.Context, serverDat *serverData, requestingPod, providingPod *corev1.Pod, launcherBased bool, instPort int16) (error, bool) {
+// instanceID is non-nil iff launcher-based
+func (ctl *controller) bind(ctx context.Context, serverDat *serverData, requestingPod, providingPod *corev1.Pod, instanceID *string, instPort int16) (error, bool) {
 	logger := klog.FromContext(ctx)
 	providingPod = providingPod.DeepCopy()
 	providingPod.Annotations[requesterAnnotationKey] = string(requestingPod.UID) + " " + requestingPod.Name
@@ -807,8 +811,12 @@ func (ctl *controller) bind(ctx context.Context, serverDat *serverData, requesti
 	if err != nil {
 		return fmt.Errorf("failed to bind server-providing Pod %s: %w", providingPod.Name, err), true
 	}
+	launcherBased := instanceID != nil
 	serverDat.ProvidingPodName = providingPod.Name
-	logger.V(2).Info("Bound server-providing Pod", "name", providingPod.Name, "node", requestingPod.Spec.NodeName, "gpus", serverDat.GPUIDsStr, "newResourceVersion", echo.ResourceVersion)
+	if launcherBased {
+		serverDat.InstanceID = *instanceID
+	}
+	logger.V(2).Info("Bound server-providing Pod", "name", providingPod.Name, "node", requestingPod.Spec.NodeName, "gpus", serverDat.GPUIDsStr, "newResourceVersion", echo.ResourceVersion, "instanceID", serverDat.InstanceID)
 	var serverPort int16
 	if launcherBased {
 		serverPort = instPort
@@ -824,25 +832,27 @@ func (ctl *controller) bind(ctx context.Context, serverDat *serverData, requesti
 	if launcherBased {
 		serverDat.ServerPort = serverPort
 	}
-	err = ctl.wakeSleeper(ctx, serverDat, requestingPod, providingPod, serverPort)
+	err = ctl.wakeSleeper(ctx, serverDat, requestingPod, providingPod, serverPort, "freshly-bound")
 	if err != nil {
 		return err, true
 	}
-	logger.V(2).Info("Woke freshly-bound inference server", "providingPod", providingPod.Name)
 	return ctl.ensureReqState(ctx, requestingPod, serverDat, !slices.Contains(requestingPod.Finalizers, requesterFinalizer), false)
 }
 
-func (ctl *controller) wakeSleeper(ctx context.Context, serverDat *serverData, requestingPod, providingPod *corev1.Pod, serverPort int16) error {
+func (ctl *controller) wakeSleeper(ctx context.Context, serverDat *serverData, requestingPod, providingPod *corev1.Pod, serverPort int16, description string) error {
 	if ctl.debugAccelMemory {
 		if err := ctl.accelMemoryIsLowEnough(ctx, requestingPod, serverDat); err != nil {
 			return err
 		}
 	}
-	wakeURL := fmt.Sprintf("http://%s:%d/wake_up", providingPod.Status.PodIP, serverPort)
+	endpoint := fmt.Sprintf("%s:%d", providingPod.Status.PodIP, serverPort)
+	wakeURL := "http://" + endpoint + "/wake_up"
 	err := doPost(wakeURL)
 	if err != nil {
 		return err
 	}
+	logger := klog.FromContext(ctx)
+	logger.V(2).Info("Woke inference server", "endpoint", endpoint, "description", description)
 	if err := ctl.ensureSleepingLabel(ctx, providingPod, false); err != nil {
 		return err
 	}
@@ -949,7 +959,8 @@ func (ctl *controller) ensureUnbound(ctx context.Context, serverDat *serverData,
 				}
 			}
 		}
-		sleepURL := fmt.Sprintf("http://%s:%d/sleep", providingPod.Status.PodIP, serverPort)
+		endpoint := fmt.Sprintf("%s:%d", providingPod.Status.PodIP, serverPort)
+		sleepURL := "http://" + endpoint + "/sleep"
 		resp, err := http.Post(sleepURL, "", nil)
 		if err != nil {
 			return fmt.Errorf("failed to put provider %q to sleep, POST %s got error: %w", serverDat.ProvidingPodName, sleepURL, err)
@@ -958,7 +969,7 @@ func (ctl *controller) ensureUnbound(ctx context.Context, serverDat *serverData,
 			return fmt.Errorf("failed to put provider %q to sleep, POST %s returned status %d", serverDat.ProvidingPodName, sleepURL, sc)
 		}
 		serverDat.Sleeping = ptr.To(true)
-		logger.V(2).Info("Put inference server to sleep")
+		logger.V(2).Info("Put inference server to sleep", "endpoint", endpoint)
 	}
 	providingPod = providingPod.DeepCopy()
 	var aChange, fChange bool
diff --git a/test/e2e/run-launcher-e2e.sh b/test/e2e/run-launcher-e2e.sh
@@ -43,12 +43,21 @@ cheer() {
     echo
 }
 
+intro_case() {
+    echo
+    echo "====== Test case: $* ======"
+    echo
+}
+
 expect() {
     local elapsed=0
     local start=$(date)
     local limit=${POLL_LIMIT_SECS}
+    echo "Expecting $1" >&2
     while true; do
-        kubectl get pods -n "$NS" -L dual-pods.llm-d.ai/dual,dual-pods.llm-d.ai/sleeping
+        if (( elapsed < 7 || elapsed+7 > POLL_LIMIT_SECS )); then
+            kubectl get pods -n "$NS" -L dual-pods.llm-d.ai/dual,dual-pods.llm-d.ai/sleeping
+        fi
         if eval "$1"; then return; fi
         if (( elapsed > limit )); then
             echo "Did not become true (from $start to $(date)): $1" >&2
@@ -63,7 +72,7 @@ expect() {
 # Create test objects
 # ---------------------------------------------------------------------------
 
-: Basic Launcher Pod Creation
+intro_case Basic Launcher Pod Creation
 
 objs=$("$MKOBJS_SCRIPT" -n "$NS")
 isc=$(echo $objs | awk '{print $1}')
@@ -87,14 +96,27 @@ expect "[ \$(kubectl get pods -n $NS -l dual-pods.llm-d.ai/launcher-config-name=
 echo "At least $READY_TARGET launcher pod(s) are Ready"
 kubectl get pods -n "$NS" -l dual-pods.llm-d.ai/launcher-config-name=$lc -o wide
 
+trap 'echo "
+reqlb=${reqlb:-}
+reqlb2=${reqlb2:-}
+reqlb3=${reqlb3:-}
+reqlb4=${reqlb24-}
+launcherlb=${launcherlb:-}
+launcherlb2=${launcherlb2:-}
+launcherlb3=${launcherlb3:-}
+launcherlb4=${launcherlb4:-}
+"' EXIT
+
 # Expect requester pod to be created
 expect "kubectl get pods -n $NS -o name -l app=dp-example,instance=$instlb | wc -l | grep -w 1"
 
 export reqlb=$(kubectl get pods -n "$NS" -o name -l app=dp-example,instance=$instlb | sed s%pod/%%)
+echo "Server-requesting Pod is $reqlb"
 
 # Wait for launcher-to-requester binding, then capture the launcher name
 expect "kubectl get pods -n $NS -o name -l dual-pods.llm-d.ai/dual=$reqlb | wc -l | grep -w 1"
 export launcherlb=$(kubectl get pods -n "$NS" -o name -l dual-pods.llm-d.ai/dual=$reqlb | sed s%pod/%%)
+echo "Launcher Pod is $launcherlb"
 
 # Verify requester is bound to launcher (bidirectional check)
 expect '[ "$(kubectl get pod -n '"$NS"' $reqlb -o jsonpath={.metadata.labels.dual-pods\\.llm-d\\.ai/dual})" == "$launcherlb" ]'
@@ -112,6 +134,7 @@ cheer Successful launcher-based pod creation
 
 POLICIES_ENABLED="${POLICIES_ENABLED:-false}"
 if [ "$POLICIES_ENABLED" = true ]; then
+  intro_case Admission policy enforcement
   if ! test/e2e/validate.sh; then
     echo "ERROR: CEL policy tests failed!" >&2
     exit 1
@@ -123,7 +146,7 @@ fi
 # Instance Wake-up Fast Path
 # ---------------------------------------------------------------------------
 
-: Instance Wake-up Fast Path
+intro_case Instance Wake-up Fast Path
 
 # Scale requester to 0 (instance should sleep in launcher)
 kubectl scale rs $rslb -n "$NS" --replicas=0
@@ -142,6 +165,7 @@ kubectl scale rs $rslb -n "$NS" --replicas=1
 expect "kubectl get pods -n $NS -o name -l app=dp-example,instance=$instlb | wc -l | grep -w 1"
 
 reqlb2=$(kubectl get pods -n "$NS" -o name -l app=dp-example,instance=$instlb | sed s%pod/%%)
+echo "Server-requesting Pod2 is $reqlb2"
 
 # Should still be using the same launcher pod
 expect "kubectl get pods -n $NS -o name -l dual-pods.llm-d.ai/dual=$reqlb2 | wc -l | grep -w 1"
@@ -162,7 +186,7 @@ cheer Successful instance wake-up fast path
 # Multiple Instances Share One Launcher
 # ---------------------------------------------------------------------------
 
-: Multiple Instances Share One Launcher
+intro_case Multiple Instances Share One Launcher
 
 # Scale requester to 0 again
 kubectl scale rs $rslb -n "$NS" --replicas=0
@@ -184,6 +208,7 @@ kubectl scale rs $rslb -n "$NS" --replicas=1
 expect "kubectl get pods -n $NS -o name -l app=dp-example,instance=$instlb | wc -l | grep -w 1"
 
 reqlb3=$(kubectl get pods -n "$NS" -o name -l app=dp-example,instance=$instlb | sed s%pod/%%)
+echo "Server-requesting Pod3 is $reqlb3"
 
 # Should still be using the same launcher pod
 expect "kubectl get pods -n $NS -o name -l dual-pods.llm-d.ai/dual=$reqlb3 | wc -l | grep -w 1"
@@ -204,7 +229,7 @@ cheer Successful multiple instances sharing one launcher
 # Switch Instances In One Launcher
 # ---------------------------------------------------------------------------
 
-: Switch Instances In One Launcher
+intro_case Switch Instances In One Launcher
 
 # Scale requester to 0 again
 kubectl scale rs $rslb -n "$NS" --replicas=0
@@ -226,6 +251,7 @@ kubectl scale rs $rslb -n "$NS" --replicas=1
 expect "kubectl get pods -n $NS -o name -l app=dp-example,instance=$instlb | wc -l | grep -w 1"
 
 reqlb4=$(kubectl get pods -n "$NS" -o name -l app=dp-example,instance=$instlb | sed s%pod/%%)
+echo "Server-requesting Pod4 is $reqlb4"
 
 # Should still be using the same launcher pod
 expect "kubectl get pods -n $NS -o name -l dual-pods.llm-d.ai/dual=$reqlb4 | wc -l | grep -w 1"
@@ -246,7 +272,7 @@ cheer Successful switching instances in one launcher
 # Controller Restart State Recovery
 # ---------------------------------------------------------------------------
 
-: Controller Restart State Recovery
+intro_case Controller Restart State Recovery
 
 # This test verifies that the controller can rebuild its internal state after restart
 # by syncing launcher instances from unbound launcher pods
@@ -258,6 +284,7 @@ expect "kubectl get pods -n $NS -o name -l app=dp-example,instance=$instlb | wc
 
 # Verify launcher set is unchanged and target launcher is unbound
 launcher_count_pre_restart=$(kubectl get pods -n "$NS" -o name -l dual-pods.llm-d.ai/launcher-config-name=$lc | wc -l)
+echo launcher_count_pre_restart = $launcher_count_pre_restart
 kubectl get pods -n "$NS" -o name -l dual-pods.llm-d.ai/launcher-config-name=$lc | grep -x "pod/$launcherlb"
 expect '[ "$(kubectl get pod -n '"$NS"' $launcherlb -o jsonpath={.metadata.labels.dual-pods\\.llm-d\\.ai/dual})" == "" ]'
 
@@ -309,7 +336,7 @@ cheer Successful controller restart state recovery
 # Unbound Launcher Deletion Cleanup
 # ---------------------------------------------------------------------------
 
-: Unbound Launcher Deletion Cleanup
+intro_case Unbound Launcher Deletion Cleanup
 
 # This test verifies that deleting an unbound launcher does not leave the controller
 # stuck with stale instance state.
@@ -327,6 +354,7 @@ kubectl scale rs $rslb -n "$NS" --replicas=1
 
 expect "kubectl get pods -n $NS -o name -l app=dp-example,instance=$instlb | wc -l | grep -w 1"
 reqlb_after_delete=$(kubectl get pods -n "$NS" -o name -l app=dp-example,instance=$instlb | sed s%pod/%%)
+echo "Server-requesting Pod after delete = $reqlb_after_delete"
 expect "kubectl get pods -n $NS -o name -l dual-pods.llm-d.ai/dual=$reqlb_after_delete | wc -l | grep -w 1"
 launcherlb_after_delete=$(kubectl get pods -n "$NS" -o name -l dual-pods.llm-d.ai/dual=$reqlb_after_delete | sed s%pod/%%)
 [ "$launcherlb_after_delete" != "$launcherlb" ]

Original file line number	Diff line number	Diff line change
`@@ -106,10 +106,13 @@ func (item launcherPodItem) process(ctx context.Context, ctl *controller, nodeDa`
`106`	`106`
`107`	`107`	`func (item infSvrItem) process(urCtx context.Context, ctl controller, nodeDat nodeData) (error, bool) {`
`108`	`108`	`logger := klog.FromContext(urCtx).WithValues("serverUID", item.UID, "requesterName", item.RequesterName)`
	`109`	`+ serverDat := ctl.getServerData(nodeDat, item.RequesterName, item.UID)`
	`110`	`+ if serverDat.InstanceID != "" {`
	`111`	`+ logger = logger.WithValues("instanceID", serverDat.InstanceID)`
	`112`	`+ }`
`109`	`113`	`ctx := klog.NewContext(urCtx, logger)`
`110`	`114`	`requesterRV := "(non existent)"`
`111`	`115`	`providerRV := "(non existent)"`
`112`		`- serverDat := ctl.getServerData(nodeDat, item.RequesterName, item.UID)`
`113`	`116`	`var requesterDeletionTimestamp, providerDeletionTimestamp *string`
`114`	`117`	`var requesterRCS, providerRCS *reducedContainerState`
`115`	`118`
`@@ -356,11 +359,10 @@ func (item infSvrItem) process(urCtx context.Context, ctl controller, nodeDat `
`356`	`359`	`serverDat.Sleeping = &sleeping`
`357`	`360`	`}`
`358`	`361`	`if *(serverDat.Sleeping) {`
`359`		`- err = ctl.wakeSleeper(ctx, serverDat, requestingPod, providingPod, serverPort)`
	`362`	`+ err = ctl.wakeSleeper(ctx, serverDat, requestingPod, providingPod, serverPort, "discovered-bound")`
`360`	`363`	`if err != nil {`
`361`	`364`	`return err, true`
`362`	`365`	`}`
`363`		`- logger.V(2).Info("Woke discovered-bound inference server")`
`364`	`366`	`}`
`365`	`367`	`if err := ctl.ensureSleepingLabel(ctx, providingPod, *(serverDat.Sleeping)); err != nil {`
`366`	`368`	`return err, true`
`@@ -433,7 +435,7 @@ func (item infSvrItem) process(urCtx context.Context, ctl controller, nodeDat `
`433`	`435`	`logger.V(2).Info("Unexpected: multiple sleeping Pods match; using the first", "requesterName", requestingPod.Name)`
`434`	`436`	`}`
`435`	`437`	`providingPod = sleepingAnys[0].(*corev1.Pod)`
`436`		`- return ctl.bind(ctx, serverDat, requestingPod, providingPod, false, -1)`
	`438`	`+ return ctl.bind(ctx, serverDat, requestingPod, providingPod, nil, -1)`
`437`	`439`	`}`
`438`	`440`	`// What remains is to make a new server-providing Pod --- if the sleeper budget allows.`
`439`	`441`
`@@ -531,7 +533,7 @@ func (item infSvrItem) process(urCtx context.Context, ctl controller, nodeDat `
`531`	`533`	`}`
`532`	`534`	`launcherDat.Instances[iscHash] = time.Now()`
`533`	`535`	`// TODO(waltforme): the bind method may need more revision to fully handle launcher-based server providing Pods`
`534`		`- return ctl.bind(ctx, serverDat, requestingPod, launcherPod, true, int16(isc.Spec.ModelServerConfig.Port))`
	`536`	`+ return ctl.bind(ctx, serverDat, requestingPod, launcherPod, &iscHash, int16(isc.Spec.ModelServerConfig.Port))`
`535`	`537`	`} else {`
`536`	`538`	`// Slower path: create new instance in launcher with capacity`
`537`	`539`	`logger.V(5).Info("Creating new vLLM instance", "iscHash", iscHash)`
`@@ -545,7 +547,7 @@ func (item infSvrItem) process(urCtx context.Context, ctl controller, nodeDat `
`545`	`547`	`)`
`546`	`548`	`launcherDat.Instances[iscHash] = time.Now()`
`547`	`549`	`// TODO(waltforme): the bind method may need more revision to fully handle launcher-based server providing Pods`
`548`		`- return ctl.bind(ctx, serverDat, requestingPod, launcherPod, true, int16(isc.Spec.ModelServerConfig.Port))`
	`550`	`+ return ctl.bind(ctx, serverDat, requestingPod, launcherPod, &iscHash, int16(isc.Spec.ModelServerConfig.Port))`
`549`	`551`	`}`
`550`	`552`	`}`
`551`	`553`	`}`
`@@ -693,11 +695,12 @@ func (ctl controller) configInferenceServer(isc fmav1alpha1.InferenceServerCon`
`693`	`695`
`694`	`696`	`func (ctl controller) wakeupInstance(ctx context.Context, lClient LauncherClient, instanceID string, instancePort int32) error {`
`695`	`697`	`logger := klog.FromContext(ctx)`
`696`		`- err := doPost("http://" + lClient.baseURL.Hostname() + ":" + strconv.Itoa(int(instancePort)) + "/wake_up")`
	`698`	`+ endpoint := lClient.baseURL.Hostname() + ":" + strconv.Itoa(int(instancePort))`
	`699`	`+ err := doPost("http://" + endpoint + "/wake_up")`
`697`	`700`	`if err != nil {`
`698`		`- return fmt.Errorf("failed to wake up vLLM instance %q: %w", instanceID, err)`
	`701`	`+ return fmt.Errorf("failed to wake up vLLM instance %q (at %s): %w", instanceID, endpoint, err)`
`699`	`702`	`}`
`700`		`- logger.V(2).Info("Woke up vLLM instance", "instanceID", instanceID)`
	`703`	`+ logger.V(2).Info("Woke up vLLM instance", "instanceID", instanceID, "endpoint", endpoint)`
`701`	`704`	`return nil`
`702`	`705`	`}`
`703`	`706`
`@@ -794,7 +797,8 @@ func (ctl controller) enforceSleeperBudget(ctx context.Context, serverDat serv`
`794`	`797`	`}`
`795`	`798`
`796`	`799`	`// Note: instPort is used only for launcher-based server-providing Pods.`
`797`		`-func (ctl controller) bind(ctx context.Context, serverDat serverData, requestingPod, providingPod *corev1.Pod, launcherBased bool, instPort int16) (error, bool) {`
	`800`	`+// instanceID is non-nil iff launcher-based`
	`801`	`+func (ctl controller) bind(ctx context.Context, serverDat serverData, requestingPod, providingPod corev1.Pod, instanceID string, instPort int16) (error, bool) {`
`798`	`802`	`logger := klog.FromContext(ctx)`
`799`	`803`	`providingPod = providingPod.DeepCopy()`
`800`	`804`	`providingPod.Annotations[requesterAnnotationKey] = string(requestingPod.UID) + " " + requestingPod.Name`
`@@ -807,8 +811,12 @@ func (ctl controller) bind(ctx context.Context, serverDat serverData, requesti`
`807`	`811`	`if err != nil {`
`808`	`812`	`return fmt.Errorf("failed to bind server-providing Pod %s: %w", providingPod.Name, err), true`
`809`	`813`	`}`
	`814`	`+ launcherBased := instanceID != nil`
`810`	`815`	`serverDat.ProvidingPodName = providingPod.Name`
`811`		`- logger.V(2).Info("Bound server-providing Pod", "name", providingPod.Name, "node", requestingPod.Spec.NodeName, "gpus", serverDat.GPUIDsStr, "newResourceVersion", echo.ResourceVersion)`
	`816`	`+ if launcherBased {`
	`817`	`+ serverDat.InstanceID = *instanceID`
	`818`	`+ }`
	`819`	`+ logger.V(2).Info("Bound server-providing Pod", "name", providingPod.Name, "node", requestingPod.Spec.NodeName, "gpus", serverDat.GPUIDsStr, "newResourceVersion", echo.ResourceVersion, "instanceID", serverDat.InstanceID)`
`812`	`820`	`var serverPort int16`
`813`	`821`	`if launcherBased {`
`814`	`822`	`serverPort = instPort`
`@@ -824,25 +832,27 @@ func (ctl controller) bind(ctx context.Context, serverDat serverData, requesti`
`824`	`832`	`if launcherBased {`
`825`	`833`	`serverDat.ServerPort = serverPort`
`826`	`834`	`}`
`827`		`- err = ctl.wakeSleeper(ctx, serverDat, requestingPod, providingPod, serverPort)`
	`835`	`+ err = ctl.wakeSleeper(ctx, serverDat, requestingPod, providingPod, serverPort, "freshly-bound")`
`828`	`836`	`if err != nil {`
`829`	`837`	`return err, true`
`830`	`838`	`}`
`831`		`- logger.V(2).Info("Woke freshly-bound inference server", "providingPod", providingPod.Name)`
`832`	`839`	`return ctl.ensureReqState(ctx, requestingPod, serverDat, !slices.Contains(requestingPod.Finalizers, requesterFinalizer), false)`
`833`	`840`	`}`
`834`	`841`
`835`		`-func (ctl controller) wakeSleeper(ctx context.Context, serverDat serverData, requestingPod, providingPod *corev1.Pod, serverPort int16) error {`
	`842`	`+func (ctl controller) wakeSleeper(ctx context.Context, serverDat serverData, requestingPod, providingPod *corev1.Pod, serverPort int16, description string) error {`
`836`	`843`	`if ctl.debugAccelMemory {`
`837`	`844`	`if err := ctl.accelMemoryIsLowEnough(ctx, requestingPod, serverDat); err != nil {`
`838`	`845`	`return err`
`839`	`846`	`}`
`840`	`847`	`}`
`841`		`- wakeURL := fmt.Sprintf("http://%s:%d/wake_up", providingPod.Status.PodIP, serverPort)`
	`848`	`+ endpoint := fmt.Sprintf("%s:%d", providingPod.Status.PodIP, serverPort)`
	`849`	`+ wakeURL := "http://" + endpoint + "/wake_up"`
`842`	`850`	`err := doPost(wakeURL)`
`843`	`851`	`if err != nil {`
`844`	`852`	`return err`
`845`	`853`	`}`
	`854`	`+ logger := klog.FromContext(ctx)`
	`855`	`+ logger.V(2).Info("Woke inference server", "endpoint", endpoint, "description", description)`
`846`	`856`	`if err := ctl.ensureSleepingLabel(ctx, providingPod, false); err != nil {`
`847`	`857`	`return err`
`848`	`858`	`}`
`@@ -949,7 +959,8 @@ func (ctl controller) ensureUnbound(ctx context.Context, serverDat serverData,`
`949`	`959`	`}`
`950`	`960`	`}`
`951`	`961`	`}`
`952`		`- sleepURL := fmt.Sprintf("http://%s:%d/sleep", providingPod.Status.PodIP, serverPort)`
	`962`	`+ endpoint := fmt.Sprintf("%s:%d", providingPod.Status.PodIP, serverPort)`
	`963`	`+ sleepURL := "http://" + endpoint + "/sleep"`
`953`	`964`	`resp, err := http.Post(sleepURL, "", nil)`
`954`	`965`	`if err != nil {`
`955`	`966`	`return fmt.Errorf("failed to put provider %q to sleep, POST %s got error: %w", serverDat.ProvidingPodName, sleepURL, err)`
`@@ -958,7 +969,7 @@ func (ctl controller) ensureUnbound(ctx context.Context, serverDat serverData,`
`958`	`969`	`return fmt.Errorf("failed to put provider %q to sleep, POST %s returned status %d", serverDat.ProvidingPodName, sleepURL, sc)`
`959`	`970`	`}`
`960`	`971`	`serverDat.Sleeping = ptr.To(true)`
`961`		`- logger.V(2).Info("Put inference server to sleep")`
	`972`	`+ logger.V(2).Info("Put inference server to sleep", "endpoint", endpoint)`
`962`	`973`	`}`
`963`	`974`	`providingPod = providingPod.DeepCopy()`
`964`	`975`	`var aChange, fChange bool`