kai-scheduler
diff --git a/‎CHANGELOG.md‎
Lines changed: 1 addition & 1 deletion b/‎CHANGELOG.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎go.mod‎
Lines changed: 1 addition & 1 deletion b/‎go.mod‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎pkg/scheduler/actions/common/solvers/job_solver.go‎
Lines changed: 47 additions & 2 deletions b/‎pkg/scheduler/actions/common/solvers/job_solver.go‎
Lines changed: 47 additions & 2 deletions
diff --git a/‎pkg/scheduler/actions/common/solvers/job_solver_result_test.go‎
Lines changed: 130 additions & 0 deletions b/‎pkg/scheduler/actions/common/solvers/job_solver_result_test.go‎
Lines changed: 130 additions & 0 deletions
diff --git a/‎pkg/scheduler/actions/common/solvers/node_local_greedy_generator_test.go‎
Lines changed: 0 additions & 15 deletions b/‎pkg/scheduler/actions/common/solvers/node_local_greedy_generator_test.go‎
Lines changed: 0 additions & 15 deletions
@@ -7,7 +7,7 @@ The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.1.0/).
 ## [Unreleased]
 
 ### Added
-- Added built-in `NodeLocalGreedy` and `MultiNodeGang` scenario generator implementations for bounded reclaim, preempt, and consolidation search.
+- Added a bounded scenario generator portfolio for reclaim, preempt, and consolidation search, with `SchedulingShard.spec.scenarioSearchBudgets` time-budget configuration and production scenario-search metrics.
 - Added an opt-in `deviceaccess` admission plugin (`--block-nvidia-visible-devices`, config field `admission.blockNvidiaVisibleDevices`, default disabled) that (1) rejects pods overriding the `NVIDIA_VISIBLE_DEVICES` environment variable with values other than `void`/`none` (or via a `valueFrom` reference), and (2) injects `NVIDIA_VISIBLE_DEVICES=void` into containers that do not request a GPU, blocking their access to GPUs on the node.
 - Added support for configuring admission Pod Disruption Budget via Helm values (`admission.podDisruptionBudget`) [#1490](https://github.com/kai-scheduler/KAI-Scheduler/pull/1490) [dttung2905](https://github.com/dttung2905)
 - Added an opt-in `hamicore` binder plugin (depends on `gpusharing`) to write the HAMI-core GPU memory limit (`CUDA_DEVICE_MEMORY_LIMIT`) for fractional GPU pods.
 
@@ -24,6 +24,7 @@ require (
 	github.com/pkg/errors v0.9.1
 	github.com/prometheus-operator/prometheus-operator/pkg/apis/monitoring v0.88.0
 	github.com/prometheus/client_golang v1.23.2
+	github.com/prometheus/client_model v0.6.2
 	github.com/prometheus/common v0.67.5
 	github.com/ray-project/kuberay/ray-operator v1.5.1
 	github.com/run-ai/kwok-operator v0.0.0-20240926063032-05b6364bc7c7
@@ -149,7 +150,6 @@ require (
 	github.com/opencontainers/selinux v1.13.0 // indirect
 	github.com/pelletier/go-toml/v2 v2.2.4 // indirect
 	github.com/pmezard/go-difflib v1.0.1-0.20181226105442-5d4384ee4fb2 // indirect
-	github.com/prometheus/client_model v0.6.2 // indirect
 	github.com/prometheus/procfs v0.20.1 // indirect
 	github.com/quic-go/qpack v0.6.0 // indirect
 	github.com/quic-go/quic-go v0.59.1 // indirect
 
@@ -9,6 +9,7 @@ import (
 	"time"
 
 	"github.com/kai-scheduler/KAI-scheduler/pkg/scheduler/actions/utils"
+	"github.com/kai-scheduler/KAI-scheduler/pkg/scheduler/api"
 	"github.com/kai-scheduler/KAI-scheduler/pkg/scheduler/api/node_info"
 	"github.com/kai-scheduler/KAI-scheduler/pkg/scheduler/api/pod_info"
 	"github.com/kai-scheduler/KAI-scheduler/pkg/scheduler/api/podgroup_info"
@@ -94,12 +95,22 @@ func (s *JobSolver) Solve(
 func (s *JobSolver) SolveWithResult(
 	ssn *framework.Session, pendingJob *podgroup_info.PodGroupInfo,
 ) (solved bool, statement *framework.Statement, victimTaskNames []string, searchResult *SearchResult) {
+	defer func() {
+		if searchResult != nil {
+			metrics.IncScenarioSearchJobs(
+				s.actionType, searchResult.scenarioSearchMetricResult(), searchResult.ReducedBudget(),
+			)
+		}
+	}()
+
 	originalNumActiveTasks := pendingJob.GetNumActiveUsedTasks()
 
 	tasksToAllocate := podgroup_info.GetTasksToAllocate(pendingJob, ssn.SubGroupOrderFn, ssn.TaskOrderFn, false)
 	n := len(tasksToAllocate)
 	if n == 0 {
-		return false, nil, nil, terminalSearchResult(SearchResultGeneratorsExhausted, false, false)
+		searchResult := terminalSearchResult(SearchResultGeneratorsExhausted, false, false)
+		searchResult.metricResult = string(SearchResultNotAttempted)
+		return false, nil, nil, searchResult
 	}
 
 	actionBudget := s.ensureActionBudget()
@@ -339,34 +350,68 @@ func (s *JobSolver) solvePartialJob(
 
 	for {
 		if jobBudget.Exhausted() {
+			s.observeActionBudgetExhausted(jobBudget)
 			return terminalSearchResult(
 				SearchResultDeadlineExhausted, jobBudget.ReducedBudget(), portfolio.enteredSearch,
 			)
 		}
 		scenarioToSolve := portfolio.Next()
 		if jobBudget.Exhausted() {
+			s.observeActionBudgetExhausted(jobBudget)
 			return terminalSearchResult(
 				SearchResultDeadlineExhausted, jobBudget.ReducedBudget(), portfolio.enteredSearch,
 			)
 		}
 		if scenarioToSolve == nil {
 			break
 		}
-		scenarioSolver := newByPodSolver(feasibleNodeMap, s.solutionValidator, ssn.AllowConsolidatingReclaim(),
+		generatorName := portfolio.CurrentGeneratorName()
+		validatorRejected := false
+		scenarioSolver := newByPodSolver(feasibleNodeMap, s.solutionValidatorWithMetrics(generatorName, &validatorRejected),
+			ssn.AllowConsolidatingReclaim(),
 			s.actionType)
 
 		log.InfraLogger.V(5).Infof("Trying to solve scenario: %s", scenarioToSolve)
 		metrics.IncScenarioSimulatedByAction()
+		metrics.IncScenarioSearchScenario(s.actionType, generatorName, "simulated")
 
 		result := scenarioSolver.solve(ssn, scenarioToSolve)
+		attemptResult := scenarioSearchResultUnsolved
+		if validatorRejected {
+			attemptResult = scenarioSearchResultValidatorRejected
+		}
 		if result.solved {
+			portfolio.ObserveCurrentAttempt(string(SearchResultSolved))
 			return solvedSearchResult(result, jobBudget.ReducedBudget())
 		}
+		portfolio.ObserveCurrentAttempt(attemptResult)
 	}
 
 	return terminalSearchResult(portfolio.StopReason(), jobBudget.ReducedBudget(), portfolio.enteredSearch)
 }
 
+func (s *JobSolver) observeActionBudgetExhausted(jobBudget *jobSearchBudget) {
+	if jobBudget != nil && jobBudget.actionBudget != nil && jobBudget.actionBudget.Exhausted() {
+		metrics.IncScenarioSearchActionBudgetExhausted(s.actionType)
+	}
+}
+
+func (s *JobSolver) solutionValidatorWithMetrics(generator string, rejected *bool) SolutionValidator {
+	if s.solutionValidator == nil {
+		return nil
+	}
+	return func(scenario api.ScenarioInfo) bool {
+		valid := s.solutionValidator(scenario)
+		if !valid {
+			if rejected != nil {
+				*rejected = true
+			}
+			metrics.IncScenarioSearchScenario(s.actionType, generator, "validator_rejected")
+		}
+		return valid
+	}
+}
+
 func searchResultEntered(result *SearchResult) bool {
 	return result != nil && result.EnteredSearch()
 }
 
@@ -8,6 +8,8 @@ import (
 	"testing"
 	"time"
 
+	"github.com/prometheus/client_golang/prometheus"
+	dto "github.com/prometheus/client_model/go"
 	"github.com/stretchr/testify/require"
 	v1 "k8s.io/api/core/v1"
 	metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
@@ -55,6 +57,23 @@ func TestSolveWithResultReturnsTerminalResultWhenNoTasksToAllocate(t *testing.T)
 	require.False(t, result.EnteredSearch())
 }
 
+func TestSolveWithResultRecordsNoSearchMetricAsNotAttempted(t *testing.T) {
+	labels := map[string]string{
+		"action":         "reclaim",
+		"result":         string(SearchResultNotAttempted),
+		"reduced_budget": "false",
+	}
+	before := scenarioSearchCounterValue(t, "scenario_search_jobs_total", labels)
+	solver := NewJobsSolver(nil, nil, nil, framework.Reclaim, nil)
+	pendingJob := podgroup_info.NewPodGroupInfo("pending-job")
+
+	_, _, _, result := solver.SolveWithResult(&framework.Session{}, pendingJob)
+
+	require.Equal(t, SearchResultGeneratorsExhausted, result.Reason())
+	require.False(t, result.EnteredSearch())
+	require.Equal(t, before+1, scenarioSearchCounterValue(t, "scenario_search_jobs_total", labels))
+}
+
 func TestSolveWithResultReturnsNoGeneratorWhenGeneratorFuncIsNil(t *testing.T) {
 	ssn, pendingJob := newJobSolverResultTestSession(t, 1)
 	solver := NewJobsSolver(nil, nil, nil, framework.Reclaim, nil)
@@ -119,6 +138,66 @@ func TestSolveWithResultUsesMinJobBudgetAfterActionBudgetExpired(t *testing.T) {
 	require.False(t, result.EnteredSearch())
 }
 
+func TestSolveWithResultRecordsGeneratorExhaustedMetricAfterGeneratorAttempt(t *testing.T) {
+	labels := map[string]string{
+		"action":         "reclaim",
+		"result":         string(SearchResultGeneratorsExhausted),
+		"reduced_budget": "false",
+	}
+	before := scenarioSearchCounterValue(t, "scenario_search_jobs_total", labels)
+	ssn, pendingJob := newJobSolverResultTestSession(t, 1)
+	ssn.AddScenarioGenerator("empty", portfolioTestFactory(&portfolioTestGenerator{name: "empty"}), framework.Reclaim)
+	solver := NewJobsSolver(
+		nil,
+		nil,
+		func() *utils.JobsOrderByQueues {
+			return utils.GetVictimsQueue(ssn, nil)
+		},
+		framework.Reclaim,
+		nil,
+	)
+
+	_, _, _, result := solver.SolveWithResult(ssn, pendingJob)
+
+	require.Equal(t, SearchResultGeneratorsExhausted, result.Reason())
+	require.False(t, result.EnteredSearch())
+	require.Equal(t, before+1, scenarioSearchCounterValue(t, "scenario_search_jobs_total", labels))
+}
+
+func TestSolveWithResultRecordsUnsolvedScenarioDurationAfterSimulation(t *testing.T) {
+	generatorName := "test-unsolved-duration"
+	labels := map[string]string{
+		"action":    "reclaim",
+		"generator": generatorName,
+		"result":    scenarioSearchResultUnsolved,
+	}
+	before := scenarioSearchHistogramCount(t, "scenario_search_duration_seconds", labels)
+	ssn, pendingJob := newJobSolverResultTestSession(t, 1)
+	ssn.ClusterInfo.Nodes = map[string]*node_info.NodeInfo{"node-1": {}}
+	scenarioToSolve := scenario.NewByNodeScenario(
+		ssn, pendingJob,
+		podgroup_info.GetTasksToAllocate(pendingJob, ssn.SubGroupOrderFn, ssn.TaskOrderFn, false),
+		nil, nil,
+	)
+	ssn.AddScenarioGenerator(generatorName, portfolioTestFactory(&portfolioTestGenerator{
+		name:      generatorName,
+		scenarios: []api.ScenarioInfo{scenarioToSolve},
+	}), framework.Reclaim)
+	solver := NewJobsSolver(
+		nil,
+		nil,
+		func() *utils.JobsOrderByQueues {
+			return utils.GetVictimsQueue(ssn, nil)
+		},
+		framework.Reclaim,
+		nil,
+	)
+
+	solver.SolveWithResult(ssn, pendingJob)
+
+	require.Equal(t, before+1, scenarioSearchHistogramCount(t, "scenario_search_duration_seconds", labels))
+}
+
 func TestSolveWithResultRunsCompletePartialSearchForOneGeneratorBeforeNext(t *testing.T) {
 	ssn := newGeneratorTestSession(t, map[string]int{
 		"node-1": 1,
@@ -280,3 +359,54 @@ func newJobSolverResultTestSession(t *testing.T, tasksCount int) (*framework.Ses
 		},
 	}, pendingJob
 }
+
+func scenarioSearchCounterValue(t *testing.T, metricName string, labels map[string]string) float64 {
+	t.Helper()
+
+	metric := scenarioSearchMetric(t, metricName, labels)
+	if metric == nil || metric.GetCounter() == nil {
+		return 0
+	}
+	return metric.GetCounter().GetValue()
+}
+
+func scenarioSearchHistogramCount(t *testing.T, metricName string, labels map[string]string) uint64 {
+	t.Helper()
+
+	metric := scenarioSearchMetric(t, metricName, labels)
+	if metric == nil || metric.GetHistogram() == nil {
+		return 0
+	}
+	return metric.GetHistogram().GetSampleCount()
+}
+
+func scenarioSearchMetric(t *testing.T, metricName string, labels map[string]string) *dto.Metric {
+	t.Helper()
+
+	families, err := prometheus.DefaultGatherer.Gather()
+	require.NoError(t, err)
+	for _, family := range families {
+		if family.GetName() != metricName {
+			continue
+		}
+		for _, metric := range family.GetMetric() {
+			if scenarioSearchMetricHasLabels(metric, labels) {
+				return metric
+			}
+		}
+	}
+	return nil
+}
+
+func scenarioSearchMetricHasLabels(metric *dto.Metric, labels map[string]string) bool {
+	if len(metric.GetLabel()) != len(labels) {
+		return false
+	}
+	for _, label := range metric.GetLabel() {
+		expectedValue, found := labels[label.GetName()]
+		if !found || expectedValue != label.GetValue() {
+			return false
+		}
+	}
+	return true
+}
@@ -545,18 +545,3 @@ func podNamesFromMap(tasks pod_info.PodsMap) []string {
 	sort.Strings(names)
 	return names
 }
-
-func removeGeneratorTestTasks(tasks []*pod_info.PodInfo, tasksToRemove []*pod_info.PodInfo) []*pod_info.PodInfo {
-	removeByUID := map[common_info.PodID]struct{}{}
-	for _, task := range tasksToRemove {
-		removeByUID[task.UID] = struct{}{}
-	}
-	remaining := make([]*pod_info.PodInfo, 0, len(tasks))
-	for _, task := range tasks {
-		if _, remove := removeByUID[task.UID]; remove {
-			continue
-		}
-		remaining = append(remaining, task)
-	}
-	return remaining
-}