fix(kbn-evals-suite-security-alert-triage): update for kbn-evals API changes

jonwalstedt · jonwalstedt · commit 18156b158aeb · 2026-06-01T10:43:58.000+02:00
@kbn/evals updated its API: runExperiment now takes `datasets: T[]` (plural array) instead of `dataset: T` (singular), and Example.input is now optional. Two spec files needed updating: - Switch from `dataset: {...}` to `datasets: [{...} satisfies EvaluationDataset]` - Move task definition inline so TypeScript infers the parameter type from TEvaluationDataset rather than falling back to Example defaults, which triggered a contravariance error on the typed ExperimentTask - Add `extends Example` to TriageEvalExample and AlertEvalExample so they satisfy EvaluationDataset's TExample constraint - Drop ExperimentTask/TaskOutput imports (no longer needed in specs) - Add EvaluationDataset import Refs #17496
diff --git a/x-pack/solutions/security/packages/kbn-evals-suite-security-alert-triage/evals/alert_triage_quality.spec.ts b/x-pack/solutions/security/packages/kbn-evals-suite-security-alert-triage/evals/alert_triage_quality.spec.ts
@@ -30,9 +30,9 @@ import type { EsClient } from '@kbn/scout';
 import {
   selectEvaluators,
   type DefaultEvaluators,
+  type EvaluationDataset,
   type EvalsExecutorClient,
-  type ExperimentTask,
-  type TaskOutput,
+  type Example,
 } from '@kbn/evals';
 import type { ToolingLog } from '@kbn/tooling-log';
 import type { HttpHandler } from '@kbn/core/public';
@@ -64,7 +64,7 @@ const toAlertAttachments = (ids: string[]) => {
 
 // ── Types ─────────────────────────────────────────────────────────────────────
 
-interface TriageEvalExample {
+interface TriageEvalExample extends Example {
   input: { question: string };
   output: { expected: string };
   metadata?: {
@@ -95,17 +95,6 @@ function createEvaluateTriageQuality({
     dataset: { name: string; description: string; examples: TriageEvalExample[] };
     criteria: string[];
   }) {
-    const task: ExperimentTask<TriageEvalExample, TaskOutput> = async ({ input, metadata }) => {
-      const { attachments = [] } = metadata ?? {};
-      return callConverse({
-        fetch,
-        connectorId: connector.id,
-        question: input.question,
-        attachments,
-        log,
-      });
-    };
-
     const selectedEvaluators = selectEvaluators([
       evaluators.criteria(criteria),
       attachmentReadCompliance,
@@ -114,12 +103,23 @@ function createEvaluateTriageQuality({
 
     await executorClient.runExperiment(
       {
-        dataset: {
-          name: dataset.name,
-          description: dataset.description,
-          examples: dataset.examples,
+        datasets: [
+          {
+            name: dataset.name,
+            description: dataset.description,
+            examples: dataset.examples,
+          } satisfies EvaluationDataset,
+        ],
+        task: async ({ input, metadata }) => {
+          const { attachments = [] } = metadata ?? {};
+          return callConverse({
+            fetch,
+            connectorId: connector.id,
+            question: input.question,
+            attachments,
+            log,
+          });
         },
-        task,
       },
       selectedEvaluators
     );
diff --git a/x-pack/solutions/security/packages/kbn-evals-suite-security-alert-triage/evals/bulk_alerts_attachment_read.spec.ts b/x-pack/solutions/security/packages/kbn-evals-suite-security-alert-triage/evals/bulk_alerts_attachment_read.spec.ts
@@ -21,9 +21,9 @@ import { tags } from '@kbn/scout';
 import {
   selectEvaluators,
   type DefaultEvaluators,
+  type EvaluationDataset,
   type EvalsExecutorClient,
-  type ExperimentTask,
-  type TaskOutput,
+  type Example,
 } from '@kbn/evals';
 import type { ToolingLog } from '@kbn/tooling-log';
 import type { HttpHandler } from '@kbn/core/public';
@@ -52,7 +52,7 @@ const alertBatches: Array<{ alertIds: string[] }> = Array.from(
 
 // ── Types ──────────────────────────────────────────────────────────────────────
 
-interface AlertEvalExample {
+interface AlertEvalExample extends Example {
   input: { question: string };
   output: { expected: string };
   metadata?: {
@@ -81,24 +81,25 @@ function createEvaluateAlertBatches({
   }: {
     dataset: { name: string; description: string; examples: AlertEvalExample[] };
   }) {
-    const task: ExperimentTask<AlertEvalExample, TaskOutput> = async ({ input, metadata }) => {
-      const attachments = metadata?.attachments ?? [];
-      return callConverse({
-        fetch,
-        connectorId: connector.id,
-        question: input.question,
-        attachments,
-        log,
-      });
-    };
-
     const selectedEvaluators = selectEvaluators([
       attachmentReadCompliance,
       ...Object.values(evaluators.traceBasedEvaluators),
     ]);
 
     await executorClient.runExperiment(
-      { dataset: { name, description, examples }, task },
+      {
+        datasets: [{ name, description, examples } satisfies EvaluationDataset],
+        task: async ({ input, metadata }) => {
+          const attachments = metadata?.attachments ?? [];
+          return callConverse({
+            fetch,
+            connectorId: connector.id,
+            question: input.question,
+            attachments,
+            log,
+          });
+        },
+      },
       selectedEvaluators
     );
   };