elastic
diff --git a/‎.buildkite/pipelines/evals/evals.suites.json‎
Lines changed: 19 additions & 0 deletions b/‎.buildkite/pipelines/evals/evals.suites.json‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎.buildkite/pipelines/evals/llm_evals.yml‎
Lines changed: 22 additions & 0 deletions b/‎.buildkite/pipelines/evals/llm_evals.yml‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎.github/CODEOWNERS‎
Lines changed: 1 addition & 0 deletions b/‎.github/CODEOWNERS‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎package.json‎
Lines changed: 1 addition & 0 deletions b/‎package.json‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎tsconfig.base.json‎
Lines changed: 2 additions & 0 deletions b/‎tsconfig.base.json‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards/README.md‎
Lines changed: 156 additions & 0 deletions b/‎x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards/README.md‎
Lines changed: 156 additions & 0 deletions
@@ -232,6 +232,25 @@
       "configPath": "x-pack/solutions/security/packages/kbn-evals-suite-security-esql-generation-regression/playwright.config.ts",
       "tags": ["security", "esql-generation"],
       "ciLabels": ["evals:security-esql-generation-regression"]
+    },
+    {
+      "id": "agent-builder-dashboards",
+      "name": "Agent Builder Dashboards",
+      "slackChannel": "#kibana-presentation-reminders",
+      "configPath": "x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards/playwright.config.ts",
+      "tags": [
+        "platform",
+        "agent-builder-dashboards"
+      ],
+      "ciLabels": [
+        "evals:agent-builder-dashboards"
+      ],
+      "weeklyEisModelGroups": [
+        "eis/anthropic-claude-4.6-sonnet",
+        "eis/anthropic-claude-4.6-opus",
+        "eis/openai-gpt-5.2",
+        "eis/openai-gpt-5.4"
+      ]
     }
   ]
 }
@@ -86,6 +86,28 @@ steps:
             - exit_status: '-1'
               limit: 3
 
+      - label: 'Evals: Agent Builder Dashboards'
+        key: kbn-evals-weekly-agent-builder-dashboards
+        command: bash .buildkite/scripts/steps/evals/run_suite.sh
+        env:
+          KBN_EVALS: '1'
+          FTR_EIS_CCM: '1'
+          EVAL_SUITE_ID: 'agent-builder-dashboards'
+          EVAL_FANOUT: '1'
+          EVAL_INCLUDE_EIS_MODELS: '1'
+          EVAL_MODEL_GROUPS: *weekly_eis_core_models
+        timeout_in_minutes: 60
+        agents:
+          image: family/kibana-ubuntu-2404
+          imageProject: elastic-images-prod
+          provider: gcp
+          machineType: n2-standard-8
+          preemptible: true
+        retry:
+          automatic:
+            - exit_status: '-1'
+              limit: 3
+
       - label: 'Evals: ES|QL Generation Evaluations'
         key: kbn-evals-weekly-esql-generation
         command: bash .buildkite/scripts/steps/evals/run_suite.sh
 
@@ -993,6 +993,7 @@ x-pack/platform/packages/private/upgrade-assistant/common @elastic/kibana-manage
 x-pack/platform/packages/private/upgrade-assistant/public @elastic/kibana-management
 x-pack/platform/packages/private/upgrade-assistant/server @elastic/kibana-management
 x-pack/platform/packages/shared/agent-builder-dashboards/agent-builder-dashboards-common @elastic/appex-ai-infra
+x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards @elastic/appex-ai-infra
 x-pack/platform/packages/shared/agent-builder/agent-builder-browser @elastic/workchat-eng
 x-pack/platform/packages/shared/agent-builder/agent-builder-common @elastic/workchat-eng
 x-pack/platform/packages/shared/agent-builder/agent-builder-genai-utils @elastic/workchat-eng
 
@@ -1742,6 +1742,7 @@
     "@kbn/evals-extensions": "link:x-pack/platform/packages/shared/kbn-evals-extensions",
     "@kbn/evals-phoenix-executor": "link:x-pack/platform/packages/shared/kbn-evals-phoenix-executor",
     "@kbn/evals-suite-agent-builder": "link:x-pack/platform/packages/shared/agent-builder/kbn-evals-suite-agent-builder",
+    "@kbn/evals-suite-agent-builder-dashboards": "link:x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards",
     "@kbn/evals-suite-alerts-rag": "link:x-pack/solutions/security/packages/kbn-evals-suite-alerts-rag",
     "@kbn/evals-suite-attack-discovery": "link:x-pack/solutions/security/packages/kbn-evals-suite-attack-discovery",
     "@kbn/evals-suite-endpoint": "link:x-pack/solutions/security/packages/kbn-evals-suite-endpoint",
 
@@ -1218,6 +1218,8 @@
       "@kbn/evals-plugin/*": ["x-pack/platform/plugins/shared/evals/*"],
       "@kbn/evals-suite-agent-builder": ["x-pack/platform/packages/shared/agent-builder/kbn-evals-suite-agent-builder"],
       "@kbn/evals-suite-agent-builder/*": ["x-pack/platform/packages/shared/agent-builder/kbn-evals-suite-agent-builder/*"],
+      "@kbn/evals-suite-agent-builder-dashboards": ["x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards"],
+      "@kbn/evals-suite-agent-builder-dashboards/*": ["x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards/*"],
       "@kbn/evals-suite-alerts-rag": ["x-pack/solutions/security/packages/kbn-evals-suite-alerts-rag"],
       "@kbn/evals-suite-alerts-rag/*": ["x-pack/solutions/security/packages/kbn-evals-suite-alerts-rag/*"],
       "@kbn/evals-suite-attack-discovery": ["x-pack/solutions/security/packages/kbn-evals-suite-attack-discovery"],
 
@@ -0,0 +1,156 @@
+# @kbn/evals-suite-agent-builder-dashboards
+
+Evaluation test suite for Agent Builder Dashboards behavior, built on top of [`@kbn/evals`](../../kbn-evals/README.md).
+
+## Overview
+
+This package contains in-code evaluation datasets for Agent Builder Dashboards behavior. The initial coverage focuses on skill selection and intent routing:
+
+- Dashboard requests should load dashboard management.
+- Standalone visualization requests should load visualization creation without creating a dashboard.
+- ES|QL query-writing requests should not use dashboard management.
+
+For general information about writing evaluation tests, configuration, reporting, and comparison, see the main [`@kbn/evals` documentation](../../kbn-evals/README.md).
+
+## Prerequisites
+
+### Configure EIS Connectors
+
+For local EIS-backed model runs, run the eval setup wizard:
+
+```bash
+node scripts/evals init
+```
+
+When `node scripts/evals init` finishes, copy the printed connector export into the same shell where you will run evals:
+
+```bash
+export KIBANA_TESTING_AI_CONNECTORS="..."
+```
+
+This makes EIS connector IDs available as Playwright projects, for example `eis-anthropic-claude-4-5-sonnet`.
+
+### Optional: Configure Phoenix and Tracing
+
+`node scripts/evals start` starts EDOT and Scout for you. If you want to export traces to Phoenix or a shared tracing cluster, configure the eval profiles with:
+
+```bash
+node scripts/evals init config
+```
+
+See [`@kbn/evals` documentation](../../kbn-evals/README.md) for `TRACING_EXPORTERS`, `TRACING_ES_URL`, and Phoenix executor details.
+
+## Running Evaluations
+
+### Managed Stack
+
+Use `node scripts/evals start` when you want the CLI to start or reuse EDOT and Scout, enable EIS Cloud Connected Mode, and then run the suite:
+
+```bash
+node scripts/evals start \
+  --suite agent-builder-dashboards \
+  --project eis-anthropic-claude-4-5-sonnet \
+  --evaluation-connector-id eis-anthropic-claude-4-5-sonnet
+```
+
+The Scout Kibana instance is usually available at <http://localhost:5620>, and Elasticsearch at <http://localhost:9220>.
+
+### Run a Single Eval
+
+Filter by Playwright test title with `--grep`:
+
+```bash
+node scripts/evals start \
+  --suite agent-builder-dashboards \
+  --grep "dashboards in chat smokescreen" \
+  --project eis-anthropic-claude-4-5-sonnet \
+  --evaluation-connector-id eis-anthropic-claude-4-5-sonnet
+```
+
+Available skill-selection test titles:
+
+- `dashboards in chat smokescreen`
+- `visualization request does not create dashboard`
+- `esql query help does not create dashboard`
+
+After the eval stack is already running, use `run` for faster iteration:
+
+```bash
+node scripts/evals run \
+  --suite agent-builder-dashboards \
+  --grep "visualization request does not create dashboard" \
+  --project eis-anthropic-claude-4-5-sonnet \
+  --evaluation-connector-id eis-anthropic-claude-4-5-sonnet
+```
+
+### Repetitions
+
+By default, each dataset example runs once. To run each example multiple times, pass `--repetitions`:
+
+```bash
+node scripts/evals start \
+  --suite agent-builder-dashboards \
+  --grep "dashboards in chat smokescreen" \
+  --project eis-anthropic-claude-4-5-sonnet \
+  --evaluation-connector-id eis-anthropic-claude-4-5-sonnet \
+  --repetitions 3
+```
+
+Equivalent environment variable:
+
+```bash
+EVALUATION_REPETITIONS=3 node scripts/evals run \
+  --suite agent-builder-dashboards \
+  --grep "dashboards in chat smokescreen" \
+  --project eis-anthropic-claude-4-5-sonnet \
+  --evaluation-connector-id eis-anthropic-claude-4-5-sonnet
+```
+
+### Direct Playwright
+
+For lower-level debugging, run Playwright directly:
+
+```bash
+EVALUATION_CONNECTOR_ID=eis-anthropic-claude-4-5-sonnet \
+node scripts/playwright test \
+  --config x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards/playwright.config.ts \
+  evals/skill_selection/skill_selection.spec.ts \
+  --project eis-anthropic-claude-4-5-sonnet \
+  --grep "esql query help does not create dashboard"
+```
+
+Use `--list` to check what Playwright can discover:
+
+```bash
+EVALUATION_CONNECTOR_ID=eis-anthropic-claude-4-5-sonnet \
+node scripts/playwright test \
+  --config x-pack/platform/packages/shared/agent-builder-dashboards/kbn-evals-suite-agent-builder-dashboards/playwright.config.ts \
+  --project eis-anthropic-claude-4-5-sonnet \
+  --list
+```
+
+## Sample Data
+
+The skill-selection spec loads Kibana logs sample data before running:
+
+```ts
+await fetch('/api/sample_data/logs', {
+  method: 'POST',
+  version: '2023-10-31',
+});
+```
+
+To verify the index exists in the Scout Elasticsearch cluster:
+
+```bash
+curl -u elastic:changeme "http://localhost:9220/_cat/indices/kibana_sample_data_logs?v"
+curl -u elastic:changeme "http://localhost:9220/kibana_sample_data_logs/_count?pretty"
+```
+
+## Stopping the Stack
+
+When you are done:
+
+```bash
+node scripts/evals stop
+```