opendatahub-io
diff --git a/‎packages/contract-tests/scripts/run-go-bff-consumer.sh‎
Lines changed: 6 additions & 2 deletions b/‎packages/contract-tests/scripts/run-go-bff-consumer.sh‎
Lines changed: 6 additions & 2 deletions
diff --git a/‎packages/gen-ai/bff/.gitignore‎
Lines changed: 4 additions & 1 deletion b/‎packages/gen-ai/bff/.gitignore‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎packages/gen-ai/bff/Makefile‎
Lines changed: 73 additions & 0 deletions b/‎packages/gen-ai/bff/Makefile‎
Lines changed: 73 additions & 0 deletions
diff --git a/‎packages/gen-ai/bff/cmd/main_test.go‎
Lines changed: 2 additions & 2 deletions b/‎packages/gen-ai/bff/cmd/main_test.go‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎packages/gen-ai/bff/internal/api/api_suite_test.go‎
Lines changed: 33 additions & 12 deletions b/‎packages/gen-ai/bff/internal/api/api_suite_test.go‎
Lines changed: 33 additions & 12 deletions
diff --git a/‎packages/gen-ai/bff/internal/api/app.go‎
Lines changed: 25 additions & 36 deletions b/‎packages/gen-ai/bff/internal/api/app.go‎
Lines changed: 25 additions & 36 deletions
diff --git a/‎packages/gen-ai/bff/internal/api/async_moderation.go‎
Lines changed: 1 addition & 13 deletions b/‎packages/gen-ai/bff/internal/api/async_moderation.go‎
Lines changed: 1 addition & 13 deletions
@@ -198,9 +198,12 @@ fi
 
 log_info "Starting Mock BFF server on port $PORT..."
 
-log_info "Starting Mock BFF server with go run"
+BFF_BINARY="$(mktemp -d)/bff-test"
+log_info "Building Mock BFF binary..."
+go build -o "$BFF_BINARY" ./cmd
 
-go run ./cmd $BFF_MOCK_FLAGS --port "$PORT" --allowed-origins="*" > "$BFF_LOG_FILE" 2>&1 &
+log_info "Starting Mock BFF server"
+"$BFF_BINARY" $BFF_MOCK_FLAGS --port "$PORT" --allowed-origins="*" > "$BFF_LOG_FILE" 2>&1 &
 
 BFF_PID=$!
 echo "$BFF_PID" > "$RESULTS_DIR/bff.pid"
@@ -215,6 +218,7 @@ cleanup() {
     sleep 2
     kill -9 "$BFF_PID" 2>/dev/null || true
   fi
+  rm -f "$BFF_BINARY"
 }
 trap cleanup EXIT INT TERM
 
 
@@ -6,4 +6,7 @@ __debug*
 
 # Local MLflow data (created by mock mode)
 .mlflow/
-.mlflow-*/
+.mlflow-*/
+
+# Local Llama Stack runtime data (created by mock/test mode)
+testdata/llamastack/.data/
@@ -22,6 +22,27 @@ MLFLOW_VERSION ?= 3.9.0
 MLFLOW_PORT ?= 5001
 MLFLOW_DATA ?= $(shell pwd)/.mlflow
 
+# Llama Stack test server configuration (used by mock/test mode only)
+TEST_LLAMA_STACK_VERSION ?= 0.6.0
+TEST_LLAMA_STACK_PORT ?= 18321
+TEST_LLAMA_STACK_DIR ?= testdata/llamastack
+TEST_LLAMA_STACK_DATA ?= $(shell pwd)/$(TEST_LLAMA_STACK_DIR)/.data
+TEST_LLAMA_STACK_RECORDINGS ?= $(shell pwd)/$(TEST_LLAMA_STACK_DIR)
+TEST_LLAMA_STACK_CONFIG ?= $(TEST_LLAMA_STACK_DIR)/config.yaml
+TEST_LLAMA_STACK_TEST_ID ?= bff/$(TEST_LLAMA_STACK_DIR)/test.py::record
+
+# Provider and bare model IDs (source of truth, used by config yaml)
+TEST_LLAMA_STACK_PROVIDER ?= gemini
+TEST_LLAMA_STACK_MODEL_ID ?= models/gemini-2.5-flash
+TEST_LLAMA_STACK_EMBEDDING_MODEL_ID ?= models/gemini-embedding-001
+TEST_LLAMA_STACK_EMBEDDING_DIMENSION ?= 128
+TEST_LLAMA_STACK_SHIELD_MODEL_ID ?= models/gemini-2.5-flash
+
+# Prefixed model refs (derived from above, used by Go tests and shield)
+TEST_LLAMA_STACK_MODEL ?= $(TEST_LLAMA_STACK_PROVIDER)/$(TEST_LLAMA_STACK_MODEL_ID)
+TEST_LLAMA_STACK_EMBEDDING_MODEL ?= $(TEST_LLAMA_STACK_PROVIDER)/$(TEST_LLAMA_STACK_EMBEDDING_MODEL_ID)
+TEST_LLAMA_STACK_SHIELD_MODEL ?= $(TEST_LLAMA_STACK_PROVIDER)/$(TEST_LLAMA_STACK_SHIELD_MODEL_ID)
+
 .PHONY: all
 all: build
 
@@ -53,6 +74,15 @@ vet:  . ## Runs static analysis tools on source files and reports suspicious con
 test: fmt vet envtest uv ## Runs the full test suite.
 	ENVTEST_ASSETS="$(shell $(ENVTEST) use $(ENVTEST_K8S_VERSION) --bin-dir $(LOCALBIN) -p path)" \
 	MLFLOW_PORT=$(MLFLOW_PORT) MLFLOW_VERSION=$(MLFLOW_VERSION) \
+	LLAMA_STACK_TEST_ID=$(TEST_LLAMA_STACK_TEST_ID) \
+	TEST_LLAMA_STACK_PORT=$(TEST_LLAMA_STACK_PORT) TEST_LLAMA_STACK_VERSION=$(TEST_LLAMA_STACK_VERSION) \
+	TEST_LLAMA_STACK_PROVIDER=$(TEST_LLAMA_STACK_PROVIDER) \
+	TEST_LLAMA_STACK_MODEL=$(TEST_LLAMA_STACK_MODEL) \
+	TEST_LLAMA_STACK_EMBEDDING_MODEL=$(TEST_LLAMA_STACK_EMBEDDING_MODEL) \
+	TEST_LLAMA_STACK_MODEL_ID=$(TEST_LLAMA_STACK_MODEL_ID) \
+	TEST_LLAMA_STACK_EMBEDDING_MODEL_ID=$(TEST_LLAMA_STACK_EMBEDDING_MODEL_ID) \
+	TEST_LLAMA_STACK_EMBEDDING_DIMENSION=$(TEST_LLAMA_STACK_EMBEDDING_DIMENSION) \
+	TEST_LLAMA_STACK_SHIELD_MODEL=$(TEST_LLAMA_STACK_SHIELD_MODEL) \
 	go test ./...
 
 .PHONY: build
@@ -96,6 +126,49 @@ mlflow-clean: mlflow-down ## Remove local MLflow data.
 	rm -rf $(MLFLOW_DATA) $(MLFLOW_DATA)-test
 	@echo "MLflow data cleaned"
 
+##@ Llama Stack
+
+.PHONY: llamastack-up
+llamastack-up: uv ## Start local Llama Stack server in replay mode (Ctrl+C to stop).
+	@rm -rf $(TEST_LLAMA_STACK_DATA)
+	@mkdir -p $(TEST_LLAMA_STACK_DATA)
+	@echo "Starting Llama Stack in REPLAY mode on port $(TEST_LLAMA_STACK_PORT)..."
+	SQLITE_STORE_DIR=$(TEST_LLAMA_STACK_DATA) \
+	GEMINI_API_KEY=dummy-key-for-replay \
+	LLAMA_STACK_TEST_INFERENCE_MODE=replay \
+	LLAMA_STACK_TEST_RECORDING_DIR=$(TEST_LLAMA_STACK_RECORDINGS) \
+	LLAMA_STACK_TEST_STACK_CONFIG_TYPE=server \
+	LLAMA_STACK_TEST_ID=$(TEST_LLAMA_STACK_TEST_ID) \
+	TEST_LLAMA_STACK_PROVIDER=$(TEST_LLAMA_STACK_PROVIDER) \
+	TEST_LLAMA_STACK_MODEL_ID=$(TEST_LLAMA_STACK_MODEL_ID) \
+	TEST_LLAMA_STACK_EMBEDDING_MODEL_ID=$(TEST_LLAMA_STACK_EMBEDDING_MODEL_ID) \
+	TEST_LLAMA_STACK_EMBEDDING_DIMENSION=$(TEST_LLAMA_STACK_EMBEDDING_DIMENSION) \
+	TEST_LLAMA_STACK_EMBEDDING_MODEL=$(TEST_LLAMA_STACK_EMBEDDING_MODEL) \
+	TEST_LLAMA_STACK_SHIELD_MODEL=$(TEST_LLAMA_STACK_SHIELD_MODEL) \
+	$(UV) run --with llama-stack==$(TEST_LLAMA_STACK_VERSION) --with-requirements $(TEST_LLAMA_STACK_DIR)/requirements.txt \
+		llama stack run $(TEST_LLAMA_STACK_CONFIG) --port $(TEST_LLAMA_STACK_PORT)
+
+.PHONY: llamastack-down
+llamastack-down: ## Stop local Llama Stack server and remove ephemeral data.
+	@-lsof -t -i :$(TEST_LLAMA_STACK_PORT) | xargs kill 2>/dev/null || true
+	@sleep 2
+	@-lsof -t -i :$(TEST_LLAMA_STACK_PORT) | xargs kill -9 2>/dev/null || true
+	@rm -rf $(TEST_LLAMA_STACK_DATA)
+	@echo "Llama Stack server stopped (runtime data cleaned)"
+
+.PHONY: llamastack-record
+llamastack-record: ## Record Llama Stack fixtures by running Go tests against real Gemini (needs GEMINI_API_KEY).
+	@if [ -z "$${GEMINI_API_KEY:-}" ]; then \
+		echo "ERROR: GEMINI_API_KEY must be set for recording."; \
+		echo "Usage: GEMINI_API_KEY=<key> make llamastack-record"; \
+		exit 1; \
+	fi
+	@rm -rf $(TEST_LLAMA_STACK_RECORDINGS)/recordings
+	@echo "Cleared previous recordings"
+	LLAMA_STACK_TEST_INFERENCE_MODE=record $(MAKE) test
+	@COUNT=$$(find $(TEST_LLAMA_STACK_RECORDINGS)/recordings -name "*.json" 2>/dev/null | wc -l | tr -d ' '); \
+	echo "  Recording complete! $${COUNT} JSON files";
+
 ##@ Dependencies
 
 ## Location to install dependencies to
 
@@ -51,9 +51,9 @@ func TestGeneralBffConfiguration(t *testing.T) {
 			envVar:          "LLAMA_STACK_URL",
 			varType:         "string",
 			defaultValue:    "",
-			testValue:       testutil.TestLlamaStackURL,
+			testValue:       testutil.GetTestLlamaStackURL(),
 			expectedDefault: "",
-			expectedSet:     testutil.TestLlamaStackURL,
+			expectedSet:     testutil.GetTestLlamaStackURL(),
 		},
 		{
 			name:            "LOG_LEVEL environment variable",
 
@@ -31,7 +31,9 @@ import (
 
 	"github.com/opendatahub-io/gen-ai/internal/config"
 	"github.com/opendatahub-io/gen-ai/internal/integrations/kubernetes/k8smocks"
+	"github.com/opendatahub-io/gen-ai/internal/integrations/llamastack/lsmocks"
 	"github.com/opendatahub-io/gen-ai/internal/integrations/mlflow/mlflowmocks"
+	"github.com/opendatahub-io/gen-ai/internal/testutil"
 )
 
 // Package-level test infrastructure - initialized once, shared by all tests.
@@ -93,18 +95,21 @@ func TestAPIHandlers(t *testing.T) {
 
 // SharedTestContext holds common test infrastructure for HTTP tests
 type SharedTestContext struct {
-	App         *App
-	Server      *httptest.Server
-	HTTPClient  *http.Client
-	BaseURL     string
-	Logger      *slog.Logger
-	mlflowState *mlflowmocks.MLflowState
+	App             *App
+	Server          *httptest.Server
+	HTTPClient      *http.Client
+	BaseURL         string
+	Logger          *slog.Logger
+	mlflowState     *mlflowmocks.MLflowState
+	llamaStackState *lsmocks.LlamaStackState
 }
 
 var testCtx *SharedTestContext
 
 // BeforeSuite sets up test infrastructure (envtest and HTTP server) for all Ginkgo tests.
 var _ = BeforeSuite(func() {
+	testutil.ConfigureProductionEnvFromTest()
+
 	By("Setting up envtest environment")
 
 	logf.SetLogger(zap.New(zap.UseDevMode(true)))
@@ -213,6 +218,21 @@ var _ = BeforeSuite(func() {
 		Timeout: 30 * time.Second,
 	}
 
+	// Start Llama Stack as a child process (SetupLlamaStack also seeds test data)
+	By("Starting LlamaStack")
+	lsState, lsErr := lsmocks.SetupLlamaStack(logger)
+	Expect(lsErr).NotTo(HaveOccurred())
+	Expect(lsState).NotTo(BeNil())
+	Expect(lsState.Seed).NotTo(BeNil(), "SeedData must return a SeedResult")
+	DeferCleanup(func() {
+		By("stopping LlamaStack server")
+		lsmocks.CleanupLlamaStackState(
+			lsState,
+			func(format string, args ...any) { GinkgoWriter.Printf("ERROR: "+format+"\n", args...) },
+			func(format string, args ...any) { GinkgoWriter.Printf(format+"\n", args...) },
+		)
+	})
+
 	// Start MLflow as a child process (SetupMLflow also seeds sample prompts)
 	By("Starting MLflow")
 	mlflowState, mlflowErr := mlflowmocks.SetupMLflow(logger)
@@ -229,12 +249,13 @@ var _ = BeforeSuite(func() {
 	})
 
 	testCtx = &SharedTestContext{
-		App:         app,
-		Server:      server,
-		HTTPClient:  httpClient,
-		BaseURL:     server.URL,
-		Logger:      logger,
-		mlflowState: mlflowState,
+		App:             app,
+		Server:          server,
+		HTTPClient:      httpClient,
+		BaseURL:         server.URL,
+		Logger:          logger,
+		mlflowState:     mlflowState,
+		llamaStackState: lsState,
 	}
 
 	By("HTTP test environment setup complete")
 
@@ -48,10 +48,8 @@ type App struct {
 	rootCAs                 *x509.CertPool
 	clusterDomain           string
 	fileUploadJobTracker    *services.FileUploadJobTracker
-	// Used only when MockK8sClient is enabled
-	testEnvState *k8smocks.TestEnvState
-	// Used only when MockMLflowClient is enabled and MLflow is started as a child process
-	mlflowState *mlflowmocks.MLflowState
+	// cleanupFuncs holds shutdown callbacks for mock processes (envtest, MLflow, LlamaStack)
+	cleanupFuncs []func()
 }
 
 func NewApp(cfg config.EnvConfig, logger *slog.Logger) (*App, error) {
@@ -100,6 +98,9 @@ func NewApp(cfg config.EnvConfig, logger *slog.Logger) (*App, error) {
 	}
 	logger.Info("Detected dashboard namespace", "namespace", dashboardNamespace)
 
+	// Track cleanup functions for mock processes
+	var cleanupFuncs []func()
+
 	// Initialize LlamaStack client factory - clients will be created per request
 	var llamaStackClientFactory llamastack.LlamaStackClientFactory
 	if cfg.MockLSClient {
@@ -127,12 +128,11 @@ func NewApp(cfg config.EnvConfig, logger *slog.Logger) (*App, error) {
 	}
 
 	var k8sFactory k8s.KubernetesClientFactory
-	var testEnvState *k8smocks.TestEnvState
 	if cfg.MockK8sClient {
 		logger.Info("Using mocked Kubernetes client")
 		var ctrlClient client.Client
 		ctx, cancel := context.WithCancel(context.Background())
-		testEnvState, ctrlClient, err = k8smocks.SetupEnvTest(k8smocks.TestEnvInput{
+		testEnvState, ctrlClient, err := k8smocks.SetupEnvTest(k8smocks.TestEnvInput{
 			Users:  k8smocks.DefaultTestUsers,
 			Logger: logger,
 			Ctx:    ctx,
@@ -145,6 +145,13 @@ func NewApp(cfg config.EnvConfig, logger *slog.Logger) (*App, error) {
 			cancel()
 			return nil, fmt.Errorf("failed to setup envtest: %w", err)
 		}
+		cleanupFuncs = append(cleanupFuncs, func() {
+			logger.Info("stopping test environment...")
+			k8smocks.CleanupTestEnvState(testEnvState,
+				func(format string, args ...any) { logger.Error(fmt.Sprintf(format, args...)) },
+				func(format string, args ...any) { logger.Info(fmt.Sprintf(format, args...)) },
+			)
+		})
 		k8sFactory, err = k8smocks.NewMockedKubernetesClientFactory(ctrlClient, testEnvState, cfg, logger)
 		if err != nil {
 			// Clean up partially initialized test environment
@@ -176,11 +183,18 @@ func NewApp(cfg config.EnvConfig, logger *slog.Logger) (*App, error) {
 
 	// Initialize MLflow client factory
 	var mlflowFactory mlflowpkg.MLflowClientFactory
-	var mlflowState *mlflowmocks.MLflowState
 	if cfg.MockMLflowClient {
-		mlflowState, err = mlflowmocks.SetupMLflow(logger)
+		mlflowState, err := mlflowmocks.SetupMLflow(logger)
 		if err != nil {
 			logger.Warn("MLflow mock server not available, MLflow endpoints will fail on request", "error", err)
+		} else {
+			cleanupFuncs = append(cleanupFuncs, func() {
+				logger.Info("stopping MLflow server...")
+				mlflowmocks.CleanupMLflowState(mlflowState,
+					func(format string, args ...any) { logger.Error(fmt.Sprintf(format, args...)) },
+					func(format string, args ...any) { logger.Info(fmt.Sprintf(format, args...)) },
+				)
+			})
 		}
 		mlflowFactory = mlflowmocks.NewMockClientFactory()
 	} else {
@@ -228,8 +242,7 @@ func NewApp(cfg config.EnvConfig, logger *slog.Logger) (*App, error) {
 		rootCAs:                 rootCAs,
 		clusterDomain:           clusterDomain,
 		fileUploadJobTracker:    fileUploadJobTracker,
-		testEnvState:            testEnvState,
-		mlflowState:             mlflowState,
+		cleanupFuncs:            cleanupFuncs,
 	}
 	return app, nil
 }
@@ -255,33 +268,9 @@ func resolveMLflowURL(cfg config.EnvConfig, logger *slog.Logger) string {
 
 func (app *App) Shutdown() error {
 	app.logger.Info("shutting down app...")
-
-	if app.testEnvState != nil {
-		app.logger.Info("stopping test environment...")
-		k8smocks.CleanupTestEnvState(
-			app.testEnvState,
-			func(format string, args ...interface{}) {
-				app.logger.Error(fmt.Sprintf(format, args...))
-			},
-			func(format string, args ...interface{}) {
-				app.logger.Info(fmt.Sprintf(format, args...))
-			},
-		)
+	for i := len(app.cleanupFuncs) - 1; i >= 0; i-- {
+		app.cleanupFuncs[i]()
 	}
-
-	if app.mlflowState != nil {
-		app.logger.Info("stopping MLflow server...")
-		mlflowmocks.CleanupMLflowState(
-			app.mlflowState,
-			func(format string, args ...any) {
-				app.logger.Error(fmt.Sprintf(format, args...))
-			},
-			func(format string, args ...any) {
-				app.logger.Info(fmt.Sprintf(format, args...))
-			},
-		)
-	}
-
 	return nil
 }
 
 
@@ -9,11 +9,8 @@ import (
 	"sync"
 	"time"
 
-	"github.com/openai/openai-go/v2/packages/ssestream"
-	"github.com/openai/openai-go/v2/responses"
 	"github.com/opendatahub-io/gen-ai/internal/constants"
 	"github.com/opendatahub-io/gen-ai/internal/integrations/llamastack"
-	"github.com/opendatahub-io/gen-ai/internal/integrations/llamastack/lsmocks"
 )
 
 // ModerationChunk represents a chunk of text awaiting or completed moderation
@@ -287,15 +284,6 @@ func (app *App) handleStreamingResponseAsync(w http.ResponseWriter, r *http.Requ
 	// Create streaming response
 	stream, err := app.repositories.Responses.CreateResponseStream(ctx, params)
 	if err != nil {
-		// Check if this is a mock streaming error - delegate to mock client
-		if _, ok := err.(*lsmocks.MockStreamError); ok {
-			if client, clientErr := app.repositories.Responses.GetClient(r.Context()); clientErr == nil {
-				if mockClient, ok := client.(*lsmocks.MockLlamaStackClient); ok {
-					mockClient.HandleMockStreaming(ctx, w, flusher, params)
-					return
-				}
-			}
-		}
 		app.handleLlamaStackClientError(w, r, err)
 		return
 	}
@@ -566,7 +554,7 @@ func (app *App) handleStreamingResponseAsync(w http.ResponseWriter, r *http.Requ
 }
 
 // streamWithoutModeration handles streaming when moderation is disabled
-func (app *App) streamWithoutModeration(w http.ResponseWriter, flusher http.Flusher, stream *ssestream.Stream[responses.ResponseStreamEventUnion], ctx context.Context) {
+func (app *App) streamWithoutModeration(w http.ResponseWriter, flusher http.Flusher, stream llamastack.ResponseStreamIterator, ctx context.Context) {
 	sendEvent := func(eventData []byte) error {
 		_, err := fmt.Fprintf(w, "data: %s\n\n", eventData)
 		if err != nil {