bump of configs to match current running env

cooktheryan · cooktheryan · commit 6212044d2424 · 2025-04-04T11:18:05.000-04:00
Signed-off-by: Ryan Cook &lt;rcook@redhat.com&gt;
diff --git a/kubernetes/llama-stack/configmap.yaml b/kubernetes/llama-stack/configmap.yaml
@@ -1,6 +1,8 @@
-kind: ConfigMap
 apiVersion: v1
+kind: ConfigMap
 metadata:
+  labels:
+    app.kubernetes.io/instance: llama-stack
   name: run-config
 data:
   config.yaml: |
@@ -18,10 +20,24 @@ data:
     - vector_io
     providers:
       inference:
-      - provider_id: vllm-inference
+      - provider_id: llama-3b
+        provider_type: remote::vllm
+        config:
+          url: ${env.LLAMA3B_URL}
+          max_tokens: 128000
+          api_token: fake
+          tls_verify: false
+      - provider_id: llama-70b
+        provider_type: remote::vllm
+        config:
+          url: ${env.LLAMA70B_URL}
+          max_tokens: 128000
+          api_token: fake
+          tls_verify: false
+      - provider_id: granite
         provider_type: remote::vllm
         config:
-          url: ${env.VLLM_URL}
+          url: ${env.GRANITE_URL}
           max_tokens: 128000
           api_token: fake
           tls_verify: false
@@ -92,7 +108,7 @@ data:
         provider_type: inline::meta-reference
         config:
           service_name: ${env.OTEL_SERVICE_NAME:llama-stack}
-          sinks: ${env.TELEMETRY_SINKS:console, otel_trace, otel_metric, sqlite}
+          sinks: ${env.TELEMETRY_SINKS:console, otel_trace, sqlite}
           otel_trace_endpoint: ${env.OTEL_TRACE_ENDPOINT:}
           otel_metric_endpoint: ${env.OTEL_METRIC_ENDPOINT:}
           sqlite_db_path: ${env.SQLITE_DB_PATH:~/.llama/distributions/remote-vllm/trace_store.db}
@@ -121,8 +137,16 @@ data:
       db_path: ${env.SQLITE_STORE_DIR:~/.llama/distributions/remote-vllm}/registry.db
     models:
     - metadata: {}
-      model_id: ${env.INFERENCE_MODEL}
-      provider_id: vllm-inference
+      model_id: ${env.LLAMA3B_MODEL}
+      provider_id: llama-3b
+      model_type: llm
+    - metadata: {}
+      model_id: ${env.LLAMA70B_MODEL}
+      provider_id: llama-70b
+      model_type: llm
+    - metadata: {}
+      model_id: ${env.GRANITE_MODEL}
+      provider_id: granite 
       model_type: llm
     - metadata: {}
       model_id: ${env.SAFETY_MODEL}
diff --git a/kubernetes/llama-stack/deployment.yaml b/kubernetes/llama-stack/deployment.yaml
@@ -1,40 +1,57 @@
 apiVersion: apps/v1
 kind: Deployment
 metadata:
+  labels:
+    app.kubernetes.io/instance: llama-stack
   name: llamastack-deployment
 spec:
+  progressDeadlineSeconds: 600
   replicas: 1
+  revisionHistoryLimit: 10
   selector:
     matchLabels:
       app: llamastack
+  strategy:
+    rollingUpdate:
+      maxSurge: 25%
+      maxUnavailable: 25%
+    type: RollingUpdate
   template:
     metadata:
       labels:
         app: llamastack
     spec:
       containers:
       - args:
-        - --yaml-config
+        - --config
         - /app-config/config.yaml
         env:
+        - name: MAX_TOKENS
+          value: "128000"
         - name: VLLM_MAX_TOKENS
           value: "128000"
-        - name: INFERENCE_MODEL
+        - name: LLAMA3B_MODEL
           value: meta-llama/Llama-3.2-3B-Instruct
-        - name: VLLM_URL
-          value: http://vllm:8000/v1
+        - name: LLAMA70B_MODEL
+          value: meta-llama/Llama-3.3-70B-Instruct
+        - name: GRANITE_URL
+          value: https://granite-8b-llama-serve.apps.ocp-beta-test.nerc.mghpcc.org/v1
+        - name: GRANITE_MODEL
+          value: ibm-granite/granite-3.2-8b-instruct
+        - name: LLAMA3B_URL
+          value: https://llama32-3b-llama-serve.apps.ocp-beta-test.nerc.mghpcc.org/v1
+        - name: LLAMA70B_URL
+          value: https://llama33-70b-llama-serve.apps.ocp-beta-test.nerc.mghpcc.org/v1
         - name: VLLM_API_TOKEN
           value: fake
-        - name:  SAFETY_MODEL
-          value: meta-llama/Llama-Guard-3-8B
-        - name:  SAFETY_VLLM_URL
-          value: http://safety.llama-serve.svc.cluster.local:8000/v1
         - name: OTEL_TRACE_ENDPOINT
           value: http://otel-collector-collector.observability-hub.svc.cluster.local:4318/v1/traces
-        - name: OTEL_METRIC_ENDPOINT
-          value: http://otel-collector-collector.observability-hub.svc.cluster.local:4318/v1/metrics
+        - name: SAFETY_MODEL
+          value: meta-llama/Llama-Guard-3-8B
+        - name: SAFETY_VLLM_URL
+          value: http://safety.llama-serve.svc.cluster.local:8000/v1
         - name: MILVUS_DB_PATH
-          value: 'milvus.db'
+          value: milvus.db
         image: quay.io/redhat-et/llama:vllm-0.1.9
         imagePullPolicy: Always
         name: llamastack
@@ -45,6 +62,8 @@ spec:
         terminationMessagePath: /dev/termination-log
         terminationMessagePolicy: File
         volumeMounts:
+        - mountPath: /pythainlp-data
+          name: pythain
         - mountPath: /app-config
           name: run-config-volume
         - mountPath: /.llama
@@ -61,8 +80,10 @@ spec:
           defaultMode: 420
           name: run-config
         name: run-config-volume
-      - persistentVolumeClaim:
+      - name: llama-persist
+        persistentVolumeClaim:
           claimName: llama-persist
-        name: llama-persist
       - emptyDir: {}
         name: cache
+      - emptyDir: {}
+        name: pythain