NVIDIA
diff --git a/‎ci/scripts/validate_deployment_configs.py‎
Lines changed: 2 additions & 2 deletions b/‎ci/scripts/validate_deployment_configs.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎helm/README.md‎
Lines changed: 41 additions & 41 deletions b/‎helm/README.md‎
Lines changed: 41 additions & 41 deletions
diff --git a/‎helm/mig/nv-ingest-mig-values-25x.yaml‎
Lines changed: 3 additions & 3 deletions b/‎helm/mig/nv-ingest-mig-values-25x.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎helm/mig/nv-ingest-mig-values.yaml‎
Lines changed: 3 additions & 3 deletions b/‎helm/mig/nv-ingest-mig-values.yaml‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎helm/overrides/values-a100-40gb.yaml‎
Lines changed: 2 additions & 2 deletions b/‎helm/overrides/values-a100-40gb.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎helm/overrides/values-a10g.yaml‎
Lines changed: 2 additions & 2 deletions b/‎helm/overrides/values-a10g.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎helm/overrides/values-l40s.yaml‎
Lines changed: 2 additions & 2 deletions b/‎helm/overrides/values-l40s.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎helm/templates/llama-3.2-nv-rerankqa-1b-v2.yaml‎
Lines changed: 0 additions & 47 deletions b/‎helm/templates/llama-3.2-nv-rerankqa-1b-v2.yaml‎
Lines changed: 0 additions & 47 deletions
diff --git a/‎…emplates/llama-3.2-nv-embedqa-1b-v2.yaml‎ ‎…emplates/llama-nemotron-embed-1b-v2.yaml‎helm/templates/llama-3.2-nv-embedqa-1b-v2.yaml renamed to helm/templates/llama-nemotron-embed-1b-v2.yaml
Lines changed: 1 addition & 1 deletion b/‎…emplates/llama-3.2-nv-embedqa-1b-v2.yaml‎ ‎…emplates/llama-nemotron-embed-1b-v2.yaml‎helm/templates/llama-3.2-nv-embedqa-1b-v2.yaml renamed to helm/templates/llama-nemotron-embed-1b-v2.yaml
Lines changed: 1 addition & 1 deletion
diff --git a/‎helm/templates/llama-nemotron-rerank-1b-v2.yaml‎
Lines changed: 47 additions & 0 deletions b/‎helm/templates/llama-nemotron-rerank-1b-v2.yaml‎
Lines changed: 47 additions & 0 deletions
@@ -49,9 +49,9 @@ def __str__(self) -> str:
     "page-elements": "page_elements",
     "graphic-elements": "graphic_elements",
     "table-structure": "table_structure",
-    "ocr": "nemoretriever_ocr_v1",
+    "ocr": "ocr",
     "embedding": "embedqa",
-    "reranker": "llama_3_2_nv_rerankqa_1b_v2",
+    "reranker": "rerankqa",
     "nemotron-parse": "nemotron_parse",
     "vlm": "nemotron_nano_12b_v2_vl",
     "audio": "audio",
 
@@ -298,7 +298,7 @@ You can also use NV-Ingest's Python client API to interact with the service runn
 | envVars.AUDIO_GRPC_ENDPOINT | string | `"audio:50051"` |  |
 | envVars.AUDIO_INFER_PROTOCOL | string | `"grpc"` |  |
 | envVars.COMPONENTS_TO_READY_CHECK | string | `"ALL"` |  |
-| envVars.EMBEDDING_NIM_ENDPOINT | string | `"http://llama-32-nv-embedqa-1b-v2:8000/v1"` |  |
+| envVars.EMBEDDING_NIM_ENDPOINT | string | `"http://llama-nemotron-embed-1b-v2:8000/v1"` |  |
 | envVars.EMBEDDING_NIM_MODEL_NAME | string | `"nvidia/llama-nemotron-embed-1b-v2"` |  |
 | envVars.IMAGE_STORAGE_PUBLIC_BASE_URL | string | `""` |  |
 | envVars.IMAGE_STORAGE_URI | string | `"s3://nv-ingest/artifacts/store/images"` |  |
@@ -465,46 +465,46 @@ You can also use NV-Ingest's Python client API to interact with the service runn
 | nimOperator.graphic_elements.storage.pvc.create | bool | `true` |  |
 | nimOperator.graphic_elements.storage.pvc.size | string | `"25Gi"` |  |
 | nimOperator.graphic_elements.storage.pvc.volumeAccessMode | string | `"ReadWriteOnce"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.authSecret | string | `"ngc-api"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.enabled | bool | `false` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.env[0].name | string | `"NIM_HTTP_API_PORT"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.env[0].value | string | `"8000"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.env[1].name | string | `"NIM_TRITON_LOG_VERBOSE"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.env[1].value | string | `"1"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.expose.service.grpcPort | int | `8001` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.expose.service.port | int | `8000` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.expose.service.type | string | `"ClusterIP"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.image.pullPolicy | string | `"IfNotPresent"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.image.pullSecrets[0] | string | `"ngc-secret"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.image.repository | string | `"nvcr.io/nim/nvidia/llama-nemotron-rerank-1b-v2"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.image.tag | string | `"1.10.0"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.replicas | int | `1` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.resources.limits."nvidia.com/gpu" | int | `1` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.storage.pvc.create | bool | `true` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.storage.pvc.size | string | `"50Gi"` |  |
-| nimOperator.llama_3_2_nv_rerankqa_1b_v2.storage.pvc.volumeAccessMode | string | `"ReadWriteOnce"` |  |
-| nimOperator.nemoretriever_ocr_v1.authSecret | string | `"ngc-api"` |  |
-| nimOperator.nemoretriever_ocr_v1.enabled | bool | `true` |  |
-| nimOperator.nemoretriever_ocr_v1.env[0].name | string | `"OMP_NUM_THREADS"` |  |
-| nimOperator.nemoretriever_ocr_v1.env[0].value | string | `"8"` |  |
-| nimOperator.nemoretriever_ocr_v1.env[1].name | string | `"NIM_HTTP_API_PORT"` |  |
-| nimOperator.nemoretriever_ocr_v1.env[1].value | string | `"8000"` |  |
-| nimOperator.nemoretriever_ocr_v1.env[2].name | string | `"NIM_TRITON_LOG_VERBOSE"` |  |
-| nimOperator.nemoretriever_ocr_v1.env[2].value | string | `"1"` |  |
-| nimOperator.nemoretriever_ocr_v1.env[3].name | string | `"NIM_TRITON_MAX_BATCH_SIZE"` |  |
-| nimOperator.nemoretriever_ocr_v1.env[3].value | string | `"32"` |  |
-| nimOperator.nemoretriever_ocr_v1.expose.service.grpcPort | int | `8001` |  |
-| nimOperator.nemoretriever_ocr_v1.expose.service.port | int | `8000` |  |
-| nimOperator.nemoretriever_ocr_v1.expose.service.type | string | `"ClusterIP"` |  |
-| nimOperator.nemoretriever_ocr_v1.image.pullPolicy | string | `"IfNotPresent"` |  |
-| nimOperator.nemoretriever_ocr_v1.image.pullSecrets[0] | string | `"ngc-secret"` |  |
-| nimOperator.nemoretriever_ocr_v1.image.repository | string | `"nvcr.io/nim/nvidia/nemotron-ocr-v1"` |  |
-| nimOperator.nemoretriever_ocr_v1.image.tag | string | `"1.3.0"` |  |
-| nimOperator.nemoretriever_ocr_v1.replicas | int | `1` |  |
-| nimOperator.nemoretriever_ocr_v1.resources.limits."nvidia.com/gpu" | int | `1` |  |
-| nimOperator.nemoretriever_ocr_v1.storage.pvc.create | bool | `true` |  |
-| nimOperator.nemoretriever_ocr_v1.storage.pvc.size | string | `"25Gi"` |  |
-| nimOperator.nemoretriever_ocr_v1.storage.pvc.volumeAccessMode | string | `"ReadWriteOnce"` |  |
+| nimOperator.rerankqa.authSecret | string | `"ngc-api"` |  |
+| nimOperator.rerankqa.enabled | bool | `false` |  |
+| nimOperator.rerankqa.env[0].name | string | `"NIM_HTTP_API_PORT"` |  |
+| nimOperator.rerankqa.env[0].value | string | `"8000"` |  |
+| nimOperator.rerankqa.env[1].name | string | `"NIM_TRITON_LOG_VERBOSE"` |  |
+| nimOperator.rerankqa.env[1].value | string | `"1"` |  |
+| nimOperator.rerankqa.expose.service.grpcPort | int | `8001` |  |
+| nimOperator.rerankqa.expose.service.port | int | `8000` |  |
+| nimOperator.rerankqa.expose.service.type | string | `"ClusterIP"` |  |
+| nimOperator.rerankqa.image.pullPolicy | string | `"IfNotPresent"` |  |
+| nimOperator.rerankqa.image.pullSecrets[0] | string | `"ngc-secret"` |  |
+| nimOperator.rerankqa.image.repository | string | `"nvcr.io/nim/nvidia/llama-nemotron-rerank-1b-v2"` |  |
+| nimOperator.rerankqa.image.tag | string | `"1.10.0"` |  |
+| nimOperator.rerankqa.replicas | int | `1` |  |
+| nimOperator.rerankqa.resources.limits."nvidia.com/gpu" | int | `1` |  |
+| nimOperator.rerankqa.storage.pvc.create | bool | `true` |  |
+| nimOperator.rerankqa.storage.pvc.size | string | `"50Gi"` |  |
+| nimOperator.rerankqa.storage.pvc.volumeAccessMode | string | `"ReadWriteOnce"` |  |
+| nimOperator.ocr.authSecret | string | `"ngc-api"` |  |
+| nimOperator.ocr.enabled | bool | `true` |  |
+| nimOperator.ocr.env[0].name | string | `"OMP_NUM_THREADS"` |  |
+| nimOperator.ocr.env[0].value | string | `"8"` |  |
+| nimOperator.ocr.env[1].name | string | `"NIM_HTTP_API_PORT"` |  |
+| nimOperator.ocr.env[1].value | string | `"8000"` |  |
+| nimOperator.ocr.env[2].name | string | `"NIM_TRITON_LOG_VERBOSE"` |  |
+| nimOperator.ocr.env[2].value | string | `"1"` |  |
+| nimOperator.ocr.env[3].name | string | `"NIM_TRITON_MAX_BATCH_SIZE"` |  |
+| nimOperator.ocr.env[3].value | string | `"32"` |  |
+| nimOperator.ocr.expose.service.grpcPort | int | `8001` |  |
+| nimOperator.ocr.expose.service.port | int | `8000` |  |
+| nimOperator.ocr.expose.service.type | string | `"ClusterIP"` |  |
+| nimOperator.ocr.image.pullPolicy | string | `"IfNotPresent"` |  |
+| nimOperator.ocr.image.pullSecrets[0] | string | `"ngc-secret"` |  |
+| nimOperator.ocr.image.repository | string | `"nvcr.io/nim/nvidia/nemotron-ocr-v1"` |  |
+| nimOperator.ocr.image.tag | string | `"1.3.0"` |  |
+| nimOperator.ocr.replicas | int | `1` |  |
+| nimOperator.ocr.resources.limits."nvidia.com/gpu" | int | `1` |  |
+| nimOperator.ocr.storage.pvc.create | bool | `true` |  |
+| nimOperator.ocr.storage.pvc.size | string | `"25Gi"` |  |
+| nimOperator.ocr.storage.pvc.volumeAccessMode | string | `"ReadWriteOnce"` |  |
 | nimOperator.nemotron_nano_12b_v2_vl.authSecret | string | `"ngc-api"` |  |
 | nimOperator.nemotron_nano_12b_v2_vl.enabled | bool | `false` |  |
 | nimOperator.nemotron_nano_12b_v2_vl.env[0].name | string | `"NIM_HTTP_API_PORT"` |  |
 
@@ -38,7 +38,7 @@ nemotron-table-structure-v1:
       nvidia.com/gpu: 0
       nvidia.com/mig-1g.10gb: 1
 
-nvidia-nim-llama-32-nv-embedqa-1b-v2:
+nvidia-nim-llama-nemotron-embed-1b-v2:
   resources:
     limits:
       nvidia.com/gpu: 0
@@ -75,8 +75,8 @@ text-embedding-nim:
       nvidia.com/gpu: 0
       nvidia.com/mig-1g.10gb: 1
 
-# If you want to deploy llama-32-nv-rerankqa-1b-v2
-llama-32-nv-rerankqa-1b-v2:
+# If you want to deploy llama-nemotron-rerank-1b-v2
+llama-nemotron-rerank-1b-v2:
   resources:
     limits:
       nvidia.com/gpu: 0
 
@@ -39,7 +39,7 @@ nimOperator:
         nvidia.com/gpu: "0"
         nvidia.com/mig-1g.10gb: 1
 
-  nemoretriever_ocr_v1:
+  ocr:
     resources:
       limits:
         nvidia.com/gpu: "0"
@@ -48,8 +48,8 @@ nimOperator:
         nvidia.com/gpu: "0"
         nvidia.com/mig-1g.20gb: 1
 
-  # If you want to deploy llama-32-nv-rerankqa-1b-v2
-  llama_3_2_nv_rerankqa_1b_v2:
+  # If you want to deploy llama-nemotron-rerank-1b-v2
+  rerankqa:
     enabled: true
     resources:
       limits:
 
@@ -64,7 +64,7 @@ nimOperator:
       - name: OMP_NUM_THREADS
         value: "1"
 
-  nemoretriever_ocr_v1:
+  ocr:
     env:
       - name: OMP_NUM_THREADS
         value: "8"
@@ -75,7 +75,7 @@ nimOperator:
       - name: NIM_TRITON_MAX_BATCH_SIZE
         value: "1"
 
-  llama_3_2_nv_rerankqa_1b_v2:
+  rerankqa:
     env:
       - name: NIM_HTTP_API_PORT
         value: "8000"
 
@@ -70,7 +70,7 @@ nimOperator:
       - name: OMP_NUM_THREADS
         value: "1"
 
-  nemoretriever_ocr_v1:
+  ocr:
     env:
       - name: OMP_NUM_THREADS
         value: "8"
@@ -81,7 +81,7 @@ nimOperator:
       - name: NIM_TRITON_MAX_BATCH_SIZE
         value: "1"
 
-  llama_3_2_nv_rerankqa_1b_v2:
+  rerankqa:
     env:
       - name: NIM_HTTP_API_PORT
         value: "8000"
 
@@ -64,7 +64,7 @@ nimOperator:
       - name: OMP_NUM_THREADS
         value: "1"
 
-  nemoretriever_ocr_v1:
+  ocr:
     env:
       - name: OMP_NUM_THREADS
         value: "8"
@@ -75,7 +75,7 @@ nimOperator:
       - name: NIM_TRITON_MAX_BATCH_SIZE
         value: "1"
 
-  llama_3_2_nv_rerankqa_1b_v2:
+  rerankqa:
     env:
       - name: NIM_HTTP_API_PORT
         value: "8000"
 
@@ -21,7 +21,7 @@ spec:
 apiVersion: apps.nvidia.com/v1alpha1
 kind: NIMService
 metadata:
-  name: llama-32-nv-embedqa-1b-v2
+  name: llama-nemotron-embed-1b-v2
 spec:
   image:
     repository: {{ .Values.nimOperator.embedqa.image.repository }}
 
@@ -0,0 +1,47 @@
+{{ if and (.Capabilities.APIVersions.Has "apps.nvidia.com/v1alpha1") (eq .Values.nimOperator.rerankqa.enabled true) -}}
+apiVersion: apps.nvidia.com/v1alpha1
+kind: NIMCache
+metadata:
+  name: llama-nemotron-rerank-1b-v2
+  annotations:
+    helm.sh/resource-policy: keep
+spec:
+  source:
+    ngc:
+      modelPuller: "{{ .Values.nimOperator.rerankqa.image.repository }}:{{ .Values.nimOperator.rerankqa.image.tag }}"
+      pullSecret: "{{ index .Values.nimOperator.rerankqa.image.pullSecrets 0 }}"
+      authSecret: {{ .Values.nimOperator.rerankqa.authSecret }}
+  storage:
+    pvc:
+      create: {{ .Values.nimOperator.rerankqa.storage.pvc.create }}
+      storageClass: {{ .Values.nimOperator.rerankqa.storage.pvc.storageClass }}
+      size: {{ .Values.nimOperator.rerankqa.storage.pvc.size }}
+      volumeAccessMode: {{ .Values.nimOperator.rerankqa.storage.pvc.volumeAccessMode }}
+---
+apiVersion: apps.nvidia.com/v1alpha1
+kind: NIMService
+metadata:
+  name: llama-nemotron-rerank-1b-v2
+spec:
+  image:
+    repository: {{ .Values.nimOperator.rerankqa.image.repository }}
+    tag: {{ .Values.nimOperator.rerankqa.image.tag }}
+    pullPolicy: {{ .Values.nimOperator.rerankqa.image.pullPolicy }}
+    pullSecrets:
+{{ toYaml .Values.nimOperator.rerankqa.image.pullSecrets | nindent 6 }}
+  authSecret: {{ .Values.nimOperator.rerankqa.authSecret }}
+  storage:
+    nimCache:
+      name: llama-nemotron-rerank-1b-v2
+  replicas: {{ .Values.nimOperator.rerankqa.replicas }}
+  nodeSelector:
+{{ toYaml .Values.nimOperator.rerankqa.nodeSelector | nindent 4 }}
+  resources:
+{{ toYaml .Values.nimOperator.rerankqa.resources | nindent 4 }}
+  tolerations:
+{{ toYaml .Values.nimOperator.rerankqa.tolerations | nindent 4 }}
+  expose:
+{{ toYaml .Values.nimOperator.rerankqa.expose | nindent 4 }}
+  env:
+{{ toYaml .Values.nimOperator.rerankqa.env | nindent 4 }}
+{{- end }}