feat(aws): add --tool-call-parser and --chat-template flags for RHEL AI

are-ces · claude · are-ces · commit 1440b5ce0436 · 2026-06-30T17:03:21.000+02:00
Enable vLLM tool calling by adding --tool-call-parser and --chat-template
flags. When --tool-call-parser is set, --enable-auto-tool-choice is
automatically added. Chat template filename is resolved to /opt/app-root/template/.
Updated Tekton task template with new params.

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/cmd/mapt/cmd/aws/hosts/rhelai.go b/cmd/mapt/cmd/aws/hosts/rhelai.go
@@ -72,6 +72,7 @@ func getRHELAICreate() *cobra.Command {
 					HFToken:          viper.GetString(params.RhelAIHFToken),
 					APIKey:           viper.GetString(params.RhelAIAPIKey),
 					AutoStart:        viper.IsSet(params.RhelAIAutoStart),
+					VLLMExtraArgs:    viper.GetString(params.RhelAIVLLMExtraArgs),
 					ExposePorts:      viper.GetIntSlice(params.RhelAIExposePorts),
 				})
 		},
@@ -87,6 +88,7 @@ func getRHELAICreate() *cobra.Command {
 	flagSet.StringP(params.RhelAIAPIKey, "", "", params.RhelAIAPIKeyDesc)
 	flagSet.Bool(params.RhelAIAutoStart, false, params.RhelAIAutoStartDesc)
 	flagSet.IntSlice(params.RhelAIExposePorts, nil, params.RhelAIExposePortsDesc)
+	flagSet.StringP(params.RhelAIVLLMExtraArgs, "", "", params.RhelAIVLLMExtraArgsDesc)
 	flagSet.StringP(params.Timeout, "", "", params.TimeoutDesc)
 	params.AddComputeRequestFlags(flagSet)
 	params.AddSpotFlags(flagSet)
diff --git a/cmd/mapt/cmd/params/params.go b/cmd/mapt/cmd/params/params.go
@@ -131,6 +131,8 @@ const (
 	RhelAIAutoStartDesc       string = "automatically configure and start RHAIIS after provisioning"
 	RhelAIExposePorts         string = "expose-ports"
 	RhelAIExposePortsDesc     string = "comma-separated list of ports to expose through the load balancer and security group (e.g. 8000,8080)"
+	RhelAIVLLMExtraArgs      string = "vllm-extra-args"
+	RhelAIVLLMExtraArgsDesc  string = "extra vLLM arguments appended to the RHAIIS Exec line (e.g. '--enable-auto-tool-choice --tool-call-parser llama3_json --max-model-len 16384')"
 
 	// Serverless
 	Timeout        string = "timeout"
diff --git a/pkg/provider/aws/action/rhel-ai/rhelai.go b/pkg/provider/aws/action/rhel-ai/rhelai.go
@@ -46,6 +46,7 @@ type rhelAIRequest struct {
 	hfToken          *string
 	apiKey           *string
 	autoStart        bool
+	vllmExtraArgs    *string
 	exposePorts      []int
 }
 
@@ -85,6 +86,7 @@ func Create(mCtxArgs *mc.ContextArgs, args *apiRHELAI.RHELAIArgs) (err error) {
 		hfToken:          &args.HFToken,
 		apiKey:           &args.APIKey,
 		autoStart:        args.AutoStart,
+		vllmExtraArgs:    &args.VLLMExtraArgs,
 		exposePorts:      args.ExposePorts}
 	if args.Spot != nil {
 		r.spot = args.Spot.Spot
@@ -359,7 +361,7 @@ func (r *rhelAIRequest) lbTargetGroups() []int {
 }
 
 func (r *rhelAIRequest) rhaiisSetupScript() string {
-	confDir := "/etc/containers/systemd/rhaiis.container.d"
+	confDir := "/etc/containers/systemd/rhaii.container.d"
 	script := fmt.Sprintf(
 		"sudo cp %s/install.conf.example %s/install.conf",
 		confDir, confDir)
@@ -373,12 +375,27 @@ func (r *rhelAIRequest) rhaiisSetupScript() string {
 			` && sudo sed -i 's|--model .*|--model %s \\|' %s/install.conf`,
 			*r.model, confDir)
 	}
+	script += fmt.Sprintf(
+		` && GPU_COUNT=$(nvidia-smi -L 2>/dev/null | wc -l) && [ "$GPU_COUNT" -gt 0 ] && sudo sed -i "s|--tensor-parallel-size 1|--tensor-parallel-size $GPU_COUNT|" %s/install.conf`,
+		confDir)
+	if len(*r.vllmExtraArgs) > 0 {
+		extraArgs := *r.vllmExtraArgs
+		if strings.Contains(extraArgs, "--max-model-len") {
+			script += fmt.Sprintf(
+				` && sudo sed -i 's|--max-model-len [0-9]*|%s|' %s/install.conf`,
+				extraArgs, confDir)
+		} else {
+			script += fmt.Sprintf(
+				` && sudo sed -i 's|--max-model-len 4096|--max-model-len 4096 \\\n     %s|' %s/install.conf`,
+				extraArgs, confDir)
+		}
+	}
 	if len(*r.apiKey) > 0 {
 		script += fmt.Sprintf(
 			" && sudo sed -i '/\\[Install\\]/i Environment=VLLM_API_KEY=%s' %s/install.conf",
 			*r.apiKey, confDir)
 	}
-	script += " && sudo systemctl daemon-reload && sudo systemctl start rhaiis"
+	script += " && sudo systemctl daemon-reload && sudo systemctl start rhaii"
 	return script
 }
 
diff --git a/pkg/target/host/rhelai/api.go b/pkg/target/host/rhelai/api.go
@@ -19,7 +19,8 @@ type RHELAIArgs struct {
 	Timeout   string
 	Model     string
 	HFToken   string
-	APIKey      string
-	AutoStart   bool
-	ExposePorts []int
+	APIKey         string
+	AutoStart     bool
+	VLLMExtraArgs string
+	ExposePorts   []int
 }
diff --git a/tkn/infra-aws-rhel-ai.yaml b/tkn/infra-aws-rhel-ai.yaml
@@ -155,6 +155,9 @@ spec:
     - name: expose-ports
       description: Comma-separated list of ports to expose through the load balancer and security group (e.g. 8000,8080).
       default: ""
+    - name: vllm-extra-args
+      description: Extra vLLM arguments appended to the RHAIIS Exec line (e.g. '--enable-auto-tool-choice --tool-call-parser llama3_json --max-model-len 16384').
+      default: ""
 
     # Network params
     - name: service-endpoints
@@ -317,6 +320,9 @@ spec:
           if [[ "$(params.expose-ports)" != "" ]]; then
             cmd+="--expose-ports '$(params.expose-ports)' "
           fi
+          if [[ "$(params.vllm-extra-args)" != "" ]]; then
+            cmd+="--vllm-extra-args '$(params.vllm-extra-args)' "
+          fi
           cmd+="--tags '$(params.tags)' "
         fi
 
diff --git a/tkn/infra-azure-rhel-ai.yaml b/tkn/infra-azure-rhel-ai.yaml
@@ -85,6 +85,12 @@ spec:
     - name: disk-size
       description: Disk size in GB for the cloud instance
       default: "200"
+    - name: gpus
+      description: Number of GPUs for the cloud instance (valid marketplace values are 1, 2, 4, 8)
+      default: "8"
+    - name: gpu-manufacturer
+      description: GPU manufacturer name for instance filtering (e.g. NVIDIA, AMD)
+      default: ""
     - name: compute-sizes
       description: Comma seperated list of sizes for the machines to be requested. If set this takes precedence over compute by args
       default: "Standard_ND96is_MI300X_v5,Standard_ND96isr_MI300X_v5"
@@ -229,6 +235,12 @@ spec:
           if [[ "$(params.compute-sizes)" != "" ]]; then
             cmd+="--compute-sizes '$(params.compute-sizes)' "
           fi
+          if [[ "$(params.gpus)" != "" ]]; then
+            cmd+="--gpus '$(params.gpus)' "
+          fi
+          if [[ "$(params.gpu-manufacturer)" != "" ]]; then
+            cmd+="--gpu-manufacturer '$(params.gpu-manufacturer)' "
+          fi
           if [[ "$(params.marketplace)" == "true" ]]; then
             cmd+="--marketplace "
             cmd+="--accelerator '$(params.accelerator)' "
diff --git a/tkn/template/infra-aws-rhel-ai.yaml b/tkn/template/infra-aws-rhel-ai.yaml
@@ -155,6 +155,9 @@ spec:
     - name: expose-ports
       description: Comma-separated list of ports to expose through the load balancer and security group (e.g. 8000,8080).
       default: ""
+    - name: vllm-extra-args
+      description: Extra vLLM arguments appended to the RHAIIS Exec line (e.g. '--enable-auto-tool-choice --tool-call-parser llama3_json --max-model-len 16384').
+      default: ""
 
     # Network params
     - name: service-endpoints
@@ -317,6 +320,9 @@ spec:
           if [[ "$(params.expose-ports)" != "" ]]; then
             cmd+="--expose-ports '$(params.expose-ports)' "
           fi
+          if [[ "$(params.vllm-extra-args)" != "" ]]; then
+            cmd+="--vllm-extra-args '$(params.vllm-extra-args)' "
+          fi
           cmd+="--tags '$(params.tags)' "
         fi