Standardize container/service names with functional prefixes

Lloyd · Lloyd · commit abb3c49aa4fb · 2026-05-21T15:17:46.000-07:00
- model-vllm-*: vLLM inference engines (DeepSeek, GLM-5 staying as
  model-sg-* since SGLang, GLM-5.1 same, Qwen3.5, Qwen3-30B, GPT-OSS,
  gpt-oss-single, Qwen3-VL, Qwen3-Embedding, Qwen3-Reranker, Whisper,
  Gemma-4-31B)
- model-sg-*: SGLang inference engines (GLM-5, GLM-5.1, FLUX, Qwen3.6-35B)
- model-privacy-filter: custom HF inference service
- proxy-*: inference-proxy (vllm-proxy-rs) and nginx reverse proxy

All internal hostname references (VLLM_BASE_URL, VLLM_BACKEND_URLS,
openmetrics endpoints, registrar health checks, nginx proxy_pass) updated
to match. FLUX Datadog labels switched from vllm to sglang/openmetrics
since FLUX runs SGLang despite its previous vllm- prefix.
diff --git a/DeepSeek-V3.1.yaml b/DeepSeek-V3.1.yaml
@@ -62,9 +62,9 @@ services:
       - HF_TOKEN=${HUGGING_FACE_HUB_TOKEN}
     logging: *logging-conf
 
-  nginx:
+  proxy-nginx:
     image: nginx@sha256:1d13701a5f9f3fb01aaa88cef2344d65b6b5bf6b7d9fa4cf0dca557a8d7702ba
-    container_name: nginx
+    container_name: proxy-nginx
     command: /bin/sh -c 'while :; do sleep 6h; nginx -s reload; done & nginx -g "daemon off;"'
     ports:
       - "8000:80"
@@ -107,9 +107,9 @@ services:
       - /var/run/docker.sock:/var/run/docker.sock
     logging: *logging-conf
 
-  vllm-proxy-deepseek:
+  proxy-deepseek:
     <<: *vllm-proxy-common
-    container_name: vllm-proxy-deepseek
+    container_name: proxy-deepseek
     environment:
       - NVIDIA_VISIBLE_DEVICES=all
       - CLOUD_API_URL=https://cloud-api.near.ai
@@ -118,16 +118,16 @@ services:
       - MODEL_NAME=deepseek-ai/DeepSeek-V3.1
       - OHTTP_ENABLED=true
       - TOKEN=${PROXY_TOKEN}
-      - VLLM_BASE_URL=http://vllm-deepseek:8000
+      - VLLM_BASE_URL=http://model-vllm-deepseek:8000
       - TLS_CERT_PATH=/etc/letsencrypt/live/completions.near.ai/fullchain.pem
       - USE_NV_ATTESTATION_SDK=true
     labels:
       com.datadoghq.ad.logs: '[{"source": "vllm-proxy", "service": "vllm-proxy", "tags": ["model:deepseek-ai/DeepSeek-V3.1", "ip:${HOST_IP}", "port:8000"]}]'
 
-  vllm-deepseek:
+  model-vllm-deepseek:
     <<: *vllm-common
     image: vllm/vllm-openai@sha256:0dc46f74eb0e630675d83101dc66c6441c4475cceedcf9235ee42b87c3affd23  # v0.17.1
-    container_name: vllm-deepseek
+    container_name: model-vllm-deepseek
     depends_on:
       model-downloader:
         condition: service_completed_successfully
@@ -167,7 +167,7 @@ services:
       com.datadoghq.ad.check_names: '["vllm"]'
       com.datadoghq.ad.init_configs: "[{}]"
       com.datadoghq.ad.logs: '[{"source": "vllm", "service": "vllm", "tags":["model:deepseek-ai/DeepSeek-V3.1","ip:${HOST_IP}", "port:8000"]}]'
-      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://vllm-deepseek:8000/metrics", "histogram_buckets_as_distributions": true, "service": "vllm-deepseek", "tags":["model:deepseek-ai/DeepSeek-V3.1","ip:${HOST_IP}", "port:8000"]}]'
+      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://model-vllm-deepseek:8000/metrics", "histogram_buckets_as_distributions": true, "service": "model-vllm-deepseek", "tags":["model:deepseek-ai/DeepSeek-V3.1","ip:${HOST_IP}", "port:8000"]}]'
 
   dcgm-exporter:
     image: nvcr.io/nvidia/k8s/dcgm-exporter:4.5.2-4.8.1-distroless
@@ -216,7 +216,7 @@ configs:
           client_body_buffer_size 1m;
 
           location / {
-              proxy_pass http://vllm-proxy-deepseek:8000;
+              proxy_pass http://proxy-deepseek:8000;
               proxy_http_version 1.1;
               proxy_set_header Host $$host;
               proxy_set_header X-Real-IP $$remote_addr;
@@ -241,7 +241,7 @@ configs:
           client_body_buffer_size 1m;
 
           location / {
-              proxy_pass http://vllm-proxy-deepseek:8000;
+              proxy_pass http://proxy-deepseek:8000;
               proxy_http_version 1.1;
               proxy_set_header Host $$host;
               proxy_set_header X-Real-IP $$remote_addr;
@@ -291,14 +291,14 @@ configs:
       trap cleanup TERM INT
 
       check_inference() {
-        curl -sf --max-time 10 -X POST "http://vllm-deepseek:8000/v1/chat/completions" \
+        curl -sf --max-time 10 -X POST "http://model-vllm-deepseek:8000/v1/chat/completions" \
           -H "Content-Type: application/json" \
           -d '{"model":"deepseek-ai/DeepSeek-V3.1","messages":[{"role":"user","content":"hi"}],"max_tokens":1}' \
           > /dev/null 2>&1
       }
 
       echo "Waiting for model to be ready..."
-      until curl -sf http://nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
+      until curl -sf http://proxy-nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
       echo "Model ready, starting registration loop"
 
       while true; do
diff --git a/GLM-5.1.yaml b/GLM-5.1.yaml
@@ -48,9 +48,9 @@ services:
     environment:
       - HF_TOKEN=${HUGGING_FACE_HUB_TOKEN}
 
-  nginx:
+  proxy-nginx:
     image: nginx@sha256:1d13701a5f9f3fb01aaa88cef2344d65b6b5bf6b7d9fa4cf0dca557a8d7702ba
-    container_name: nginx
+    container_name: proxy-nginx
     command: /bin/sh -c 'while :; do sleep 6h; nginx -s reload; done & nginx -g "daemon off;"'
     ports:
       - "8000:80"
@@ -91,18 +91,18 @@ services:
       - MODEL_NAME=zai-org/GLM-5.1-FP8
       - OHTTP_ENABLED=true
       - TOKEN=${PROXY_TOKEN}
-      - VLLM_BASE_URL=http://glm51:8000
+      - VLLM_BASE_URL=http://model-sg-glm51:8000
       - TLS_CERT_PATH=/etc/letsencrypt/live/completions.near.ai/fullchain.pem
       - USE_NV_ATTESTATION_SDK=true
 
-  glm51:
+  model-sg-glm51:
     <<: *nvidia
     init: true
     depends_on:
       model-downloader:
         condition: service_completed_successfully
     image: lmsysorg/sglang:dev@sha256:e1eee3f75e62827dbfa29994a260934c2bc7e5adfb047170576f1676b436b926
-    container_name: glm51
+    container_name: model-sg-glm51
     command: >
       sglang serve
       --model-path zai-org/GLM-5.1-FP8
@@ -146,7 +146,7 @@ services:
       com.datadoghq.ad.check_names: '["openmetrics"]'
       com.datadoghq.ad.init_configs: "[{}]"
       com.datadoghq.ad.logs: '[{"source": "sglang", "service": "sglang", "tags":["model:zai-org/GLM-5.1-FP8","ip:${HOST_IP}","port:8000"]}]'
-      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://glm51:8000/metrics", "histogram_buckets_as_distributions": true, "metrics":["sglang:*"], "service": "glm-5.1", "tags":["model:zai-org/GLM-5.1-FP8","ip:${HOST_IP}","port:8000"]}]'
+      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://model-sg-glm51:8000/metrics", "histogram_buckets_as_distributions": true, "metrics":["sglang:*"], "service": "glm-5.1", "tags":["model:zai-org/GLM-5.1-FP8","ip:${HOST_IP}","port:8000"]}]'
 
   dcgm-exporter:
     image: nvcr.io/nvidia/k8s/dcgm-exporter:4.5.2-4.8.1-distroless
@@ -231,13 +231,13 @@ configs:
       # 1-token completion health check directly to model container (no auth needed)
       check_inference() {
         echo "Performing health check on model endpoint..."
-        curl -sSf --max-time 45 -X POST "http://glm51:8000/v1/chat/completions" \
+        curl -sSf --max-time 45 -X POST "http://model-sg-glm51:8000/v1/chat/completions" \
           -H "Content-Type: application/json" \
           -d '{"model":"zai-org/GLM-5.1-FP8","messages":[{"role":"user","content":"hi"}],"max_tokens":1}'
       }
 
       echo "Waiting for model to be ready..."
-      until curl -sf http://nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
+      until curl -sf http://proxy-nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
       echo "Model ready, starting registration loop"
 
       while true; do
diff --git a/GLM-5.yaml b/GLM-5.yaml
@@ -48,9 +48,9 @@ services:
     environment:
       - HF_TOKEN=${HUGGING_FACE_HUB_TOKEN}
 
-  nginx:
+  proxy-nginx:
     image: nginx@sha256:1d13701a5f9f3fb01aaa88cef2344d65b6b5bf6b7d9fa4cf0dca557a8d7702ba
-    container_name: nginx
+    container_name: proxy-nginx
     command: /bin/sh -c 'while :; do sleep 6h; nginx -s reload; done & nginx -g "daemon off;"'
     ports:
       - "8000:80"
@@ -91,22 +91,22 @@ services:
       - MODEL_NAME=zai-org/GLM-5-FP8
       - OHTTP_ENABLED=true
       - TOKEN=${PROXY_TOKEN}
-      - VLLM_BASE_URL=http://glm:8000
+      - VLLM_BASE_URL=http://model-sg-glm:8000
       - TLS_CERT_PATH=/etc/letsencrypt/live/completions.near.ai/fullchain.pem
       # Switches GPU evidence collection from the Python cc_admin
       # subprocess to the libnvat-based Rust SDK. Fleet-wide flip
       # 2026-05-08 after Phase 4 canary on gpu07 + qwen3-vl ran
       # clean for ~24h.
       - USE_NV_ATTESTATION_SDK=true
 
-  glm:
+  model-sg-glm:
     <<: *nvidia
     init: true
     depends_on:
       model-downloader:
         condition: service_completed_successfully
     image: lmsysorg/sglang:glm5-hopper@sha256:4680bebe1b0bdfa5a16bcb8ae410e8fc6e21c64f2b6e446e5b6d01f52347d3e9
-    container_name: glm
+    container_name: model-sg-glm
     command: >
       sglang serve
       --model-path zai-org/GLM-5-FP8
@@ -147,7 +147,7 @@ services:
       com.datadoghq.ad.check_names: '["openmetrics"]'
       com.datadoghq.ad.init_configs: "[{}]"
       com.datadoghq.ad.logs: '[{"source": "sglang", "service": "sglang", "tags":["model:zai-org/GLM-5-FP8","ip:${HOST_IP}","port:8000"]}]'
-      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://glm:8000/metrics", "histogram_buckets_as_distributions": true, "metrics":["sglang:*"], "service": "glm-5", "tags":["model:zai-org/GLM-5-FP8","ip:${HOST_IP}","port:8000"]}]'
+      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://model-sg-glm:8000/metrics", "histogram_buckets_as_distributions": true, "metrics":["sglang:*"], "service": "glm-5", "tags":["model:zai-org/GLM-5-FP8","ip:${HOST_IP}","port:8000"]}]'
 
   dcgm-exporter:
     image: nvcr.io/nvidia/k8s/dcgm-exporter:4.5.2-4.8.1-distroless
@@ -231,11 +231,11 @@ configs:
 
       #GET Health check for inference service
       check_inference() {
-        curl -sSf --max-time 10 "http://glm:8000/v1/models" 
+        curl -sSf --max-time 10 "http://model-sg-glm:8000/v1/models"
       }
 
       echo "Waiting for model to be ready..."
-      until curl -sf http://nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
+      until curl -sf http://proxy-nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
       echo "Model ready, starting registration loop"
 
       while true; do
diff --git a/Qwen3.5-122B.yaml b/Qwen3.5-122B.yaml
@@ -87,9 +87,9 @@ services:
       - HF_TOKEN=${HUGGING_FACE_HUB_TOKEN}
     logging: *logging-conf
 
-  nginx:
+  proxy-nginx:
     image: nginx@sha256:1d13701a5f9f3fb01aaa88cef2344d65b6b5bf6b7d9fa4cf0dca557a8d7702ba
-    container_name: nginx
+    container_name: proxy-nginx
     command: /bin/sh -c 'while :; do sleep 6h; nginx -s reload; done & nginx -g "daemon off;"'
     ports:
       - "8000:80"
@@ -121,9 +121,9 @@ services:
 
   # --- Single proxy for both backends ---
 
-  vllm-proxy-qwen35:
+  proxy-qwen35:
     <<: *vllm-proxy-common
-    container_name: vllm-proxy-qwen35
+    container_name: proxy-qwen35
     environment:
       - NVIDIA_VISIBLE_DEVICES=all
       - CLOUD_API_URL=https://cloud-api.near.ai
@@ -132,7 +132,7 @@ services:
       - MODEL_NAME=Qwen/Qwen3.5-122B-A10B
       - OHTTP_ENABLED=true
       - TOKEN=${PROXY_TOKEN}
-      - VLLM_BACKEND_URLS=http://vllm-qwen35-122b-1:8000,http://vllm-qwen35-122b-2:8000
+      - VLLM_BACKEND_URLS=http://model-vllm-qwen35-122b-1:8000,http://model-vllm-qwen35-122b-2:8000
       - VLLM_PROXY_MAX_REQUEST_SIZE=104857600
       - TLS_CERT_PATH=/etc/letsencrypt/live/completions.near.ai/fullchain.pem
       - USE_NV_ATTESTATION_SDK=true
@@ -141,9 +141,9 @@ services:
 
   # --- Qwen3.5-122B-A10B instance 1 (GPUs 0-3) ---
 
-  vllm-qwen35-122b-1:
+  model-vllm-qwen35-122b-1:
     <<: *vllm-qwen35-122b-common
-    container_name: vllm-qwen35-122b-1
+    container_name: model-vllm-qwen35-122b-1
     depends_on:
       model-downloader:
         condition: service_completed_successfully
@@ -158,13 +158,13 @@ services:
       com.datadoghq.ad.check_names: '["openmetrics"]'
       com.datadoghq.ad.init_configs: "[{}]"
       com.datadoghq.ad.logs: '[{"source": "vllm", "service": "vllm", "tags":["model:Qwen/Qwen3.5-122B-A10B","ip:${HOST_IP}","port:8000","instance:1"]}]'
-      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://vllm-qwen35-122b-1:8000/metrics", "metrics":["vllm:.*"], "histogram_buckets_as_distributions": true, "service": "vllm-qwen35-122b-1", "tags":["model:Qwen/Qwen3.5-122B-A10B","ip:${HOST_IP}","port:8000"]}]'
+      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://model-vllm-qwen35-122b-1:8000/metrics", "metrics":["vllm:.*"], "histogram_buckets_as_distributions": true, "service": "model-vllm-qwen35-122b-1", "tags":["model:Qwen/Qwen3.5-122B-A10B","ip:${HOST_IP}","port:8000"]}]'
 
   # --- Qwen3.5-122B-A10B instance 2 (GPUs 4-7) ---
 
-  vllm-qwen35-122b-2:
+  model-vllm-qwen35-122b-2:
     <<: *vllm-qwen35-122b-common
-    container_name: vllm-qwen35-122b-2
+    container_name: model-vllm-qwen35-122b-2
     depends_on:
       model-downloader:
         condition: service_completed_successfully
@@ -179,7 +179,7 @@ services:
       com.datadoghq.ad.check_names: '["openmetrics"]'
       com.datadoghq.ad.init_configs: "[{}]"
       com.datadoghq.ad.logs: '[{"source": "vllm", "service": "vllm", "tags":["model:Qwen/Qwen3.5-122B-A10B","ip:${HOST_IP}","port:8001","instance:2"]}]'
-      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://vllm-qwen35-122b-2:8000/metrics", "metrics":["vllm:.*"], "histogram_buckets_as_distributions": true, "service": "vllm-qwen35-122b-2", "tags":["model:Qwen/Qwen3.5-122B-A10B","ip:${HOST_IP}","port:8001"]}]'
+      com.datadoghq.ad.instances: '[{"openmetrics_endpoint":"http://model-vllm-qwen35-122b-2:8000/metrics", "metrics":["vllm:.*"], "histogram_buckets_as_distributions": true, "service": "model-vllm-qwen35-122b-2", "tags":["model:Qwen/Qwen3.5-122B-A10B","ip:${HOST_IP}","port:8001"]}]'
 
   dcgm-exporter:
     image: nvcr.io/nvidia/k8s/dcgm-exporter:4.5.2-4.8.1-distroless
@@ -262,13 +262,13 @@ configs:
       # Health check directly on backend (no auth needed on raw vLLM container)
       check_inference() {
         echo "Performing health check on backend..."
-        curl -sSf --max-time 45 -X POST "http://vllm-qwen35-122b-1:8000/v1/chat/completions" \
+        curl -sSf --max-time 45 -X POST "http://model-vllm-qwen35-122b-1:8000/v1/chat/completions" \
           -H "Content-Type: application/json" \
           -d '{"model":"Qwen/Qwen3.5-122B-A10B","messages":[{"role":"user","content":"hi"}],"max_tokens":1}'
       }
 
       echo "Waiting for model to be ready..."
-      until curl -sf http://nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
+      until curl -sf http://proxy-nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
       echo "Model ready, starting registration loop"
 
       while true; do
@@ -310,7 +310,7 @@ configs:
       # :80 — single proxy handles both backends
       server {
         listen 80 default_server;
-        location / { proxy_pass http://vllm-proxy-qwen35:8000; }
+        location / { proxy_pass http://proxy-qwen35:8000; }
       }
 
       ssl_certificate /etc/letsencrypt/live/completions.near.ai/fullchain.pem;
@@ -328,5 +328,5 @@ configs:
         # PINGs (http2_keep_alive_while_idle).
         keepalive_timeout 1h;
         keepalive_requests 1000000;
-        location / { proxy_pass http://vllm-proxy-qwen35:8000; }
+        location / { proxy_pass http://proxy-qwen35:8000; }
       }
diff --git a/gpt-oss-single.yaml b/gpt-oss-single.yaml
@@ -1,5 +1,5 @@
 services:
-  vllm-gpt-oss:
+  model-vllm-gpt-oss:
     image: vllm/vllm-openai@sha256:6766ce0c459e24b76f3e9ba14ffc0442131ef4248c904efdcbf0d89e38be01fe
     runtime: nvidia
     ipc: host
diff --git a/small-models.yaml b/small-models.yaml