feat: add model-proxy registrar, fix vLLM 0.16 speculative config

Evrard-Nil · Evrard-Nil · commit d92a32ec6fcb · 2026-03-04T13:56:41.000+01:00
Add model-proxy-registrar sidecar to all model configs for automatic
endpoint/model registration with the proxy fleet.

Remove prefill_token_shift and num_draft_tokens from Qwen3-30B
speculative config — these params were removed in vLLM v0.16.0.
diff --git a/DeepSeek-V3.1.yaml b/DeepSeek-V3.1.yaml
@@ -59,6 +59,22 @@ services:
     restart: unless-stopped
     logging: *logging-conf
 
+  model-proxy-registrar:
+    image: curlimages/curl@sha256:d94d07ba9e7d6de898b6d96c1a072f6f8266c687af78a74f380087a0addf5d17
+    container_name: model-proxy-registrar
+    entrypoint: ["sh", "/register.sh"]
+    restart: unless-stopped
+    environment:
+      - HOST_IP=${HOST_IP}
+      - HTTP_PORT=${HTTP_PORT:-8000}
+      - TLS_PORT=${TLS_PORT:-8444}
+      - MODEL_PROXY_TOKEN=${MODEL_PROXY_TOKEN}
+    configs:
+      - source: registrar_script
+        target: /register.sh
+        mode: 0755
+    logging: *logging-conf
+
   vllm-proxy-deepseek:
     <<: *vllm-proxy-common
     container_name: vllm-proxy-deepseek
@@ -183,6 +199,36 @@ configs:
               proxy_read_timeout 300s;
           }
       }
+  registrar_script:
+    content: |
+      #!/bin/sh
+      PROXY_URL="https://completions.near.ai"
+      TOKEN="$${MODEL_PROXY_TOKEN}"
+
+      register_endpoint() {
+        curl -sS -X POST "$$PROXY_URL/register/endpoint" \
+          -H "Authorization: Bearer $$TOKEN" \
+          -H "Content-Type: application/json" \
+          -d "{\"endpoint\":\"$$1\",\"routing_port\":$$2}" || true
+      }
+
+      register_model() {
+        curl -sS -X POST "$$PROXY_URL/register/model" \
+          -H "Authorization: Bearer $$TOKEN" \
+          -H "Content-Type: application/json" \
+          -d "{\"model\":\"$$1\",\"domain\":\"$$2\"}" || true
+      }
+
+      echo "Waiting for model to be ready..."
+      until curl -sf http://nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
+      echo "Model ready, starting registration loop"
+
+      while true; do
+        register_endpoint "$${HOST_IP}:$${HTTP_PORT}" "$${TLS_PORT}"
+        register_model "deepseek-ai/DeepSeek-V3.1" "deepseek-v31.completions.near.ai"
+        echo "Registered deepseek-ai/DeepSeek-V3.1 at $${HOST_IP}:$${HTTP_PORT}"
+        sleep 300
+      done
   chat_template_deepseek:
     content: |
       {% if not add_generation_prompt is defined %}
diff --git a/GLM-5.yaml b/GLM-5.yaml
@@ -51,6 +51,22 @@ services:
     restart: unless-stopped
     logging: *logging-conf
 
+  model-proxy-registrar:
+    image: curlimages/curl@sha256:d94d07ba9e7d6de898b6d96c1a072f6f8266c687af78a74f380087a0addf5d17
+    container_name: model-proxy-registrar
+    entrypoint: ["sh", "/register.sh"]
+    restart: unless-stopped
+    environment:
+      - HOST_IP=${HOST_IP}
+      - HTTP_PORT=${HTTP_PORT:-8000}
+      - TLS_PORT=${TLS_PORT:-8444}
+      - MODEL_PROXY_TOKEN=${MODEL_PROXY_TOKEN}
+    configs:
+      - source: registrar_script
+        target: /register.sh
+        mode: 0755
+    logging: *logging-conf
+
   proxy-glm:
     <<: *vllm-proxy-common
     container_name: proxy-glm
@@ -122,6 +138,36 @@ volumes:
 
 
 configs:
+  registrar_script:
+    content: |
+      #!/bin/sh
+      PROXY_URL="https://completions.near.ai"
+      TOKEN="$${MODEL_PROXY_TOKEN}"
+
+      register_endpoint() {
+        curl -sS -X POST "$$PROXY_URL/register/endpoint" \
+          -H "Authorization: Bearer $$TOKEN" \
+          -H "Content-Type: application/json" \
+          -d "{\"endpoint\":\"$$1\",\"routing_port\":$$2}" || true
+      }
+
+      register_model() {
+        curl -sS -X POST "$$PROXY_URL/register/model" \
+          -H "Authorization: Bearer $$TOKEN" \
+          -H "Content-Type: application/json" \
+          -d "{\"model\":\"$$1\",\"domain\":\"$$2\"}" || true
+      }
+
+      echo "Waiting for model to be ready..."
+      until curl -sf http://nginx:80/v1/models > /dev/null 2>&1; do sleep 30; done
+      echo "Model ready, starting registration loop"
+
+      while true; do
+        register_endpoint "$${HOST_IP}:$${HTTP_PORT}" "$${TLS_PORT}"
+        register_model "zai-org/GLM-5-FP8" "glm-5.completions.near.ai"
+        echo "Registered zai-org/GLM-5-FP8 at $${HOST_IP}:$${HTTP_PORT}"
+        sleep 300
+      done
   nginx_conf:
     content: |
       server {
diff --git a/Qwen3.5-122B.yaml b/Qwen3.5-122B.yaml
@@ -82,6 +82,21 @@ services:
     restart: unless-stopped
     logging: *logging-conf
 
+  model-proxy-registrar:
+    image: curlimages/curl@sha256:d94d07ba9e7d6de898b6d96c1a072f6f8266c687af78a74f380087a0addf5d17
+    container_name: model-proxy-registrar
+    entrypoint: ["sh", "/register.sh"]
+    restart: unless-stopped
+    environment:
+      - HOST_IP=${HOST_IP}
+      - TLS_PORT=${TLS_PORT:-8444}
+      - MODEL_PROXY_TOKEN=${MODEL_PROXY_TOKEN}
+    configs:
+      - source: registrar_script
+        target: /register.sh
+        mode: 0755
+    logging: *logging-conf
+
   # --- Qwen3.5-122B-A10B instance 1 (GPUs 0-3) ---
 
   sglang-qwen35-122b-1:
@@ -152,6 +167,39 @@ volumes:
     name: certs
 
 configs:
+  registrar_script:
+    content: |
+      #!/bin/sh
+      PROXY_URL="https://completions.near.ai"
+      TOKEN="$${MODEL_PROXY_TOKEN}"
+
+      register_endpoint() {
+        curl -sS -X POST "$$PROXY_URL/register/endpoint" \
+          -H "Authorization: Bearer $$TOKEN" \
+          -H "Content-Type: application/json" \
+          -d "{\"endpoint\":\"$$1\",\"routing_port\":$$2}" || true
+      }
+
+      register_model() {
+        curl -sS -X POST "$$PROXY_URL/register/model" \
+          -H "Authorization: Bearer $$TOKEN" \
+          -H "Content-Type: application/json" \
+          -d "{\"model\":\"$$1\",\"domain\":\"$$2\"}" || true
+      }
+
+      echo "Waiting for models to be ready..."
+      until curl -sf http://nginx:8000/v1/models > /dev/null 2>&1; do sleep 30; done
+      echo "Instance 1 ready, starting registration loop"
+
+      while true; do
+        register_endpoint "$${HOST_IP}:8000" "$${TLS_PORT}"
+        if curl -sf http://nginx:8001/v1/models > /dev/null 2>&1; then
+          register_endpoint "$${HOST_IP}:8001" "$${TLS_PORT}"
+        fi
+        register_model "Qwen/Qwen3.5-122B-A10B" "qwen35-122b.completions.near.ai"
+        echo "Registered Qwen/Qwen3.5-122B-A10B at $${HOST_IP}:8000,8001"
+        sleep 300
+      done
   nginx_conf:
     content: |
       proxy_http_version 1.1;
diff --git a/small-models.yaml b/small-models.yaml
@@ -148,6 +148,20 @@ services:
     restart: unless-stopped
     logging: *logging-conf
 
+  model-proxy-registrar:
+    image: curlimages/curl@sha256:d94d07ba9e7d6de898b6d96c1a072f6f8266c687af78a74f380087a0addf5d17
+    container_name: model-proxy-registrar
+    entrypoint: ["sh", "/register.sh"]
+    restart: unless-stopped
+    environment:
+      - HOST_IP=${HOST_IP}
+      - MODEL_PROXY_TOKEN=${MODEL_PROXY_TOKEN}
+    configs:
+      - source: registrar_script
+        target: /register.sh
+        mode: 0755
+    logging: *logging-conf
+
   # --- Qwen3-30B (GPUs 0-1) ---
 
   vllm-proxy-qwen3-30b:
@@ -179,7 +193,7 @@ services:
         --load-format runai_streamer
         --dtype float16
         --model-loader-extra-config '{"distributed":true, "concurrency":48}'
-        --speculative-config '{"method":"eagle3","model":"lmsys/SGLang-EAGLE3-Qwen3-30B-A3B-Instruct-2507-SpecForge-Nex","prefill_token_shift":false,"num_speculative_tokens":3,"draft_tensor_parallel_size":1, "num_draft_tokens":4}'
+        --speculative-config '{"method":"eagle3","model":"lmsys/SGLang-EAGLE3-Qwen3-30B-A3B-Instruct-2507-SpecForge-Nex","num_speculative_tokens":3,"draft_tensor_parallel_size":1}'
     volumes:
       - hugginface_cache:/root/.cache/huggingface
       - vllm_cache:/root/.cache/vllm
@@ -506,6 +520,51 @@ volumes:
     name: certs
 
 configs:
+  registrar_script:
+    content: |
+      #!/bin/sh
+      PROXY_URL="https://completions.near.ai"
+      TOKEN="$${MODEL_PROXY_TOKEN}"
+      TLS_PORT=8444
+
+      register_endpoint() {
+        curl -sS -X POST "$$PROXY_URL/register/endpoint" \
+          -H "Authorization: Bearer $$TOKEN" \
+          -H "Content-Type: application/json" \
+          -d "{\"endpoint\":\"$$1\",\"routing_port\":$$TLS_PORT}" || true
+      }
+
+      register_model() {
+        curl -sS -X POST "$$PROXY_URL/register/model" \
+          -H "Authorization: Bearer $$TOKEN" \
+          -H "Content-Type: application/json" \
+          -d "{\"model\":\"$$1\",\"domain\":\"$$2\"}" || true
+      }
+
+      echo "Waiting for first model to be ready..."
+      until curl -sf http://nginx:8000/v1/models > /dev/null 2>&1; do sleep 30; done
+      echo "First model ready, starting registration loop"
+
+      while true; do
+        # Register each endpoint if healthy
+        for port in 8000 8001 8002 8003 8004 8005 8006 8007 8008 8009 8010; do
+          if curl -sf "http://nginx:$$port/v1/models" > /dev/null 2>&1; then
+            register_endpoint "$${HOST_IP}:$$port" "$$TLS_PORT"
+          fi
+        done
+
+        # Model-to-domain mappings
+        register_model "Qwen/Qwen3-30B-A3B-Instruct-2507" "qwen3-30b.completions.near.ai"
+        register_model "openai/gpt-oss-120b" "gpt-oss-120b.completions.near.ai"
+        register_model "black-forest-labs/FLUX.2-klein-4B" "flux2-klein.completions.near.ai"
+        register_model "Qwen/Qwen3-VL-30B-A3B-Instruct" "qwen3-vl-30b.completions.near.ai"
+        register_model "Qwen/Qwen3-Embedding-0.6B" "qwen3-embedding.completions.near.ai"
+        register_model "Qwen/Qwen3-Reranker-0.6B" "qwen3-reranker.completions.near.ai"
+        register_model "openai/whisper-large-v3" "whisper-large-v3.completions.near.ai"
+
+        echo "Registration cycle complete for $${HOST_IP}"
+        sleep 300
+      done
   nginx_conf:
     content: |
       # Common proxy settings