GradientHQ
diff --git a/‎pyproject.toml‎
Lines changed: 5 additions & 5 deletions b/‎pyproject.toml‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎src/backend/main.py‎
Lines changed: 66 additions & 3 deletions b/‎src/backend/main.py‎
Lines changed: 66 additions & 3 deletions
diff --git a/‎src/backend/server/constants.py‎
Lines changed: 9 additions & 0 deletions b/‎src/backend/server/constants.py‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎src/backend/server/request_handler.py‎
Lines changed: 2 additions & 1 deletion b/‎src/backend/server/request_handler.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/backend/server/rpc_connection_handler.py‎
Lines changed: 4 additions & 15 deletions b/‎src/backend/server/rpc_connection_handler.py‎
Lines changed: 4 additions & 15 deletions
diff --git a/‎src/backend/server/scheduler_manage.py‎
Lines changed: 81 additions & 15 deletions b/‎src/backend/server/scheduler_manage.py‎
Lines changed: 81 additions & 15 deletions
diff --git a/‎src/backend/server/server_args.py‎
Lines changed: 2 additions & 4 deletions b/‎src/backend/server/server_args.py‎
Lines changed: 2 additions & 4 deletions
@@ -37,14 +37,14 @@ dependencies = [
 
 mac = [
   "torch==2.8.0",
-  "mlx-lm==0.26.4",
-  "mlx==0.28.0",
+  "mlx-lm==0.28.0",
+  "mlx==0.29.1",
 ]
 
 gpu = [
-  "mlx-lm==0.26.4",
-  "mlx[cpu]==0.28.0",
-  "sglang[all]==0.5.1.post3",
+  "mlx-lm==0.28.0",
+  "mlx[cpu]==0.29.1",
+  "sglang[all]==0.5.2",
 ]
 
 benchmark = [
 
@@ -1,12 +1,16 @@
+import asyncio
+import json
 import time
 import uuid
 
 import uvicorn
 from fastapi import FastAPI, Request
+from fastapi.responses import JSONResponse, StreamingResponse
 
 from backend.server.request_handler import RequestHandler
 from backend.server.scheduler_manage import SchedulerManage
 from backend.server.server_args import parse_args
+from backend.server.static_config import get_model_list, get_node_join_command
 from parallax_utils.logging_config import get_logger
 
 app = FastAPI()
@@ -27,6 +31,68 @@ async def hello():
     return {"message": "Hello, World!"}
 
 
+@app.get("/model/list")
+async def model_list():
+    return JSONResponse(
+        content={
+            "type": "model_list",
+            "data": get_model_list(),
+        },
+        status_code=200,
+    )
+
+
+@app.post("/scheduler/init")
+async def scheduler_init(raw_request: Request):
+    request_data = await raw_request.json()
+    model_name = request_data.get("model_name")
+    init_nodes_num = request_data.get("init_nodes_num")
+    is_local_network = request_data.get("is_local_network")
+    if scheduler_manage.is_running():
+        # todo reinit
+        pass
+    else:
+        scheduler_manage.run(model_name, init_nodes_num, is_local_network)
+    return JSONResponse(
+        content={
+            "type": "scheduler_init",
+            "data": None,
+        },
+        status_code=200,
+    )
+
+
+@app.get("/node/join/command")
+async def node_join_command():
+    model_name = scheduler_manage.get_model_name()
+    is_local_network = scheduler_manage.get_is_local_network()
+
+    return JSONResponse(
+        content={
+            "type": "node_join_command",
+            "data": get_node_join_command(model_name, "${scheduler_addr}", is_local_network),
+        },
+        status_code=200,
+    )
+
+
+@app.get("/cluster/status")
+async def cluster_status():
+    async def stream_cluster_status():
+        while True:
+            yield json.dumps(scheduler_manage.get_cluster_status(), ensure_ascii=False) + "\n"
+            await asyncio.sleep(1)
+
+    return StreamingResponse(
+        stream_cluster_status(),
+        media_type="application/x-ndjson",
+        headers={
+            "Cache-Control": "no-cache",
+            "Connection": "keep-alive",
+        },
+    )
+
+
 @app.post("/v1/completions")
 async def openai_v1_completions(raw_request: Request):
     request_data = await raw_request.json()
@@ -70,9 +136,6 @@ async def openai_v1_chat_completions(raw_request: Request):
     init_nodes_num = args.init_nodes_num
     if model_name is not None and init_nodes_num is not None:
         scheduler_manage.run(model_name, init_nodes_num)
-    else:
-        logger.error("model_name and init_nodes_num are not set")
-        exit(1)
 
     port = args.port
 
 
@@ -0,0 +1,9 @@
+# Cluster status constants
+CLUSTER_STATUS_WAITING = "waiting"
+CLUSTER_STATUS_AVAILABLE = "available"
+CLUSTER_STATUS_REBALANCING = "rebalancing"
+
+# Node status constants
+NODE_STATUS_WAITING = "waiting"
+NODE_STATUS_AVAILABLE = "available"
+NODE_STATUS_FAILED = "failed"
@@ -4,6 +4,7 @@
 from fastapi import HTTPException
 from fastapi.responses import JSONResponse, StreamingResponse
 
+from backend.server.constants import NODE_STATUS_AVAILABLE
 from parallax_utils.logging_config import get_logger
 
 logger = get_logger(__name__)
@@ -37,7 +38,7 @@ async def _forward_request(
         )
         if (
             self.scheduler_manage is None
-            or not self.scheduler_manage.get_schedule_status() == "success"
+            or not self.scheduler_manage.get_schedule_status() == NODE_STATUS_AVAILABLE
         ):
             return JSONResponse(
                 content={"error": "Server is not ready"},
 
@@ -28,21 +28,6 @@ def __init__(
 
     @rpc_stream
     def node_join(self, message):
-        # node = {
-        #     "call_url": "http://127.0.0.1:8000",
-        #     "node_id": "lattica peer id",
-        #     "hardware": {
-        #         "node_id": "lattica peer id",
-        #         "tflops_fp16": 100,
-        #         "memory_gb": 100,
-        #         "memory_bandwidth_gbps": 100,
-        #     },
-        #     "model_name": "",
-        #     "kv_cache_ratio": 0.3,
-        #     "param_hosting_ratio": 0.5,
-        #     "max_concurrent_requests": 16,
-        #     "max_sequence_length": 1024,
-        # }
         logger.info(f"receive node_join request: {message}")
         try:
             node = self.build_node(message)
@@ -78,6 +63,7 @@ def node_update(self, message):
                 current_requests=node.current_requests,
                 layer_latency_ms=node.layer_latency_ms,
                 new_rtt_to_nodes=node.rtt_to_nodes,
+                is_active=node.is_active,
             )
             return {}
         except Exception as e:
@@ -110,6 +96,7 @@ def build_node(self, node_json: dict):
             param_hosting_ratio=node_json.get("param_hosting_ratio"),
             max_concurrent_requests=node_json.get("max_concurrent_requests"),
             max_sequence_length=node_json.get("max_sequence_length"),
+            is_active=node_json.get("is_active", True),
         )
         if node_json.get("start_layer", None) is not None:
             node.start_layer = node_json.get("start_layer")
@@ -126,11 +113,13 @@ def build_node(self, node_json: dict):
     def build_hardware(self, hardware_json):
         node_id = hardware_json.get("node_id")
         tflops_fp16 = hardware_json.get("tflops_fp16")
+        gpu_name = hardware_json.get("gpu_name")
         memory_gb = hardware_json.get("memory_gb")
         memory_bandwidth_gbps = hardware_json.get("memory_bandwidth_gbps")
         return NodeHardwareInfo(
             node_id=node_id,
             tflops_fp16=tflops_fp16,
+            gpu_name=gpu_name,
             memory_gb=memory_gb,
             memory_bandwidth_gbps=memory_bandwidth_gbps,
         )
 
@@ -4,8 +4,9 @@
 
 from lattica import Lattica
 
+from backend.server.constants import NODE_STATUS_AVAILABLE, NODE_STATUS_WAITING
 from backend.server.rpc_connection_handler import RPCConnectionHandler
-from backend.server.static_config import get_model_info
+from backend.server.static_config import get_model_info, get_node_join_command
 from parallax_utils.logging_config import get_logger
 from scheduling.node import RequestSignal
 from scheduling.scheduler import Scheduler
@@ -14,7 +15,8 @@
 
 
 class SchedulerManage:
-    """Coordinates the in-process scheduler and the P2P RPC layer.
+    """
+    Coordinates the in-process scheduler and the P2P RPC layer.
 
     This manager owns the `Scheduler` instance and the Lattica P2P node,
     wiring RPC calls from workers to scheduler events.
@@ -35,28 +37,81 @@ def __init__(
         self.host_maddrs = host_maddrs
         self.announce_maddrs = announce_maddrs
 
+        self.model_name = None
+        self.init_nodes_num = None
         self.scheduler = None
         self.node_id = f"{dht_prefix}_announce"
         self.lattica = None
         self.stubs = {}
+        self.is_local_network = False
 
-    def run(self, model_name, init_nodes_num):
-        """Start the scheduler and the P2P service for RPC handling."""
+    def run(self, model_name, init_nodes_num, is_local_network=False):
+        """
+        Start the scheduler and the P2P service for RPC handling.
+        """
         logger.info(
             f"SchedulerManage starting: model_name={model_name}, init_nodes_num={init_nodes_num}"
         )
+        self.is_local_network = is_local_network
         self._start_scheduler(model_name, init_nodes_num)
         self._start_lattica()
 
+    def is_running(self):
+        """
+        Returns True if the scheduler is running, False otherwise.
+        """
+        return self.scheduler is not None
+
+    def get_model_name(self):
+        return self.model_name
+
+    def get_init_nodes_num(self):
+        return self.init_nodes_num
+
+    def get_is_local_network(self):
+        return self.is_local_network
+
+    def get_cluster_status(self):
+        return {
+            "type": "cluster_status",
+            "data": {
+                "status": self.get_schedule_status(),
+                "model_name": self.model_name,
+                "init_nodes_num": self.init_nodes_num,
+                "node_join_command": get_node_join_command(
+                    self.model_name, "${scheduler_addr}", self.is_local_network
+                ),
+                "node_list": self.get_node_list(),
+            },
+        }
+
+    def get_node_list(self):
+        if self.scheduler is None:
+            return []
+
+        return [self.build_node_info(node) for node in self.scheduler.nodes]
+
+    def build_node_info(self, node):
+        return {
+            "node_id": node.node_id,
+            "status": NODE_STATUS_AVAILABLE if node.is_active else NODE_STATUS_WAITING,
+            "gpu_name": node.hardware.gpu_name,
+            "gpu_memory": node.hardware.memory_gb,
+        }
+
     def _start_scheduler(self, model_name, init_nodes_num):
-        """Create the scheduler and start its background run loop if needed."""
+        """
+        Create the scheduler and start its background run loop if needed.
+        """
         if self.scheduler is not None:
             logger.info("Scheduler already started; skipping re-initialization")
             return
 
-        mode_info = get_model_info(model_name)
-        # 初始化 scheduler
-        self.scheduler = Scheduler(mode_info, [], min_nodes_bootstrapping=init_nodes_num)
+        self.model_name = model_name
+        self.init_nodes_num = init_nodes_num
+
+        model_info = get_model_info(model_name)
+        self.scheduler = Scheduler(model_info, [], min_nodes_bootstrapping=init_nodes_num)
 
         # Run the scheduler's event/dispatch loops in background so the process
         # can continue to serve RPCs and HTTP traffic.
@@ -69,7 +124,9 @@ def _start_scheduler(self, model_name, init_nodes_num):
         logger.info("Scheduler background thread started (poll_interval=0.05)")
 
     def _start_lattica(self):
-        """Initialize and start the Lattica P2P node used for RPCs."""
+        """
+        Initialize and start the Lattica P2P node used for RPCs.
+        """
         logger.info(
             f"Starting Lattica with host_maddrs={self.host_maddrs}, mdns=False, dht_prefix={self.dht_prefix}"
         )
@@ -113,12 +170,12 @@ def get_routing_table(self, request_id, received_ts):
         request = RequestSignal(request_id, received_ts)
         self.scheduler.receive_request(request)
 
-        # 等待最长 5s, 但如果路由表已被设置（包括空列表），则立即返回
+        # Wait up to 5 seconds, but return immediately if the routing table is set (including an empty list)
         start_time = time.time()
         while request.routing_table is None and (time.time() - start_time) < 5.0:
             time.sleep(0.05)
 
-        # 返回routing_table
+        # Return the routing_table
         if request.routing_table is None:
             logger.info(
                 f"Routing table not ready after {(time.time() - start_time):.2f}s for request_id={request_id}"
@@ -130,17 +187,26 @@ def get_routing_table(self, request_id, received_ts):
         return request.routing_table
 
     def get_schedule_status(self):
-        """Return whether a full pipeline has been allocated across joined nodes."""
+        """
+        Return whether a full pipeline has been allocated across joined nodes.
+        """
         if self.scheduler is None:
             logger.info("SchedulerManage status queried: waiting (scheduler not initialized)")
-            return "waiting"
+            return NODE_STATUS_WAITING
 
-        status = "success" if self.scheduler.layer_allocator.has_full_pipeline() else "waiting"
+        # todo rebalance status
+        status = (
+            NODE_STATUS_AVAILABLE
+            if self.scheduler.layer_allocator.has_full_pipeline()
+            else NODE_STATUS_WAITING
+        )
         logger.info(f"SchedulerManage status queried: {status}")
         return status
 
     def get_call_url_by_node_id(self, node_id):
-        """Lookup the HTTP endpoint for a given node id managed by the RPC layer."""
+        """
+        Lookup the HTTP endpoint for a given node id managed by the RPC layer.
+        """
         url = self.connection_handler.get_call_url_by_node_id(node_id)
         logger.info(f"Lookup call_url for node_id={node_id} -> {url}")
         return url
@@ -29,11 +29,9 @@ def parse_args() -> argparse.Namespace:
 
     parser.add_argument("--port", type=int, default=5000, help="Port to listen on")
 
-    parser.add_argument(
-        "--model-name", type=str, default="Qwen/Qwen3-0.6B-MLX-bf16", help="Model name"
-    )
+    parser.add_argument("--model-name", type=str, default=None, help="Model name")
 
-    parser.add_argument("--init-nodes-num", type=int, default=1, help="Number of initial nodes")
+    parser.add_argument("--init-nodes-num", type=int, default=None, help="Number of initial nodes")
 
     args = parser.parse_args()