HabanaAI
diff --git a/‎pd_xpyd/1p1d_mooncake_d.json
Lines changed: 4 additions & 4 deletions b/‎pd_xpyd/1p1d_mooncake_d.json
Lines changed: 4 additions & 4 deletions
diff --git a/‎pd_xpyd/1p1d_mooncake_p.json
Lines changed: 4 additions & 4 deletions b/‎pd_xpyd/1p1d_mooncake_p.json
Lines changed: 4 additions & 4 deletions
diff --git a/‎pd_xpyd/1p1d_start_decode.sh
Lines changed: 1 addition & 1 deletion b/‎pd_xpyd/1p1d_start_decode.sh
Lines changed: 1 addition & 1 deletion
diff --git a/‎pd_xpyd/1p1d_start_prefill.sh
Lines changed: 1 addition & 1 deletion b/‎pd_xpyd/1p1d_start_prefill.sh
Lines changed: 1 addition & 1 deletion
diff --git a/‎pd_xpyd/2p2d_mooncake_d.json renamed to ‎pd_xpyd/2p2d_mooncake_d0.json b/‎pd_xpyd/2p2d_mooncake_d.json renamed to ‎pd_xpyd/2p2d_mooncake_d0.json
diff --git a/‎pd_xpyd/2p2d_mooncake_p.json renamed to ‎pd_xpyd/2p2d_mooncake_p0.json b/‎pd_xpyd/2p2d_mooncake_p.json renamed to ‎pd_xpyd/2p2d_mooncake_p0.json
diff --git a/‎pd_xpyd/2p2d_start_decode.sh
Lines changed: 0 additions & 47 deletions b/‎pd_xpyd/2p2d_start_decode.sh
Lines changed: 0 additions & 47 deletions
diff --git a/‎pd_xpyd/2p2d_start_prefill.sh
Lines changed: 0 additions & 50 deletions b/‎pd_xpyd/2p2d_start_prefill.sh
Lines changed: 0 additions & 50 deletions
diff --git a/‎pd_xpyd/2p4d_mooncake_d2.json
Lines changed: 7 additions & 0 deletions b/‎pd_xpyd/2p4d_mooncake_d2.json
Lines changed: 7 additions & 0 deletions
diff --git a/‎pd_xpyd/2p4d_mooncake_d3.json
Lines changed: 7 additions & 0 deletions b/‎pd_xpyd/2p4d_mooncake_d3.json
Lines changed: 7 additions & 0 deletions
diff --git a/‎pd_xpyd/4p2d_start_proxy.sh
Lines changed: 40 additions & 0 deletions b/‎pd_xpyd/4p2d_start_proxy.sh
Lines changed: 40 additions & 0 deletions
diff --git a/‎pd_xpyd/curl.sh
Lines changed: 1 addition & 1 deletion b/‎pd_xpyd/curl.sh
Lines changed: 1 addition & 1 deletion
diff --git a/‎pd_xpyd/dp0_2p2d_start_decode.sh renamed to ‎pd_xpyd/dp0_xp2d_start_decode.sh
Lines changed: 2 additions & 2 deletions b/‎pd_xpyd/dp0_2p2d_start_decode.sh renamed to ‎pd_xpyd/dp0_xp2d_start_decode.sh
Lines changed: 2 additions & 2 deletions
diff --git a/‎pd_xpyd/dp0_xp4d_start_decode.sh
Lines changed: 49 additions & 0 deletions b/‎pd_xpyd/dp0_xp4d_start_decode.sh
Lines changed: 49 additions & 0 deletions
diff --git a/‎pd_xpyd/dp1_2p2d_start_decode.sh renamed to ‎pd_xpyd/dp1_xp2d_start_decode.sh
Lines changed: 1 addition & 1 deletion b/‎pd_xpyd/dp1_2p2d_start_decode.sh renamed to ‎pd_xpyd/dp1_xp2d_start_decode.sh
Lines changed: 1 addition & 1 deletion
diff --git a/‎pd_xpyd/dp1_xp4d_start_decode.sh
Lines changed: 49 additions & 0 deletions b/‎pd_xpyd/dp1_xp4d_start_decode.sh
Lines changed: 49 additions & 0 deletions
diff --git a/‎pd_xpyd/dp2_xp4d_start_decode.sh
Lines changed: 49 additions & 0 deletions b/‎pd_xpyd/dp2_xp4d_start_decode.sh
Lines changed: 49 additions & 0 deletions
@@ -1,7 +1,7 @@
 {
-    "local_hostname": "192.168.100.232",
+    "local_hostname": "192.168.100.231",
     "metadata_server": "etcd://10.239.129.81:2379",
-    "protocol": "tcp",
-    "device_name": "",
-    "master_server_address": "192.168.100.222:50001"
+    "protocol": "rdma",
+    "device_name": "mlx5_0",
+    "master_server_address": "192.168.100.221:50001"
 }
@@ -1,7 +1,7 @@
 {
-    "local_hostname": "192.168.100.222",
+    "local_hostname": "192.168.100.221",
     "metadata_server": "etcd://10.239.129.81:2379",
-    "protocol": "tcp",
-    "device_name": "",
-    "master_server_address": "192.168.100.222:50001"
+    "protocol": "rdma",
+    "device_name": "mlx5_0",
+    "master_server_address": "192.168.100.221:50001"
 }
@@ -44,7 +44,7 @@ export VLLM_HPU_LOG_STEP_GRAPH_COMPILATION=true
 export GRAPH_VISUALIZATION=1
 export PT_HPU_METRICS_GC_DETAILS=1
 
-export VLLM_SKIP_WARMUP=False
+export VLLM_SKIP_WARMUP=True
 #export PT_HPU_RECIPE_CACHE_CONFIG=./_decode_cache,false,16384
 
 python3 -m vllm.entrypoints.openai.api_server --model $model_path --port 8200 --max-model-len $model_len --gpu-memory-utilization $VLLM_GPU_MEMORY_UTILIZATION -tp 8 --max-num-seqs $max_num_seqs --trust-remote-code --kv-cache-dtype fp8_inc --disable-log-requests --max-num-batched-tokens $max_num_batched_tokens --use-padding-aware-scheduling --use-v2-block-manager --distributed_executor_backend ray --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_consumer"}'
@@ -47,7 +47,7 @@ export VLLM_HPU_LOG_STEP_GRAPH_COMPILATION=true
 export GRAPH_VISUALIZATION=1
 export PT_HPU_METRICS_GC_DETAILS=1
 
-export VLLM_SKIP_WARMUP=False
+export VLLM_SKIP_WARMUP=True
 #export PT_HPU_RECIPE_CACHE_CONFIG=./_prefill_cache,false,16384
 
 python3 -m vllm.entrypoints.openai.api_server --model $model_path --port 8100 --max-model-len $model_len --gpu-memory-utilization $VLLM_GPU_MEMORY_UTILIZATION -tp 8  --max-num-seqs $max_num_seqs --trust-remote-code --disable-async-output-proc --kv-cache-dtype fp8_inc --disable-log-requests --max-num-batched-tokens $max_num_batched_tokens --use-padding-aware-scheduling --use-v2-block-manager --distributed_executor_backend ray --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_producer"}'
@@ -0,0 +1,7 @@
+{
+    "local_hostname": "192.168.100.241",
+    "metadata_server": "etcd://10.239.129.9:2379",
+    "protocol": "rdma",
+    "device_name": "mlx5_0",
+    "master_server_address": "192.168.100.191:50001"
+}
@@ -0,0 +1,7 @@
+{
+    "local_hostname": "192.168.100.91",
+    "metadata_server": "etcd://10.239.129.9:2379",
+    "protocol": "rdma",
+    "device_name": "mlx5_0",
+    "master_server_address": "192.168.100.191:50001"
+}
@@ -0,0 +1,40 @@
+set +x
+#export MODEL_PATH=/software/data/models/DeepSeek-R1-BF16-w8afp8-static-no-ste-G2/
+export MODEL_PATH=/mnt/disk2/hf_models/DeepSeek-R1-BF16-w8afp8-static-no-ste-G2/
+
+if [ -z "$1" ]; then
+    echo "please input the dp size per node, for example, 16dp on 2 node, run the xxx.sh 8"
+    echo "run with default mode n=8"
+    NUM_DECODE=8
+else
+    NUM_DECODE=$1
+fi
+
+DECODE_IPS=("10.239.129.81" "10.239.129.165")
+DBASE_PORT=8200
+DECODE_ARGS=""
+
+for ((i=0; i<$NUM_DECODE; i++)); do
+    PORT=$((DBASE_PORT + i))
+    for IP in "${DECODE_IPS[@]}"; do
+        DECODE_ARGS="$DECODE_ARGS ${IP}:${PORT}"
+    done
+done
+
+
+PREFILL_IPS=("10.239.129.9" "10.239.129.67")
+PBASE_PORT=8100
+PREFILL_ARGS=""
+
+for ((i=0; i<2; i++)); do
+    PORT=$((PBASE_PORT))
+    for IP in "${PREFILL_IPS[@]}"; do
+        PREFILL_ARGS="$PREFILL_ARGS ${IP}:${PORT}"
+    done
+done
+
+python3 ./examples/online_serving/disagg_examples/disagg_proxy_demo.py \
+    --model $MODEL_PATH \
+    --prefill $PREFILL_ARGS \
+    --decode $DECODE_ARGS \
+    --port 8868
@@ -1,4 +1,4 @@
-curl http://127.0.0.1:8868/v1/completions \
+curl http://10.239.129.9:8868/v1/completions \
     -H "Content-Type: application/json" \
     -d '{
         "model": "/mnt/disk2/hf_models/DeepSeek-R1-BF16-w8afp8-static-no-ste-G2/",
 
@@ -1,8 +1,8 @@
 #!/bin/bash
 #set -x
 BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
-source ./pd_xpyd/dp_env.sh
-export MOONCAKE_CONFIG_PATH=./pd_xpyd/2p2d_mooncake_d.json
+source ./pd_xpyd/dp_d_env.sh
+export MOONCAKE_CONFIG_PATH=./pd_xpyd/2p2d_mooncake_d0.json
 
 TOTAL_INSTANCES=8
 
 
@@ -0,0 +1,49 @@
+#!/bin/bash
+set -x
+BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
+source ./pd_xpyd/dp_d_env.sh
+export MOONCAKE_CONFIG_PATH=./pd_xpyd/2p2d_mooncake_d0.json
+
+export VLLM_DP_SIZE=32
+export VLLM_EP_SIZE=32
+
+TOTAL_INSTANCES=8
+
+if [ -z "$1" ]; then
+    echo "please input the dp size per node, for example, 16dp on 2 node, run the xxx.sh 8"
+    echo "run with default mode n=8"
+    NUM_GROUPS=8
+else
+    NUM_GROUPS=${1:-1}
+fi
+
+NUM_INSTANCES=$((TOTAL_INSTANCES / NUM_GROUPS))
+
+dp_size=$((4 * NUM_GROUPS))
+export VLLM_DP_SIZE=$dp_size
+
+for ((i=0; i<NUM_GROUPS; i++))
+do
+  
+  RANK=$((0 + i))
+  port=$((8200 + i))
+  
+  VLLM_DP_RANK=$RANK python3 -m vllm.entrypoints.openai.api_server \
+    --model "$model_path" \
+    --port "$port" \
+    --max-model-len "$model_len" \
+    --gpu-memory-utilization "$VLLM_GPU_MEMORY_UTILIZATION" \
+    -tp $NUM_INSTANCES \
+    --max-num-seqs "$max_num_seqs" \
+    --trust-remote-code \
+    --kv-cache-dtype fp8_inc \
+    --disable-log-requests \
+    --max-num-batched-tokens "$max_num_batched_tokens" \
+    --use-padding-aware-scheduling \
+    --use-v2-block-manager \
+    --distributed_executor_backend mp \
+    --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_consumer"}' &
+done
+
+wait
+
@@ -1,7 +1,7 @@
 #!/bin/bash
 #set -x
 BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
-source ./pd_xpyd/dp_env.sh
+source ./pd_xpyd/dp_d_env.sh
 export MOONCAKE_CONFIG_PATH=./pd_xpyd/2p2d_mooncake_d1.json
 
 TOTAL_INSTANCES=8
 
@@ -0,0 +1,49 @@
+#!/bin/bash
+set -x
+BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
+source ./pd_xpyd/dp_d_env.sh
+export MOONCAKE_CONFIG_PATH=./pd_xpyd/2p2d_mooncake_d1.json
+
+export VLLM_DP_SIZE=32
+export VLLM_EP_SIZE=32
+
+TOTAL_INSTANCES=8
+
+if [ -z "$1" ]; then
+    echo "please input the dp size per node, for example, 16dp on 2 node, run the xxx.sh 8"
+    echo "run with default mode n=8"
+    NUM_GROUPS=8
+else
+    NUM_GROUPS=${1:-8}
+fi
+
+NUM_INSTANCES=$((TOTAL_INSTANCES / NUM_GROUPS))
+
+dp_size=$((4 * NUM_GROUPS))
+export VLLM_DP_SIZE=$dp_size
+
+for ((i=0; i<NUM_GROUPS; i++))
+do
+
+  RANK=$((NUM_GROUPS + i))
+  port=$((8200 + i))
+
+  VLLM_DP_RANK=$RANK python3 -m vllm.entrypoints.openai.api_server \
+    --model "$model_path" \
+    --port "$port" \
+    --max-model-len "$model_len" \
+    --gpu-memory-utilization "$VLLM_GPU_MEMORY_UTILIZATION" \
+    -tp $NUM_INSTANCES \
+    --max-num-seqs "$max_num_seqs" \
+    --trust-remote-code \
+    --kv-cache-dtype fp8_inc \
+    --disable-log-requests \
+    --max-num-batched-tokens "$max_num_batched_tokens" \
+    --use-padding-aware-scheduling \
+    --use-v2-block-manager \
+    --distributed_executor_backend mp \
+    --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_consumer"}' &
+done
+
+wait
+
@@ -0,0 +1,49 @@
+#!/bin/bash
+set -x
+BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
+source ./pd_xpyd/dp_d_env.sh
+export MOONCAKE_CONFIG_PATH=./pd_xpyd/2p4d_mooncake_d2.json
+
+export VLLM_DP_SIZE=32
+export VLLM_EP_SIZE=32
+
+TOTAL_INSTANCES=8
+
+if [ -z "$1" ]; then
+    echo "please input the dp size per node, for example, 16dp on 2 node, run the xxx.sh 8"
+    echo "run with default mode n=8"
+    NUM_GROUPS=8
+else
+    NUM_GROUPS=${1:-1}
+fi
+
+NUM_INSTANCES=$((TOTAL_INSTANCES / NUM_GROUPS))
+
+dp_size=$((4 * NUM_GROUPS))
+export VLLM_DP_SIZE=$dp_size
+
+for ((i=0; i<NUM_GROUPS; i++))
+do
+  
+  RANK=$((NUM_GROUPS * 2 + i))
+  port=$((8200 + i))
+  
+  VLLM_DP_RANK=$RANK python3 -m vllm.entrypoints.openai.api_server \
+    --model "$model_path" \
+    --port "$port" \
+    --max-model-len "$model_len" \
+    --gpu-memory-utilization "$VLLM_GPU_MEMORY_UTILIZATION" \
+    -tp $NUM_INSTANCES \
+    --max-num-seqs "$max_num_seqs" \
+    --trust-remote-code \
+    --kv-cache-dtype fp8_inc \
+    --disable-log-requests \
+    --max-num-batched-tokens "$max_num_batched_tokens" \
+    --use-padding-aware-scheduling \
+    --use-v2-block-manager \
+    --distributed_executor_backend mp \
+    --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_consumer"}' &
+done
+
+wait
+
Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,7 @@`
`1`	`1`	`{`
`2`		`- "local_hostname": "192.168.100.232",`
	`2`	`+ "local_hostname": "192.168.100.231",`
`3`	`3`	`"metadata_server": "etcd://10.239.129.81:2379",`
`4`		`- "protocol": "tcp",`
`5`		`- "device_name": "",`
`6`		`- "master_server_address": "192.168.100.222:50001"`
	`4`	`+ "protocol": "rdma",`
	`5`	`+ "device_name": "mlx5_0",`
	`6`	`+ "master_server_address": "192.168.100.221:50001"`
`7`	`7`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,7 @@`
`1`	`1`	`{`
`2`		`- "local_hostname": "192.168.100.222",`
	`2`	`+ "local_hostname": "192.168.100.221",`
`3`	`3`	`"metadata_server": "etcd://10.239.129.81:2379",`
`4`		`- "protocol": "tcp",`
`5`		`- "device_name": "",`
`6`		`- "master_server_address": "192.168.100.222:50001"`
	`4`	`+ "protocol": "rdma",`
	`5`	`+ "device_name": "mlx5_0",`
	`6`	`+ "master_server_address": "192.168.100.221:50001"`
`7`	`7`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-curl http://127.0.0.1:8868/v1/completions \`
	`1`	`+curl http://10.239.129.9:8868/v1/completions \`
`2`	`2`	`-H "Content-Type: application/json" \`
`3`	`3`	`-d '{`
`4`	`4`	`"model": "/mnt/disk2/hf_models/DeepSeek-R1-BF16-w8afp8-static-no-ste-G2/",`