RBLN-SW
diff --git a/‎.github/workflows/rbln_dispatch_trigger_on_pr_ci.yaml‎
Lines changed: 7 additions & 5 deletions b/‎.github/workflows/rbln_dispatch_trigger_on_pr_ci.yaml‎
Lines changed: 7 additions & 5 deletions
diff --git a/‎.github/workflows/rbln_optimum_ci.yaml‎
Lines changed: 25 additions & 10 deletions b/‎.github/workflows/rbln_optimum_ci.yaml‎
Lines changed: 25 additions & 10 deletions
diff --git a/‎.github/workflows/rbln_trigger_on_pr.yaml‎
Lines changed: 4 additions & 3 deletions b/‎.github/workflows/rbln_trigger_on_pr.yaml‎
Lines changed: 4 additions & 3 deletions
diff --git a/‎.github/workflows/rbln_vllm-rbln_pytest.yaml‎
Lines changed: 4 additions & 4 deletions b/‎.github/workflows/rbln_vllm-rbln_pytest.yaml‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎examples/optimum/run_blip2.py‎
Lines changed: 5 additions & 18 deletions b/‎examples/optimum/run_blip2.py‎
Lines changed: 5 additions & 18 deletions
diff --git a/‎examples/optimum/run_decoder_only.py‎
Lines changed: 2 additions & 14 deletions b/‎examples/optimum/run_decoder_only.py‎
Lines changed: 2 additions & 14 deletions
diff --git a/‎examples/optimum/run_encoder_decoder.py‎
Lines changed: 5 additions & 18 deletions b/‎examples/optimum/run_encoder_decoder.py‎
Lines changed: 5 additions & 18 deletions
diff --git a/‎examples/optimum/run_encoder_only.py‎
Lines changed: 5 additions & 16 deletions b/‎examples/optimum/run_encoder_only.py‎
Lines changed: 5 additions & 16 deletions
diff --git a/‎examples/optimum/run_gemma3.py‎
Lines changed: 5 additions & 19 deletions b/‎examples/optimum/run_gemma3.py‎
Lines changed: 5 additions & 19 deletions
@@ -17,7 +17,7 @@ jobs:
     permissions:
       contents: write
     outputs:
-      sync_branch: ${{ steps.push.outputs.push.sync_branch }}
+      sync_branch: ${{ steps.push.outputs.sync_branch }}
     steps:
       - name: Checkout
         uses: actions/checkout@v4
@@ -82,7 +82,7 @@ jobs:
   cleanup:
     runs-on: runner-vllm-ci
     needs: [sync-and-call, check_code_quaility, check_device_run]
-    if: always() && needs.sync-and-call.outputs.sync_branch
+    if: always()
     permissions:
       contents: write
     steps:
@@ -99,6 +99,8 @@ jobs:
           
           git config --unset-all http.https://github.com/.extraheader || true
           git remote set-url origin "https://x-access-token:${{ secrets.GIT_PAT }}@github.com/${{ github.repository }}.git"
-          
-          echo "Deleting branch: $SYNC_BRANCH"
-          git push origin --delete "$SYNC_BRANCH" || echo "Branch $SYNC_BRANCH may have already been deleted"
+
+          if [ -n "$SYNC_BRANCH" ]; then
+            echo "Deleting branch: $SYNC_BRANCH"
+            git push origin --delete "$SYNC_BRANCH" || echo "Branch $SYNC_BRANCH may have already been deleted"
+          fi
@@ -58,6 +58,9 @@ jobs:
 
       - name: Install rebel-compiler
         run: |
+          sudo apt-get update
+          sudo apt-get install -y build-essential
+          export CXX=$(which g++)
           python3 -m pip uninstall rebel-compiler -y
           PYPI_URL=$(echo ${{ env.REBEL_PYPI_ENDPOINT }} | sed "s/\/\//\0${{ env.REBEL_PYPI_USERNAME }}:${{ env.REBEL_PYPI_PASSWORD }}@/")
           VERSION=${{ inputs.rebel_compiler_version || steps.get_latest_rebel_compiler.outputs.LATEST_COMPILER_VER }}
@@ -88,63 +91,75 @@ jobs:
 
       - name: Run decoder-only test (eager attn) (V1)
         run: >
-          VLLM_USE_V1=1 python3 examples/optimum/run_decoder_only.py
+          python3 examples/optimum/run_decoder_only.py
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/llama2-7b_batch2
           --prompt_txt ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/prompts/copy_prompts.txt
           --golden_json ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/golden/golden_llama7b_result_copy_prompts.json
 
       - name: Run decoder-only test (Flash-attention mode) (V1)
         run: >
-          VLLM_USE_V1=1 python3 examples/optimum/run_decoder_only.py --batch_size 4 --max_seq_len 131072 --kvcache_block_size 16384
+          python3 examples/optimum/run_decoder_only.py --max_seq_len 131072
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/llama3_2-3b-128k_kv16k_batch4
           --prompt_txt ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/prompts/copy_prompts.txt
           --golden_json ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/golden/golden_llama3_2_3b_instruct_128k_copy_prompts.json
 
       - name : Run Llava-next (Eager mode) (V1)
         run: >
-           VLLM_USE_V1=1 python3 examples/optimum/run_llava.py --max_seq_len 32768 --kvcache_partition_len 32768
+           python3 examples/optimum/run_llava.py
+           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
+           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/llava-v1.6-mistral-7b-hf-32k-b4/
+      
+      - name : Run Llava-next (Eager mode) (V0)
+        run: >
+           VLLM_USE_V1=0 python3 examples/optimum/run_llava.py
            --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
            --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/llava-v1.6-mistral-7b-hf-32k-b4/
 
       - name : Run Llava-next (Flash-attention mode) (V1)
         run: >
-          VLLM_USE_V1=1 python3 examples/optimum/run_llava.py --max_seq_len 32768 --kvcache_partition_len 16384
+          python3 examples/optimum/run_llava.py
+          --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
+          --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/llava-v1.6-mistral-7b-hf-32k-b4-kv16k
+      
+      - name : Run Llava-next (Flash-attention mode) (V0)
+        run: >
+          VLLM_USE_V1=0 python3 examples/optimum/run_llava.py
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/llava-v1.6-mistral-7b-hf-32k-b4-kv16k
 
       - name : Run Idefics3 (Eager mode) (V1)
         run: >
-          VLLM_USE_V1=1 python3 examples/optimum/run_idefics3.py --max_seq_len 32768 --kvcache_partition_len 32768
+          python3 examples/optimum/run_idefics3.py
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/idefics3-8b-llama3-32k-b4
 
       - name : Run Idefics3 (Flash-attention mode) (V1)
         run: >
-          VLLM_USE_V1=1 python3 examples/optimum/run_idefics3.py --max_seq_len 32768 --kvcache_partition_len 16384
+          python3 examples/optimum/run_idefics3.py
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/idefics3-8b-llama3-32k-b4-kv16k
 
       - name : Run Blip2 (V1)
         run: >
-          VLLM_USE_V1=1 python3 examples/optimum/run_blip2.py
+          python3 examples/optimum/run_blip2.py
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/blip2-opt-2.7b-2k-b4
 
       - name : Run Qwen2.5_VL (V1)
         run: >
-          VLLM_USE_V1=1 python3 examples/optimum/run_qwen_vl.py
+          python3 examples/optimum/run_qwen_vl.py
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/qwen2_5-vl-7b-32k-b4-kv16k
 
-      - name : Run encoder-decoder
+      - name : Run encoder-decoder (V1)
         run: >
           python3 examples/optimum/run_encoder_decoder.py
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
           --model_id ${{ env.REBEL_VLLM_PRE_COMPILED_DIR }}/rbln_bart-small_batch2
 
-      - name : Run text embedding model
+      - name : Run text embedding model (V1)
         run: >
           python3 examples/optimum/run_encoder_only.py
           --num_input_prompt ${{ env.NUM_INPUT_PROMPT }}
 
@@ -31,7 +31,7 @@ jobs:
     if: ${{ needs.check-skip-ci.outputs.should_skip != 'true' }}
     outputs:
       is_team_member: ${{ steps.check_member.outputs.IS_TEAM_MEMBER }}
-      is_collaborator: ${{ steps.check_member.outputs.IS_COLLABORATOR }}
+      is_collaborator: ${{ steps.check_collaborator.outputs.IS_COLLABORATOR }}
     steps:
       - name: Fetch team members
         id: fetch_team
@@ -57,8 +57,9 @@ jobs:
             echo "❌ IS_TEAM_MEMBER set to: $result"
           fi
 
-      - name: Check if collaborator
-        if: ${{ needs.check-team-member.outputs.is_team_member != 'true' }}
+      - name: Check if PR author is a collaborator
+        id: check_collaborator
+        if: ${{ steps.check_member.outputs.IS_TEAM_MEMBER != 'true' }}
         run: |
           pr_author=${{ github.event.pull_request.user.login }}
           echo "Checking if PR author '$pr_author' is a collaborator..."
 
@@ -64,10 +64,10 @@ jobs:
           ref: ${{ inputs.pr_number && format('refs/pull/{0}/merge', inputs.pr_number) || inputs.ref || github.sha }}
           fetch-depth: 0
 
-      - name: Set up Python 3.9
+      - name: Set up Python 3.12
         uses: actions/setup-python@v5
         with:
-          python-version: "3.9"
+          python-version: "3.12"
 
       - name: Install build dependencies and build vllm-rbln wheel
         run: |
@@ -135,10 +135,10 @@ jobs:
           
           echo "skip=$SKIP" >> $GITHUB_OUTPUT
 
-      - name: Set up Python 3.9
+      - name: Set up Python 3.12
         uses: actions/setup-python@v5
         with:
-          python-version: "3.9"
+          python-version: "3.12"
 
       - name: Install rebel-compiler
         run: |
 
@@ -61,17 +61,10 @@ async def generate(engine: AsyncLLMEngine, tokenizer, request_id, request):
 
 
 async def main(
-    batch_size: int,
-    max_seq_len: int,
     num_input_prompt: int,
     model_id: str,
 ):
-    engine_args = AsyncEngineArgs(model=model_id,
-                                  device="auto",
-                                  max_num_seqs=batch_size,
-                                  max_num_batched_tokens=max_seq_len,
-                                  max_model_len=max_seq_len,
-                                  block_size=max_seq_len)
+    engine_args = AsyncEngineArgs(model=model_id)
 
     engine = AsyncLLMEngine.from_engine_args(engine_args)
     tokenizer = AutoTokenizer.from_pretrained(model_id)
@@ -96,19 +89,13 @@ async def main(
 
 
 def entry_point(
-    batch_size: int = 4,
-    max_seq_len: int = 2048,
     num_input_prompt: int = 10,
     model_id: str = "/blip2-opt-2.7b-2k-b4",
 ):
-    loop = asyncio.get_event_loop()
-    loop.run_until_complete(
-        main(
-            batch_size=batch_size,
-            max_seq_len=max_seq_len,
-            num_input_prompt=num_input_prompt,
-            model_id=model_id,
-        ))
+    asyncio.run(main(
+        num_input_prompt=num_input_prompt,
+        model_id=model_id,
+    ))
 
 
 if __name__ == "__main__":
 
@@ -85,20 +85,13 @@ def compare_copy_prompt_task_result(
 
 
 async def main(
-    batch_size: int,
     max_seq_len: int,
-    kvcache_block_size: int,
     num_input_prompt: int,
     model_id: str,
     prompt_txt: str,
     golden_json: str,
 ):
-    engine_args = AsyncEngineArgs(model=model_id,
-                                  device="auto",
-                                  max_num_seqs=batch_size,
-                                  max_num_batched_tokens=max_seq_len,
-                                  max_model_len=max_seq_len,
-                                  block_size=kvcache_block_size)
+    engine_args = AsyncEngineArgs(model=model_id)
 
     engine = AsyncLLMEngine.from_engine_args(engine_args)
     prompt = get_input_prompts(prompt_txt)
@@ -124,20 +117,15 @@ async def main(
 
 
 def entry_point(
-    batch_size: int = 2,
     max_seq_len: int = 4096,
-    kvcache_block_size: int = 4096,
     num_input_prompt: int = 1,
     model_id: str = "/llama2-7b_batch2",
     prompt_txt: str = "/prompts/copy_prompts.txt",
     golden_json: str = "/golden/golden_llama7b_result_copy_prompts.json",
 ):
-    loop = asyncio.get_event_loop()
-    loop.run_until_complete(
+    asyncio.run(
         main(
-            batch_size=batch_size,
             max_seq_len=max_seq_len,
-            kvcache_block_size=kvcache_block_size,
             num_input_prompt=num_input_prompt,
             model_id=model_id,
             prompt_txt=prompt_txt,
 
@@ -72,17 +72,10 @@ def compare(result):
 
 
 async def main(
-    batch_size: int,
-    max_seq_len: int,
     num_input_prompt: int,
     model_id: str,
 ):
-    engine_args = AsyncEngineArgs(model=model_id,
-                                  device="auto",
-                                  max_num_seqs=batch_size,
-                                  max_num_batched_tokens=max_seq_len,
-                                  max_model_len=max_seq_len,
-                                  block_size=max_seq_len)
+    engine_args = AsyncEngineArgs(model=model_id)
 
     engine = AsyncLLMEngine.from_engine_args(engine_args)
     prompt = get_input_prompts(num_prompts=num_input_prompt)
@@ -104,19 +97,13 @@ async def main(
 
 
 def entry_point(
-    batch_size: int = 2,
-    max_seq_len: int = 512,
     num_input_prompt: int = 10,
     model_id: str = "/rbln_bart-small_batch2",
 ):
-    loop = asyncio.get_event_loop()
-    loop.run_until_complete(
-        main(
-            batch_size=batch_size,
-            max_seq_len=max_seq_len,
-            num_input_prompt=num_input_prompt,
-            model_id=model_id,
-        ))
+    asyncio.run(main(
+        num_input_prompt=num_input_prompt,
+        model_id=model_id,
+    ))
 
 
 if __name__ == "__main__":
 
@@ -45,7 +45,7 @@ def compare_copy_prompt_task_result(scores: list[float], golden_json: str):
 
 
 async def encode(engine, prompt, request_id):
-    pooling_params = PoolingParams()
+    pooling_params = PoolingParams(task="embed")
     results_generator = engine.encode(prompt=prompt,
                                       pooling_params=pooling_params,
                                       request_id=str(request_id))
@@ -69,15 +69,9 @@ async def get_result(engine, model_id, prompt, num_input_prompt):
     return results
 
 
-async def main(model_id: str, max_seq_len: int, batch_size: int,
-               num_input_prompt: int, q_prompt_txt: str, p_prompt_txt: str,
-               golden_json: str):
-    engine_args = AsyncEngineArgs(model=model_id,
-                                  device="auto",
-                                  max_num_seqs=batch_size,
-                                  max_num_batched_tokens=max_seq_len,
-                                  block_size=max_seq_len,
-                                  max_model_len=max_seq_len)
+async def main(model_id: str, num_input_prompt: int, q_prompt_txt: str,
+               p_prompt_txt: str, golden_json: str):
+    engine_args = AsyncEngineArgs(model=model_id)
 
     engine = AsyncLLMEngine.from_engine_args(engine_args)
     q_prompt = get_input_prompts(q_prompt_txt)
@@ -105,19 +99,14 @@ async def main(model_id: str, max_seq_len: int, batch_size: int,
 
 
 def entry_point(
-    max_seq_len: int = 4096,
-    batch_size: int = 4,
     num_input_prompt: int = 3,
     model_id: str = "/bge-m3-1k-batch4",
     q_prompt_txt: str = "/prompts/q_prompts.txt",
     p_prompt_txt: str = "/prompts/p_prompts.txt",
     golden_json: str = "/golden/golden_bge_m3_result_qp_prompts.json",
 ):
-    loop = asyncio.get_event_loop()
-    loop.run_until_complete(
+    asyncio.run(
         main(
-            max_seq_len=max_seq_len,
-            batch_size=batch_size,
             num_input_prompt=num_input_prompt,
             model_id=model_id,
             q_prompt_txt=q_prompt_txt,
 
@@ -84,18 +84,10 @@ async def generate(engine: AsyncLLMEngine, tokenizer, request_id, request):
 
 
 async def main(
-    batch_size: int,
-    max_seq_len: int,
-    kvcache_partition_len: int,
     num_input_prompt: int,
     model_id: str,
 ):
-    engine_args = AsyncEngineArgs(model=model_id,
-                                  device="auto",
-                                  max_num_seqs=batch_size,
-                                  max_num_batched_tokens=max_seq_len,
-                                  max_model_len=max_seq_len,
-                                  block_size=kvcache_partition_len)
+    engine_args = AsyncEngineArgs(model=model_id)
 
     engine = AsyncLLMEngine.from_engine_args(engine_args)
     tokenizer = AutoTokenizer.from_pretrained(model_id)
@@ -120,19 +112,13 @@ async def main(
 
 
 def entry_point(
-    batch_size: int = 4,
-    max_seq_len: int = 32768,
-    kvcache_partition_len: int = 16384,
     num_input_prompt: int = 10,
     model_id: str = "/gemma3-4b-conditional-b4-flash",
 ):
-    loop = asyncio.get_event_loop()
-    loop.run_until_complete(
-        main(batch_size=batch_size,
-             max_seq_len=max_seq_len,
-             kvcache_partition_len=kvcache_partition_len,
-             num_input_prompt=num_input_prompt,
-             model_id=model_id))
+    asyncio.run(main(
+        num_input_prompt=num_input_prompt,
+        model_id=model_id,
+    ))
 
 
 if __name__ == "__main__":