open-compass
diff --git a/‎.github/workflows/daily-ete-test.yml‎
Lines changed: 1 addition & 75 deletions b/‎.github/workflows/daily-ete-test.yml‎
Lines changed: 1 addition & 75 deletions
diff --git a/‎.github/workflows/pr-run-test.yml‎
Lines changed: 104 additions & 16 deletions b/‎.github/workflows/pr-run-test.yml‎
Lines changed: 104 additions & 16 deletions
diff --git a/‎.github/workflows/unit-test.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/unit-test.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎autotest/infer/__init__.py‎ ‎autotest/all/__init__.py‎autotest/infer/__init__.py renamed to autotest/all/__init__.py b/‎autotest/infer/__init__.py‎ ‎autotest/all/__init__.py‎autotest/infer/__init__.py renamed to autotest/all/__init__.py
diff --git a/‎autotest/all/chat_longtext_fullbench.py‎
Lines changed: 23 additions & 0 deletions b/‎autotest/all/chat_longtext_fullbench.py‎
Lines changed: 23 additions & 0 deletions
diff --git a/‎…est/infer/infer_chat_obj_fullbench_v1.py‎ ‎autotest/all/chat_obj_fullbench_v1.py‎autotest/infer/infer_chat_obj_fullbench_v1.py renamed to autotest/all/chat_obj_fullbench_v1.py
Lines changed: 36 additions & 8 deletions b/‎…est/infer/infer_chat_obj_fullbench_v1.py‎ ‎autotest/all/chat_obj_fullbench_v1.py‎autotest/infer/infer_chat_obj_fullbench_v1.py renamed to autotest/all/chat_obj_fullbench_v1.py
Lines changed: 36 additions & 8 deletions
@@ -17,7 +17,7 @@ on:
         required: true
         description: 'regression types'
         type: string
-        default: "['infer', 'model', 'eval', 'cmd', 'cluster', 'all']"
+        default: "['model', 'eval', 'cmd', 'cluster', 'all']"
       baseline_result:
         required: true
         description: 'baseline result'
@@ -214,80 +214,6 @@ jobs:
           JOB_NAME=${JOB_NAME//_/-}
           rjob stop job $JOB_NAME
 
-
-  daily_infer_test:
-    if: ${{!cancelled() && contains(needs.prepare_env.result, 'success') && (github.event_name == 'schedule' || contains(fromJSON(github.event.inputs.regression_type), 'infer'))}}
-    needs: prepare_env
-    strategy:
-      fail-fast: false
-      matrix:
-        include:
-          - infer_func: chat_obj_fullbench_v1
-            memory: 10240
-            cpu: 16
-          - infer_func: chat_obj_fullbench_v2
-            memory: 32568
-            cpu: 16
-          - infer_func: chat_sub_fullbench
-            memory: 3072
-            cpu: 2
-          - infer_func: chat_longtext_fullbench
-            memory: 65136
-            cpu: 16
-    runs-on: yidian_cu12_daily
-    timeout-minutes: 240 #4hours
-    env:
-      COMPASS_DATA_CACHE: /mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/compass_data_cache
-    steps:
-      - name: Clean workdir
-        run: sudo git clean -ffdx
-      - name: Clone repository
-        uses: actions/checkout@v5
-        with:
-          repository: ${{ github.event.inputs.repo_org || 'open-compass/opencompass' }}
-          ref: ${{github.event.inputs.repo_ref || 'main'}}
-      - name: conda env 
-        run: |
-          . ${{env.CONDA_PATH}}/bin/activate
-          conda activate ${{env.CONDA_ENV}}
-          conda info --envs
-          pip list
-      - name: Run test
-        run: |
-          . ${{env.CONDA_PATH}}/bin/activate
-          conda activate ${{env.CONDA_ENV}}
-          echo ${{github.workspace}}
-          
-          JOB_NAME=infer-${{ github.run_id }}-${{ matrix.infer_func }}-${{ github.run_attempt }}
-          JOB_NAME=${JOB_NAME//_/-}
-          
-          rjob submit --metadata-name=$JOB_NAME --charged-group=opencompass_gpu --private-machine=group --group=opencompass_gpu --gpu=0 --cpu=${{ matrix.cpu }} --memory=${{ matrix.memory }} --private-machine=group --image=registry.h.pjlab.org.cn/ailab-puyu-puyu_gpu/lmdeploy:v0.12.0-cu12.8 --env=COMPASS_DATA_CACHE=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/compass_data_cache --env=TIKTOKEN_CACHE_DIR=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/share_tiktoken --env=HF_ENDPOINT=https://hf-mirror.com --env=HF_DATASETS_CACHE=/mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/hf_cache --env=HF_HUB_CACHE=/mnt/shared-storage-gpfs2/gpfs2-shared-public/huggingface/hub --env=CUDA_MODULE_LOADING=EAGER --env=HF_DATASETS_OFFLINE=1 --env=TRANSFORMERS_OFFLINE=1 --env=HF_EVALUATE_OFFLINE=1 --env=HF_HUB_OFFLINE=1 --env=VLLM_USE_MODELSCOPE=false --env=VLLM_WORKER_MULTIPROC_METHOD=spawn --mount=gpfs://gpfs1/qa-llm-cicd:/mnt/shared-storage-user/qa-llm-cicd --mount=gpfs://gpfs1/opencompass-shared:/mnt/shared-storage-user/opencompass-shared --mount=gpfs://gpfs1/auto-eval-pipeline:/mnt/shared-storage-user/auto-eval-pipeline --mount=gpfs://gpfs2/gpfs2-shared-public:/mnt/shared-storage-gpfs2/gpfs2-shared-public --host-network=True -- bash -exc 'source ${{env.CONDA_PATH}}/bin/activate; conda activate ${{env.CONDA_ENV}}; conda env list; cd ${{github.workspace}}; python /mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/mock_start.py & python autotest/utils/health_check.py; opencompass autotest/infer/infer_${{matrix.infer_func}}.py -m infer --work-dir ${{env.REPORT_ROOT}}/${{ github.run_id }}/infer_${{matrix.infer_func}} --reuse --dump-res-length'
-
-          for i in {1..600}; do
-            current_status=$(rjob get $JOB_NAME | grep -oP 'rjob [^:]+: \K[^ ]+')
-            if [[ $current_status == "Succeeded" ]]; then
-              echo "Task succeeded"
-              exit 0
-            elif [[ $current_status == "Failed" || $current_status == "Stopped" ]]; then
-              echo "Task failed or stopped, fetching logs"
-              rjob logs job $JOB_NAME
-              exit 1
-            fi
-            sleep 10
-          done
-      - name: Assert result
-        run: |
-          . ${{env.CONDA_PATH}}/bin/activate
-          conda activate ${{env.CONDA_ENV}}
-          conda info --envs
-          python autotest/utils/compare_results.py compare_results ${{env.REPORT_ROOT}}/${{ github.run_id }}/infer_${{matrix.infer_func}} ${{env.REPORT_ROOT}}/${{env.BASELINE_DIR}}/infer_${{matrix.infer_func}} predictions
-      - name: stop job
-        if: always()
-        run: |
-          JOB_NAME=infer-${{ github.run_id }}-${{ matrix.infer_func }}-${{ github.run_attempt }}
-          JOB_NAME=${JOB_NAME//_/-}
-          rjob stop job $JOB_NAME
-
   daily_eval_test:
     if: ${{!cancelled() && contains(needs.prepare_env.result, 'success') && (github.event_name == 'schedule' || contains(fromJSON(github.event.inputs.regression_type), 'eval'))}}
     needs: prepare_env
 
@@ -17,7 +17,7 @@ concurrency:
   cancel-in-progress: true
 
 env:
-  CONDA_ENV: pr_test
+  CONDA_ENV: pr_regression
   HF_DATASETS_OFFLINE: 1
   HF_EVALUATE_OFFLINE: 1
   TRANSFORMERS_OFFLINE: 1
@@ -26,20 +26,22 @@ env:
   HF_HUB_OFFLINE: 1
   CONDA_PATH: /mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/miniconda3
   REPORT_ROOT: /mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/eval_report/prtest
+  BASELINE_DIR: mock-api-baseline
   COMPASS_DATA_CACHE: /mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/compass_data_cache
-  HF_DATASETS_CACHE: /mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/hf_cache
+  HF_DATASETS_CACHE: /mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/hf_cache
   HF_HUB_CACHE: /mnt/shared-storage-gpfs2/gpfs2-shared-public/huggingface/hub
   KUBEBRAIN_CLUSTER_ENTRY: https://h.pjlab.org.cn
   KUBEBRAIN_NAMESPACE: ailab-opencompass
-  JOB_NAME: pr-test-${{ github.run_id }}-${{ github.run_attempt }}
 
 jobs:
-  pr_run_test:
+  cmd_test:
     runs-on: yidian_cu12
     timeout-minutes: 45
+    env:
+      JOB_NAME: pr-test-${{ github.run_id }}-cmd-${{ github.run_attempt }}
     steps:
       - name: Checkout repository
-        uses: actions/checkout@v2
+        uses: actions/checkout@v6
       - name: Prepare - Install opencompass
         run: |
           . ${{env.CONDA_PATH}}/bin/activate
@@ -54,13 +56,18 @@ jobs:
           . ${{env.CONDA_PATH}}/bin/activate
           conda activate ${{env.CONDA_ENV}}
           pip list
-          rjob submit --metadata-name=${{ env.JOB_NAME }} --charged-group=opencompass_gpu --private-machine=group --group=opencompass_gpu --gpu=2 --cpu=32 --memory=32568 --private-machine=group --image=registry.h.pjlab.org.cn/ailab-puyu/xpuyu:torch-2.6.0-45d96d5f-0607 --env=COMPASS_DATA_CACHE=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/compass_data_cache --env=TIKTOKEN_CACHE_DIR=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/share_tiktoken --env=HF_ENDPOINT=https://hf-mirror.com --env=HF_DATASETS_CACHE=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/hf_cache --env=HF_HUB_CACHE=/mnt/shared-storage-user/large-model-center-share-weights/hf_hub --env=CUDA_MODULE_LOADING=EAGER --env=HF_DATASETS_OFFLINE=1 --env=TRANSFORMERS_OFFLINE=1 --env=HF_EVALUATE_OFFLINE=1 --env=HF_HUB_OFFLINE=1 --mount=gpfs://gpfs1/qa-llm-cicd:/mnt/shared-storage-user/qa-llm-cicd --mount=gpfs://gpfs1/opencompass-shared:/mnt/shared-storage-user/opencompass-shared --mount=gpfs://gpfs1/auto-eval-pipeline:/mnt/shared-storage-user/auto-eval-pipeline --mount=gpfs://gpfs1/large-model-center-share-weights:/mnt/shared-storage-user/large-model-center-share-weights --host-network=True -- bash -exc '/mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/pr_test.sh ${{env.REPORT_ROOT}}/${{ github.run_id }}'
+          rjob submit --metadata-name=${{ env.JOB_NAME }} --charged-group=opencompass_gpu --private-machine=group --group=opencompass_gpu --gpu=2 --cpu=32 --memory=32568 --private-machine=group --image=registry.h.pjlab.org.cn/ailab-puyu/xpuyu:torch-2.6.0-45d96d5f-0607 --env=COMPASS_DATA_CACHE=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/compass_data_cache --env=TIKTOKEN_CACHE_DIR=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/share_tiktoken --env=HF_ENDPOINT=https://hf-mirror.com --env=HF_DATASETS_CACHE=${{env.HF_DATASETS_CACHE}} --env=HF_HUB_CACHE=/mnt/shared-storage-user/large-model-center-share-weights/hf_hub --env=CUDA_MODULE_LOADING=EAGER --env=HF_DATASETS_OFFLINE=1 --env=TRANSFORMERS_OFFLINE=1 --env=HF_EVALUATE_OFFLINE=1 --env=HF_HUB_OFFLINE=1 --mount=gpfs://gpfs1/qa-llm-cicd:/mnt/shared-storage-user/qa-llm-cicd --mount=gpfs://gpfs1/opencompass-shared:/mnt/shared-storage-user/opencompass-shared --mount=gpfs://gpfs1/auto-eval-pipeline:/mnt/shared-storage-user/auto-eval-pipeline --mount=gpfs://gpfs1/large-model-center-share-weights:/mnt/shared-storage-user/large-model-center-share-weights --host-network=True -- bash -exc '/mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/pr_test_new.sh ${{env.REPORT_ROOT}}/${{ github.run_id }}'
 
           for i in {1..300}; do
             current_status=$(rjob get ${{ env.JOB_NAME }} | grep -oP 'rjob [^:]+: \K[^ ]+')
-            if [[ $current_status == "Succeeded" || $current_status == "Failed" || $current_status == "Stopped" ]]; then
-                echo "Current status: $current_status, stop checking"
-                break
+            if [[ $current_status == "Succeeded" ]]; then
+              echo "Task succeeded"
+              rjob logs job ${{ env.JOB_NAME }} -n 100
+              exit 0
+            elif [[ $current_status == "Failed" || $current_status == "Stopped" ]]; then
+              echo "Task failed or stopped, fetching logs"
+              rjob logs job ${{ env.JOB_NAME }} -n 100
+              exit 1
             fi
             sleep 6
           done
@@ -96,12 +103,93 @@ jobs:
           conda info --envs
           rjob stop job ${{ env.JOB_NAME }}
 
-  notify_to_feishu:
-    if: ${{ always() && !cancelled() && contains(needs.*.result, 'failure') && (github.ref_name == 'develop' || github.ref_name == 'main') }}
-    needs: [pr_run_test]
-    timeout-minutes: 5
-    runs-on: self-hosted
+  mock_api_test:
+    runs-on: yidian_cu12
+    timeout-minutes: 120
+    strategy:
+      fail-fast: false
+      matrix:
+        include:
+          - func_type: chat_obj_fullbench_v1
+            name: chat-v1
+            memory: 32568
+            cpu: 16
+          - func_type: chat_obj_fullbench_v2
+            name: chat-v2
+            memory: 32568
+            cpu: 16
+          - func_type: chat_sub_fullbench
+            name: chat-sub
+            # memory: 3072
+            memory: 32568
+            cpu: 2
+          - func_type: chat_longtext_fullbench
+            name: chat-longtext
+            memory: 65136
+            cpu: 16
+    env:
+      JOB_NAME: pr-test-${{ github.run_id }}-api-${{ matrix.name }}-${{ github.run_attempt }}
     steps:
-      - name: notify
+      - name: Checkout repository
+        uses: actions/checkout@v6
+      - name: Prepare - Install opencompass
+        run: |
+          . ${{env.CONDA_PATH}}/bin/activate
+          conda activate ${{env.CONDA_ENV}}
+          python3 -m pip uninstall opencompass -y
+          python3 -m pip install .[full]
+          conda info --envs
+          pip list
+          lmdeploy check_env
+      - name: Run test
         run: |
-          curl -X POST -H "Content-Type: application/json" -d '{"msg_type":"post","content":{"post":{"zh_cn":{"title":"Opencompass- pr test failed","content":[[{"tag":"text","text":"branch: ${{github.ref_name}}, run action: ${{github.workflow}} failed. "},{"tag":"a","text":"Please click here for details ","href":"https://github.com/'${{ github.repository }}'/actions/runs/'${GITHUB_RUN_ID}'"},{"tag":"at","user_id":"'${{ secrets.USER_ID }}'"}]]}}}}'  ${{ secrets.WEBHOOK_URL }}
+          . ${{env.CONDA_PATH}}/bin/activate
+          conda activate ${{env.CONDA_ENV}}
+          pip list
+
+          rjob submit --metadata-name=${{ env.JOB_NAME }} --charged-group=opencompass_gpu --private-machine=group --group=opencompass_gpu --gpu=0 --cpu=${{ matrix.cpu }} --memory=${{ matrix.memory }} --private-machine=group --image=registry.h.pjlab.org.cn/ailab-puyu-puyu_gpu/lmdeploy:v0.12.0-cu12.8 --env=COMPASS_DATA_CACHE=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/compass_data_cache --env=TIKTOKEN_CACHE_DIR=/mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/share_tiktoken --env=HF_ENDPOINT=https://hf-mirror.com --env=HF_DATASETS_CACHE=${{env.HF_DATASETS_CACHE}} --env=HF_HUB_CACHE=/mnt/shared-storage-gpfs2/gpfs2-shared-public/huggingface/hub --env=CUDA_MODULE_LOADING=EAGER --env=HF_DATASETS_OFFLINE=1 --env=TRANSFORMERS_OFFLINE=1 --env=HF_EVALUATE_OFFLINE=1 --env=HF_HUB_OFFLINE=1 --env=REPORT_DIR=${{env.REPORT_ROOT}} --env=CHAT_TYPE=${{matrix.func_type}} --mount=gpfs://gpfs1/qa-llm-cicd:/mnt/shared-storage-user/qa-llm-cicd --mount=gpfs://gpfs1/opencompass-shared:/mnt/shared-storage-user/opencompass-shared --mount=gpfs://gpfs1/auto-eval-pipeline:/mnt/shared-storage-user/auto-eval-pipeline --mount=gpfs://gpfs2/gpfs2-shared-public:/mnt/shared-storage-gpfs2/gpfs2-shared-public --host-network=True -- bash -exc 'source ${{env.CONDA_PATH}}/bin/activate; conda activate ${{env.CONDA_ENV}}; conda env list; cd ${{github.workspace}}; ln -s /mnt/shared-storage-user/auto-eval-pipeline/opencompass/llmeval/compass_data_cache/data .; python /mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/mock_chat_api.py --type winrate --port 26333 > mock_${{matrix.name}}.log 2>&1 & sleep 3; opencompass autotest/all/${{matrix.func_type}}.py --work-dir ${{env.REPORT_ROOT}}/${{ github.run_id }}/${{matrix.func_type}} --reuse;'
+
+          for i in {1..300}; do
+            current_status=$(rjob get ${{ env.JOB_NAME }} | grep -oP 'rjob [^:]+: \K[^ ]+')
+            if [[ $current_status == "Succeeded" ]]; then
+              echo "Task succeeded"
+              rjob logs job ${{ env.JOB_NAME }} -n 100
+              exit 0
+            elif [[ $current_status == "Failed" || $current_status == "Stopped" ]]; then
+              echo "Task failed or stopped, fetching logs"
+              rjob logs job ${{ env.JOB_NAME }} -n 100
+              exit 1
+            fi
+            sleep 6
+          done
+      - name: Compare predictions with baseline
+        run: |
+          . ${{env.CONDA_PATH}}/bin/activate
+          conda activate ${{env.CONDA_ENV}}
+          CURRENT="${{env.REPORT_ROOT}}/${{ github.run_id }}/${{matrix.func_type}}"
+          BASELINE="${{env.REPORT_ROOT}}/${{env.BASELINE_DIR}}/${{matrix.func_type}}"
+          echo "Current run: $CURRENT"
+          echo "Baseline:    $BASELINE"
+          if [[ ! -d "$CURRENT" ]]; then
+            echo "Current run output not found: $CURRENT"
+            exit 1
+          fi
+          if [[ ! -d "$BASELINE" ]]; then
+            echo "Baseline not found: $BASELINE"
+            echo "Upload golden predictions to REPORT_ROOT/BASELINE_DIR/<func_type> on shared storage."
+            exit 1
+          fi
+          python autotest/utils/compare_results.py compare_results \
+            "$CURRENT" "$BASELINE" predictions
+          python autotest/utils/compare_results.py compare_results \
+            "$CURRENT" "$BASELINE" results
+          python autotest/utils/compare_results.py compare_results \
+            "$CURRENT" "$BASELINE" summary
+      - name:  Uninstall opencompass
+        if: always()
+        run: |
+          . ${{env.CONDA_PATH}}/bin/activate
+          conda activate ${{env.CONDA_ENV}}
+          python3 -m pip uninstall opencompass -y
+          conda info --envs
+          rjob stop job ${{ env.JOB_NAME }}
@@ -30,7 +30,7 @@ jobs:
     timeout-minutes: 45
     steps:
       - name: Checkout repository
-        uses: actions/checkout@v2
+        uses: actions/checkout@v6
       - name: Prepare - Install opencompass
         run: |
           . ${{env.CONDA_PATH}}/bin/activate
 
@@ -0,0 +1,23 @@
+from mmengine.config import read_base
+
+with read_base():
+    from autotest.all.config import \
+        concurrent_infer as infer  # noqa: F401, E501
+    from autotest.all.config import models  # noqa: F401, E501
+    from opencompass.configs.datasets.babilong.babilong_256k_gen import \
+        babiLong_256k_datasets  # noqa: F401, E501
+    from opencompass.configs.datasets.longbenchv2.longbenchv2_gen import \
+        LongBenchv2_datasets as LongBenchv2_datasets  # noqa: F401, E501
+    from opencompass.configs.datasets.needlebench.needlebench_32k.needlebench_32k import \
+        needlebench_datasets as needlebench_32k_datasets  # noqa: F401, E501
+    from opencompass.configs.datasets.ruler.ruler_8k_gen import \
+        ruler_datasets as ruler_8k_datasets  # noqa: F401, E501
+
+datasets = sum(
+    ([v[0]] if v else []
+     for k, v in locals().items() if k.endswith('_datasets')),
+    [],
+)
+
+for d in datasets:
+    d['reader_cfg']['test_range'] = '[0:1]'
@@ -1,9 +1,10 @@
 from mmengine.config import read_base
 
 with read_base():
-    from autotest.infer.config import \
+    from autotest.all.config import concurrent_eval as eval  # noqa: F401, E501
+    from autotest.all.config import \
         concurrent_infer as infer  # noqa: F401, E501
-    from autotest.infer.config import models  # noqa: F401, E501
+    from autotest.all.config import models  # noqa: F401, E501
     from opencompass.configs.datasets.aime2024.aime2024_cascade_eval_gen_5e9f4f import \
         aime2024_datasets  # noqa: F401, E501
     from opencompass.configs.datasets.aime2024.aime2024_gen_6e39a4 import \
@@ -240,8 +241,8 @@
 
 for datasets_, num in repeated_info:
     for dataset_ in datasets_:
-        dataset_['n'] = num
-        dataset_['k'] = num
+        dataset_['n'] = 1
+        dataset_['k'] = 1
 
 # CompassAcademic Extended Process
 
@@ -316,12 +317,39 @@
     temp_dataset['abbr'] = temp_dataset['abbr'] + '_0shot'
 
 datasets = sum(
-    (v for k, v in locals().items()
+    ([v[0]] if v else [] for k, v in locals().items()
      if k.endswith('_datasets') and 'scicode' not in k.lower()
      and 'teval' not in k.lower() and 'dingo' not in k.lower()),
     [],
 )
+teval_en_datasets[0]['eval_cfg']['num_gpus'] = 0
+teval_zh_datasets[0]['eval_cfg']['num_gpus'] = 0
+datasets += [teval_en_datasets[0], teval_zh_datasets[0], SciCode_datasets[0]]
 
-datasets += teval_en_datasets
-datasets += teval_zh_datasets
-datasets += SciCode_datasets
+obj_llm_judge_cfg = models[0]
+
+for item in datasets:
+    try:
+        if 'atlas' in item['abbr'] and 'judge_cfg' in item['eval_cfg'][
+                'evaluator']:
+            item['eval_cfg']['evaluator']['judge_cfg'] = dict(
+                judgers=[obj_llm_judge_cfg])
+        elif 'judge_cfg' in item['eval_cfg']['evaluator']:
+            item['eval_cfg']['evaluator']['judge_cfg'] = obj_llm_judge_cfg
+        elif 'judge_cfg' in item['eval_cfg']['evaluator']['llm_evaluator']:
+            item['eval_cfg']['evaluator']['llm_evaluator'][
+                'judge_cfg'] = obj_llm_judge_cfg
+    except Exception:
+        pass
+
+for d in datasets:
+    d['reader_cfg']['test_range'] = '[0:2]'
+    if 'dataset_cfg' in d['eval_cfg']['evaluator'] and 'reader_cfg' in d[
+            'eval_cfg']['evaluator']['dataset_cfg']:
+        d['eval_cfg']['evaluator']['dataset_cfg']['reader_cfg'][
+            'test_range'] = '[0:2]'
+    if 'llm_evaluator' in d['eval_cfg'][
+            'evaluator'] and 'dataset_cfg' in d[  # noqa: E501
+                'eval_cfg']['evaluator']['llm_evaluator']:
+        d['eval_cfg']['evaluator']['llm_evaluator']['dataset_cfg'][
+            'reader_cfg']['test_range'] = '[0:2]'