test2

sbalandi · sbalandi · commit 6a833499d15b · 2025-12-20T23:09:00.000Z
diff --git a/.github/workflows/linux.yml b/.github/workflows/linux.yml
@@ -33,8 +33,6 @@ env:
   BASE_PRODUCT_TYPE: public_linux_ubuntu_22_04_x86_64
   GENAI_WHEELS_ARTIFACT_NAME: 'genai_wheels'
   GENAI_ARCHIVE_ARTIFACT_BASE_NAME: 'genai_archive'
-  HF_DATASETS_CACHE: /mount/caches/pytest/datasets
-  HF_HUB_DOWNLOAD_TIMEOUT: 60
 
 jobs:
   smart_ci:
@@ -544,11 +542,19 @@ jobs:
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).RAG.test }}
             timeout: 30
           - name: 'WWB tests'
+            env:
+              HF_DATASETS_CACHE: /mount/caches/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: 'python -m pytest -v ./tools/who_what_benchmark/tests -m "not nanollava"'
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
             timeout: 120
           - name: 'WWB tests (nanollava)'
+            env:
+              HF_DATASETS_CACHE: /mount/caches/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: |
+              echo "HF_HUB_DOWNLOAD_TIMEOUT=$HF_HUB_DOWNLOAD_TIMEOUT"
+              echo "HF_DATASETS_CACHE=$HF_DATASETS_CACHE"
               python -m pip install transformers==4.48.0
               python -m pytest -v ./tools/who_what_benchmark/tests -m nanollava
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
diff --git a/.github/workflows/mac.yml b/.github/workflows/mac.yml
@@ -25,8 +25,6 @@ env:
   OV_CACHE: ~/.cache/ov_cache/
   CLEANUP_CACHE: 1
   OPENVINO_LOG_LEVEL: 4
-  HF_DATASETS_CACHE: ~/.cache/pytest/datasets
-  HF_HUB_DOWNLOAD_TIMEOUT: 60
 
 jobs:
   smart_ci:
@@ -470,10 +468,16 @@ jobs:
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).RAG.test }}
             timeout: 30
           - name: 'WWB tests'
+            env:
+              HF_DATASETS_CACHE: ~/.cache/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: 'python -m pytest -v ./tools/who_what_benchmark/tests -m "not nanollava"'
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
             timeout: 120
           - name: 'WWB tests (nanollava)'
+            env:
+              HF_DATASETS_CACHE: ~/.cache/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: |
               python -m pip install transformers==4.48.0
               python -m pytest -v ./tools/who_what_benchmark/tests -m nanollava
diff --git a/.github/workflows/manylinux_2_28.yml b/.github/workflows/manylinux_2_28.yml
@@ -1,4 +1,4 @@
-name: Manylinux 2_28
+sccachewname: Manylinux 2_28
 on:
   workflow_dispatch:
   pull_request:
@@ -32,9 +32,7 @@ env:
   ARTIFACTS_SHARE: '/mount/build-artifacts'
   BASE_PRODUCT_TYPE: public_manylinux_2_28_x86_64
   GENAI_WHEELS_ARTIFACT_NAME: 'genai_wheels'
-  GENAI_ARCHIVE_ARTIFACT_BASE_NAME: 'genai_archive'
-  HF_DATASETS_CACHE: /mount/caches/pytest/datasets
-  HF_HUB_DOWNLOAD_TIMEOUT: 60
+wb  GENAI_ARCHIVE_ARTIFACT_BASE_NAME: 'genai_archive'
 
 jobs:
   smart_ci:
@@ -485,10 +483,16 @@ jobs:
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).RAG.test }}
             timeout: 30
           - name: 'WWB tests'
+            env:
+              HF_DATASETS_CACHE: /mount/caches/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: 'python -m pytest -v ./tools/who_what_benchmark/tests -m "not nanollava"'
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
             timeout: 120
           - name: 'WWB tests (nanollava)'
+            env:
+              HF_DATASETS_CACHE: /mount/caches/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: |
               python -m pip install transformers==4.48.0
               python -m pytest -v ./tools/who_what_benchmark/tests -m nanollava
diff --git a/.github/workflows/windows.yml b/.github/workflows/windows.yml
@@ -631,8 +631,14 @@ jobs:
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).RAG.test }}
             timeout: 30
           - name: 'WWB tests'
+            env:
+              HF_DATASETS_CACHE: C:/mount/caches/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: 'python -m pytest -s -v tools/who_what_benchmark/tests -m "not nanollava"'
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
+            env:
+              HF_DATASETS_CACHE: C:/mount/caches/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             timeout: 120
           - name: 'WWB tests (nanollava)'
             cmd: |
diff --git a/tools/who_what_benchmark/tests/conftest.py b/tools/who_what_benchmark/tests/conftest.py
@@ -122,12 +122,7 @@ def run_wwb(args, env=None):
     if env:
         base_env.update(env)
     try:
-        return subprocess.check_output(
-            command,
-            stderr=subprocess.STDOUT,
-            encoding="utf-8",
-            env=base_env,
-        )
+        return subprocess.check_output(command, stderr=subprocess.STDOUT, encoding="utf-8", env=base_env, errors="replace")
     except subprocess.CalledProcessError as error:
         logger.error(f"'{' '.join(map(str, command))}' returned {error.returncode}. Output:\n{error.output}")
         raise
diff --git a/tools/who_what_benchmark/whowhatbench/embeddings_evaluator.py b/tools/who_what_benchmark/whowhatbench/embeddings_evaluator.py
@@ -12,13 +12,10 @@
 from transformers import set_seed
 
 from filelock import FileLock
-from .utils import load_dataset_with_retry
+from .utils import load_dataset_with_retry, LOCK_PATH, LOCK_MAX_TIMEOUT
 from .whowhat_metrics import EmbedsSimilarity
 from .registry import register_evaluator, BaseEvaluator
 
-
-lock_path = os.environ.get("HF_DATASETS_CACHE", '.')
-lock_file_name = "emb_dataset.lock"
 DEFAULT_MAX_LENGTH = 200
 
 
@@ -27,8 +24,8 @@ def prepare_default_data(num_samples=None):
     DATASET_NAME = "microsoft/ms_marco"
     NUM_SAMPLES = num_samples if num_samples else 24
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
+    lock = FileLock(os.path.join(LOCK_PATH, "emb_dataset_load.lock"))
+    with lock.acquire(timeout=LOCK_MAX_TIMEOUT):
         default_dataset = datasets.load_dataset(
             DATASET_NAME, 'v2.1', split="test", streaming=True
         ).shuffle(42).take(NUM_SAMPLES)
diff --git a/tools/who_what_benchmark/whowhatbench/im2im_evaluator.py b/tools/who_what_benchmark/whowhatbench/im2im_evaluator.py
@@ -10,16 +10,11 @@
 
 from filelock import FileLock
 from .registry import register_evaluator
-from .utils import load_dataset_with_retry
+from .utils import load_dataset_with_retry, LOCK_PATH, LOCK_MAX_TIMEOUT
 from .whowhat_metrics import ImageSimilarity
 from .text2image_evaluator import Text2ImageEvaluator
 
 
-from .whowhat_metrics import ImageSimilarity
-
-lock_path = os.environ.get("HF_DATASETS_CACHE", '.')
-lock_file_name = "im2im_dataset.lock"
-
 def preprocess_fn(example):
     return {
         "prompts": example["Instruction_VLM-LLM"],
@@ -32,8 +27,8 @@ def prepare_default_data(num_samples=None):
     DATASET_NAME = "paint-by-inpaint/PIPE"
     NUM_SAMPLES = 10 if num_samples is None else num_samples
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
+    lock = FileLock(os.path.join(LOCK_PATH, "im2im_dataset.lock"))
+    with lock.acquire(timeout=LOCK_MAX_TIMEOUT):
         default_dataset = datasets.load_dataset(
             DATASET_NAME, split="test", streaming=True
         ).filter(lambda example: example["Instruction_VLM-LLM"] != "").take(NUM_SAMPLES)
diff --git a/tools/who_what_benchmark/whowhatbench/inpaint_evaluator.py b/tools/who_what_benchmark/whowhatbench/inpaint_evaluator.py
@@ -16,12 +16,9 @@
 from .registry import register_evaluator
 from .text2image_evaluator import Text2ImageEvaluator
 
-from .utils import load_dataset_with_retry
+from .utils import load_dataset_with_retry, LOCK_PATH, LOCK_MAX_TIMEOUT
 from .whowhat_metrics import ImageSimilarity
 
-lock_path = os.environ.get("HF_DATASETS_CACHE", '.')
-lock_file_name = "inpainting_dataset.lock"
-
 
 # monkey patch of Parquet._generate_tables to avoid issue https://github.com/huggingface/datasets/issues/7357
 @contextmanager
@@ -47,8 +44,8 @@ def prepare_default_data(num_samples=None):
     DATASET_NAME = "phiyodr/InpaintCOCO"
     NUM_SAMPLES = 10 if num_samples is None else num_samples
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
+    lock = FileLock(os.path.join(LOCK_PATH, "inpainting_dataset_load.lock"))
+    with lock.acquire(timeout=LOCK_MAX_TIMEOUT):
         default_dataset = datasets.load_dataset(
             DATASET_NAME, split="test", streaming=True,
         ).filter(lambda example: example["inpaint_caption"] != "").take(NUM_SAMPLES)
diff --git a/tools/who_what_benchmark/whowhatbench/reranking_evaluator.py b/tools/who_what_benchmark/whowhatbench/reranking_evaluator.py
@@ -11,7 +11,7 @@
 from transformers import set_seed
 import datasets
 import numpy as np
-from .utils import load_dataset_with_retry
+from .utils import load_dataset_with_retry, LOCK_PATH, LOCK_MAX_TIMEOUT
 
 
 # we would like to evalute score for all documents
@@ -20,8 +20,6 @@
 DEFAULT_TOP_K = 100
 DEFAULT_MAX_LENGTH = 200
 DEFAULT_MAX_LENGTH_QWEN = 8192
-lock_path = os.environ.get("HF_DATASETS_CACHE", '.')
-lock_file_name = "reranker_dataset.lock"
 
 
 def is_qwen3(config):
@@ -44,8 +42,8 @@ def prepare_default_data(num_samples=None):
     DATASET_NAME = "microsoft/ms_marco"
     NUM_SAMPLES = num_samples if num_samples else 24
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
+    lock = FileLock(os.path.join(LOCK_PATH, "reranker_dataset_load.lock"))
+    with lock.acquire(timeout=LOCK_MAX_TIMEOUT):
         default_dataset = datasets.load_dataset(
             DATASET_NAME, 'v2.1', split="test", streaming=True
         ).shuffle(42).take(NUM_SAMPLES)
diff --git a/tools/who_what_benchmark/whowhatbench/utils.py b/tools/who_what_benchmark/whowhatbench/utils.py
@@ -26,6 +26,10 @@
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 
+# for dataset download regulation mechanism
+LOCK_PATH = os.environ.get("HF_DATASETS_CACHE", ".")
+LOCK_MAX_TIMEOUT = 300
+
 
 def new_randn_tensor(
     shape: Union[tuple, list],
@@ -176,13 +180,11 @@ def preprocess_fn(example):
 
 @load_dataset_with_retry(retries=3, delay=5)
 def prepare_default_data_image(num_samples=None):
-    lock_path = os.environ.get("HF_DATASETS_CACHE", '.')
-    lock_file_name = "vlm_dataset.lock"
     DATASET_NAME = "ucla-contextual/contextual_test"
     NUM_SAMPLES = 24 if num_samples is None else num_samples
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
+    lock = FileLock(os.path.join(LOCK_PATH, "vlm_dataset_load.lock"))
+    with lock.acquire(timeout=LOCK_MAX_TIMEOUT):
         default_dataset = datasets.load_dataset(
             DATASET_NAME, split="test", streaming=True
         ).shuffle(42).take(NUM_SAMPLES)