test2

sbalandi · sbalandi · commit 6dbb0674fb90 · 2025-12-19T15:43:07.000Z
diff --git a/.github/workflows/linux.yml b/.github/workflows/linux.yml
@@ -33,8 +33,6 @@ env:
   BASE_PRODUCT_TYPE: public_linux_ubuntu_22_04_x86_64
   GENAI_WHEELS_ARTIFACT_NAME: 'genai_wheels'
   GENAI_ARCHIVE_ARTIFACT_BASE_NAME: 'genai_archive'
-  HF_DATASETS_CACHE: /mount/caches/pytest/datasets
-  HF_HUB_DOWNLOAD_TIMEOUT: 60
 
 jobs:
   smart_ci:
@@ -544,11 +542,19 @@ jobs:
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).RAG.test }}
             timeout: 30
           - name: 'WWB tests'
+            env:
+              HF_DATASETS_CACHE: /mount/caches/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: 'python -m pytest -v ./tools/who_what_benchmark/tests -m "not nanollava"'
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
             timeout: 120
           - name: 'WWB tests (nanollava)'
+            env:
+              HF_DATASETS_CACHE: /mount/caches/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: |
+              echo "HF_HUB_DOWNLOAD_TIMEOUT=$HF_HUB_DOWNLOAD_TIMEOUT"
+              echo "HF_DATASETS_CACHE=$HF_DATASETS_CACHE"
               python -m pip install transformers==4.48.0
               python -m pytest -v ./tools/who_what_benchmark/tests -m nanollava
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
diff --git a/.github/workflows/mac.yml b/.github/workflows/mac.yml
@@ -25,8 +25,6 @@ env:
   OV_CACHE: ~/.cache/ov_cache/
   CLEANUP_CACHE: 1
   OPENVINO_LOG_LEVEL: 4
-  HF_DATASETS_CACHE: ~/.cache/pytest/datasets
-  HF_HUB_DOWNLOAD_TIMEOUT: 60
 
 jobs:
   smart_ci:
@@ -470,10 +468,16 @@ jobs:
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).RAG.test }}
             timeout: 30
           - name: 'WWB tests'
+            env:
+              HF_DATASETS_CACHE: ~/.cache/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: 'python -m pytest -v ./tools/who_what_benchmark/tests -m "not nanollava"'
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
             timeout: 120
           - name: 'WWB tests (nanollava)'
+            env:
+              HF_DATASETS_CACHE: ~/.cache/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: |
               python -m pip install transformers==4.48.0
               python -m pytest -v ./tools/who_what_benchmark/tests -m nanollava
diff --git a/.github/workflows/manylinux_2_28.yml b/.github/workflows/manylinux_2_28.yml
@@ -1,4 +1,4 @@
-name: Manylinux 2_28
+sccachewname: Manylinux 2_28
 on:
   workflow_dispatch:
   pull_request:
@@ -32,9 +32,7 @@ env:
   ARTIFACTS_SHARE: '/mount/build-artifacts'
   BASE_PRODUCT_TYPE: public_manylinux_2_28_x86_64
   GENAI_WHEELS_ARTIFACT_NAME: 'genai_wheels'
-  GENAI_ARCHIVE_ARTIFACT_BASE_NAME: 'genai_archive'
-  HF_DATASETS_CACHE: /mount/caches/pytest/datasets
-  HF_HUB_DOWNLOAD_TIMEOUT: 60
+wb  GENAI_ARCHIVE_ARTIFACT_BASE_NAME: 'genai_archive'
 
 jobs:
   smart_ci:
@@ -485,10 +483,16 @@ jobs:
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).RAG.test }}
             timeout: 30
           - name: 'WWB tests'
+            env:
+              HF_DATASETS_CACHE: /mount/caches/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: 'python -m pytest -v ./tools/who_what_benchmark/tests -m "not nanollava"'
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
             timeout: 120
           - name: 'WWB tests (nanollava)'
+            env:
+              HF_DATASETS_CACHE: /mount/caches/pytest/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: |
               python -m pip install transformers==4.48.0
               python -m pytest -v ./tools/who_what_benchmark/tests -m nanollava
diff --git a/.github/workflows/windows.yml b/.github/workflows/windows.yml
@@ -631,8 +631,14 @@ jobs:
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).RAG.test }}
             timeout: 30
           - name: 'WWB tests'
+            env:
+              HF_DATASETS_CACHE: C:/mount/caches/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             cmd: 'python -m pytest -s -v tools/who_what_benchmark/tests -m "not nanollava"'
             run_condition: ${{ fromJSON(needs.smart_ci.outputs.affected_components).WWB.test }}
+            env:
+              HF_DATASETS_CACHE: C:/mount/caches/datasets
+              HF_HUB_DOWNLOAD_TIMEOUT: 60
             timeout: 120
           - name: 'WWB tests (nanollava)'
             cmd: |
diff --git a/tools/who_what_benchmark/tests/conftest.py b/tools/who_what_benchmark/tests/conftest.py
@@ -127,6 +127,7 @@ def run_wwb(args, env=None):
             stderr=subprocess.STDOUT,
             encoding="utf-8",
             env=base_env,
+            errors="replace"
         )
     except subprocess.CalledProcessError as error:
         logger.error(f"'{' '.join(map(str, command))}' returned {error.returncode}. Output:\n{error.output}")
diff --git a/tools/who_what_benchmark/whowhatbench/embeddings_evaluator.py b/tools/who_what_benchmark/whowhatbench/embeddings_evaluator.py
@@ -27,11 +27,11 @@ def prepare_default_data(num_samples=None):
     DATASET_NAME = "microsoft/ms_marco"
     NUM_SAMPLES = num_samples if num_samples else 24
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
-        default_dataset = datasets.load_dataset(
-            DATASET_NAME, 'v2.1', split="test", streaming=True
-        ).shuffle(42).take(NUM_SAMPLES)
+    # lock = FileLock(os.path.join(lock_path, lock_file_name))
+    # with lock.acquire(timeout=300):
+    default_dataset = datasets.load_dataset(
+        DATASET_NAME, 'v2.1', split="test", streaming=True
+    ).shuffle(42).take(NUM_SAMPLES)
     return default_dataset.map(
         lambda x: {'passages': x['passages']['passage_text']}, remove_columns=default_dataset.column_names
     )
diff --git a/tools/who_what_benchmark/whowhatbench/im2im_evaluator.py b/tools/who_what_benchmark/whowhatbench/im2im_evaluator.py
@@ -32,11 +32,11 @@ def prepare_default_data(num_samples=None):
     DATASET_NAME = "paint-by-inpaint/PIPE"
     NUM_SAMPLES = 10 if num_samples is None else num_samples
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
-        default_dataset = datasets.load_dataset(
-            DATASET_NAME, split="test", streaming=True
-        ).filter(lambda example: example["Instruction_VLM-LLM"] != "").take(NUM_SAMPLES)
+    # lock = FileLock(os.path.join(lock_path, lock_file_name))
+    # with lock.acquire(timeout=300):
+    default_dataset = datasets.load_dataset(
+        DATASET_NAME, split="test", streaming=True
+    ).filter(lambda example: example["Instruction_VLM-LLM"] != "").take(NUM_SAMPLES)
     return default_dataset.map(
         lambda x: preprocess_fn(x), remove_columns=default_dataset.column_names
     )
diff --git a/tools/who_what_benchmark/whowhatbench/inpaint_evaluator.py b/tools/who_what_benchmark/whowhatbench/inpaint_evaluator.py
@@ -47,11 +47,11 @@ def prepare_default_data(num_samples=None):
     DATASET_NAME = "phiyodr/InpaintCOCO"
     NUM_SAMPLES = 10 if num_samples is None else num_samples
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
-        default_dataset = datasets.load_dataset(
-            DATASET_NAME, split="test", streaming=True,
-        ).filter(lambda example: example["inpaint_caption"] != "").take(NUM_SAMPLES)
+    # lock = FileLock(os.path.join(lock_path, lock_file_name))
+    # with lock.acquire(timeout=300):
+    default_dataset = datasets.load_dataset(
+        DATASET_NAME, split="test", streaming=True,
+    ).filter(lambda example: example["inpaint_caption"] != "").take(NUM_SAMPLES)
     return default_dataset.map(
         lambda x: preprocess_fn(x), remove_columns=default_dataset.column_names
     )
diff --git a/tools/who_what_benchmark/whowhatbench/reranking_evaluator.py b/tools/who_what_benchmark/whowhatbench/reranking_evaluator.py
@@ -44,11 +44,11 @@ def prepare_default_data(num_samples=None):
     DATASET_NAME = "microsoft/ms_marco"
     NUM_SAMPLES = num_samples if num_samples else 24
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
-        default_dataset = datasets.load_dataset(
-            DATASET_NAME, 'v2.1', split="test", streaming=True
-        ).shuffle(42).take(NUM_SAMPLES)
+    # lock = FileLock(os.path.join(lock_path, lock_file_name))
+    # with lock.acquire(timeout=300):
+    default_dataset = datasets.load_dataset(
+        DATASET_NAME, 'v2.1', split="test", streaming=True
+    ).shuffle(42).take(NUM_SAMPLES)
     return default_dataset.map(
         lambda x: preprocess_fn(x), remove_columns=default_dataset.column_names
     )
diff --git a/tools/who_what_benchmark/whowhatbench/utils.py b/tools/who_what_benchmark/whowhatbench/utils.py
@@ -181,11 +181,11 @@ def prepare_default_data_image(num_samples=None):
     DATASET_NAME = "ucla-contextual/contextual_test"
     NUM_SAMPLES = 24 if num_samples is None else num_samples
     set_seed(42)
-    lock = FileLock(os.path.join(lock_path, lock_file_name))
-    with lock.acquire(timeout=300):
-        default_dataset = datasets.load_dataset(
-            DATASET_NAME, split="test", streaming=True
-        ).shuffle(42).take(NUM_SAMPLES)
+    # lock = FileLock(os.path.join(lock_path, lock_file_name))
+    # with lock.acquire(timeout=300):
+    default_dataset = datasets.load_dataset(
+        DATASET_NAME, split="test", streaming=True
+    ).shuffle(42).take(NUM_SAMPLES)
     return default_dataset.map(
         lambda x: preprocess_fn(x), remove_columns=default_dataset.column_names
     )

Original file line number	Diff line number	Diff line change
`@@ -127,6 +127,7 @@ def run_wwb(args, env=None):`
`127`	`127`	`stderr=subprocess.STDOUT,`
`128`	`128`	`encoding="utf-8",`
`129`	`129`	`env=base_env,`
	`130`	`+ errors="replace"`
`130`	`131`	`)`
`131`	`132`	`except subprocess.CalledProcessError as error:`
`132`	`133`	`logger.error(f"'{' '.join(map(str, command))}' returned {error.returncode}. Output:\n{error.output}")`