huggingface
diff --git a/‎examples/audio-classification/requirements.txt‎
Lines changed: 1 addition & 1 deletion b/‎examples/audio-classification/requirements.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/audio-classification/run_audio_classification.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/audio-classification/run_audio_classification.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/contrastive-image-text/README.md‎
Lines changed: 11 additions & 32 deletions b/‎examples/contrastive-image-text/README.md‎
Lines changed: 11 additions & 32 deletions
diff --git a/‎examples/contrastive-image-text/requirements.txt‎
Lines changed: 1 addition & 1 deletion b/‎examples/contrastive-image-text/requirements.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/contrastive-image-text/run_bridgetower.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/contrastive-image-text/run_bridgetower.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/contrastive-image-text/run_clip.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/contrastive-image-text/run_clip.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/image-classification/requirements.txt‎
Lines changed: 1 addition & 1 deletion b/‎examples/image-classification/requirements.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/image-classification/run_image_classification.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/image-classification/run_image_classification.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/image-to-text/requirements.txt‎
Lines changed: 1 addition & 1 deletion b/‎examples/image-to-text/requirements.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/language-modeling/peft_poly_seq2seq_with_generate.py‎
Lines changed: 5 additions & 5 deletions b/‎examples/language-modeling/peft_poly_seq2seq_with_generate.py‎
Lines changed: 5 additions & 5 deletions
@@ -1,4 +1,4 @@
-datasets[audio]>=1.14.0
+datasets[audio]>=4.0.0
 evaluate
 numba==0.60.0
 librosa
@@ -48,7 +48,7 @@ def check_optimum_habana_min_version(*a, **b):
 check_min_version("4.55.0")
 check_optimum_habana_min_version("1.19.0.dev0")
 
-require_version("datasets>=1.14.0", "To fix: pip install -r examples/pytorch/audio-classification/requirements.txt")
+require_version("datasets>=4.0.0", "To fix: pip install -r examples/pytorch/audio-classification/requirements.txt")
 
 
 def random_subsample(wav: np.ndarray, max_length: float, sample_rate: int = 16000):
 
@@ -30,30 +30,15 @@ First, you should install the requirements:
 pip install -r requirements.txt
 ```
 
-## Download COCO dataset (2017)
-This example uses COCO dataset (2017) through a custom dataset script, which requires users to manually download the
-COCO dataset before training.
-
-```bash
-mkdir data
-cd data
-wget http://images.cocodataset.org/zips/train2017.zip
-wget http://images.cocodataset.org/zips/val2017.zip
-wget http://images.cocodataset.org/zips/test2017.zip
-wget http://images.cocodataset.org/annotations/annotations_trainval2017.zip
-wget http://images.cocodataset.org/annotations/image_info_test2017.zip
-cd ..
-```
-
-Having downloaded COCO dataset manually you should be able to load with the `ydshieh/coco_dataset_script` dataset loading script:
+## Dataset
 
+**Recommended (datasets>=4.0.0):** use the COCO captions dataset hosted on the Hub. It provides image–caption pairs and does **not** require `trust_remote_code`:
 ```python
-import os
 import datasets
-
-COCO_DIR = os.path.join(os.getcwd(), "data")
-ds = datasets.load_dataset("ydshieh/coco_dataset_script", "2017", data_dir=COCO_DIR)
+ds = datasets.load_dataset("sentence-transformers/coco-captions", split="train")
 ```
+This dataset exposes at least the columns `image` (PIL image) and `caption` (string).
+If you prefer local files, you can also use the built-in Datasets `imagefolder` builder (not a placeholder) to load images/captions from a directory (it typically expects a small CSV/JSON with columns such as `image_path` and `caption`).
 
 ## CLIP-like models
 
@@ -99,10 +84,8 @@ Run the following command for single-device training:
 python run_clip.py \
     --output_dir ./clip-roberta-finetuned \
     --model_name_or_path ./clip-roberta \
-    --data_dir $PWD/data \
-    --dataset_name ydshieh/coco_dataset_script \
-    --dataset_config_name=2017 \
-    --image_column image_path \
+    --dataset_name sentence-transformers/coco-captions \
+    --image_column image \
     --caption_column caption \
     --remove_unused_columns=False \
     --do_train  --do_eval \
@@ -132,10 +115,8 @@ PT_ENABLE_INT64_SUPPORT=1 \
 python3 ../gaudi_spawn.py --world_size 8 --use_mpi run_clip.py \
     --output_dir=/tmp/clip_roberta \
     --model_name_or_path=./clip-roberta \
-    --data_dir $PWD/data \
-    --dataset_name ydshieh/coco_dataset_script \
-    --dataset_config_name 2017 \
-    --image_column image_path \
+    --dataset_name sentence-transformers/coco-captions \ 
+    --image_column image \
     --caption_column caption \
     --remove_unused_columns=False \
     --do_train --do_eval \
@@ -209,10 +190,8 @@ For instance, you can run inference with CLIP on COCO on 1 Gaudi card with the f
 PT_HPU_LAZY_MODE=1 python run_clip.py \
     --output_dir ./clip-roberta-finetuned \
     --model_name_or_path ./clip-roberta \
-    --data_dir $PWD/data \
-    --dataset_name ydshieh/coco_dataset_script \
-    --dataset_config_name=2017 \
-    --image_column image_path \
+    --dataset_name sentence-transformers/coco-captions \
+    --image_column image \
     --caption_column caption \
     --remove_unused_columns=False \
     --do_eval \
 
@@ -1 +1 @@
-datasets>=1.8.0
+datasets>=4.0.0
@@ -60,7 +60,7 @@ def check_optimum_habana_min_version(*a, **b):
 check_min_version("4.55.0")
 check_optimum_habana_min_version("1.19.0.dev0")
 
-require_version("datasets>=1.8.0", "To fix: pip install -r examples/pytorch/contrastive-image-text/requirements.txt")
+require_version("datasets>=4.0.0", "To fix: pip install -r examples/pytorch/contrastive-image-text/requirements.txt")
 
 
 @dataclass
 
@@ -63,7 +63,7 @@ def check_optimum_habana_min_version(*a, **b):
 check_min_version("4.55.0")
 check_optimum_habana_min_version("1.19.0.dev0")
 
-require_version("datasets>=1.8.0", "To fix: pip install -r examples/pytorch/contrastive-image-text/requirements.txt")
+require_version("datasets>=4.0.0", "To fix: pip install -r examples/pytorch/contrastive-image-text/requirements.txt")
 
 
 @dataclass
 
@@ -1,6 +1,6 @@
 torch>=1.5.0
 torchvision>=0.6.0
-datasets>=2.14.0
+datasets>=4.0.0
 evaluate
 scikit-learn == 1.5.2
 timm>=0.9.16
@@ -66,7 +66,7 @@ def check_optimum_habana_min_version(*a, **b):
 check_min_version("4.55.0")
 check_optimum_habana_min_version("1.19.0.dev0")
 
-require_version("datasets>=2.14.0", "To fix: pip install -r examples/pytorch/image-classification/requirements.txt")
+require_version("datasets>=4.0.0", "To fix: pip install -r examples/pytorch/image-classification/requirements.txt")
 
 MODEL_CONFIG_CLASSES = list(MODEL_FOR_IMAGE_CLASSIFICATION_MAPPING.keys())
 MODEL_TYPES = tuple(conf.model_type for conf in MODEL_CONFIG_CLASSES)
 
@@ -3,4 +3,4 @@ Levenshtein
 sentencepiece != 0.1.92
 tiktoken
 blobfile
-datasets
+datasets>=4.0.0
@@ -61,7 +61,7 @@ def check_optimum_habana_min_version(*a, **b):
 check_min_version("4.38.0")
 check_optimum_habana_min_version("1.10.0")
 
-require_version("datasets>=1.8.0", "To fix: pip install -r examples/pytorch/language-modeling/requirements.txt")
+require_version("datasets>=4.0.0", "To fix: pip install -r examples/pytorch/language-modeling/requirements.txt")
 
 
 @dataclass
@@ -233,7 +233,7 @@ def main():
 
     # boolq
     boolq_dataset = (
-        load_dataset("super_glue", "boolq", trust_remote_code=model_args.trust_remote_code)
+        load_dataset("super_glue", "boolq")
         .map(
             lambda x: {
                 "input": f"{x['passage']}\nQuestion: {x['question']}\nA. Yes\nB. No\nAnswer:",
@@ -248,7 +248,7 @@ def main():
 
     # multirc
     multirc_dataset = (
-        load_dataset("super_glue", "multirc", trust_remote_code=model_args.trust_remote_code)
+        load_dataset("super_glue", "multirc")
         .map(
             lambda x: {
                 "input": (
@@ -266,7 +266,7 @@ def main():
 
     # rte
     rte_dataset = (
-        load_dataset("super_glue", "rte", trust_remote_code=model_args.trust_remote_code)
+        load_dataset("super_glue", "rte")
         .map(
             lambda x: {
                 "input": (
@@ -284,7 +284,7 @@ def main():
 
     # wic
     wic_dataset = (
-        load_dataset("super_glue", "wic", trust_remote_code=model_args.trust_remote_code)
+        load_dataset("super_glue", "wic")
         .map(
             lambda x: {
                 "input": (