Fix end-to-end tests (#672)

marcenacp · web-flow · commit d65b6cecb367 · 2024-06-05T10:19:17.000+02:00
diff --git a/python/mlcroissant/mlcroissant/_src/datasets_test.py b/python/mlcroissant/mlcroissant/_src/datasets_test.py
@@ -193,9 +193,9 @@ def test_load_from_huggingface():
     url = "https://huggingface.co/api/datasets/mnist/croissant"
     dataset = datasets.Dataset(url)
     has_one_record = False
-    for record in dataset.records(record_set="record_set_mnist"):
-        assert record["record_set_mnist/label"] == 7
-        assert isinstance(record["record_set_mnist/image"], deps.PIL_Image.Image)
+    for record in dataset.records(record_set="mnist"):
+        assert record["mnist/label"] == 7
+        assert isinstance(record["mnist/image"], deps.PIL_Image.Image)
         has_one_record = True
         break
     assert has_one_record, (
diff --git a/python/mlcroissant/recipes/tfds_croissant_builder.ipynb b/python/mlcroissant/recipes/tfds_croissant_builder.ipynb
@@ -169,7 +169,7 @@
       "  \"recordSet\": [\n",
       "    {\n",
       "      \"@type\": \"ml:RecordSet\",\n",
-      "      \"name\": \"record_set_fashion_mnist\",\n",
+      "      \"name\": \"fashion_mnist\",\n",
       "      \"description\": \"fashion_mnist - 'fashion_mnist' subset\\n\\nAdditional information:\\n- 2 splits: train, test\",\n",
       "      \"field\": [\n",
       "        {\n",
@@ -244,7 +244,7 @@
       "  -  [dataset(fashion_mnist)] Property \"https://schema.org/citation\" is recommended, but does not exist.\n",
       "  -  [dataset(fashion_mnist)] Property \"https://schema.org/license\" is recommended, but does not exist.\n",
       "  -  [dataset(fashion_mnist)] Property \"https://schema.org/version\" is recommended, but does not exist.\n",
-      "WARNING:absl:Using custom data configuration record_set_fashion_mnist\n"
+      "WARNING:absl:Using custom data configuration fashion_mnist\n"
      ]
     }
    ],
@@ -253,7 +253,7 @@
     "\n",
     "builder = tfds.core.dataset_builders.CroissantBuilder(\n",
     "    jsonld=local_croissant_file,\n",
-    "    record_set_ids=[\"record_set_fashion_mnist\"],\n",
+    "    record_set_ids=[\"fashion_mnist\"],\n",
     "    file_format='array_record',\n",
     "    data_dir=data_dir,\n",
     ")"
@@ -383,7 +383,7 @@
      "output_type": "stream",
      "text": [
       "\u001b[01;34m/tmp/croissant/fashion_mnist\u001b[0m\n",
-      "└── \u001b[01;34mrecord_set_fashion_mnist\u001b[0m\n",
+      "└── \u001b[01;fashion_mnist\u001b[0m\n",
       "    └── \u001b[01;34m1.0.0\u001b[0m\n",
       "        ├── dataset_info.json\n",
       "        ├── fashion_mnist-default.array_record-00000-of-00001\n",
@@ -522,7 +522,7 @@
     "    image = image.view(image.size()[0], -1).to(torch.float32)\n",
     "    return self.classifier(image)\n",
     "\n",
-    "shape = train[0][\"record_set_fashion_mnist/image\"].shape\n",
+    "shape = train[0][\"fashion_mnist/image\"].shape\n",
     "num_classes = 10\n",
     "model = LinearClassifier(shape, num_classes)\n",
     "optimizer = torch.optim.Adam(model.parameters())\n",
@@ -531,8 +531,8 @@
     "print('Training...')\n",
     "model.train()\n",
     "for example in tqdm(train_loader):\n",
-    "  image = example['record_set_fashion_mnist/image']\n",
-    "  label = example['record_set_fashion_mnist/label']\n",
+    "  image = example['fashion_mnist/image']\n",
+    "  label = example['fashion_mnist/label']\n",
     "  prediction = model(image)\n",
     "  loss = loss_function(prediction, label)\n",
     "  optimizer.zero_grad()\n",
@@ -544,8 +544,8 @@
     "num_examples = 0\n",
     "true_positives = 0\n",
     "for example in tqdm(test_loader):\n",
-    "  image = example['record_set_fashion_mnist/image']\n",
-    "  label = example['record_set_fashion_mnist/label']\n",
+    "  image = example['fashion_mnist/image']\n",
+    "  label = example['fashion_mnist/label']\n",
     "  prediction = model(image)\n",
     "  num_examples += image.shape[0]\n",
     "  predicted_label = prediction.argmax(dim=1)\n",