Fix pyarrow necessity

vhaldemar · vhaldemar · commit c3ec5fe7b445 · 2025-04-10T21:02:27.000+03:00
diff --git a/examples/async/datasets/read.py b/examples/async/datasets/read.py
@@ -16,6 +16,9 @@ def local_path(path: str) -> pathlib.Path:
 
 
 async def main() -> None:
+    # This example needs to have pyarrow installed
+    import pyarrow  # pylint: disable=import-outside-toplevel,unused-import
+
     sdk = AsyncYCloudML(folder_id='b1ghsjum2v37c2un8h64')
     sdk.setup_default_logging()
 
@@ -27,7 +30,7 @@ async def main() -> None:
         name=NAME,
     )
     dataset = await dataset_draft.upload()
-    print(f'new {dataset=}')
+    print(f'Going to read {dataset=} records')
     async for record in dataset.read():
         print(record)
 
diff --git a/examples/sync/datasets/read.py b/examples/sync/datasets/read.py
@@ -15,6 +15,9 @@ def local_path(path: str) -> pathlib.Path:
 
 
 def main() -> None:
+    # This example needs to have pyarrow installed
+    import pyarrow  # pylint: disable=import-outside-toplevel,unused-import
+
     sdk = YCloudML(folder_id='b1ghsjum2v37c2un8h64')
     sdk.setup_default_logging()
 
@@ -26,7 +29,7 @@ def main() -> None:
         name=NAME,
     )
     dataset = dataset_draft.upload()
-    print(f'new {dataset=}')
+    print(f'Going to read {dataset=} records')
     for record in dataset.read():
         print(record)
 
diff --git a/src/yandex_cloud_ml_sdk/_utils/pyarrow.py b/src/yandex_cloud_ml_sdk/_utils/pyarrow.py
@@ -4,8 +4,6 @@
 from collections.abc import AsyncIterator, Iterator
 from typing import Any
 
-import pyarrow.dataset as pd
-
 RecordType = dict[Any, Any]
 
 
@@ -27,6 +25,8 @@ def get_next() -> RecordType | None:
 
 
 def read_dataset_records_sync(path: str, batch_size: int | None) -> Iterator[RecordType]:
+    import pyarrow.dataset as pd  # pylint: disable=import-outside-toplevel
+
     # we need use kwargs method to preserve original default value
     kwargs = {}
     if batch_size is not None: