fix batch parquet read (#102)

GBocharov · web-flow · commit 7cf937dd249f · 2025-06-04T16:50:00.000+02:00
diff --git a/.gitignore b/.gitignore
@@ -2,7 +2,7 @@
 __pycache__/
 *.py[cod]
 *$py.class
-
+.idea
 # C extensions
 *.so
 
diff --git a/src/yandex_cloud_ml_sdk/_utils/pyarrow.py b/src/yandex_cloud_ml_sdk/_utils/pyarrow.py
@@ -25,12 +25,12 @@ def get_next() -> RecordType | None:
 
 
 def read_dataset_records_sync(path: str, batch_size: int | None) -> Iterator[RecordType]:
-    import pyarrow.dataset as pd  # pylint: disable=import-outside-toplevel
+    import pyarrow.parquet as pq  # pylint: disable=import-outside-toplevel
 
     # we need use kwargs method to preserve original default value
     kwargs = {}
     if batch_size is not None:
         kwargs['batch_size'] = batch_size
-    dataset = pd.dataset(source=path, format='parquet')
-    for batch in dataset.to_batches(**kwargs):  # type: ignore[arg-type]
-        yield from batch.to_pylist()
+    with pq.ParquetFile(path) as reader:
+        for batch in reader.iter_batches(**kwargs):  # type: ignore[arg-type]
+            yield from batch.to_pylist()