Re-factor data loading structure (#66)

krfricke · richardliaw · web-flow · commit 733c24c323fe · 2021-03-16T11:54:44.000+01:00
* Re-factor data loading structure

* Better tests, better documentation

* Update xgboost_ray/data_sources/data_source.py

Co-authored-by: Richard Liaw &lt;rliaw@berkeley.edu&gt;

* Update xgboost_ray/data_sources/data_source.py

Co-authored-by: Richard Liaw &lt;rliaw@berkeley.edu&gt;

* Update xgboost_ray/data_sources/data_source.py

Co-authored-by: Richard Liaw &lt;rliaw@berkeley.edu&gt;

* Update docs

* Resolve breaking api change

* Resolve breaking api change (cont)

* Resolve breaking api change (cont)

Co-authored-by: Richard Liaw &lt;rliaw@berkeley.edu&gt;
diff --git a/xgboost_ray/data_sources/__init__.py b/xgboost_ray/data_sources/__init__.py
@@ -0,0 +1,15 @@
+from xgboost_ray.data_sources.data_source import DataSource, RayFileType
+from xgboost_ray.data_sources.numpy import Numpy
+from xgboost_ray.data_sources.pandas import Pandas
+from xgboost_ray.data_sources.modin import Modin
+from xgboost_ray.data_sources.ml_dataset import MLDataset
+from xgboost_ray.data_sources.petastorm import Petastorm
+from xgboost_ray.data_sources.csv import CSV
+from xgboost_ray.data_sources.parquet import Parquet
+
+data_sources = [Numpy, Pandas, Modin, MLDataset, Petastorm, CSV, Parquet]
+
+__all__ = [
+    "DataSource", "RayFileType", "Numpy", "Pandas", "Modin", "MLDataset",
+    "Petastorm", "CSV", "Parquet"
+]
diff --git a/xgboost_ray/data_sources/csv.py b/xgboost_ray/data_sources/csv.py
@@ -0,0 +1,41 @@
+from typing import Any, Optional, Sequence, Iterable, Union
+
+import pandas as pd
+
+from xgboost_ray.data_sources.data_source import DataSource, RayFileType
+from xgboost_ray.data_sources.pandas import Pandas
+
+
+class CSV(DataSource):
+    """Read one or many CSV files."""
+    supports_central_loading = True
+    supports_distributed_loading = True
+
+    @staticmethod
+    def is_data_type(data: Any,
+                     filetype: Optional[RayFileType] = None) -> bool:
+        return filetype == RayFileType.CSV
+
+    @staticmethod
+    def get_filetype(data: Any) -> Optional[RayFileType]:
+        if data.endswith(".csv") or data.endswith("csv.gz"):
+            return RayFileType.CSV
+        return None
+
+    @staticmethod
+    def load_data(data: Union[str, Sequence[str]],
+                  ignore: Optional[Sequence[str]] = None,
+                  indices: Optional[Sequence[int]] = None,
+                  **kwargs):
+        if isinstance(data, Iterable) and not isinstance(data, str):
+            shards = []
+
+            for i, shard in enumerate(data):
+                if indices and i not in indices:
+                    continue
+                shard_df = pd.read_csv(shard, **kwargs)
+                shards.append(Pandas.load_data(shard_df, ignore=ignore))
+            return pd.concat(shards, copy=False)
+        else:
+            local_df = pd.read_csv(data, **kwargs)
+            return Pandas.load_data(local_df, ignore=ignore)
diff --git a/xgboost_ray/data_sources/data_source.py b/xgboost_ray/data_sources/data_source.py
@@ -0,0 +1,111 @@
+from enum import Enum
+from typing import Any, Optional, Sequence, Tuple
+
+import pandas as pd
+
+
+class RayFileType(Enum):
+    """Enum for different file types (used for overrides)."""
+    CSV = 1
+    PARQUET = 2
+    PETASTORM = 3
+
+
+class DataSource:
+    """Abstract class for data sources.
+
+    xgboost_ray supports reading from various sources, such as files
+    (e.g. CSV, Parquet) or distributed datasets (Ray MLDataset, Modin).
+
+    This abstract class defines an interface to read from these sources.
+    New data sources can be added by implementing this interface.
+
+    ``DataSource`` classes are not instantiated. Instead, static and
+    class methods are called directly.
+    """
+    supports_central_loading = True
+    supports_distributed_loading = False
+
+    @staticmethod
+    def is_data_type(data: Any,
+                     filetype: Optional[RayFileType] = None) -> bool:
+        """Check if the supplied data matches this data source.
+
+        Args:
+            data (Any): Dataset.
+            filetype (Optional[RayFileType]): RayFileType of the provided
+                dataset. Some DataSource implementations might require
+                that this is explicitly set (e.g. if multiple sources can
+                read CSV files).
+
+        Returns:
+            Boolean indicating if this data source belongs to/is compatible
+                with the data.
+        """
+        return False
+
+    @staticmethod
+    def get_filetype(data: Any) -> Optional[RayFileType]:
+        """Method to help infer the filetype.
+
+        Returns None if the supplied data type (usually a filename)
+        is not covered by this data source, otherwise the filetype
+        is returned.
+
+        Args:
+            data (Any): Data set
+
+        Returns:
+            RayFileType or None.
+        """
+        return None
+
+    @staticmethod
+    def load_data(data: Any,
+                  ignore: Optional[Sequence[str]] = None,
+                  indices: Optional[Sequence[int]] = None,
+                  **kwargs) -> pd.DataFrame:
+        """
+        Load data into a pandas dataframe.
+
+        Ignore specific columns, and optionally select specific indices.
+
+        Args:
+            data (Any): Input data
+            ignore (Optional[Sequence[str]]): Column names to ignore
+            indices (Optional[Sequence[int]]): Indices to select. What an
+                index indicates depends on the data source.
+
+        Returns:
+            Pandas DataFrame.
+        """
+        raise NotImplementedError
+
+    @staticmethod
+    def convert_to_series(data: Any) -> pd.Series:
+        """Convert data from the data source type to a pandas series"""
+        if isinstance(data, pd.DataFrame):
+            return pd.Series(data.squeeze())
+
+        if not isinstance(data, pd.Series):
+            return pd.Series(data)
+
+        return data
+
+    @classmethod
+    def get_column(cls, data: pd.DataFrame,
+                   column: Any) -> Tuple[pd.Series, Optional[str]]:
+        """Helper method wrapping around convert to series.
+
+        This method should usually not be overwritten.
+        """
+        if isinstance(column, str):
+            return data[column], column
+        elif column is not None:
+            return cls.convert_to_series(column), None
+        return column, None
+
+    @staticmethod
+    def get_n(data: Any):
+        """Get length of data source partitions for sharding."""
+        return len(list(data))
diff --git a/xgboost_ray/data_sources/ml_dataset.py b/xgboost_ray/data_sources/ml_dataset.py
@@ -0,0 +1,46 @@
+from typing import Any, Optional, Sequence, List
+
+import pandas as pd
+from ray.util.data import MLDataset as MLDatasetType
+from xgboost_ray.data_sources.data_source import DataSource, RayFileType
+
+
+class MLDataset(DataSource):
+    """Read from distributed Ray MLDataset.
+
+    The Ray MLDataset is a distributed dataset based on Ray's
+    `parallel iterators <https://docs.ray.io/en/master/iter.html>`_.
+
+    Shards of the MLDataset can be stored on different nodes, making
+    it suitable for distributed loading.
+    """
+    supports_central_loading = True
+    supports_distributed_loading = True
+
+    @staticmethod
+    def is_data_type(data: Any,
+                     filetype: Optional[RayFileType] = None) -> bool:
+        return isinstance(data, MLDatasetType)
+
+    @staticmethod
+    def load_data(data: MLDatasetType,
+                  ignore: Optional[Sequence[str]] = None,
+                  indices: Optional[Sequence[int]] = None,
+                  **kwargs):
+        indices = indices or list(range(0, data.num_shards()))
+
+        shards: List[pd.DataFrame] = [
+            pd.concat(data.get_shard(i), copy=False) for i in indices
+        ]
+
+        # Concat all shards
+        local_df = pd.concat(shards, copy=False)
+
+        if ignore:
+            local_df = local_df[local_df.columns.difference(ignore)]
+
+        return local_df
+
+    @staticmethod
+    def get_n(data: MLDatasetType):
+        return data.num_shards()
diff --git a/xgboost_ray/data_sources/modin.py b/xgboost_ray/data_sources/modin.py
@@ -0,0 +1,74 @@
+from typing import Any, Optional, Sequence
+
+from xgboost_ray.data_sources.data_source import DataSource, RayFileType
+
+import pandas as pd
+
+try:
+    import modin  # noqa: F401
+    MODIN_INSTALLED = True
+except ImportError:
+    MODIN_INSTALLED = False
+
+
+def _assert_modin_installed():
+    if not MODIN_INSTALLED:
+        raise RuntimeError(
+            "Tried to use Modin as a data source, but modin is not "
+            "installed. This function shouldn't have been called. "
+            "\nFIX THIS by installing modin: `pip install modin`. "
+            "\nPlease also raise an issue on our GitHub: "
+            "https://github.com/ray-project/xgboost_ray as this part of "
+            "the code should not have been reached.")
+
+
+class Modin(DataSource):
+    """Read from distributed Modin dataframe.
+
+    `Modin <https://github.com/modin-project/modin>`_ is a distributed
+    drop-in replacement for pandas supporting Ray as a backend.
+
+    Modin dataframes are stored on multiple actors, making them
+    suitable for distributed loading.
+    """
+
+    @staticmethod
+    def is_data_type(data: Any,
+                     filetype: Optional[RayFileType] = None) -> bool:
+        if not MODIN_INSTALLED:
+            return False
+        from modin.pandas import DataFrame as ModinDataFrame, \
+            Series as ModinSeries
+
+        return isinstance(data, (ModinDataFrame, ModinSeries))
+
+    @staticmethod
+    def load_data(
+            data: Any,  # modin.pandas.DataFrame
+            ignore: Optional[Sequence[str]] = None,
+            indices: Optional[Sequence[int]] = None,
+            **kwargs) -> pd.DataFrame:
+        _assert_modin_installed()
+        local_df = data
+        if indices:
+            local_df = local_df.iloc(indices)
+
+        local_df = local_df._to_pandas()
+
+        if ignore:
+            local_df = local_df[local_df.columns.difference(ignore)]
+
+        return local_df
+
+    @staticmethod
+    def convert_to_series(data: Any) -> pd.Series:
+        _assert_modin_installed()
+        from modin.pandas import DataFrame as ModinDataFrame, \
+            Series as ModinSeries
+
+        if isinstance(data, ModinDataFrame):
+            return pd.Series(data._to_pandas().squeeze())
+        elif isinstance(data, ModinSeries):
+            return data._to_pandas()
+
+        return DataSource.convert_to_series(data)
diff --git a/xgboost_ray/data_sources/numpy.py b/xgboost_ray/data_sources/numpy.py
@@ -0,0 +1,25 @@
+from typing import Any, Optional, Sequence
+
+import numpy as np
+import pandas as pd
+
+from xgboost_ray.data_sources.data_source import DataSource, RayFileType
+from xgboost_ray.data_sources.pandas import Pandas
+
+
+class Numpy(DataSource):
+    """Read from numpy arrays."""
+
+    @staticmethod
+    def is_data_type(data: Any,
+                     filetype: Optional[RayFileType] = None) -> bool:
+        return isinstance(data, np.ndarray)
+
+    @staticmethod
+    def load_data(data: np.ndarray,
+                  ignore: Optional[Sequence[str]] = None,
+                  indices: Optional[Sequence[int]] = None,
+                  **kwargs) -> pd.DataFrame:
+        local_df = pd.DataFrame(
+            data, columns=[f"f{i}" for i in range(data.shape[1])])
+        return Pandas.load_data(local_df, ignore=ignore, indices=indices)
diff --git a/xgboost_ray/data_sources/pandas.py b/xgboost_ray/data_sources/pandas.py
@@ -0,0 +1,29 @@
+from typing import Any, Optional, Sequence
+
+import pandas as pd
+
+from xgboost_ray.data_sources.data_source import DataSource, RayFileType
+
+
+class Pandas(DataSource):
+    """Read from pandas dataframes and series."""
+
+    @staticmethod
+    def is_data_type(data: Any,
+                     filetype: Optional[RayFileType] = None) -> bool:
+        return isinstance(data, (pd.DataFrame, pd.Series))
+
+    @staticmethod
+    def load_data(data: Any,
+                  ignore: Optional[Sequence[str]] = None,
+                  indices: Optional[Sequence[int]] = None,
+                  **kwargs) -> pd.DataFrame:
+        local_df = data
+
+        if ignore:
+            local_df = local_df[local_df.columns.difference(ignore)]
+
+        if indices:
+            return local_df.iloc[indices]
+
+        return local_df
diff --git a/xgboost_ray/data_sources/parquet.py b/xgboost_ray/data_sources/parquet.py
@@ -0,0 +1,42 @@
+from typing import Any, Optional, Sequence, Iterable, Union
+
+import pandas as pd
+
+from xgboost_ray.data_sources.data_source import DataSource, RayFileType
+from xgboost_ray.data_sources.pandas import Pandas
+
+
+class Parquet(DataSource):
+    """Read one or many Parquet files."""
+    supports_central_loading = True
+    supports_distributed_loading = True
+
+    @staticmethod
+    def is_data_type(data: Any,
+                     filetype: Optional[RayFileType] = None) -> bool:
+        return filetype == RayFileType.PARQUET
+
+    @staticmethod
+    def get_filetype(data: Any) -> Optional[RayFileType]:
+        if data.endswith(".parquet"):
+            return RayFileType.PARQUET
+        return None
+
+    @staticmethod
+    def load_data(data: Union[str, Sequence[str]],
+                  ignore: Optional[Sequence[str]] = None,
+                  indices: Optional[Sequence[int]] = None,
+                  **kwargs) -> pd.DataFrame:
+        if isinstance(data, Iterable) and not isinstance(data, str):
+            shards = []
+
+            for i, shard in enumerate(data):
+                if indices and i not in indices:
+                    continue
+
+                shard_df = pd.read_parquet(shard, **kwargs)
+                shards.append(Pandas.load_data(shard_df, ignore=ignore))
+            return pd.concat(shards, copy=False)
+        else:
+            local_df = pd.read_parquet(data, **kwargs)
+            return Pandas.load_data(local_df, ignore=ignore)
diff --git a/xgboost_ray/data_sources/petastorm.py b/xgboost_ray/data_sources/petastorm.py
diff --git a/xgboost_ray/matrix.py b/xgboost_ray/matrix.py
diff --git a/xgboost_ray/tests/conftest.py b/xgboost_ray/tests/conftest.py
diff --git a/xgboost_ray/tests/test_matrix.py b/xgboost_ray/tests/test_matrix.py