创建 MNIST 与 Cifar 的数据解析工具并将其打包

xinetzone · xinetzone · commit 7dad9ad2a18f · 2019-12-19T08:26:48.000+08:00
new file:   custom/__init__.py
new file:   custom/cifar.py 解析 cifar 数据
new file:   custom/genX.py  打包 MNIST 与 Cifar
new file:   custom/mnist.py 解析 mnist 数据
diff --git a/custom/__init__.py b/custom/__init__.py
diff --git a/custom/cifar.py b/custom/cifar.py
@@ -0,0 +1,92 @@
+'''
+作者：xinetzone
+时间：2019/12/3
+'''
+import tarfile
+from pathlib import Path
+import pickle
+import time
+import numpy as np
+
+
+class Cifar:
+    def __init__(self, root,  namespace):
+        """CIFAR image classification dataset from https://www.cs.toronto.edu/~kriz/cifar.html
+        Each sample is an image (in 3D NDArray) with shape (3, 32, 32).
+
+        参数
+        =========
+        meta : 保存了类别信息
+        root : str, 数据根目录
+        namespace : 'cifar-10' 或 'cifar-100'
+        """
+        #super().__init__(*args, **kwds)
+        #self.__dict__ = self
+        self.root = Path(root)
+        # 解压数据集到 root，并将解析后的数据载入内存
+        self._load(namespace)
+
+    def _extractall(self, namespace):
+        '''解压 tar 文件并返回路径
+
+        参数
+        ========
+        tar_name：tar 文件名称
+        '''
+        tar_name = self.root / f'{namespace}-python.tar.gz'
+        with tarfile.open(tar_name) as tar:
+            tar.extractall(self.root)     # 解压全部文件
+            names = tar.getnames()  # 获取解压后的文件所在目录
+        return names
+
+    def _decode(self, path):
+        '''载入二进制流到内存'''
+        with open(path, 'rb') as fp:  # 打开文件
+            # 载入数据到内存
+            data = pickle.load(fp, encoding='bytes')
+        return data
+
+    def _load_cifar10(self, names):
+        '''将解析后的 cifar10 数据载入内存'''
+        # 获取数据根目录
+        R = [self.root /
+             name for name in names if (self.root / name).is_dir()][0]
+        # 元数据信息
+        meta = self._decode(list(R.glob('*.meta'))[0])
+        # 训练集信息
+        train = [self._decode(path) for path in R.glob('*_batch_*')]
+        # 测试集信息
+        test = [self._decode(path) for path in R.glob('*test*')][0]
+        return meta, train, test
+
+    def _load_cifar100(self, names):
+        '''将解析后的 cifar100 数据载入内存'''
+        # 获取数据根目录
+        R = [self.root /
+             name for name in names if (self.root / name).is_dir()][0]
+        # 元数据信息
+        meta = self._decode(list(R.glob('*meta*'))[0])
+        # 训练集信息
+        train = [self._decode(path) for path in R.glob('*train*')][0]
+        # 测试集信息
+        test = [self._decode(path) for path in R.glob('*test*')][0]
+        return meta, train, test
+
+    def _load(self, namespace):
+        # 解压数据集到 root，并返回文件列表
+        names = self._extractall(namespace)
+        if namespace == 'cifar-10':
+            self.meta, train, test = self._load_cifar10(names)
+            self.trainX = np.concatenate(
+                [x[b'data'] for x in train]).reshape(-1, 3, 32, 32)
+            self.trainY = np.concatenate([x[b'labels'] for x in train])
+            self.testX = np.array(test[b'data']).reshape(-1, 3, 32, 32)
+            self.testY = np.array(test[b'labels'])
+        elif namespace == 'cifar-100':
+            self.meta, train, test = self._load_cifar100(names)
+            self.trainX = np.array(train[b'data']).reshape(-1, 3, 32, 32)
+            self.testX = np.array(test[b'data']).reshape(-1, 3, 32, 32)
+            self.train_fine_labels = np.array(train[b'fine_labels'])
+            self.train_coarse_labels = np.array(train[b'coarse_labels'])
+            self.test_fine_labels = np.array(test[b'fine_labels'])
+            self.test_coarse_labels = np.array(test[b'coarse_labels'])
diff --git a/custom/genX.py b/custom/genX.py
@@ -0,0 +1,77 @@
+'''
+作者：xinetzone
+时间：2019/12/3
+'''
+import tables as tb
+import numpy as np
+
+from custom.cifar import Cifar
+from custom.mnist import MNIST
+
+
+class Bunch(dict):
+    def __init__(self, root, *args, **kwargs):
+        """将数据  MNIST，Fashion MNIST，Cifar 10，Cifar 100 打包
+        为 HDF5
+        
+        参数
+        =========
+        root : 数据的根目录
+        """
+        super().__init__(*args, **kwargs)
+        self.__dict__ = self
+        self.mnist = MNIST(root, 'mnist')
+        self.fashion_mnist = MNIST(root, 'fashion-mnist')
+        self.cifar10 = Cifar(root, 'cifar-10')
+        self.cifar100 = Cifar(root, 'cifar-100')
+
+    def _change(self, img):
+        '''将数据由 (num, channel, h, w) 转换为 (num, h, w, channel)'''
+        return np.transpose(img, (0, 2, 3, 1))
+
+    def toHDF5(self, save_path):
+        '''将数据打包为 HDF5 格式
+        
+        参数
+        ===========
+        save_path：数据保存的路径
+        '''
+        filters = tb.Filters(complevel=7, shuffle=False)
+        with tb.open_file(f'{save_path}/X.h5', 'w', filters=filters, title='Xinet\'s dataset') as h5:
+            for name in self:
+                h5.create_group('/', name, title=name)
+                if name in ['mnist', 'fashion_mnist']:
+                    h5.create_array(
+                        h5.root[name], 'trainX', self[name].train_data)
+                    h5.create_array(
+                        h5.root[name], 'trainY', self[name].train_label)
+                    h5.create_array(
+                        h5.root[name], 'testX', self[name].test_data)
+                    h5.create_array(
+                        h5.root[name], 'testY', self[name].test_label)
+                elif name == 'cifar10':
+                    h5.create_array(
+                        h5.root[name], 'trainX', self._change(self[name].trainX))
+                    h5.create_array(h5.root[name], 'trainY', self[name].trainY)
+                    h5.create_array(
+                        h5.root[name], 'testX', self._change(self[name].testX))
+                    h5.create_array(h5.root[name], 'testY', self[name].testY)
+                    h5.create_array(h5.root[name], 'label_names', np.array(
+                        self[name].meta[b'label_names']))
+                elif name == 'cifar100':
+                    h5.create_array(
+                        h5.root[name], 'trainX', self._change(self[name].trainX))
+                    h5.create_array(
+                        h5.root[name], 'testX', self._change(self[name].testX))
+                    h5.create_array(
+                        h5.root[name], 'train_coarse_labels', self[name].train_coarse_labels)
+                    h5.create_array(
+                        h5.root[name], 'test_coarse_labels', self[name].test_coarse_labels)
+                    h5.create_array(
+                        h5.root[name], 'train_fine_labels', self[name].train_fine_labels)
+                    h5.create_array(
+                        h5.root[name], 'test_fine_labels', self[name].test_fine_labels)
+                    h5.create_array(h5.root[name], 'coarse_label_names', np.array(
+                        self[name].meta[b'coarse_label_names']))
+                    h5.create_array(h5.root[name], 'fine_label_names', np.array(
+                        self[name].meta[b'fine_label_names']))
diff --git a/custom/mnist.py b/custom/mnist.py
@@ -0,0 +1,67 @@
+'''
+作者：xinetzone
+时间：2019/12/3
+'''
+import struct
+from pathlib import Path
+import numpy as np
+import gzip
+
+
+class MNIST:
+    def __init__(self, root, namespace):
+        """MNIST 与 FASGION-MNIST 数据解码工具
+        1. (MNIST handwritten digits dataset from http://yann.lecun.com/exdb/mnist) 下载后放置在 `mnist` 目录
+        2. (A dataset of Zalando's article images consisting of fashion products,
+        a drop-in replacement of the original MNIST dataset from https://github.com/zalandoresearch/fashion-mnist) 
+            数据下载放置在 `fashion-mnist` 目录
+
+        Each sample is an image (in 2D NDArray) with shape (28, 28).
+
+        
+
+        参数
+        ========
+        root : 数据根目录，如 'E:/Data/Zip/'
+        namespace : 'mnist' or 'fashion-mnist'
+
+        实例属性
+        ========
+        train_data：训练数据集图片
+        train_label：训练数据集标签名称
+        test_data：测试数据集图片
+        test_label：测试数据集标签名称
+        """
+        root = Path(root) / namespace
+        self._name2array(root)
+
+    def _name2array(self, root):
+        '''
+        官方网站是以 `[offset][type][value][description]` 的格式封装数据的，
+            因而我们使用 `struct.unpack`
+        '''
+        _train_data = root / 'train-images-idx3-ubyte.gz'  # 训练数据集文件名
+        _train_label = root / 'train-labels-idx1-ubyte.gz'  # 训练数据集的标签文件名
+        _test_data = root / 't10k-images-idx3-ubyte.gz'   # 测试数据集文件名
+        _test_label = root / 't10k-labels-idx1-ubyte.gz'  # 测试数据集的标签文件名
+        self.train_data = self.get_data(_train_data)  # 获得训练数据集图片
+        self.train_label = self.get_label(_train_label)  # 获得训练数据集标签名称
+        self.test_data = self.get_data(_test_data)   # 获得测试数据集图片
+        self.test_label = self.get_label(_test_label)  # 获得测试数据集标签名称
+
+    def get_data(self, data):
+        '''获取图像信息'''
+        with gzip.open(data, 'rb') as fin:
+            shape = struct.unpack(">IIII", fin.read(16))[1:]
+            data = np.frombuffer(fin.read(), dtype=np.uint8)
+        data = data.reshape(shape)
+        return data
+
+    def get_label(self, label):
+        '''获取标签信息'''
+        with gzip.open(label, 'rb') as fin:
+            struct.unpack(">II", fin.read(8))  # 参考数据集的网站，即 offset=8
+            # 获得数据集的标签
+            label = fin.read()
+        label = np.frombuffer(label, dtype=np.uint8).astype(np.int32)
+        return label