pytorch
diff --git a/‎torchtext/data/datasets_utils.py
Lines changed: 78 additions & 4 deletions b/‎torchtext/data/datasets_utils.py
Lines changed: 78 additions & 4 deletions
diff --git a/‎torchtext/datasets/ag_news.py
Lines changed: 13 additions & 13 deletions b/‎torchtext/datasets/ag_news.py
Lines changed: 13 additions & 13 deletions
diff --git a/‎torchtext/datasets/amazonreviewfull.py
Lines changed: 11 additions & 14 deletions b/‎torchtext/datasets/amazonreviewfull.py
Lines changed: 11 additions & 14 deletions
diff --git a/‎torchtext/datasets/amazonreviewpolarity.py
Lines changed: 11 additions & 13 deletions b/‎torchtext/datasets/amazonreviewpolarity.py
Lines changed: 11 additions & 13 deletions
diff --git a/‎torchtext/datasets/conll2000chunking.py
Lines changed: 11 additions & 23 deletions b/‎torchtext/datasets/conll2000chunking.py
Lines changed: 11 additions & 23 deletions
diff --git a/‎torchtext/datasets/dbpedia.py
Lines changed: 15 additions & 13 deletions b/‎torchtext/datasets/dbpedia.py
Lines changed: 15 additions & 13 deletions
diff --git a/‎torchtext/datasets/enwik9.py
Lines changed: 15 additions & 8 deletions b/‎torchtext/datasets/enwik9.py
Lines changed: 15 additions & 8 deletions
diff --git a/‎torchtext/datasets/imdb.py
Lines changed: 4 additions & 2 deletions b/‎torchtext/datasets/imdb.py
Lines changed: 4 additions & 2 deletions
@@ -2,10 +2,14 @@
 import inspect
 import os
 import io
+import json
 import torch
-from torchtext.utils import validate_file
-from torchtext.utils import download_from_url
-from torchtext.utils import extract_archive
+from torchtext.utils import (
+    validate_file,
+    download_from_url,
+    extract_archive,
+    unicode_csv_reader,
+)
 import codecs
 import xml.etree.ElementTree as ET
 """
@@ -40,6 +44,53 @@ def _clean_tags_file(f_orig):
                 fd_txt.write(line.strip() + '\n')
 
 
+def _create_data_from_json(data_path):
+    with open(data_path) as json_file:
+        raw_json_data = json.load(json_file)['data']
+        for layer1 in raw_json_data:
+            for layer2 in layer1['paragraphs']:
+                for layer3 in layer2['qas']:
+                    _context, _question = layer2['context'], layer3['question']
+                    _answers = [item['text'] for item in layer3['answers']]
+                    _answer_start = [item['answer_start'] for item in layer3['answers']]
+                    if len(_answers) == 0:
+                        _answers = [""]
+                        _answer_start = [-1]
+                    # yield the raw data in the order of context, question, answers, answer_start
+                    yield (_context, _question, _answers, _answer_start)
+
+
+def _create_data_from_iob(data_path, separator='\t'):
+    with open(data_path, encoding="utf-8") as input_file:
+        columns = []
+        for line in input_file:
+            line = line.strip()
+            if line == "":
+                if columns:
+                    yield columns
+                columns = []
+            else:
+                for i, column in enumerate(line.split(separator)):
+                    if len(columns) < i + 1:
+                        columns.append([])
+                    columns[i].append(column)
+        if len(columns) > 0:
+            yield columns
+
+
+def _read_text_iterator(path):
+    with io.open(path, encoding="utf8") as f:
+        for row in f:
+            yield row
+
+
+def _create_data_from_csv(data_path):
+    with io.open(data_path, encoding="utf8") as f:
+        reader = unicode_csv_reader(f)
+        for row in reader:
+            yield int(row[0]), ' '.join(row[1:])
+
+
 def _check_default_set(split, target_select, dataset_name):
     # Check whether given object split is either a tuple of strings or string
     # and represents a valid selection of options given by the tuple of strings
@@ -148,7 +199,6 @@ def _wrap_split_argument_with_fn(fn, splits):
     train = AG_NEWS(split='train')
     train, valid = AG_NEWS(split=('train', 'valid'))
     """
-
     argspec = inspect.getfullargspec(fn)
     if not (argspec.args[0] == "root" and
             argspec.args[1] == "split" and
@@ -184,6 +234,30 @@ def new_fn(fn):
     return new_fn
 
 
+def _create_dataset_directory(dataset_name):
+    def decorator(func):
+        argspec = inspect.getfullargspec(func)
+        if not (argspec.args[0] == "root" and
+                argspec.args[1] == "split" and
+                argspec.varargs is None and
+                argspec.varkw is None and
+                len(argspec.kwonlyargs) == 0 and
+                len(argspec.annotations) == 0
+                ):
+            raise ValueError("Internal Error: Given function {} did not adhere to standard signature.".format(fn))
+
+        @functools.wraps(func)
+        def wrapper(root='.data', *args, **kwargs):
+            new_root = os.path.join(root, dataset_name)
+            if not os.path.exists(new_root):
+                os.makedirs(new_root)
+            return func(root=new_root, *args, **kwargs)
+
+        return wrapper
+
+    return decorator
+
+
 def _download_extract_validate(root, url, url_md5, downloaded_file, extracted_file, extracted_file_md5,
                                hash_type="sha256"):
     root = os.path.abspath(root)
 
@@ -1,9 +1,14 @@
-from torchtext.utils import download_from_url, unicode_csv_reader
-from torchtext.data.datasets_utils import _RawTextIterableDataset
-from torchtext.data.datasets_utils import _wrap_split_argument
-from torchtext.data.datasets_utils import _add_docstring_header
+from torchtext.utils import (
+    download_from_url,
+)
+from torchtext.data.datasets_utils import (
+    _RawTextIterableDataset,
+    _wrap_split_argument,
+    _add_docstring_header,
+    _create_dataset_directory,
+    _create_data_from_csv,
+)
 import os
-import io
 
 URL = {
     'train': "https://raw.githubusercontent.com/mhjabreel/CharCnn_Keras/master/data/ag_news_csv/train.csv",
@@ -20,19 +25,14 @@
     'test': 7600,
 }
 
-
+DATASET_NAME = "AG_NEWS"
 @_add_docstring_header(num_lines=NUM_LINES, num_classes=4)
+@_create_dataset_directory(dataset_name=DATASET_NAME)
 @_wrap_split_argument(('train', 'test'))
 def AG_NEWS(root, split):
-    def _create_data_from_csv(data_path):
-        with io.open(data_path, encoding="utf8") as f:
-            reader = unicode_csv_reader(f)
-            for row in reader:
-                yield int(row[0]), ' '.join(row[1:])
-
     path = download_from_url(URL[split], root=root,
                              path=os.path.join(root, split + ".csv"),
                              hash_value=MD5[split],
                              hash_type='md5')
-    return _RawTextIterableDataset("AG_NEWS", NUM_LINES[split],
+    return _RawTextIterableDataset(DATASET_NAME, NUM_LINES[split],
                                    _create_data_from_csv(path))
@@ -1,9 +1,11 @@
-from torchtext.utils import unicode_csv_reader
-from torchtext.data.datasets_utils import _RawTextIterableDataset
-from torchtext.data.datasets_utils import _wrap_split_argument
-from torchtext.data.datasets_utils import _add_docstring_header
-from torchtext.data.datasets_utils import _download_extract_validate
-import io
+from torchtext.data.datasets_utils import (
+    _RawTextIterableDataset,
+    _wrap_split_argument,
+    _add_docstring_header,
+    _download_extract_validate,
+    _create_dataset_directory,
+    _create_data_from_csv,
+)
 import os
 import logging
 
@@ -28,18 +30,13 @@
     'test': "0f1e78ab60f625f2a30eab6810ef987c"
 }
 
-
+DATASET_NAME = "AmazonReviewFull"
 @_add_docstring_header(num_lines=NUM_LINES, num_classes=5)
+@_create_dataset_directory(dataset_name=DATASET_NAME)
 @_wrap_split_argument(('train', 'test'))
 def AmazonReviewFull(root, split):
-    def _create_data_from_csv(data_path):
-        with io.open(data_path, encoding="utf8") as f:
-            reader = unicode_csv_reader(f)
-            for row in reader:
-                yield int(row[0]), ' '.join(row[1:])
-
     path = _download_extract_validate(root, URL, MD5, os.path.join(root, _PATH), os.path.join(root, _EXTRACTED_FILES[split]),
                                       _EXTRACTED_FILES_MD5[split], hash_type="md5")
     logging.info('Creating {} data'.format(split))
-    return _RawTextIterableDataset("AmazonReviewFull", NUM_LINES[split],
+    return _RawTextIterableDataset(DATASET_NAME, NUM_LINES[split],
                                    _create_data_from_csv(path))
@@ -1,9 +1,11 @@
-from torchtext.utils import unicode_csv_reader
-from torchtext.data.datasets_utils import _RawTextIterableDataset
-from torchtext.data.datasets_utils import _wrap_split_argument
-from torchtext.data.datasets_utils import _add_docstring_header
-from torchtext.data.datasets_utils import _download_extract_validate
-import io
+from torchtext.data.datasets_utils import (
+    _RawTextIterableDataset,
+    _wrap_split_argument,
+    _add_docstring_header,
+    _download_extract_validate,
+    _create_dataset_directory,
+    _create_data_from_csv,
+)
 import os
 import logging
 
@@ -28,17 +30,13 @@
     'test': "f4c8bded2ecbde5f996b675db6228f16"
 }
 
-
+DATASET_NAME = "AmazonReviewPolarity"
 @_add_docstring_header(num_lines=NUM_LINES, num_classes=2)
+@_create_dataset_directory(dataset_name=DATASET_NAME)
 @_wrap_split_argument(('train', 'test'))
 def AmazonReviewPolarity(root, split):
-    def _create_data_from_csv(data_path):
-        with io.open(data_path, encoding="utf8") as f:
-            reader = unicode_csv_reader(f)
-            for row in reader:
-                yield int(row[0]), ' '.join(row[1:])
     path = _download_extract_validate(root, URL, MD5, os.path.join(root, _PATH), os.path.join(root, _EXTRACTED_FILES[split]),
                                       _EXTRACTED_FILES_MD5[split], hash_type="md5")
     logging.info('Creating {} data'.format(split))
-    return _RawTextIterableDataset("AmazonReviewPolarity", NUM_LINES[split],
+    return _RawTextIterableDataset(DATASET_NAME, NUM_LINES[split],
                                    _create_data_from_csv(path))
@@ -1,7 +1,11 @@
-from torchtext.data.datasets_utils import _RawTextIterableDataset
-from torchtext.data.datasets_utils import _wrap_split_argument
-from torchtext.data.datasets_utils import _add_docstring_header
-from torchtext.data.datasets_utils import _download_extract_validate
+from torchtext.data.datasets_utils import (
+    _RawTextIterableDataset,
+    _wrap_split_argument,
+    _add_docstring_header,
+    _download_extract_validate,
+    _create_dataset_directory,
+    _create_data_from_iob,
+)
 import os
 import logging
 
@@ -31,25 +35,9 @@
 }
 
 
-def _create_data_from_iob(data_path, separator):
-    with open(data_path, encoding="utf-8") as input_file:
-        columns = []
-        for line in input_file:
-            line = line.strip()
-            if line == "":
-                if columns:
-                    yield columns
-                columns = []
-            else:
-                for i, column in enumerate(line.split(separator)):
-                    if len(columns) < i + 1:
-                        columns.append([])
-                    columns[i].append(column)
-        if len(columns) > 0:
-            yield columns
-
-
+DATASET_NAME = "CoNLL2000Chunking"
 @_add_docstring_header(num_lines=NUM_LINES)
+@_create_dataset_directory(dataset_name=DATASET_NAME)
 @_wrap_split_argument(('train', 'test'))
 def CoNLL2000Chunking(root, split):
     # Create a dataset specific subfolder to deal with generic download filenames
@@ -58,5 +46,5 @@ def CoNLL2000Chunking(root, split):
     data_filename = _download_extract_validate(root, URL[split], MD5[split], path, os.path.join(root, _EXTRACTED_FILES[split]),
                                                _EXTRACTED_FILES_MD5[split], hash_type="md5")
     logging.info('Creating {} data'.format(split))
-    return _RawTextIterableDataset("CoNLL2000Chunking", NUM_LINES[split],
+    return _RawTextIterableDataset(DATASET_NAME, NUM_LINES[split],
                                    _create_data_from_iob(data_filename, " "))
@@ -1,10 +1,16 @@
-from torchtext.utils import download_from_url, extract_archive, unicode_csv_reader
-from torchtext.data.datasets_utils import _RawTextIterableDataset
-from torchtext.data.datasets_utils import _wrap_split_argument
-from torchtext.data.datasets_utils import _add_docstring_header
-from torchtext.data.datasets_utils import _find_match
+from torchtext.utils import (
+    download_from_url,
+    extract_archive,
+)
+from torchtext.data.datasets_utils import (
+    _RawTextIterableDataset,
+    _wrap_split_argument,
+    _add_docstring_header,
+    _find_match,
+    _create_dataset_directory,
+    _create_data_from_csv,
+)
 import os
-import io
 
 URL = 'https://drive.google.com/uc?export=download&id=0Bz8a_Dbh9QhbQ2Vic1kxMmZZQ1k'
 
@@ -17,20 +23,16 @@
 
 _PATH = 'dbpedia_csv.tar.gz'
 
-
+DATASET_NAME = "DBpedia"
 @_add_docstring_header(num_lines=NUM_LINES, num_classes=14)
+@_create_dataset_directory(dataset_name=DATASET_NAME)
 @_wrap_split_argument(('train', 'test'))
 def DBpedia(root, split):
-    def _create_data_from_csv(data_path):
-        with io.open(data_path, encoding="utf8") as f:
-            reader = unicode_csv_reader(f)
-            for row in reader:
-                yield int(row[0]), ' '.join(row[1:])
     dataset_tar = download_from_url(URL, root=root,
                                     path=os.path.join(root, _PATH),
                                     hash_value=MD5, hash_type='md5')
     extracted_files = extract_archive(dataset_tar)
 
     path = _find_match(split + '.csv', extracted_files)
-    return _RawTextIterableDataset("DBpedia", NUM_LINES[split],
+    return _RawTextIterableDataset(DATASET_NAME, NUM_LINES[split],
                                    _create_data_from_csv(path))
@@ -1,9 +1,15 @@
 import logging
-from torchtext.utils import download_from_url, extract_archive
-from torchtext.data.datasets_utils import _RawTextIterableDataset
-from torchtext.data.datasets_utils import _wrap_split_argument
-from torchtext.data.datasets_utils import _add_docstring_header
-import io
+from torchtext.utils import (
+    download_from_url,
+    extract_archive,
+)
+from torchtext.data.datasets_utils import (
+    _RawTextIterableDataset,
+    _wrap_split_argument,
+    _add_docstring_header,
+    _create_dataset_directory,
+    _read_text_iterator,
+)
 
 URL = 'http://mattmahoney.net/dc/enwik9.zip'
 
@@ -13,13 +19,14 @@
     'train': 13147026
 }
 
-
+DATASET_NAME = "EnWik9"
 @_add_docstring_header(num_lines=NUM_LINES)
+@_create_dataset_directory(dataset_name=DATASET_NAME)
 @_wrap_split_argument(('train',))
 def EnWik9(root, split):
     dataset_tar = download_from_url(URL, root=root, hash_value=MD5, hash_type='md5')
     extracted_files = extract_archive(dataset_tar)
     path = extracted_files[0]
     logging.info('Creating {} data'.format(split))
-    return _RawTextIterableDataset('EnWik9',
-                                   NUM_LINES[split], iter(io.open(path, encoding="utf8")))
+    return _RawTextIterableDataset(DATASET_NAME,
+                                   NUM_LINES[split], _read_text_iterator(path))
@@ -2,6 +2,7 @@
 from torchtext.data.datasets_utils import _RawTextIterableDataset
 from torchtext.data.datasets_utils import _wrap_split_argument
 from torchtext.data.datasets_utils import _add_docstring_header
+from torchtext.data.datasets_utils import _create_dataset_directory
 import io
 
 URL = 'http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz'
@@ -15,8 +16,9 @@
 
 _PATH = 'aclImdb_v1.tar.gz'
 
-
+DATASET_NAME = "IMDB"
 @_add_docstring_header(num_lines=NUM_LINES, num_classes=2)
+@_create_dataset_directory(dataset_name=DATASET_NAME)
 @_wrap_split_argument(('train', 'test'))
 def IMDB(root, split):
     def generate_imdb_data(key, extracted_files):
@@ -31,4 +33,4 @@ def generate_imdb_data(key, extracted_files):
                                     hash_value=MD5, hash_type='md5')
     extracted_files = extract_archive(dataset_tar)
     iterator = generate_imdb_data(split, extracted_files)
-    return _RawTextIterableDataset("IMDB", NUM_LINES[split], iterator)
+    return _RawTextIterableDataset(DATASET_NAME, NUM_LINES[split], iterator)