bigdata-ustc
diff --git a/‎AUTHORS.md
Lines changed: 2 additions & 0 deletions b/‎AUTHORS.md
Lines changed: 2 additions & 0 deletions
diff --git a/‎CHANGE.txt
Lines changed: 7 additions & 1 deletion b/‎CHANGE.txt
Lines changed: 7 additions & 1 deletion
diff --git a/‎EduNLP/Pretrain/gensim_vec.py
Lines changed: 37 additions & 37 deletions b/‎EduNLP/Pretrain/gensim_vec.py
Lines changed: 37 additions & 37 deletions
diff --git a/‎EduNLP/utils/data.py
Lines changed: 1 addition & 1 deletion b/‎EduNLP/utils/data.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎EduNLP/utils/path.py
Lines changed: 2 additions & 2 deletions b/‎EduNLP/utils/path.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎README.md
Lines changed: 8 additions & 0 deletions b/‎README.md
Lines changed: 8 additions & 0 deletions
diff --git a/‎asset/_static/d2v.png
6.48 KB b/‎asset/_static/d2v.png
6.48 KB
diff --git a/‎asset/_static/d2v_bow_tfidf.png
12.1 KB b/‎asset/_static/d2v_bow_tfidf.png
12.1 KB
diff --git a/‎asset/_static/d2v_general.png
10 KB b/‎asset/_static/d2v_general.png
10 KB
diff --git a/‎asset/_static/d2v_stem_tf.png
9.67 KB b/‎asset/_static/d2v_stem_tf.png
9.67 KB
diff --git a/‎asset/_static/data.png
42.5 KB b/‎asset/_static/data.png
42.5 KB
diff --git a/‎asset/_static/formula.png
13.6 KB b/‎asset/_static/formula.png
13.6 KB
diff --git a/‎asset/_static/i2v.png
41.2 KB b/‎asset/_static/i2v.png
41.2 KB
diff --git a/‎asset/_static/parse.png
25.1 KB b/‎asset/_static/parse.png
25.1 KB
diff --git a/‎asset/_static/prepare_dataset.jpg
74.1 KB b/‎asset/_static/prepare_dataset.jpg
74.1 KB
diff --git a/‎asset/_static/seg.png
27.4 KB b/‎asset/_static/seg.png
27.4 KB
diff --git a/‎asset/_static/sif.png
5.22 KB b/‎asset/_static/sif.png
5.22 KB
diff --git a/‎asset/_static/sif_addition.png
29.5 KB b/‎asset/_static/sif_addition.png
29.5 KB
diff --git a/‎asset/_static/tokenizer.png
9.14 KB b/‎asset/_static/tokenizer.png
9.14 KB
diff --git a/‎asset/_static/w2v_stem_text.png
34.1 KB b/‎asset/_static/w2v_stem_text.png
34.1 KB
diff --git a/‎asset/_static/w2v_stem_tf.png
48.3 KB b/‎asset/_static/w2v_stem_tf.png
48.3 KB
diff --git a/‎docs/SIF4TI_CH.md
Lines changed: 1 addition & 1 deletion b/‎docs/SIF4TI_CH.md
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/requirements.txt
Lines changed: 2 additions & 1 deletion b/‎docs/requirements.txt
Lines changed: 2 additions & 1 deletion
diff --git a/‎docs/source/api/ModelZoo.rst
Lines changed: 16 additions & 0 deletions b/‎docs/source/api/ModelZoo.rst
Lines changed: 16 additions & 0 deletions
diff --git a/‎docs/source/api/index.rst
Lines changed: 41 additions & 0 deletions b/‎docs/source/api/index.rst
Lines changed: 41 additions & 0 deletions
diff --git a/‎docs/source/api/pretrain.rst
Lines changed: 6 additions & 0 deletions b/‎docs/source/api/pretrain.rst
Lines changed: 6 additions & 0 deletions
diff --git a/‎docs/source/api/tokenizer.rst
Lines changed: 6 additions & 0 deletions b/‎docs/source/api/tokenizer.rst
Lines changed: 6 additions & 0 deletions
diff --git a/‎docs/source/api/utils.rst
Lines changed: 6 additions & 0 deletions b/‎docs/source/api/utils.rst
Lines changed: 6 additions & 0 deletions
diff --git a/‎docs/source/api/vector.rst
Lines changed: 10 additions & 0 deletions b/‎docs/source/api/vector.rst
Lines changed: 10 additions & 0 deletions
diff --git a/‎docs/source/conf.py
Lines changed: 24 additions & 4 deletions b/‎docs/source/conf.py
Lines changed: 24 additions & 4 deletions
@@ -14,5 +14,7 @@
 
 [Pingzhi Li](https://github.com/pingzhiLi)
 
+[Meikai Bao](https://github.com/BAOOOOOM)
+
 
 The stared contributors are the corresponding authors. 
@@ -1,3 +1,9 @@
+v0.0.6:
+    1. dev: add half-pretrained rnn model
+    2. important!!!: rename TextTokenizer to PureTextTokenizer, and add a new tokenizer named TextTokenizer (the two have similar but not the same behaviours).
+    3. sif: add $\textf{}$ syntax
+    4. add two pretrained w2v model: w2v_sci_300 and w2v_lit_300
+
 v0.0.5:
     1. fix the missing stopwords.txt when use pip install
 
@@ -18,4 +24,4 @@ v0.0.2:
 v0.0.1:
     1. Add Formula class to parse latex formula, which will generate the abstract syntax tree.
     2. Add SIF v0.0.2.
-    3. Add sif4sci function which serves as a preprocess function for downstream tasks.
+    3. Add sif4sci function which serves as a preprocess function for downstream tasks.
@@ -15,36 +15,36 @@
 
 
 class GensimWordTokenizer(object):
+    """
+
+    Parameters
+    ----------
+    symbol:
+        gm
+        fgm
+        gmas
+        fgmas
+    general:
+        True when item isn't in standard format, and want to tokenize formulas(except formulas in figure) linearly.
+        False when use 'ast' mothed to tokenize formulas instead of 'linear'.
+
+    Returns
+    ----------
+
+    Examples
+    ----------
+    >>> tokenizer = GensimWordTokenizer(symbol="gmas", general=True)
+    >>> token_item = tokenizer("有公式$\\FormFigureID{wrong1?}$，如图$\\FigureID{088f15ea-xxx}$,\
+    ... 若$x,y$满足约束条件公式$\\FormFigureBase64{wrong2?}$,$\\SIFSep$，则$z=x+7 y$的最大值为$\\SIFBlank$")
+    >>> print(token_item.tokens[:10])
+    ['公式', '[FORMULA]', '如图', '[FIGURE]', 'x', ',', 'y', '约束条件', '公式', '[FORMULA]']
+    >>> tokenizer = GensimWordTokenizer(symbol="fgmas", general=False)
+    >>> token_item = tokenizer("有公式$\\FormFigureID{wrong1?}$，如图$\\FigureID{088f15ea-xxx}$,\
+    ... 若$x,y$满足约束条件公式$\\FormFigureBase64{wrong2?}$,$\\SIFSep$，则$z=x+7 y$的最大值为$\\SIFBlank$")
+    >>> print(token_item.tokens[:10])
+    ['公式', '[FORMULA]', '如图', '[FIGURE]', '[FORMULA]', '约束条件', '公式', '[FORMULA]', '[SEP]', '[FORMULA]']
+    """
     def __init__(self, symbol="gm", general=False):
-        """
-
-        Parameters
-        ----------
-        symbol:
-            gm
-            fgm
-            gmas
-            fgmas
-        general:
-            True when item isn't in standard format, and want to tokenize formulas(except formulas in figure) linearly.
-            False when use 'ast' mothed to tokenize formulas instead of 'linear'.
-
-        Returns
-        ----------
-
-        Examples
-        ----------
-        >>> tokenizer = GensimWordTokenizer(symbol="gmas", general=True)
-        >>> token_item = tokenizer("有公式$\\FormFigureID{wrong1?}$，如图$\\FigureID{088f15ea-xxx}$,\
-        ... 若$x,y$满足约束条件公式$\\FormFigureBase64{wrong2?}$,$\\SIFSep$，则$z=x+7 y$的最大值为$\\SIFBlank$")
-        >>> print(token_item.tokens[:10])
-        ['公式', '[FORMULA]', '如图', '[FIGURE]', 'x', ',', 'y', '约束条件', '公式', '[FORMULA]']
-        >>> tokenizer = GensimWordTokenizer(symbol="fgmas", general=False)
-        >>> token_item = tokenizer("有公式$\\FormFigureID{wrong1?}$，如图$\\FigureID{088f15ea-xxx}$,\
-        ... 若$x,y$满足约束条件公式$\\FormFigureBase64{wrong2?}$,$\\SIFSep$，则$z=x+7 y$的最大值为$\\SIFBlank$")
-        >>> print(token_item.tokens[:10])
-        ['公式', '[FORMULA]', '如图', '[FIGURE]', '[FORMULA]', '约束条件', '公式', '[FORMULA]', '[SEP]', '[FORMULA]']
-        """
         self.symbol = symbol
         if general is True:
             self.tokenization_params = {
@@ -72,15 +72,15 @@ def __call__(self, item):
 
 
 class GensimSegTokenizer(object):  # pragma: no cover
+    """
+
+    Parameters
+    ----------
+    symbol:
+        gms
+        fgm
+    """
     def __init__(self, symbol="gms", depth=None, flatten=False, **kwargs):
-        """
-
-        Parameters
-        ----------
-        symbol:
-            gms
-            fgm
-        """
         self.symbol = symbol
         self.tokenization_params = {
             "formula_params": {
 
@@ -38,7 +38,7 @@ def dict2str4sif(obj: dict, key_as_tag=True, tag_mode="delimiter", add_list_no_t
     add_list_no_tag
     keys
 
-    Returns
+    Examples
     -------
     >>> item = {
     ...     "stem": r"若复数$z=1+2 i+i^{3}$，则$|z|=$",
 
@@ -27,8 +27,8 @@ def path_append(path, *addition, to_str=False):
     --------
     .. code-block:: python
 
-    path_append("../", "../data", "../dataset1/", "train", to_str=True)
-    '../../data/../dataset1/train'
+        path_append("../", "../data", "../dataset1/", "train", to_str=True)
+        '../../data/../dataset1/train'
 
     Parameters
     ----------
 
@@ -41,6 +41,14 @@ pip install EduNLP
 pip install EduNLP[full]
 ```
 
+### Usage
+
+```python
+from EduNLP import get_pretrained_i2v
+i2v = get_pretrained_i2v("d2v_all_256", "./model")
+item_vector, token_vector = i2v(["the content of item 1", "the content of item 2"])
+```
+
 ### Tutorial
 
 For more details, please refer to the full documentation ([latest](https://edunlp.readthedocs.io/en/latest) | [stable](https://edunlp.readthedocs.io/en/stable)).
 
@@ -1,4 +1,4 @@
-# 标准测试项目格式
+# 标准项目格式
 
 version: 0.2
 
 
@@ -2,4 +2,5 @@ sphinx
 sphinx_rtd_theme
 sphinx_toggleprompt
 sphinx-gallery>=0.6
-nbsphinx
+nbsphinx
+m2r2
@@ -0,0 +1,16 @@
+EduNLP.ModelZoo
+==============
+
+rnn
+-----------
+
+.. automodule:: EduNLP.ModelZoo.rnn
+   :members:
+   :imported-members:
+
+utils
+-----------
+
+.. automodule:: EduNLP.ModelZoo.utils
+   :members:
+   :imported-members:
@@ -1,2 +1,43 @@
 EduNLP
 ======
+
+SIF
+----------------------
+.. automodule:: EduNLP.SIF.sif
+   :members:
+   :imported-members:
+
+EduNLP.Formula
+---------------------
+
+.. automodule:: EduNLP.Formula.ast
+   :members:
+   :imported-members:
+
+EduNLP.I2V
+-----------------
+
+.. automodule:: EduNLP.I2V.i2v
+   :members:
+   :imported-members:
+
+EduNLP.Pretrain
+-------------------
+
+.. automodule:: EduNLP.Pretrain
+   :members:
+   :imported-members:
+
+EduNLP.Tokenizer
+----------------------
+
+.. automodule:: EduNLP.Tokenizer
+   :members:
+   :imported-members:
+
+Vector
+---------------
+
+.. automodule:: EduNLP.Vector
+   :members:
+   :imported-members:
@@ -0,0 +1,6 @@
+EduNLP.Pretrain
+==================
+
+.. automodule:: EduNLP.Pretrain
+   :members:
+   :imported-members:
@@ -0,0 +1,6 @@
+EduNLP.Tokenizer
+=====================================
+
+.. automodule:: EduNLP.Tokenizer
+   :members:
+   :imported-members:
@@ -0,0 +1,6 @@
+EduNLP.utils
+====================
+
+.. automodule:: EduNLP.utils
+   :members:
+   :imported-members:
@@ -0,0 +1,10 @@
+EduNLP.Vector
+==========================
+
+Vector
+---------------
+
+.. automodule:: EduNLP.Vector
+   :members:
+   :imported-members:
+
@@ -46,14 +46,34 @@ def copy_tree(src, tar):
     'sphinx.ext.mathjax',
     'sphinx_toggleprompt',
     'nbsphinx',
-    'sphinx_gallery.load_style'
+    'sphinx_gallery.load_style',
+    'm2r2',
+    'IPython.sphinxext.ipython_console_highlighting',
+    'IPython.sphinxext.ipython_directive'
 ]
 
 # extension variables setting
 # npsphinx
 
 nbsphinx_thumbnails = {
-    'build/blitz/sif/sif': '_static/item_figure.png',
+    'build/blitz/sif/sif': '_static/sif.png',
+    'build/blitz/sif/sif_addition': '_static/sif_addition.png',
+    'build/blitz/utils/data': '_static/data.png',
+    'build/blitz/formula/formula': '_static/formula.png',
+    'build/blitz/seg/seg': '_static/seg.png',
+    'build/blitz/parse/parse': '_static/parse.png',
+    'build/blitz/formula/formula': '_static/formula.png',
+    'build/blitz/tokenizer/tokenizer': '_static/tokenizer.png',
+    'build/blitz/vectorization/i2v': '_static/i2v.png',
+    'build/blitz/pretrain/prepare_dataset': '_static/prepare_dataset.jpg',
+    'build/blitz/pretrain/gensim/d2v_bow_tfidf': '_static/d2v_bow_tfidf.png',
+    'build/blitz/pretrain/gensim/d2v_general': '_static/d2v_general.png',
+    'build/blitz/pretrain/gensim/d2v_stem_tf': '_static/d2v_stem_tf.png',
+    'build/blitz/pretrain/gensim/w2v_stem_text': '_static/w2v_stem_text.png',
+    'build/blitz/pretrain/gensim/w2v_stem_tf': '_static/w2v_stem_tf.png',
+    'build/blitz/pretrain/seg_token/d2v': '_static/d2v.png',
+    'build/blitz/pretrain/seg_token/d2v_d1': '_static/d2v_d1.png',
+    'build/blitz/pretrain/seg_token/d2v_d2': '_static/d2v_d2.png',
 }
 
 # Add any paths that contain templates here, relative to this directory.
@@ -62,7 +82,7 @@ def copy_tree(src, tar):
 # The suffix(es) of source filenames.
 # You can specify multiple suffix as a list of string:
 #
-source_suffix = ['.rst', '.md', '.ipynb']
+source_suffix = ['.rst', '.md']
 # source_suffix = '.rst'
 
 # The language for content autogenerated by Sphinx. Refer to documentation
@@ -75,7 +95,7 @@ def copy_tree(src, tar):
 # List of patterns, relative to source directory, that match files and
 # directories to ignore when looking for source files.
 # This pattern also affects html_static_path and html_extra_path.
-exclude_patterns = ['_build']
+exclude_patterns = ['_build','**.ipynb_checkpoints']
 
 # -- Options for HTML output -------------------------------------------------
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# 标准测试项目格式`
	`1`	`+# 标准项目格式`
`2`	`2`
`3`	`3`	`version: 0.2`
`4`	`4`