reorganize package structure

JarbasAl · JarbasAl · commit 067a49a7d741 · 2020-11-28T16:01:20.000Z
diff --git a/examples/custom_annotators.py b/examples/custom_annotators.py
@@ -3,9 +3,9 @@
 
 
 def extract_hitler(text):
-    if "hitler" in text.lower():
-        yield Entity("hitler", "bad_guy", source_text=text, data={
-            "known_for": ["killing jews", "world war 2"]})
+    if "hitler" in text.lower().split():
+        yield Entity("hitler", "bad_guy", source_text=text,
+                     data={"known_for": ["killing jews", "world war 2"]})
 
 
 ner = NERWrapper()
diff --git a/setup.py b/setup.py
@@ -14,7 +14,7 @@ def package_files(directory):
 
 setup(
     name='simple_NER',
-    version='0.5.0',
+    version='0.6.0',
     packages=['simple_NER', 'simple_NER.rules', 'simple_NER.annotators',
               'simple_NER.annotators.remote', 'simple_NER.annotators.utils',
               'simple_NER.annotators.utils.keywords'],
diff --git a/simple_NER/annotators/datetime_ner.py b/simple_NER/annotators/datetime_ner.py
@@ -6,7 +6,7 @@
 from lingua_franca.lang.parse_en import _convert_words_to_numbers_en
 from lingua_franca.format import nice_duration, nice_date
 from lingua_franca import load_language
-from simple_NER.annotators.utils.diff import TextDiff
+from simple_NER.utils.diff import TextDiff
 
 
 load_language("en")
diff --git a/simple_NER/annotators/keyword_ner.py b/simple_NER/annotators/keyword_ner.py
@@ -1,6 +1,6 @@
 from simple_NER.annotators import NERWrapper
 from simple_NER import Entity
-from simple_NER.annotators.utils.keywords.rake import Rake
+from simple_NER.keywords.rake import Rake
 
 
 class KeywordNER(NERWrapper):
diff --git a/simple_NER/annotators/locations_ner.py b/simple_NER/annotators/locations_ner.py
@@ -1,6 +1,6 @@
 from simple_NER.annotators import NERWrapper
 from simple_NER import Entity
-from simple_NER.util import resolve_resource_file
+from simple_NER.utils import resolve_resource_file
 import json
 
 
diff --git a/simple_NER/annotators/nltk_ner.py b/simple_NER/annotators/nltk_ner.py
@@ -3,7 +3,6 @@
 
 try:
     import nltk
-
     nltk.download('punkt')
     nltk.download('averaged_perceptron_tagger')
     nltk.download('maxent_ne_chunker')
diff --git a/simple_NER/annotators/numbers_ner.py b/simple_NER/annotators/numbers_ner.py
@@ -2,7 +2,7 @@
 from simple_NER import Entity
 from lingua_franca.lang.parse_en import _convert_words_to_numbers_en
 from lingua_franca import load_language
-from simple_NER.annotators.utils.diff import TextDiff
+from simple_NER.utils.diff import TextDiff
 
 load_language("en")
 
diff --git a/simple_NER/annotators/utils/keywords/__init__.py b/simple_NER/annotators/utils/keywords/__init__.py
diff --git a/simple_NER/keywords/__init__.py b/simple_NER/keywords/__init__.py
diff --git a/simple_NER/keywords/rake.py b/simple_NER/keywords/rake.py
@@ -8,6 +8,7 @@
 import operator
 from simple_NER.settings import STOPLIST
 
+
 def is_number(s):
     try:
         float(s) if '.' in s else int(s)
@@ -43,7 +44,7 @@ def separate_words(text, min_word_return_size):
         # leave numbers in phrase, but don't count as words, since they tend to invalidate scores of their phrases
         if len(
                 current_word) > min_word_return_size and current_word != '' and not is_number(
-                current_word):
+            current_word):
             words.append(current_word)
     return words
 
@@ -104,7 +105,7 @@ def calculate_word_scores(phraseList):
     for item in word_frequency:
         word_score.setdefault(item, 0)
         word_score[item] = word_degree[item] / (
-                    word_frequency[item] * 1.0)  # orig.
+                word_frequency[item] * 1.0)  # orig.
     # word_score[item] = word_frequency[item]/(word_degree[item] * 1.0) #exp.
     return word_score
 
@@ -121,7 +122,7 @@ def generate_candidate_keyword_scores(phrase_list, word_score):
     return keyword_candidates
 
 
-class Rake(object):
+class Rake:
     def __init__(self, stop_words_path=STOPLIST):
         self.stop_words_path = stop_words_path
         self.__stop_words_pattern = build_stop_word_regex(stop_words_path)
@@ -179,4 +180,5 @@ def run(self, text):
     rake = Rake("SmartStoplist.txt")
     keywords = rake.run(text)
     from pprint import pprint
+
     pprint(keywords)
diff --git a/simple_NER/res/en-us/FoxStoplist.txt b/simple_NER/res/en-us/FoxStoplist.txt
diff --git a/simple_NER/res/en-us/SmartStoplist.txt b/simple_NER/res/en-us/SmartStoplist.txt
diff --git a/simple_NER/settings.py b/simple_NER/settings.py
@@ -1,3 +1,4 @@
 from os.path import join, dirname
 
-STOPLIST = join(dirname(__file__), "annotators", "utils", "keywords", "SmartStoplist.txt")
+STOPLIST = join(dirname(__file__), "res", "en-us", "SmartStoplist.txt")
+RESOURES_DIR = join(dirname(__file__), "res")
diff --git a/simple_NER/utils/__init__.py b/simple_NER/utils/__init__.py
@@ -1,5 +1,6 @@
-from os.path import join, dirname, isfile, expanduser, isdir
+from os.path import join, isfile, expanduser
 from os import listdir
+from simple_NER.settings import RESOURES_DIR
 
 
 def resolve_resource_file(res_name, lang="en-us"):
@@ -22,25 +23,24 @@ def resolve_resource_file(res_name, lang="en-us"):
         return res_name
 
     # Next look for /simple_NER/res/res_name
-    data_dir = join(dirname(__file__), "res")
-    filename = expanduser(join(data_dir, res_name))
+    filename = expanduser(join(RESOURES_DIR, res_name))
     if isfile(filename):
         return filename
 
     # Next look for /simple_NER/res/{lang}/res_name
-    data_dir = join(dirname(__file__), "res", lang)
+    data_dir = join(RESOURES_DIR, lang)
     filename = expanduser(join(data_dir, res_name))
     if isfile(filename):
         return filename
 
     # Next look for /simple_NER/res/{lang_short}/res_name
-    data_dir = join(dirname(__file__), "res", lang.split("-")[0])
+    data_dir = join(RESOURES_DIR, lang.split("-")[0])
     filename = expanduser(join(data_dir, res_name))
     if isfile(filename):
         return filename
 
     # Next look for /simple_NER/res/{lang-short}-XX/res_name
-    data_dir = join(dirname(__file__), "res")
+    data_dir = join(RESOURES_DIR)
     for folder in listdir(data_dir):
         if folder.startswith(lang.split("-")[0]):
             filename = expanduser(join(data_dir, folder, res_name))
diff --git a/simple_NER/utils/diff.py b/simple_NER/utils/diff.py