fix: Consolidate import statements and streamline code formatting in the notebook

h00dieB0y · h00dieB0y · commit 9a940d11f926 · 2026-01-23T19:14:16.000+01:00
diff --git a/notebooks/03_silver_to_gold.ipynb b/notebooks/03_silver_to_gold.ipynb
@@ -64,21 +64,7 @@
    "execution_count": null,
    "metadata": {},
    "outputs": [],
-   "source": [
-    "import sparknlp\n",
-    "from sparknlp.base import DocumentAssembler, Finisher\n",
-    "from sparknlp.annotator import (\n",
-    "    Tokenizer, Normalizer, StopWordsCleaner, LemmatizerModel,\n",
-    "    SentimentDLModel, NerDLModel, NerConverter,\n",
-    "    SentenceDetector, WordEmbeddingsModel, UniversalSentenceEncoder\n",
-    ")\n",
-    "from pyspark.ml import Pipeline\n",
-    "from pyspark.sql.functions import col, explode, explode_outer, length, desc, count, when, rank, round as round_\n",
-    "from pyspark.sql.functions import sum as sum_\n",
-    "from pyspark.sql.window import Window\n",
-    "\n",
-    "print(f\"Spark NLP version: {sparknlp.version()}\")"
-   ]
+   "source": "import sparknlp\nfrom sparknlp.base import DocumentAssembler, Finisher\nfrom sparknlp.annotator import (\n    Tokenizer, Normalizer, StopWordsCleaner, LemmatizerModel,\n    SentimentDLModel, NerDLModel, NerConverter,\n    SentenceDetector, WordEmbeddingsModel, UniversalSentenceEncoder\n)\nfrom pyspark.ml import Pipeline\nfrom pyspark.sql.functions import col, explode, explode_outer, length, desc, count, when, rank, round as round_, window\nfrom pyspark.sql.functions import sum as sum_\nfrom pyspark.sql.window import Window\n\nprint(f\"Spark NLP version: {sparknlp.version()}\")"
   },
   {
    "cell_type": "markdown",
@@ -459,30 +445,7 @@
    "execution_count": null,
    "metadata": {},
    "outputs": [],
-   "source": [
-    "comments_with_kw = keywords_model_fitted.transform(comments_stream)\n",
-    "keywords_exploded_stream = comments_with_kw \\\n",
-    "    .select(\n",
-    "        col(\"id\"),\n",
-    "        explode(col(\"keywords\")).alias(\"keyword\")\n",
-    "    ) \\\n",
-    "    .groupBy(\n",
-    "        window(\n",
-    "            col(\"timestamp\"),\n",
-    "            \"10 minutes\",\n",
-    "            \"2 minutes\"\n",
-    "        ),\n",
-    "        col(\"keyword\")\n",
-    "    ) \\\n",
-    "    .count() \\\n",
-    "    .orderBy(desc(\"count\"))\n",
-    "\n",
-    "keywords_exploded_stream.writeStream \\\n",
-    "    .format(\"delta\") \\\n",
-    "    .outputMode(\"complete\") \\\n",
-    "    .option(\"checkpointLocation\", f\"{GOLD_PATH}/_checkpoints/keywords_windowed\") \\\n",
-    "    .start(f\"{GOLD_PATH}/keywords_real_time\")"
-   ]
+   "source": "comments_with_kw = keywords_model_fitted.transform(comments_stream)\nkeywords_exploded_stream = comments_with_kw \\\n    .select(\n        col(\"id\"),\n        col(\"timestamp\"),\n        explode(col(\"keywords\")).alias(\"keyword\")\n    ) \\\n    .groupBy(\n        window(\n            col(\"timestamp\"),\n            \"10 minutes\",\n            \"2 minutes\"\n        ),\n        col(\"keyword\")\n    ) \\\n    .count()\n\nkeywords_exploded_stream.writeStream \\\n    .format(\"delta\") \\\n    .outputMode(\"complete\") \\\n    .option(\"checkpointLocation\", f\"{GOLD_PATH}/_checkpoints/keywords_windowed\") \\\n    .start(f\"{GOLD_PATH}/keywords_real_time\")"
   },
   {
    "cell_type": "markdown",
@@ -644,4 +607,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 4
-}
+}