[SPARKNLP-1378] HTMLReader Default Headers Error (#14770)

danilojsl · web-flow · commit 111386317fac · 2026-05-14T09:11:00.000-05:00
diff --git a/python/test/partition/partition_test.py b/python/test/partition/partition_test.py
@@ -111,8 +111,11 @@ def runTest(self):
         html_df = Partition(content_type = "text/html").partition(self.html_directory)
         html_file_df = Partition().partition(f"{self.html_directory}/fake-html.html")
 
-        self.assertTrue(html_df.select("html").count() > 0)
-        self.assertTrue(html_file_df.select("html").count() > 0)
+        html_rows = html_df.select("html").collect()
+        html_file_rows = html_file_df.select("html").collect()
+
+        self.assertTrue(len(html_rows) > 0)
+        self.assertTrue(len(html_file_rows) > 0)
 
 
 @pytest.mark.slow
@@ -122,8 +125,11 @@ def runTest(self):
         url_df = Partition().partition("https://www.wikipedia.org", headers={"User-Agent": "Mozilla/5.0"})
         urls_df = Partition().partition_urls(["https://www.wikipedia.org", "https://example.com/"])
 
-        self.assertTrue(url_df.select("html").count() > 0)
-        self.assertTrue(urls_df.select("html").count() > 0)
+        url_rows = url_df.select("html").collect()
+        urls_rows = urls_df.select("html").collect()
+
+        self.assertTrue(len(url_rows) > 0)
+        self.assertTrue(len(urls_rows) > 0)
 
 
 @pytest.mark.fast
diff --git a/python/test/partition/partition_transformer_test.py b/python/test/partition/partition_transformer_test.py
@@ -49,7 +49,8 @@ def runTest(self):
         resultDf = pipelineModel.transform(self.testDataSet)
         resultDf.show(truncate=False)
 
-        self.assertTrue(resultDf.select("partition").count() > 0)
+        rows = resultDf.select("partition").collect()
+        self.assertTrue(len(rows) > 0)
 
 
 @pytest.mark.slow
@@ -80,7 +81,8 @@ def runTest(self):
 
         resultDf = pipelineModel.transform(self.testDataSet)
 
-        self.assertTrue(resultDf.select("partition").count() > 0)
+        rows = resultDf.select("partition").collect()
+        self.assertTrue(len(rows) > 0)
 
 
 @pytest.mark.fast
@@ -108,4 +110,5 @@ def runTest(self):
 
         resultDf = pipelineModel.transform(self.emptyDataSet)
 
-        self.assertTrue(resultDf.select("partition").count() >= 0)
+        rows = resultDf.select("partition").collect()
+        self.assertTrue(len(rows) >= 0)
diff --git a/python/test/reader/reader2doc_test.py b/python/test/reader/reader2doc_test.py
@@ -41,7 +41,8 @@ def runTest(self):
 
         result_df = model.transform(self.empty_df)
 
-        self.assertTrue(result_df.select("document").count() > 0)
+        rows = result_df.select("document").collect()
+        self.assertTrue(len(rows) > 0)
 
 
 @pytest.mark.fast
@@ -67,7 +68,8 @@ def runTest(self):
 
         result_df = model.transform(self.empty_df)
 
-        self.assertTrue(result_df.select("document").count() > 0)
+        rows = result_df.select("document").collect()
+        self.assertTrue(len(rows) > 0)
 
 
 @pytest.mark.fast
@@ -89,7 +91,8 @@ def runTest(self):
 
         result_df = model.transform(self.empty_df)
 
-        self.assertTrue(result_df.select("document").count() > 0)
+        rows = result_df.select("document").collect()
+        self.assertTrue(len(rows) > 0)
 
 
 @pytest.mark.fast
@@ -157,7 +160,8 @@ def runTest(self):
 
         result_df = model.transform(self.html_df)
 
-        self.assertTrue(result_df.select("document").count() > 0)
+        rows = result_df.select("document").collect()
+        self.assertTrue(len(rows) > 0)
 
 
 @pytest.mark.fast
diff --git a/python/test/reader/reader2image_test.py b/python/test/reader/reader2image_test.py
@@ -41,7 +41,8 @@ def runTest(self):
 
         result_df = model.transform(self.empty_df)
 
-        self.assertTrue(result_df.select("image").count() > 0)
+        rows = result_df.select("image").collect()
+        self.assertTrue(len(rows) > 0)
 
 
 @pytest.mark.slow
@@ -73,4 +74,4 @@ def runTest(self):
         result_df.select("image.origin", "answer.result").show(truncate=False)
 
         # Assertion
-        self.assertTrue(result_df.count() > 0)
+        self.assertTrue(result_df.count() > 0)
diff --git a/python/test/reader/reader2table_test.py b/python/test/reader/reader2table_test.py
@@ -41,7 +41,8 @@ def runTest(self):
 
         result_df = model.transform(self.empty_df)
 
-        self.assertTrue(result_df.select("document").count() > 0)
+        rows = result_df.select("document").collect()
+        self.assertTrue(len(rows) > 0)
 
 @pytest.mark.fast
 class Reader2TableMixedFilesTest(unittest.TestCase):
@@ -90,4 +91,5 @@ def runTest(self):
 
         result_df = model.transform(self.html_df)
 
-        self.assertTrue(result_df.select("document").count() > 0)
+        rows = result_df.select("document").collect()
+        self.assertTrue(len(rows) > 0)
diff --git a/python/test/reader/readerassembler_test.py b/python/test/reader/readerassembler_test.py
@@ -33,11 +33,14 @@ def runTest(self):
         reader_assembler = ReaderAssembler() \
             .setContentType("text/html") \
             .setContentPath(f"file:///{os.getcwd()}/../src/test/resources/reader/html/table-image.html") \
-            .setOutputCol("document")
+            .setOutputCol("document") \
+            .setOutputAsDocument(False) \
+            .setExplodeDocs(False)
 
         pipeline = Pipeline(stages=[reader_assembler])
         model = pipeline.fit(self.empty_df)
 
-        result_df = model.transform(self.empty_df)
+        rows = model.transform(self.empty_df).collect()
 
-        self.assertTrue(result_df.count() > 0)
+        self.assertTrue(len(rows) > 0)
+        self.assertTrue(any(row.document_image for row in rows))
diff --git a/src/main/scala/com/johnsnowlabs/partition/HasHTMLReaderProperties.scala b/src/main/scala/com/johnsnowlabs/partition/HasHTMLReaderProperties.scala
@@ -37,6 +37,26 @@ trait HasHTMLReaderProperties extends ParamsAndFeaturesWritable {
     setHeaders(headers.asScala.toMap)
   }
 
+  protected def getHeadersAsJava: java.util.Map[String, String] = {
+    val headersCopy = new java.util.HashMap[String, String]()
+    val rawHeaders = getOrDefault(headers.asInstanceOf[Param[Any]])
+    rawHeaders match {
+      case null =>
+      case javaHeaders: java.util.Map[_, _] =>
+        javaHeaders.asScala.foreach { case (key, value) =>
+          if (key != null && value != null) headersCopy.put(key.toString, value.toString)
+        }
+      case scalaHeaders: scala.collection.Map[_, _] =>
+        scalaHeaders.foreach { case (key, value) =>
+          if (key != null && value != null) headersCopy.put(key.toString, value.toString)
+        }
+      case other =>
+        throw new IllegalArgumentException(
+          s"headers must be a Map[String, String], but got ${other.getClass.getName}")
+    }
+    headersCopy
+  }
+
   val includeTitleTag = new Param[Boolean](
     this,
     "includeTitleTag",
diff --git a/src/main/scala/com/johnsnowlabs/partition/PartitionTransformer.scala b/src/main/scala/com/johnsnowlabs/partition/PartitionTransformer.scala
@@ -171,8 +171,9 @@ class PartitionTransformer(override val uid: String)
     partitionInstance.setOutputColumn(inputColum)
 
     val partitionDf = if (isStringContent($(contentType))) {
-      val partitionUDF = udf((text: String) =>
-        partitionInstance.partitionStringContent(text, $(this.headers).asJava))
+      val requestHeaders = getHeadersAsJava
+      val partitionUDF =
+        udf((text: String) => partitionInstance.partitionStringContent(text, requestHeaders))
       val schemaFieldOpt = dataset.schema.find(_.name == inputColum)
 
       schemaFieldOpt match {
diff --git a/src/main/scala/com/johnsnowlabs/reader/HTMLReader.scala b/src/main/scala/com/johnsnowlabs/reader/HTMLReader.scala
@@ -276,9 +276,11 @@ class HTMLReader(
 
   private def extractElements(root: Node): Array[HTMLElement] = {
     var sentenceIndex = 0
+    var paragraphIndex = 0
     val elements = ArrayBuffer[HTMLElement]()
     val trackingNodes = mutable.Map[Node, NodeMetadata]()
     var pageNumber = 1
+    val paragraphSpacingY = 25
 
     // Track parent-child hierarchy
     var currentParentId: Option[String] = None
@@ -428,6 +430,10 @@ class HTMLReader(
             case "a" =>
               pageMetadata("sentence") = sentenceIndex.toString
               sentenceIndex += 1
+              pageMetadata("paragraph_index") = paragraphIndex.toString
+              pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+              pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
+              paragraphIndex += 1
               val href = element.attr("href").trim
               val linkText = element.text().trim
               if (href.nonEmpty && linkText.nonEmpty && !visitedNode) {
@@ -443,6 +449,10 @@ class HTMLReader(
             case "table" =>
               pageMetadata("sentence") = sentenceIndex.toString
               sentenceIndex += 1
+              pageMetadata("paragraph_index") = paragraphIndex.toString
+              pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+              pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
+              paragraphIndex += 1
               val tableContent = outputFormat match {
                 case "plain-text" => extractNestedTableContent(element).trim
                 case "html-table" =>
@@ -474,6 +484,10 @@ class HTMLReader(
             case "li" =>
               pageMetadata("sentence") = sentenceIndex.toString
               sentenceIndex += 1
+              pageMetadata("paragraph_index") = paragraphIndex.toString
+              pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+              pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
+              paragraphIndex += 1
               val itemText = element.text().trim
               if (itemText.nonEmpty && !visitedNode) {
                 trackingNodes(element).visited = true
@@ -493,6 +507,10 @@ class HTMLReader(
               if (codeText.nonEmpty && !visitedNode) {
                 pageMetadata("sentence") = sentenceIndex.toString
                 sentenceIndex += 1
+                pageMetadata("paragraph_index") = paragraphIndex.toString
+                pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+                pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
+                paragraphIndex += 1
                 trackingNodes(element).visited = true
                 pageMetadata("element_id") = newUUID()
                 currentParentId.foreach(pid => pageMetadata("parent_id") = pid)
@@ -519,6 +537,9 @@ class HTMLReader(
                       sentenceIndex += 1
                       trackingNodes(element).visited = true
                       pageMetadata("element_id") = newUUID()
+                      pageMetadata("paragraph_index") = paragraphIndex.toString
+                      pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+                      pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
                       currentParentId.foreach(pid => pageMetadata("parent_id") = pid)
                       elements += HTMLElement(
                         ElementType.NARRATIVE_TEXT,
@@ -534,11 +555,15 @@ class HTMLReader(
                       trackingNodes(element).visited = true
                       val titleId = newUUID()
                       pageMetadata("element_id") = titleId
+                      pageMetadata("paragraph_index") = paragraphIndex.toString
+                      pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+                      pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
                       elements += HTMLElement(
                         ElementType.TITLE,
                         content = titleText,
                         metadata = pageMetadata)
                       currentParentId = Some(titleId)
+                      paragraphIndex += 1
                     }
 
                   case ElementType.UNCATEGORIZED_TEXT =>
@@ -548,11 +573,15 @@ class HTMLReader(
                       sentenceIndex += 1
                       trackingNodes(element).visited = true
                       pageMetadata("element_id") = newUUID()
+                      pageMetadata("paragraph_index") = paragraphIndex.toString
+                      pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+                      pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
                       currentParentId.foreach(pid => pageMetadata("parent_id") = pid)
                       elements += HTMLElement(
                         ElementType.UNCATEGORIZED_TEXT,
                         content = text,
                         metadata = pageMetadata)
+                      paragraphIndex += 1
                     }
                 }
               }
@@ -565,6 +594,10 @@ class HTMLReader(
                 sentenceIndex += 1
                 val titleId = newUUID()
                 pageMetadata("element_id") = titleId
+                pageMetadata("paragraph_index") = paragraphIndex.toString
+                pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+                pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
+                paragraphIndex += 1
                 elements += HTMLElement(
                   ElementType.TITLE,
                   content = titleText,
@@ -585,6 +618,10 @@ class HTMLReader(
               if (divText.nonEmpty) {
                 pageMetadata("sentence") = sentenceIndex.toString
                 sentenceIndex += 1
+                pageMetadata("paragraph_index") = paragraphIndex.toString
+                pageMetadata("paragraph_y") = (paragraphIndex * paragraphSpacingY).toString
+                pageMetadata("page_y") = (paragraphIndex * paragraphSpacingY).toString
+                paragraphIndex += 1
                 trackingNodes(element).visited = true
                 pageMetadata("element_id") = newUUID()
                 currentParentId.foreach(pid => pageMetadata("parent_id") = pid)
diff --git a/src/main/scala/com/johnsnowlabs/reader/HasReaderContent.scala b/src/main/scala/com/johnsnowlabs/reader/HasReaderContent.scala
@@ -123,8 +123,9 @@ trait HasReaderContent extends HasReaderProperties with HasTagsReaderProperties
         if (isDelimitedContentType($(contentType)) || isDelimitedExtension(ext)) {
           partitionDelimitedContent(partition, contentPath, $(contentType), ext)
         } else {
+          val requestHeaders = getHeadersAsJava
           val partitionUDF =
-            udf((text: String) => partition.partitionStringContent(text, $(this.headers).asJava))
+            udf((text: String) => partition.partitionStringContent(text, requestHeaders))
           datasetWithTextFile(dataset.sparkSession, contentPath)
             .withColumn(partition.getOutputColumn, partitionUDF(col("content")))
         }
@@ -172,8 +173,9 @@ trait HasReaderContent extends HasReaderProperties with HasTagsReaderProperties
       partition: Partition,
       dataset: Dataset[_],
       inputCol: String): DataFrame = {
+    val requestHeaders = getHeadersAsJava
     val partitionUDF =
-      udf((text: String) => partition.partitionStringContent(text, $(this.headers).asJava))
+      udf((text: String) => partition.partitionStringContent(text, requestHeaders))
 
     dataset
       .withColumn(partition.getOutputColumn, partitionUDF(col(inputCol)))
diff --git a/src/main/scala/com/johnsnowlabs/reader/Reader2Image.scala b/src/main/scala/com/johnsnowlabs/reader/Reader2Image.scala
@@ -211,8 +211,9 @@ class Reader2Image(override val uid: String)
         .drop("content")
 
     } else if (isText) {
+      val requestHeaders = getHeadersAsJava
       val partitionUDF =
-        udf((text: String) => partition.partitionStringContent(text, $(this.headers).asJava))
+        udf((text: String) => partition.partitionStringContent(text, requestHeaders))
 
       datasetWithTextFile(dataset.sparkSession, contentPath)
         .withColumn(partition.getOutputColumn, partitionUDF(col("content")))
diff --git a/src/main/scala/com/johnsnowlabs/reader/ReaderAssembler.scala b/src/main/scala/com/johnsnowlabs/reader/ReaderAssembler.scala
diff --git a/src/test/scala/com/johnsnowlabs/reader/HTMLReaderTest.scala b/src/test/scala/com/johnsnowlabs/reader/HTMLReaderTest.scala
diff --git a/src/test/scala/com/johnsnowlabs/reader/ReaderAssemblerTest.scala b/src/test/scala/com/johnsnowlabs/reader/ReaderAssemblerTest.scala