Merge branch 'parquet-savepoint-rebased' of github.com:pizzaeueu/scylla-migrator into parquet-savepoint-rebased

Artem · Artem · commit 5da74e115c58 · 2026-01-01T14:37:29.000+01:00
diff --git a/migrator/src/main/scala/com/scylladb/migrator/alternator/StringSetAccumulator.scala b/migrator/src/main/scala/com/scylladb/migrator/alternator/StringSetAccumulator.scala
@@ -3,6 +3,16 @@ package com.scylladb.migrator.alternator
 import org.apache.spark.util.AccumulatorV2
 import java.util.concurrent.atomic.AtomicReference
 
+/**
+ * Accumulator for tracking processed Parquet file paths during migration.
+ *
+ * This accumulator collects the set of Parquet file paths that have been processed
+ * as part of a migration job. It is useful for monitoring progress, avoiding duplicate
+ * processing, and debugging migration workflows. The accumulator is thread-safe and
+ * can be used in distributed Spark jobs.
+ *
+ * @param initialValue The initial set of processed file paths (usually empty).
+ */
 class StringSetAccumulator(initialValue: Set[String] = Set.empty)
     extends AccumulatorV2[String, Set[String]] {
 
diff --git a/migrator/src/main/scala/com/scylladb/migrator/readers/FileCompletionListener.scala b/migrator/src/main/scala/com/scylladb/migrator/readers/FileCompletionListener.scala
@@ -13,7 +13,7 @@ import scala.collection.concurrent.TrieMap
   * partitions and files. When all partitions belonging to a file have been successfully
   * completed, it marks the file as processed via the ParquetSavepointsManager.
   *
-  * @param partitionToFile Mapping from Spark partition ID to source file paths
+  * @param partitionToFiles Mapping from Spark partition ID to source file paths
   * @param fileToPartitions Mapping from file path to the set of partition IDs reading from it
   * @param savepointsManager Manager to notify when files are completed
   */
diff --git a/migrator/src/main/scala/com/scylladb/migrator/readers/PartitionMetadataReader.scala b/migrator/src/main/scala/com/scylladb/migrator/readers/PartitionMetadataReader.scala
@@ -12,7 +12,7 @@ case class PartitionMetadata(
 /**
   * This reader uses Spark's internal partition information to build mappings
   * between partition IDs and file paths. This allows us to track when all
-  * partitions of a file have been processed, enabling file-level savepointse.
+  * partitions of a file have been processed, enabling file-level savepoints.
   */
 object PartitionMetadataReader {
   private val logger = LogManager.getLogger("com.scylladb.migrator.readers.PartitionMetadataReader")

Original file line number	Diff line number	Diff line change
`@@ -13,7 +13,7 @@ import scala.collection.concurrent.TrieMap`
`13`	`13`	`* partitions and files. When all partitions belonging to a file have been successfully`
`14`	`14`	`* completed, it marks the file as processed via the ParquetSavepointsManager.`
`15`	`15`	`*`
`16`		`- * @param partitionToFile Mapping from Spark partition ID to source file paths`
	`16`	`+ * @param partitionToFiles Mapping from Spark partition ID to source file paths`
`17`	`17`	`* @param fileToPartitions Mapping from file path to the set of partition IDs reading from it`
`18`	`18`	`* @param savepointsManager Manager to notify when files are completed`
`19`	`19`	`*/`