GoogleCloudDataproc
diff --git a/‎CHANGES.md‎
Lines changed: 1 addition & 0 deletions b/‎CHANGES.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎spark-bigquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/write/IntermediateDataCleaner.java‎
Lines changed: 26 additions & 1 deletion b/‎spark-bigquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/write/IntermediateDataCleaner.java‎
Lines changed: 26 additions & 1 deletion
diff --git a/‎spark-bigquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/write/context/BigQueryIndirectDataSourceWriterContext.java‎
Lines changed: 43 additions & 21 deletions b/‎spark-bigquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/write/context/BigQueryIndirectDataSourceWriterContext.java‎
Lines changed: 43 additions & 21 deletions
diff --git a/‎spark-bigquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/write/context/BigQueryIndirectDataWriterContextFactory.java‎
Lines changed: 3 additions & 2 deletions b/‎spark-bigquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/write/context/BigQueryIndirectDataWriterContextFactory.java‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎spark-bigquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/write/context/DataSourceWriterContext.java‎
Lines changed: 4 additions & 0 deletions b/‎spark-bigquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/write/context/DataSourceWriterContext.java‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎spark-bigquery-connector-common/src/test/java/com/google/cloud/spark/bigquery/integration/SparkBigQueryIntegrationTestBase.java‎
Lines changed: 4 additions & 0 deletions b/‎spark-bigquery-connector-common/src/test/java/com/google/cloud/spark/bigquery/integration/SparkBigQueryIntegrationTestBase.java‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎spark-bigquery-connector-common/src/test/java/com/google/cloud/spark/bigquery/integration/TestConstants.java‎
Lines changed: 49 additions & 0 deletions b/‎spark-bigquery-connector-common/src/test/java/com/google/cloud/spark/bigquery/integration/TestConstants.java‎
Lines changed: 49 additions & 0 deletions
diff --git a/‎spark-bigquery-connector-common/src/test/java/com/google/cloud/spark/bigquery/integration/WriteIntegrationTestBase.java‎
Lines changed: 96 additions & 0 deletions b/‎spark-bigquery-connector-common/src/test/java/com/google/cloud/spark/bigquery/integration/WriteIntegrationTestBase.java‎
Lines changed: 96 additions & 0 deletions
@@ -3,6 +3,7 @@
 ## Next
 * Added new connector, `spark-4.1-bigquery` aimed to be used in Spark 4.1. Like Spark 4.1, this connector requires at
   least Java 17 runtime. It is currently in preview mode.
+* PR #1445: Add streaming support for Spark DS v2 indirect write.
 * PR #1452: Improved the performance of the dynamic partition overwrite for RANGE_BUCKET partitioned tables.
 
 ## 0.43.1 - 2025-10-22
 
@@ -46,7 +46,17 @@ public void run() {
   public void deletePath() {
     try {
       logger.info("Deleting path " + path + " if it exists");
-      FileSystem fs = path.getFileSystem(conf);
+      // Create a copy of the config to avoid polluting the global state
+      Configuration cleanConf = new Configuration(conf);
+
+      // Force a fresh instance that isn't already closed by Spark
+      String scheme = path.toUri().getScheme();
+      if (scheme != null) {
+        cleanConf.set("fs." + scheme + ".impl.disable.cache", "true");
+      }
+
+      // Use the specific URI to ensure GCS is targeted
+      FileSystem fs = FileSystem.get(path.toUri(), cleanConf);
       if (pathExists(fs, path)) {
         fs.delete(path, true);
       }
@@ -55,6 +65,21 @@ public void deletePath() {
       logger.error("Failed to delete path " + path, e);
     }
   }
+
+  public void deleteEpochPath(long epochId) {
+    Path epochPath = new Path(path + "/" + epochId);
+    try {
+      logger.info("Deleting epoch path " + epochPath + " if it exists");
+      FileSystem fs = epochPath.getFileSystem(conf);
+      if (pathExists(fs, epochPath)) {
+        fs.delete(epochPath, true);
+      }
+      logger.info("Path " + epochPath + " no longer exists)");
+    } catch (Exception e) {
+      logger.error("Failed to delete path " + epochPath, e);
+    }
+  }
+
   // fs.exists can throw exception on missing path
   private boolean pathExists(FileSystem fs, Path path) {
     try {
 
@@ -107,8 +107,47 @@ public DataWriterContextFactory<InternalRow> createWriterContextFactory() {
         avroSchema.toString());
   }
 
+  @Override
+  public void onDataStreamingWriterCommit(long epochId, WriterCommitMessageContext[] messages) {
+    commitMessages(messages, epochId);
+  }
+
+  @Override
+  public void onDataStreamingWriterAbort(long epochId, WriterCommitMessageContext[] messages) {
+    try {
+      logger.warn(
+          "Aborting epoch {} from streaming write {} for table {}",
+          epochId,
+          writeUUID,
+          BigQueryUtil.friendlyTableName(config.getTableId()));
+    } finally {
+      cleanTemporaryGcsPathIfNeeded(epochId);
+    }
+  }
+
   @Override
   public void commit(WriterCommitMessageContext[] messages) {
+    commitMessages(messages, 0);
+  }
+
+  @Override
+  public void abort(WriterCommitMessageContext[] messages) {
+    try {
+      logger.warn(
+          "Aborting write {} for table {}",
+          writeUUID,
+          BigQueryUtil.friendlyTableName(config.getTableId()));
+    } finally {
+      cleanTemporaryGcsPathIfNeeded(0);
+    }
+  }
+
+  @Override
+  public void setTableInfo(TableInfo tableInfo) {
+    this.tableInfo = Optional.ofNullable(tableInfo);
+  }
+
+  private void commitMessages(WriterCommitMessageContext[] messages, long epochId) {
     logger.info(
         "Data has been successfully written to GCS. Going to load {} files to BigQuery",
         messages.length);
@@ -151,29 +190,12 @@ public void commit(WriterCommitMessageContext[] messages) {
       if (writeDisposition == JobInfo.WriteDisposition.WRITE_TRUNCATE) {
         updateMetadataIfNeeded();
       }
-      logger.info("Data has been successfully loaded to BigQuery");
     } catch (IOException e) {
       throw new UncheckedIOException(e);
     } finally {
-      cleanTemporaryGcsPathIfNeeded();
+      cleanTemporaryGcsPathIfNeeded(epochId);
     }
-  }
-
-  @Override
-  public void abort(WriterCommitMessageContext[] messages) {
-    try {
-      logger.warn(
-          "Aborting write {} for table {}",
-          writeUUID,
-          BigQueryUtil.friendlyTableName(config.getTableId()));
-    } finally {
-      cleanTemporaryGcsPathIfNeeded();
-    }
-  }
-
-  @Override
-  public void setTableInfo(TableInfo tableInfo) {
-    this.tableInfo = Optional.ofNullable(tableInfo);
+    logger.info("Data has been successfully loaded to BigQuery");
   }
 
   void loadDataToBigQuery(List<String> sourceUris, Schema schema) throws IOException {
@@ -202,7 +224,7 @@ void updateMetadataIfNeeded() {
     BigQueryWriteHelper.updateTableMetadataIfNeeded(sparkSchema, config, bigQueryClient);
   }
 
-  void cleanTemporaryGcsPathIfNeeded() {
-    intermediateDataCleaner.ifPresent(cleaner -> cleaner.deletePath());
+  void cleanTemporaryGcsPathIfNeeded(long epochId) {
+    intermediateDataCleaner.ifPresent(cleaner -> cleaner.deleteEpochPath(epochId));
   }
 }
@@ -48,9 +48,10 @@ public DataWriterContext<InternalRow> createDataWriterContext(
       int partitionId, long taskId, long epochId) {
     try {
       Schema avroSchema = new Schema.Parser().parse(avroSchemaJson);
+
       UUID uuid = new UUID(taskId, epochId);
-      String uri = String.format("%s/part-%06d-%s.avro", gcsDirPath, partitionId, uuid);
-      Path path = new Path(uri);
+      String fileName = String.format("part-%06d-%s.avro", partitionId, uuid);
+      Path path = new Path(gcsDirPath + "/" + epochId, fileName);
       FileSystem fs = path.getFileSystem(conf.get());
       IntermediateRecordWriter intermediateRecordWriter =
           new AvroIntermediateRecordWriter(avroSchema, fs.create(path));
 
@@ -41,6 +41,10 @@ default boolean useCommitCoordinator() {
 
   default void onDataWriterCommit(WriterCommitMessageContext message) {}
 
+  default void onDataStreamingWriterCommit(long epochId, WriterCommitMessageContext[] messages) {}
+
+  default void onDataStreamingWriterAbort(long epochId, WriterCommitMessageContext[] messages) {}
+
   void commit(WriterCommitMessageContext[] messages);
 
   void abort(WriterCommitMessageContext[] messages);
 
@@ -15,6 +15,7 @@
  */
 package com.google.cloud.spark.bigquery.integration;
 
+import java.util.UUID;
 import org.apache.spark.sql.SparkSession;
 import org.junit.Before;
 import org.junit.ClassRule;
@@ -42,9 +43,12 @@ protected static class SparkFactory extends ExternalResource {
 
     @Override
     protected void before() throws Throwable {
+      String appName = "integration-test-" + UUID.randomUUID();
       spark =
           SparkSession.builder()
               .master("local")
+              .appName(appName)
+              .config("spark.hadoop.google.cloud.appName.v2", appName)
               .config("spark.ui.enabled", "false")
               .config("spark.default.parallelism", 20)
               .getOrCreate();
 
@@ -347,6 +347,55 @@ public class TestConstants {
           array(struct(lit(1))),
           struct(lit(1), lit("stringa"), struct(lit(true), lit("stringaa"), lit(11))));
 
+  public static Row ALL_TYPES_TABLE_ROW =
+      RowFactory.create(
+          42L,
+          null,
+          true,
+          "string",
+          Date.valueOf("2019-03-18"),
+          new Timestamp(1552872225000L), // 2019-03-18 01:23:45
+          "2019-03-18T01:23:45.678901",
+          5025678901L,
+          new byte[] {98, 121, 116, 101, 115},
+          4.2,
+          "{\"json\":\"true\"}",
+          RowFactory.create(
+              Decimal.apply(
+                  new BigDecimal(
+                      "-99999999999999999999999999999.999999999",
+                      new MathContext(BQ_NUMERIC_PRECISION)),
+                  BQ_NUMERIC_PRECISION,
+                  BQ_NUMERIC_SCALE),
+              Decimal.apply(
+                  new BigDecimal(
+                      "99999999999999999999999999999.999999999",
+                      new MathContext(BQ_NUMERIC_PRECISION)),
+                  BQ_NUMERIC_PRECISION,
+                  BQ_NUMERIC_SCALE),
+              Decimal.apply(
+                  new BigDecimal("3.14", new MathContext(BQ_NUMERIC_PRECISION)),
+                  BQ_NUMERIC_PRECISION,
+                  BQ_NUMERIC_SCALE),
+              Decimal.apply(
+                  new BigDecimal(
+                      "31415926535897932384626433832.795028841",
+                      new MathContext(BQ_NUMERIC_PRECISION)),
+                  BQ_NUMERIC_PRECISION,
+                  BQ_NUMERIC_SCALE)),
+          RowFactory.create(
+              Decimal.apply(
+                  new BigDecimal("-0.34992332820282019728792003956564819968"),
+                  BQ_NUMERIC_PRECISION,
+                  BQ_BIGNUMERIC_SCALE),
+              Decimal.apply(
+                  new BigDecimal("0.34992332820282019728792003956564819967"),
+                  BQ_NUMERIC_PRECISION,
+                  BQ_BIGNUMERIC_SCALE)),
+          new long[] {1L, 2L, 3L, 4L},
+          new Row[] {RowFactory.create(123L), RowFactory.create(1L)},
+          RowFactory.create(1L, "stringa", RowFactory.create(true, "stringaa", 11L)));
+
   private static <T> T[] copy(T... elements) {
     return elements;
   }
 
@@ -53,7 +53,11 @@
 import com.google.common.collect.ImmutableMap;
 import com.google.common.collect.Streams;
 import com.google.inject.ProvisionException;
+import java.io.IOException;
 import java.math.BigDecimal;
+import java.nio.charset.StandardCharsets;
+import java.nio.file.Files;
+import java.nio.file.Path;
 import java.sql.Date;
 import java.sql.Timestamp;
 import java.time.LocalDateTime;
@@ -66,6 +70,7 @@
 import java.util.Map;
 import java.util.Optional;
 import java.util.TimeZone;
+import java.util.concurrent.TimeoutException;
 import java.util.concurrent.atomic.AtomicInteger;
 import java.util.function.Predicate;
 import java.util.stream.Collectors;
@@ -77,10 +82,14 @@
 import org.apache.spark.ml.linalg.SQLDataTypes;
 import org.apache.spark.package$;
 import org.apache.spark.sql.Dataset;
+import org.apache.spark.sql.Encoder;
 import org.apache.spark.sql.Encoders;
 import org.apache.spark.sql.Row;
 import org.apache.spark.sql.RowFactory;
 import org.apache.spark.sql.SaveMode;
+import org.apache.spark.sql.execution.streaming.MemoryStream;
+import org.apache.spark.sql.streaming.OutputMode;
+import org.apache.spark.sql.streaming.StreamingQuery;
 import org.apache.spark.sql.types.DataType;
 import org.apache.spark.sql.types.DataTypes;
 import org.apache.spark.sql.types.Decimal;
@@ -94,7 +103,9 @@
 import org.junit.Assume;
 import org.junit.Before;
 import org.junit.Test;
+import scala.Option;
 import scala.Some;
+import scala.collection.JavaConverters;
 
 abstract class WriteIntegrationTestBase extends SparkBigQueryIntegrationTestBase {
 
@@ -608,6 +619,91 @@ public void testInDirectWriteToBigQueryWithDiffInDescription() throws Exception
     assertThat(numOfRows).isEqualTo(1);
   }
 
+  @Test
+  public void testInDirectWriteToBigQueryWithStreaming() throws TimeoutException, IOException {
+    assumeThat(writeMethod, equalTo(WriteMethod.INDIRECT));
+
+    // Skipping test for spark 4: only works for spark 3 for now.
+    String sparkVersion = package$.MODULE$.SPARK_VERSION();
+    Assume.assumeThat(sparkVersion, CoreMatchers.startsWith("3."));
+
+    Path inputDir = Files.createTempDirectory("bq_integration_test_input");
+    Path jsonFile = inputDir.resolve("test_data_for_streaming.json");
+    Files.write(jsonFile, "{\"name\": \"spark\", \"age\": 100}".getBytes(StandardCharsets.UTF_8));
+
+    StructType schema =
+        new StructType().add("name", DataTypes.StringType).add("age", DataTypes.LongType);
+    Dataset<Row> df =
+        spark.readStream().option("multiline", "true").schema(schema).json(inputDir.toString());
+
+    String destTableName = testDataset + "." + "test_stream_json_" + System.nanoTime();
+    String checkPointLocation =
+        Files.createTempDirectory("bq_integration_test_checkpoint").toString();
+
+    StreamingQuery writeStream =
+        df.writeStream()
+            .format("bigquery")
+            .outputMode(OutputMode.Append())
+            .option("temporaryGcsBucket", TestConstants.TEMPORARY_GCS_BUCKET)
+            .option("checkpointLocation", checkPointLocation)
+            .option("table", destTableName)
+            .start();
+    writeStream.processAllAvailable();
+    writeStream.stop();
+
+    List<Row> rows = spark.read().format("bigquery").load(destTableName).collectAsList();
+    assertThat(rows).hasSize(1);
+    Row row = rows.get(0);
+    assertThat(row.getString(0)).isEqualTo("spark");
+    assertThat(row.getLong(1)).isEqualTo(100L);
+  }
+
+  @Test
+  public void testInDirectWriteToBigQueryWithStreaming_AllTypes()
+      throws IOException, TimeoutException {
+    // Skipping test for spark 4: only works for spark 3.5 for now.
+    String sparkVersion = package$.MODULE$.SPARK_VERSION();
+    Assume.assumeThat(sparkVersion, CoreMatchers.startsWith("3.5"));
+
+    StructType schema = TestConstants.ALL_TYPES_TABLE_SCHEMA;
+    Row row = TestConstants.ALL_TYPES_TABLE_ROW;
+    List<Row> rawRows = Collections.nCopies(20, row);
+
+    Dataset<Row> normalizedDF = spark.createDataFrame(rawRows, schema);
+    List<Row> rows = normalizedDF.collectAsList();
+    Encoder<Row> encoder = normalizedDF.encoder();
+
+    MemoryStream<Row> memoryStream =
+        new MemoryStream<>(
+            1, // id
+            spark.sqlContext(), // sqlContext
+            Option.apply(null),
+            encoder // Implicit encoder passed as final arg
+            );
+    memoryStream.addData(JavaConverters.asScalaBuffer(rows).toSeq());
+
+    String destTableName = testDataset + "." + "test_streaming_allTypes" + System.nanoTime();
+    String checkPointLocation =
+        Files.createTempDirectory("bq_integration_test_streaming_checkpoint").toString();
+
+    StreamingQuery writeStream =
+        memoryStream
+            .toDF()
+            .writeStream()
+            .format("bigquery")
+            .outputMode(OutputMode.Append())
+            .option("temporaryGcsBucket", TestConstants.TEMPORARY_GCS_BUCKET)
+            .option("checkpointLocation", checkPointLocation)
+            .option("table", destTableName)
+            .start();
+    writeStream.processAllAvailable();
+    writeStream.stop();
+
+    List<Row> readRows = spark.read().format("bigquery").load(destTableName).collectAsList();
+    assertThat(readRows).hasSize(20);
+    assertThat(readRows.get(0)).isEqualTo(rows.get(0));
+  }
+
   private void writeDFNullableToBigQueryNullable_Internal(String writeAtLeastOnce)
       throws Exception {
     String destTableName =