NVIDIA · jihoonson · Oct 2, 2025 · Sep 29, 2025 · Sep 29, 2025 · Sep 29, 2025
diff --git a/integration_tests/src/main/python/delta_lake_utils.py b/integration_tests/src/main/python/delta_lake_utils.py
@@ -184,9 +184,14 @@ def read_delta_path(spark, path):
     return spark.read.format("delta").load(path)
 
 def read_delta_path_with_cdf(spark, path):
-    return spark.read.format("delta") \
-        .option("readChangeDataFeed", "true").option("startingVersion", 0) \
-        .load(path).drop("_commit_timestamp")
+    df = spark.read.format("delta") \
+        .option("readChangeFeed", "true").option("startingVersion", 0) \
+        .load(path)
+    assert "_change_type" in df.columns
+    assert "_commit_version" in df.columns
+    assert "_commit_timestamp" in df.columns
+    # Drop the commit timestamp column since it will differ between CPU and GPU
+    return df.drop("_commit_timestamp")
 
 def schema_to_ddl(spark, schema):
     return spark.sparkContext._jvm.org.apache.spark.sql.types.DataType.fromJson(schema.json()).toDDL()

diff --git a/integration_tests/src/main/python/delta_lake_write_test.py b/integration_tests/src/main/python/delta_lake_write_test.py
@@ -487,23 +487,15 @@ def test_delta_write_round_trip_cdf_write_opt(spark_tmp_path, enable_deletion_ve
             gen_df(spark, gen_list).coalesce(1).write.format("delta"), enable_deletion_vectors)
             .option("delta.enableChangeDataFeed", "true")
             .save(path),
-        lambda spark, path: spark.read.format("delta")
-            .option("readChangeDataFeed", "true")
-            .option("startingVersion", 0)
-            .load(path)
-            .drop("_commit_timestamp"),
+        read_delta_path_with_cdf,
         data_path,
         conf=confs)
     assert_gpu_and_cpu_writes_are_equal_collect(
         lambda spark, path: get_writer_with_deletion_vector_property_set(
             gen_df(spark, gen_list).coalesce(1).write.format("delta"), enable_deletion_vectors)
             .mode("overwrite")
             .save(path),
-        lambda spark, path: spark.read.format("delta")
-            .option("readChangeDataFeed", "true")
-            .option("startingVersion", 0)
-            .load(path)
-            .drop("_commit_timestamp"),
+        read_delta_path_with_cdf,
         data_path,
         conf=confs)
 
@@ -528,22 +520,14 @@ def setup_tables(spark):
             .mode("append")
             .option("delta.enableChangeDataFeed", "true")
             .save(path),
-        lambda spark, path: spark.read.format("delta")
-            .option("readChangeDataFeed", "true")
-            .option("startingVersion", 0)
-            .load(path)
-            .drop("_commit_timestamp"),
+        read_delta_path_with_cdf,
         data_path,
         conf=confs)
     assert_gpu_and_cpu_writes_are_equal_collect(
         lambda spark, path: gen_df(spark, gen_list).coalesce(1).write.format("delta")
             .mode("overwrite")
             .save(path),
-        lambda spark, path: spark.read.format("delta")
-            .option("readChangeDataFeed", "true")
-            .option("startingVersion", 0)
-            .load(path)
-            .drop("_commit_timestamp"),
+        read_delta_path_with_cdf,
         data_path,
         conf=confs)
     with_cpu_session(lambda spark: assert_gpu_and_cpu_delta_logs_equivalent(spark, data_path))