apache
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/lake/LakeRecordRecordEmitter.java‎
Lines changed: 5 additions & 0 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/lake/LakeRecordRecordEmitter.java‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/lake/LakeSplitGenerator.java‎
Lines changed: 14 additions & 105 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/lake/LakeSplitGenerator.java‎
Lines changed: 14 additions & 105 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/lake/LakeSplitReaderGenerator.java‎
Lines changed: 13 additions & 2 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/lake/LakeSplitReaderGenerator.java‎
Lines changed: 13 additions & 2 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/lake/LakeSplitSerializer.java‎
Lines changed: 31 additions & 32 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/lake/LakeSplitSerializer.java‎
Lines changed: 31 additions & 32 deletions
@@ -18,6 +18,7 @@
 package com.alibaba.fluss.flink.lake;
 
 import com.alibaba.fluss.client.table.scanner.ScanRecord;
+import com.alibaba.fluss.flink.lake.state.LakeSnapshotAndFlussLogSplitState;
 import com.alibaba.fluss.flink.lake.state.LakeSnapshotSplitState;
 import com.alibaba.fluss.flink.lakehouse.paimon.split.PaimonSnapshotAndFlussLogSplitState;
 import com.alibaba.fluss.flink.lakehouse.paimon.split.PaimonSnapshotSplitState;
@@ -52,6 +53,10 @@ public void emitRecord(
         } else if (splitState instanceof LakeSnapshotSplitState) {
             ((LakeSnapshotSplitState) splitState).setRecordsToSkip(recordAndPos.readRecordsCount());
             sourceOutputFunc.accept(recordAndPos.record(), sourceOutput);
+        } else if (splitState instanceof LakeSnapshotAndFlussLogSplitState) {
+            ((LakeSnapshotAndFlussLogSplitState) splitState)
+                    .setRecordsToSkip(recordAndPos.readRecordsCount());
+            sourceOutputFunc.accept(recordAndPos.record(), sourceOutput);
         } else {
             throw new UnsupportedOperationException(
                     "Unknown split state type: " + splitState.getClass());
 
@@ -19,8 +19,8 @@
 
 import com.alibaba.fluss.client.admin.Admin;
 import com.alibaba.fluss.client.metadata.LakeSnapshot;
+import com.alibaba.fluss.flink.lake.split.LakeSnapshotAndFlussLogSplit;
 import com.alibaba.fluss.flink.lake.split.LakeSnapshotSplit;
-import com.alibaba.fluss.flink.lakehouse.paimon.split.PaimonSnapshotAndFlussLogSplit;
 import com.alibaba.fluss.flink.source.enumerator.initializer.OffsetsInitializer;
 import com.alibaba.fluss.flink.source.split.LogSplit;
 import com.alibaba.fluss.flink.source.split.SourceSplitBase;
@@ -30,17 +30,6 @@
 import com.alibaba.fluss.metadata.TableBucket;
 import com.alibaba.fluss.metadata.TableInfo;
 
-import org.apache.paimon.CoreOptions;
-import org.apache.paimon.catalog.Catalog;
-import org.apache.paimon.catalog.Identifier;
-import org.apache.paimon.flink.FlinkCatalogFactory;
-import org.apache.paimon.flink.source.FileStoreSourceSplit;
-import org.apache.paimon.flink.source.FileStoreSourceSplitGenerator;
-import org.apache.paimon.options.MemorySize;
-import org.apache.paimon.options.Options;
-import org.apache.paimon.table.FileStoreTable;
-import org.apache.paimon.table.source.InnerTableScan;
-
 import javax.annotation.Nullable;
 
 import java.util.ArrayList;
@@ -53,8 +42,6 @@
 import java.util.stream.IntStream;
 
 import static com.alibaba.fluss.client.table.scanner.log.LogScanner.EARLIEST_OFFSET;
-import static com.alibaba.fluss.flink.utils.DataLakeUtils.extractLakeCatalogProperties;
-import static com.alibaba.fluss.utils.Preconditions.checkState;
 
 /** A generator for lake splits. */
 public class LakeSplitGenerator {
@@ -86,10 +73,6 @@ public List<SourceSplitBase> generateHybridLakeSplits() throws Exception {
         // get the file store
         LakeSnapshot lakeSnapshotInfo =
                 flussAdmin.getLatestLakeSnapshot(tableInfo.getTablePath()).get();
-        FileStoreTable fileStoreTable =
-                getTable(
-                        lakeSnapshotInfo.getSnapshotId(),
-                        extractLakeCatalogProperties(tableInfo.getProperties()));
 
         boolean isLogTable = !tableInfo.hasPrimaryKey();
         boolean isPartitioned = tableInfo.isPartitioned();
@@ -113,17 +96,13 @@ public List<SourceSplitBase> generateHybridLakeSplits() throws Exception {
                     lakeSplits,
                     isLogTable,
                     lakeSnapshotInfo.getTableBucketsOffset(),
-                    partitionNameById,
-                    fileStoreTable);
+                    partitionNameById);
         } else {
             Map<Integer, List<LakeSplit>> nonPartitionLakeSplits =
                     lakeSplits.values().iterator().next();
             // non-partitioned table
             return generateNoPartitionedTableSplit(
-                    nonPartitionLakeSplits,
-                    isLogTable,
-                    lakeSnapshotInfo.getTableBucketsOffset(),
-                    fileStoreTable);
+                    nonPartitionLakeSplits, isLogTable, lakeSnapshotInfo.getTableBucketsOffset());
         }
     }
 
@@ -145,8 +124,7 @@ private List<SourceSplitBase> generatePartitionTableSplit(
             Map<String, Map<Integer, List<LakeSplit>>> lakeSplits,
             boolean isLogTable,
             Map<TableBucket, Long> tableBucketSnapshotLogOffset,
-            Map<Long, String> partitionNameById,
-            @Nullable FileStoreTable fileStoreTable)
+            Map<Long, String> partitionNameById)
             throws Exception {
         List<SourceSplitBase> splits = new ArrayList<>();
         Map<String, Long> flussPartitionIdByName =
@@ -181,8 +159,7 @@ private List<SourceSplitBase> generatePartitionTableSplit(
                                 partitionName,
                                 isLogTable,
                                 tableBucketSnapshotLogOffset,
-                                bucketEndOffset,
-                                fileStoreTable));
+                                bucketEndOffset));
 
             } else {
                 // only lake data
@@ -216,8 +193,7 @@ private List<SourceSplitBase> generatePartitionTableSplit(
                             isLogTable,
                             // pass empty map since we won't read lake splits
                             Collections.emptyMap(),
-                            bucketEndOffset,
-                            fileStoreTable));
+                            bucketEndOffset));
         }
         return splits;
     }
@@ -228,8 +204,7 @@ private List<SourceSplitBase> generateSplit(
             @Nullable String partitionName,
             boolean isLogTable,
             Map<TableBucket, Long> tableBucketSnapshotLogOffset,
-            Map<Integer, Long> bucketEndOffset,
-            @Nullable FileStoreTable fileStoreTable) {
+            Map<Integer, Long> bucketEndOffset) {
         List<SourceSplitBase> splits = new ArrayList<>();
         if (isLogTable) {
             if (lakeSplits != null) {
@@ -264,12 +239,9 @@ private List<SourceSplitBase> generateSplit(
                         new TableBucket(tableInfo.getTableId(), partitionId, bucket);
                 Long snapshotLogOffset = tableBucketSnapshotLogOffset.get(tableBucket);
                 long stoppingOffset = bucketEndOffset.get(bucket);
-                FileStoreSourceSplitGenerator splitGenerator = new FileStoreSourceSplitGenerator();
-
                 splits.add(
                         generateSplitForPrimaryKeyTableBucket(
-                                fileStoreTable,
-                                splitGenerator,
+                                lakeSplits != null ? lakeSplits.get(bucket) : null,
                                 tableBucket,
                                 partitionName,
                                 snapshotLogOffset,
@@ -295,83 +267,26 @@ private List<SourceSplitBase> toLakeSnapshotSplits(
     }
 
     private SourceSplitBase generateSplitForPrimaryKeyTableBucket(
-            FileStoreTable fileStoreTable,
-            FileStoreSourceSplitGenerator splitGenerator,
+            @Nullable List<LakeSplit> lakeSplits,
             TableBucket tableBucket,
             @Nullable String partitionName,
             @Nullable Long snapshotLogOffset,
             long stoppingOffset) {
-
         // no snapshot data for this bucket or no a corresponding log offset in this bucket,
         // can only scan from change log
         if (snapshotLogOffset == null || snapshotLogOffset < 0) {
-            return new PaimonSnapshotAndFlussLogSplit(
+            return new LakeSnapshotAndFlussLogSplit(
                     tableBucket, partitionName, null, EARLIEST_OFFSET, stoppingOffset);
         }
 
-        // then, generate a split contains
-        // snapshot and change log so that we can merge change log and snapshot
-        // to get the full data
-        fileStoreTable =
-                fileStoreTable.copy(
-                        Collections.singletonMap(
-                                CoreOptions.SOURCE_SPLIT_TARGET_SIZE.key(),
-                                // we set a max size to make sure only one splits
-                                MemorySize.MAX_VALUE.toString()));
-        InnerTableScan tableScan =
-                fileStoreTable.newScan().withBucketFilter((b) -> b == tableBucket.getBucket());
-
-        if (partitionName != null) {
-            tableScan =
-                    tableScan.withPartitionFilter(getPartitionSpec(fileStoreTable, partitionName));
-        }
-
-        List<FileStoreSourceSplit> fileStoreSourceSplits =
-                splitGenerator.createSplits(tableScan.plan());
-
-        checkState(fileStoreSourceSplits.size() == 1, "Splits for primary key table must be 1.");
-        FileStoreSourceSplit fileStoreSourceSplit = fileStoreSourceSplits.get(0);
-        return new PaimonSnapshotAndFlussLogSplit(
-                tableBucket,
-                partitionName,
-                fileStoreSourceSplit,
-                snapshotLogOffset,
-                stoppingOffset);
-    }
-
-    private Map<String, String> getPartitionSpec(
-            FileStoreTable fileStoreTable, String partitionName) {
-        List<String> partitionKeys = fileStoreTable.partitionKeys();
-        checkState(
-                partitionKeys.size() == 1,
-                "Must only one partition key for paimon table %, but got %s, the partition keys are: ",
-                tableInfo.getTablePath(),
-                partitionKeys.size(),
-                partitionKeys);
-        return Collections.singletonMap(partitionKeys.get(0), partitionName);
-    }
-
-    private FileStoreTable getTable(long snapshotId, Map<String, String> catalogProperties)
-            throws Exception {
-        try (Catalog catalog =
-                FlinkCatalogFactory.createPaimonCatalog(Options.fromMap(catalogProperties))) {
-            return (FileStoreTable)
-                    catalog.getTable(
-                                    Identifier.create(
-                                            tableInfo.getTablePath().getDatabaseName(),
-                                            tableInfo.getTablePath().getTableName()))
-                            .copy(
-                                    Collections.singletonMap(
-                                            CoreOptions.SCAN_SNAPSHOT_ID.key(),
-                                            String.valueOf(snapshotId)));
-        }
+        return new LakeSnapshotAndFlussLogSplit(
+                tableBucket, partitionName, lakeSplits, snapshotLogOffset, stoppingOffset);
     }
 
     private List<SourceSplitBase> generateNoPartitionedTableSplit(
             Map<Integer, List<LakeSplit>> lakeSplits,
             boolean isLogTable,
-            Map<TableBucket, Long> tableBucketSnapshotLogOffset,
-            FileStoreTable fileStoreTable) {
+            Map<TableBucket, Long> tableBucketSnapshotLogOffset) {
         // iterate all bucket
         // assume bucket is from 0 to bucket count
         Map<Integer, Long> bucketEndOffset =
@@ -380,12 +295,6 @@ private List<SourceSplitBase> generateNoPartitionedTableSplit(
                         IntStream.range(0, bucketCount).boxed().collect(Collectors.toList()),
                         bucketOffsetsRetriever);
         return generateSplit(
-                lakeSplits,
-                null,
-                null,
-                isLogTable,
-                tableBucketSnapshotLogOffset,
-                bucketEndOffset,
-                fileStoreTable);
+                lakeSplits, null, null, isLogTable, tableBucketSnapshotLogOffset, bucketEndOffset);
     }
 }
@@ -18,7 +18,9 @@
 package com.alibaba.fluss.flink.lake;
 
 import com.alibaba.fluss.client.table.Table;
+import com.alibaba.fluss.flink.lake.reader.LakeSnapshotAndLogSplitScanner;
 import com.alibaba.fluss.flink.lake.reader.LakeSnapshotScanner;
+import com.alibaba.fluss.flink.lake.split.LakeSnapshotAndFlussLogSplit;
 import com.alibaba.fluss.flink.lake.split.LakeSnapshotSplit;
 import com.alibaba.fluss.flink.lakehouse.paimon.reader.PaimonSnapshotAndLogSplitScanner;
 import com.alibaba.fluss.flink.lakehouse.paimon.reader.PaimonSnapshotScanner;
@@ -73,7 +75,8 @@ public void addSplit(SourceSplitBase split, Queue<SourceSplitBase> boundedSplits
             boundedSplits.add(split);
         } else if (split instanceof LakeSnapshotSplit) {
             boundedSplits.add(split);
-            // TODO support primary key table in https://github.com/apache/fluss/issues/1434
+        } else if (split instanceof LakeSnapshotAndFlussLogSplit) {
+            boundedSplits.add(split);
         } else {
             throw new UnsupportedOperationException(
                     String.format("The split type of %s is not supported.", split.getClass()));
@@ -112,7 +115,15 @@ public BoundedSplitReader getBoundedSplitScanner(SourceSplitBase split) {
                     new LakeSnapshotScanner(lakeSource, lakeSnapshotSplit);
             return new BoundedSplitReader(
                     lakeSnapshotScanner, lakeSnapshotSplit.getRecordsToSplit());
-            // TODO support primary key table in https://github.com/apache/fluss/issues/1434
+        } else if (split instanceof LakeSnapshotAndFlussLogSplit) {
+            LakeSnapshotAndFlussLogSplit lakeSnapshotAndFlussLogSplit =
+                    (LakeSnapshotAndFlussLogSplit) split;
+            LakeSnapshotAndLogSplitScanner lakeSnapshotAndLogSplitScanner =
+                    new LakeSnapshotAndLogSplitScanner(
+                            table, lakeSource, lakeSnapshotAndFlussLogSplit, projectedFields);
+            return new BoundedSplitReader(
+                    lakeSnapshotAndLogSplitScanner,
+                    lakeSnapshotAndFlussLogSplit.getRecordsToSkip());
         } else {
             throw new UnsupportedOperationException(
                     String.format("The split type of %s is not supported.", split.getClass()));
 
@@ -17,8 +17,8 @@
 
 package com.alibaba.fluss.flink.lake;
 
+import com.alibaba.fluss.flink.lake.split.LakeSnapshotAndFlussLogSplit;
 import com.alibaba.fluss.flink.lake.split.LakeSnapshotSplit;
-import com.alibaba.fluss.flink.lakehouse.paimon.split.PaimonSnapshotAndFlussLogSplit;
 import com.alibaba.fluss.flink.source.split.LogSplit;
 import com.alibaba.fluss.flink.source.split.SourceSplitBase;
 import com.alibaba.fluss.lake.serializer.SimpleVersionedSerializer;
@@ -27,15 +27,15 @@
 
 import org.apache.flink.core.memory.DataInputDeserializer;
 import org.apache.flink.core.memory.DataOutputSerializer;
-import org.apache.paimon.flink.source.FileStoreSourceSplit;
-import org.apache.paimon.flink.source.FileStoreSourceSplitSerializer;
 
 import javax.annotation.Nullable;
 
 import java.io.IOException;
+import java.util.ArrayList;
+import java.util.List;
 
+import static com.alibaba.fluss.flink.lake.split.LakeSnapshotAndFlussLogSplit.LAKE_SNAPSHOT_FLUSS_LOG_SPLIT_KIND;
 import static com.alibaba.fluss.flink.lake.split.LakeSnapshotSplit.LAKE_SNAPSHOT_SPLIT_KIND;
-import static com.alibaba.fluss.flink.lakehouse.paimon.split.PaimonSnapshotAndFlussLogSplit.PAIMON_SNAPSHOT_FLUSS_LOG_SPLIT_KIND;
 
 /** A serializer for lake split. */
 public class LakeSplitSerializer {
@@ -52,32 +52,30 @@ public void serialize(DataOutputSerializer out, SourceSplitBase split) throws IO
                     sourceSplitSerializer.serialize(((LakeSnapshotSplit) split).getLakeSplit());
             out.writeInt(serializeBytes.length);
             out.write(serializeBytes);
-        } else if (split instanceof PaimonSnapshotAndFlussLogSplit) {
-            // TODO support primary key table in https://github.com/apache/fluss/issues/1434
-            FileStoreSourceSplitSerializer fileStoreSourceSplitSerializer =
-                    new FileStoreSourceSplitSerializer();
+        } else if (split instanceof LakeSnapshotAndFlussLogSplit) {
             // writing file store source split
-            PaimonSnapshotAndFlussLogSplit paimonSnapshotAndFlussLogSplit =
-                    ((PaimonSnapshotAndFlussLogSplit) split);
-            FileStoreSourceSplit fileStoreSourceSplit =
-                    paimonSnapshotAndFlussLogSplit.getSnapshotSplit();
-            if (fileStoreSourceSplit == null) {
+            LakeSnapshotAndFlussLogSplit lakeSnapshotAndFlussLogSplit =
+                    ((LakeSnapshotAndFlussLogSplit) split);
+            List<LakeSplit> lakeSplits = lakeSnapshotAndFlussLogSplit.getLakeSplits();
+            if (lakeSplits == null) {
                 // no snapshot data for the bucket
                 out.writeBoolean(false);
             } else {
                 out.writeBoolean(true);
-                byte[] serializeBytes =
-                        fileStoreSourceSplitSerializer.serialize(fileStoreSourceSplit);
-                out.writeInt(serializeBytes.length);
-                out.write(serializeBytes);
+                out.writeInt(lakeSplits.size());
+                for (LakeSplit lakeSplit : lakeSplits) {
+                    byte[] serializeBytes = sourceSplitSerializer.serialize(lakeSplit);
+                    out.writeInt(serializeBytes.length);
+                    out.write(serializeBytes);
+                }
             }
             // writing starting/stopping offset
-            out.writeLong(paimonSnapshotAndFlussLogSplit.getStartingOffset());
+            out.writeLong(lakeSnapshotAndFlussLogSplit.getStartingOffset());
             out.writeLong(
-                    paimonSnapshotAndFlussLogSplit
+                    lakeSnapshotAndFlussLogSplit
                             .getStoppingOffset()
                             .orElse(LogSplit.NO_STOPPING_OFFSET));
-            out.writeLong(paimonSnapshotAndFlussLogSplit.getRecordsToSkip());
+            out.writeLong(lakeSnapshotAndFlussLogSplit.getRecordsToSkip());
         } else {
             throw new UnsupportedOperationException(
                     "Unsupported split type: " + split.getClass().getName());
@@ -97,25 +95,26 @@ public SourceSplitBase deserialize(
                     sourceSplitSerializer.deserialize(
                             sourceSplitSerializer.getVersion(), serializeBytes);
             return new LakeSnapshotSplit(tableBucket, partition, fileStoreSourceSplit);
-            // TODO support primary key table in https://github.com/apache/fluss/issues/1434
-        } else if (splitKind == PAIMON_SNAPSHOT_FLUSS_LOG_SPLIT_KIND) {
-            FileStoreSourceSplitSerializer fileStoreSourceSplitSerializer =
-                    new FileStoreSourceSplitSerializer();
-            FileStoreSourceSplit fileStoreSourceSplit = null;
+        } else if (splitKind == LAKE_SNAPSHOT_FLUSS_LOG_SPLIT_KIND) {
+            List<LakeSplit> lakeSplits = null;
             if (input.readBoolean()) {
-                byte[] serializeBytes = new byte[input.readInt()];
-                input.read(serializeBytes);
-                fileStoreSourceSplit =
-                        fileStoreSourceSplitSerializer.deserialize(
-                                fileStoreSourceSplitSerializer.getVersion(), serializeBytes);
+                int lakeSplitSize = input.readInt();
+                lakeSplits = new ArrayList<>(lakeSplitSize);
+                for (int i = 0; i < lakeSplitSize; i++) {
+                    byte[] serializeBytes = new byte[input.readInt()];
+                    input.read(serializeBytes);
+                    lakeSplits.add(
+                            sourceSplitSerializer.deserialize(
+                                    sourceSplitSerializer.getVersion(), serializeBytes));
+                }
             }
             long startingOffset = input.readLong();
             long stoppingOffset = input.readLong();
             long recordsToSkip = input.readLong();
-            return new PaimonSnapshotAndFlussLogSplit(
+            return new LakeSnapshotAndFlussLogSplit(
                     tableBucket,
                     partition,
-                    fileStoreSourceSplit,
+                    lakeSplits,
                     startingOffset,
                     stoppingOffset,
                     recordsToSkip);