apache
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/source/enumerator/initializer/BucketOffsetsRetrieverImpl.java‎
Lines changed: 3 additions & 1 deletion b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/source/enumerator/initializer/BucketOffsetsRetrieverImpl.java‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/LakeTieringJobBuilder.java‎
Lines changed: 112 additions & 0 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/LakeTieringJobBuilder.java‎
Lines changed: 112 additions & 0 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/committer/CommittableMessageTypeInfo.java‎
Lines changed: 4 additions & 4 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/committer/CommittableMessageTypeInfo.java‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/committer/TieringCommitOperator.java‎
Lines changed: 13 additions & 3 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/committer/TieringCommitOperator.java‎
Lines changed: 13 additions & 3 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/committer/TieringCommitOperatorFactory.java‎
Lines changed: 5 additions & 1 deletion b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/committer/TieringCommitOperatorFactory.java‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/source/TieringSource.java‎
Lines changed: 20 additions & 0 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/source/TieringSource.java‎
Lines changed: 20 additions & 0 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/source/TieringSourceOptions.java‎
Lines changed: 2 additions & 0 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/source/TieringSourceOptions.java‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/source/TieringSplitReader.java‎
Lines changed: 13 additions & 8 deletions b/‎fluss-flink/fluss-flink-common/src/main/java/com/alibaba/fluss/flink/tiering/source/TieringSplitReader.java‎
Lines changed: 13 additions & 8 deletions
@@ -22,6 +22,7 @@
 import com.alibaba.fluss.flink.source.enumerator.initializer.OffsetsInitializer.BucketOffsetsRetriever;
 import com.alibaba.fluss.metadata.TablePath;
 
+import org.apache.flink.util.ExceptionUtils;
 import org.apache.flink.util.FlinkRuntimeException;
 
 import javax.annotation.Nullable;
@@ -81,7 +82,8 @@ private Map<Integer, Long> listOffsets(
                     "Interrupted while listing offsets for table buckets: " + buckets, e);
         } catch (ExecutionException e) {
             throw new FlinkRuntimeException(
-                    "Failed to list offsets for table buckets: " + buckets + " due to", e);
+                    "Failed to list offsets for table buckets: " + buckets + " due to",
+                    ExceptionUtils.stripExecutionException(e));
         }
     }
 }
@@ -0,0 +1,112 @@
+/*
+ * Copyright (c) 2025 Alibaba Group Holding Ltd.
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package com.alibaba.fluss.flink.tiering;
+
+import com.alibaba.fluss.config.ConfigOptions;
+import com.alibaba.fluss.config.Configuration;
+import com.alibaba.fluss.flink.tiering.committer.CommittableMessageTypeInfo;
+import com.alibaba.fluss.flink.tiering.committer.TieringCommitOperatorFactory;
+import com.alibaba.fluss.flink.tiering.source.TableBucketWriteResultTypeInfo;
+import com.alibaba.fluss.flink.tiering.source.TieringSource;
+import com.alibaba.fluss.lakehouse.lakestorage.LakeStorage;
+import com.alibaba.fluss.lakehouse.lakestorage.LakeStoragePlugin;
+import com.alibaba.fluss.lakehouse.lakestorage.LakeStoragePluginSetUp;
+import com.alibaba.fluss.lakehouse.writer.LakeTieringFactory;
+
+import org.apache.flink.api.common.eventtime.WatermarkStrategy;
+import org.apache.flink.core.execution.JobClient;
+import org.apache.flink.streaming.api.datastream.DataStreamSource;
+import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
+import org.apache.flink.streaming.api.functions.sink.v2.DiscardingSink;
+
+import java.util.Collections;
+
+import static com.alibaba.fluss.flink.tiering.source.TieringSource.TIERING_SOURCE_TRANSFORMATION_UID;
+import static com.alibaba.fluss.flink.tiering.source.TieringSourceOptions.POLL_TIERING_TABLE_INTERVAL;
+import static com.alibaba.fluss.utils.Preconditions.checkNotNull;
+
+/** The builder to build Flink lake tiering job. */
+public class LakeTieringJobBuilder {
+
+    private final StreamExecutionEnvironment env;
+    private final Configuration flussConfig;
+    private final Configuration dataLakeConfig;
+    private final String dataLakeFormat;
+
+    private LakeTieringJobBuilder(
+            StreamExecutionEnvironment env,
+            Configuration flussConfig,
+            Configuration dataLakeConfig,
+            String dataLakeFormat) {
+        this.env = checkNotNull(env);
+        this.flussConfig = checkNotNull(flussConfig);
+        this.dataLakeConfig = checkNotNull(dataLakeConfig);
+        this.dataLakeFormat = checkNotNull(dataLakeFormat);
+    }
+
+    public static LakeTieringJobBuilder newBuilder(
+            StreamExecutionEnvironment env,
+            Configuration flussConfig,
+            Configuration dataLakeConfig,
+            String dataLakeFormat) {
+        return new LakeTieringJobBuilder(env, flussConfig, dataLakeConfig, dataLakeFormat);
+    }
+
+    @SuppressWarnings({"rawtypes", "unchecked"})
+    public JobClient build() throws Exception {
+        // get the lake storage plugin
+        LakeStoragePlugin lakeStoragePlugin =
+                LakeStoragePluginSetUp.fromConfiguration(
+                        Configuration.fromMap(
+                                Collections.singletonMap(
+                                        ConfigOptions.DATALAKE_FORMAT.key(), dataLakeFormat)),
+                        null);
+        // create lake storage from configurations
+        LakeStorage lakeStorage = checkNotNull(lakeStoragePlugin).createLakeStorage(dataLakeConfig);
+
+        LakeTieringFactory lakeTieringFactory = lakeStorage.createLakeTieringFactory();
+
+        // build tiering source
+        TieringSource.Builder<?> tieringSourceBuilder =
+                new TieringSource.Builder<>(flussConfig, lakeTieringFactory);
+        if (flussConfig.get(POLL_TIERING_TABLE_INTERVAL) != null) {
+            tieringSourceBuilder.withPollTieringTableIntervalMs(
+                    flussConfig.get(POLL_TIERING_TABLE_INTERVAL).toMillis());
+        }
+        TieringSource<?> tieringSource = tieringSourceBuilder.build();
+        DataStreamSource<?> source =
+                env.fromSource(
+                        tieringSource,
+                        WatermarkStrategy.noWatermarks(),
+                        "TieringSource",
+                        TableBucketWriteResultTypeInfo.of(
+                                () -> lakeTieringFactory.getWriteResultSerializer()));
+
+        source.getTransformation().setUid(TIERING_SOURCE_TRANSFORMATION_UID);
+
+        source.transform(
+                        "TieringCommitter",
+                        CommittableMessageTypeInfo.of(
+                                () -> lakeTieringFactory.getCommitableSerializer()),
+                        new TieringCommitOperatorFactory(flussConfig, lakeTieringFactory))
+                .setParallelism(1)
+                .setMaxParallelism(1)
+                .sinkTo(new DiscardingSink());
+
+        return env.executeAsync();
+    }
+}
@@ -80,13 +80,13 @@ public boolean isKeyType() {
     @Override
     public TypeSerializer<CommittableMessage<Committable>> createSerializer(
             ExecutionConfig executionConfig) {
-        // no copy, so that data from writer is directly going into upstream operator while chaining
-        SimpleVersionedSerializer<Committable> committableSerializer =
-                committableSerializerFactory.get();
         return new SimpleVersionedSerializerTypeSerializerProxy<CommittableMessage<Committable>>(
                 () ->
                         new org.apache.flink.core.io.SimpleVersionedSerializer<
                                 CommittableMessage<Committable>>() {
+                            private final SimpleVersionedSerializer<Committable>
+                                    committableSerializer = committableSerializerFactory.get();
+
                             @Override
                             public int getVersion() {
                                 return committableSerializer.getVersion();
@@ -123,7 +123,7 @@ public CommittableMessage<Committable> copy(
 
     @Override
     public String toString() {
-        return "LakeCommittableTypeInfo";
+        return "CommittableMessageTypeInfo";
     }
 
     @Override
 
@@ -17,6 +17,7 @@
 package com.alibaba.fluss.flink.tiering.committer;
 
 import com.alibaba.fluss.config.Configuration;
+import com.alibaba.fluss.flink.tiering.event.FinishTieringEvent;
 import com.alibaba.fluss.flink.tiering.source.TableBucketWriteResult;
 import com.alibaba.fluss.flink.tiering.source.TieringSource;
 import com.alibaba.fluss.lakehouse.committer.LakeCommitter;
@@ -25,6 +26,8 @@
 import com.alibaba.fluss.metadata.TableBucket;
 import com.alibaba.fluss.metadata.TablePath;
 
+import org.apache.flink.runtime.operators.coordination.OperatorEventGateway;
+import org.apache.flink.runtime.source.event.SourceEventWrapper;
 import org.apache.flink.streaming.api.operators.AbstractStreamOperator;
 import org.apache.flink.streaming.api.operators.OneInputStreamOperator;
 import org.apache.flink.streaming.api.operators.StreamOperatorParameters;
@@ -67,6 +70,9 @@ public class TieringCommitOperator<WriteResult, Committable>
     private final LakeTieringFactory<WriteResult, Committable> lakeTieringFactory;
     private final FlussTableLakeSnapshotCommitter flussTableLakeSnapshotCommitter;
 
+    // gateway to send event to flink source coordinator
+    private final OperatorEventGateway operatorEventGateway;
+
     // tableid -> write results
     private final Map<Long, List<TableBucketWriteResult<WriteResult>>>
             collectedTableBucketWriteResults;
@@ -82,6 +88,10 @@ public TieringCommitOperator(
                 parameters.getContainingTask(),
                 parameters.getStreamConfig(),
                 parameters.getOutput());
+        operatorEventGateway =
+                parameters
+                        .getOperatorEventDispatcher()
+                        .getOperatorEventGateway(TieringSource.TIERING_SOURCE_OPERATOR_UID);
     }
 
     @Override
@@ -106,9 +116,9 @@ public void processElement(StreamRecord<TableBucketWriteResult<WriteResult>> str
                     commitWriteResults(
                             tableId, tableBucketWriteResult.tablePath(), committableWriteResults);
             collectedTableBucketWriteResults.remove(tableId);
-            // todo: uncomment it in next pr // notify that the table id has been finished tier
-            //            operatorEventGateway.sendEventToCoordinator(
-            //                    new SourceEventWrapper(new FinishTieringEvent(tableId)));
+            // notify that the table id has been finished tier
+            operatorEventGateway.sendEventToCoordinator(
+                    new SourceEventWrapper(new FinishTieringEvent(tableId)));
             // only emit when committable is not-null
             if (committable != null) {
                 output.collect(new StreamRecord<>(new CommittableMessage<>(committable)));
 
@@ -17,15 +17,19 @@
 package com.alibaba.fluss.flink.tiering.committer;
 
 import com.alibaba.fluss.config.Configuration;
+import com.alibaba.fluss.flink.tiering.source.TableBucketWriteResult;
 import com.alibaba.fluss.lakehouse.writer.LakeTieringFactory;
 
 import org.apache.flink.streaming.api.operators.AbstractStreamOperatorFactory;
+import org.apache.flink.streaming.api.operators.OneInputStreamOperatorFactory;
 import org.apache.flink.streaming.api.operators.StreamOperator;
 import org.apache.flink.streaming.api.operators.StreamOperatorParameters;
 
 /** The factory to create {@link TieringCommitOperator}. */
 public class TieringCommitOperatorFactory<WriteResult, Committable>
-        extends AbstractStreamOperatorFactory<CommittableMessage<Committable>> {
+        extends AbstractStreamOperatorFactory<CommittableMessage<Committable>>
+        implements OneInputStreamOperatorFactory<
+                TableBucketWriteResult<WriteResult>, CommittableMessage<Committable>> {
 
     private final Configuration flussConfig;
     private final LakeTieringFactory<WriteResult, Committable> lakeTieringFactory;
 
@@ -23,6 +23,9 @@
 import com.alibaba.fluss.flink.tiering.source.state.TieringSourceEnumeratorState;
 import com.alibaba.fluss.flink.tiering.source.state.TieringSourceEnumeratorStateSerializer;
 import com.alibaba.fluss.lakehouse.writer.LakeTieringFactory;
+import com.alibaba.fluss.shaded.guava32.com.google.common.hash.HashFunction;
+import com.alibaba.fluss.shaded.guava32.com.google.common.hash.Hasher;
+import com.alibaba.fluss.shaded.guava32.com.google.common.hash.Hashing;
 
 import org.apache.flink.api.connector.source.Boundedness;
 import org.apache.flink.api.connector.source.Source;
@@ -31,6 +34,10 @@
 import org.apache.flink.api.connector.source.SplitEnumerator;
 import org.apache.flink.api.connector.source.SplitEnumeratorContext;
 import org.apache.flink.core.io.SimpleVersionedSerializer;
+import org.apache.flink.runtime.jobgraph.OperatorID;
+import org.apache.flink.streaming.api.graph.StreamGraphHasherV2;
+
+import java.nio.charset.StandardCharsets;
 
 import static com.alibaba.fluss.flink.tiering.source.TieringSourceOptions.POLL_TIERING_TABLE_INTERVAL;
 
@@ -43,6 +50,11 @@ public class TieringSource<WriteResult>
         implements Source<
                 TableBucketWriteResult<WriteResult>, TieringSplit, TieringSourceEnumeratorState> {
 
+    public static final String TIERING_SOURCE_TRANSFORMATION_UID =
+            "$$fluss_tiering_source_operator$$";
+    public static final OperatorID TIERING_SOURCE_OPERATOR_UID =
+            new OperatorID(generateOperatorHash());
+
     private final Configuration flussConf;
     private final LakeTieringFactory<WriteResult, ?> lakeTieringFactory;
     private final long pollTieringTableIntervalMs;
@@ -95,6 +107,14 @@ public SourceReader<TableBucketWriteResult<WriteResult>, TieringSplit> createRea
         return new TieringSourceReader<>(sourceReaderContext, flussConf, lakeTieringFactory);
     }
 
+    /** This follows the operator uid hash generation logic of flink {@link StreamGraphHasherV2}. */
+    private static byte[] generateOperatorHash() {
+        final HashFunction hashFunction = Hashing.murmur3_128(0);
+        Hasher hasher = hashFunction.newHasher();
+        hasher.putString(TIERING_SOURCE_TRANSFORMATION_UID, StandardCharsets.UTF_8);
+        return hasher.hash().asBytes();
+    }
+
     /** Builder for {@link TieringSource}. */
     public static class Builder<WriteResult> {
 
 
@@ -25,6 +25,8 @@
 /** Configuration options for the {@link TieringSource}. */
 public class TieringSourceOptions {
 
+    public static final String DATA_LAKE_CONFIG_PREFIX = "datalake.";
+
     public static final ConfigOption<Duration> POLL_TIERING_TABLE_INTERVAL =
             key("tiering.poll.table.interval")
                     .durationType()
 
@@ -88,7 +88,7 @@ public class TieringSplitReader<WriteResult>
     @Nullable private Integer currentTableNumberOfSplits;
 
     // map from table bucket to split id
-    private final Map<TableBucket, String> currentTableSplitsByBucket;
+    private final Map<TableBucket, TieringSplit> currentTableSplitsByBucket;
     private final Map<TableBucket, Long> currentTableStoppingOffsets;
     private final Set<TieringLogSplit> currentTableEmptyLogSplits;
 
@@ -169,7 +169,7 @@ public void handleSplitsChanges(SplitsChange<TieringSplit> splitsChange) {
     }
 
     private void addSplitToCurrentTable(TieringSplit split) {
-        this.currentTableSplitsByBucket.put(split.getTableBucket(), split.splitId());
+        this.currentTableSplitsByBucket.put(split.getTableBucket(), split);
         if (split.isTieringSnapshotSplit()) {
             this.currentPendingSnapshotSplits.add((TieringSnapshotSplit) split);
         } else if (split.isTieringLogSplit()) {
@@ -259,7 +259,9 @@ private RecordsWithSplitIds<TableBucketWriteResult<WriteResult>> forLogRecords(
             if (stoppingOffset == null) {
                 continue;
             }
-            LakeWriter<WriteResult> lakeWriter = getOrCreateLakeWriter(bucket);
+            LakeWriter<WriteResult> lakeWriter =
+                    getOrCreateLakeWriter(
+                            bucket, currentTableSplitsByBucket.get(bucket).getPartitionName());
             for (ScanRecord record : bucketScanRecords) {
                 // if record is less than stopping offset
                 if (record.logOffset() < stoppingOffset) {
@@ -278,7 +280,7 @@ private RecordsWithSplitIds<TableBucketWriteResult<WriteResult>> forLogRecords(
                 }
                 // put write result of the bucket
                 writeResults.put(bucket, completeLakeWriter(bucket, stoppingOffset));
-                String currentSplitId = currentTableSplitsByBucket.remove(bucket);
+                String currentSplitId = currentTableSplitsByBucket.remove(bucket).splitId();
                 // put split of the bucket
                 finishedSplitIds.put(bucket, currentSplitId);
                 LOG.info("Split {} has been finished.", currentSplitId);
@@ -292,12 +294,13 @@ private RecordsWithSplitIds<TableBucketWriteResult<WriteResult>> forLogRecords(
         return new TableBucketWriteResultWithSplitIds(writeResults, finishedSplitIds);
     }
 
-    private LakeWriter<WriteResult> getOrCreateLakeWriter(TableBucket bucket) throws IOException {
+    private LakeWriter<WriteResult> getOrCreateLakeWriter(
+            TableBucket bucket, @Nullable String partitionName) throws IOException {
         LakeWriter<WriteResult> lakeWriter = lakeWriters.get(bucket);
         if (lakeWriter == null) {
             lakeWriter =
                     lakeTieringFactory.createLakeWriter(
-                            new TieringWriterInitContext(currentTablePath, bucket));
+                            new TieringWriterInitContext(currentTablePath, bucket, partitionName));
             lakeWriters.put(bucket, lakeWriter);
         }
         return lakeWriter;
@@ -345,7 +348,7 @@ private void mayFinishCurrentTable() throws IOException {
     private TableBucketWriteResultWithSplitIds finishCurrentSnapshotSplit() throws IOException {
         TableBucket tableBucket = currentSnapshotSplit.getTableBucket();
         long logEndOffset = currentSnapshotSplit.getLogOffsetOfSnapshot();
-        String splitId = currentTableSplitsByBucket.remove(tableBucket);
+        String splitId = currentTableSplitsByBucket.remove(tableBucket).splitId();
         TableBucketWriteResult<WriteResult> writeResult =
                 completeLakeWriter(tableBucket, logEndOffset);
         closeCurrentSnapshotSplit();
@@ -357,7 +360,9 @@ private TableBucketWriteResultWithSplitIds finishCurrentSnapshotSplit() throws I
 
     private TableBucketWriteResultWithSplitIds forSnapshotSplitRecords(
             TableBucket bucket, CloseableIterator<RecordAndPos> recordIterator) throws IOException {
-        LakeWriter<WriteResult> lakeWriter = getOrCreateLakeWriter(bucket);
+        LakeWriter<WriteResult> lakeWriter =
+                getOrCreateLakeWriter(
+                        bucket, checkNotNull(currentSnapshotSplit).getPartitionName());
         while (recordIterator.hasNext()) {
             ScanRecord scanRecord = recordIterator.next().record();
             lakeWriter.write(scanRecord);
Original file line number	Diff line number	Diff line change
`@@ -22,6 +22,7 @@`
`22`	`22`	`import com.alibaba.fluss.flink.source.enumerator.initializer.OffsetsInitializer.BucketOffsetsRetriever;`
`23`	`23`	`import com.alibaba.fluss.metadata.TablePath;`
`24`	`24`
	`25`	`+import org.apache.flink.util.ExceptionUtils;`
`25`	`26`	`import org.apache.flink.util.FlinkRuntimeException;`
`26`	`27`
`27`	`28`	`import javax.annotation.Nullable;`
`@@ -81,7 +82,8 @@ private Map<Integer, Long> listOffsets(`
`81`	`82`	`"Interrupted while listing offsets for table buckets: " + buckets, e);`
`82`	`83`	`} catch (ExecutionException e) {`
`83`	`84`	`throw new FlinkRuntimeException(`
`84`		`- "Failed to list offsets for table buckets: " + buckets + " due to", e);`
	`85`	`+ "Failed to list offsets for table buckets: " + buckets + " due to",`
	`86`	`+ ExceptionUtils.stripExecutionException(e));`
`85`	`87`	`}`
`86`	`88`	`}`
`87`	`89`	`}`