add writer state log

LiebingYu · LiebingYu · commit fd289110773c · 2025-12-01T15:12:12.000+08:00
diff --git a/fluss-server/src/main/java/org/apache/fluss/server/log/LogLoader.java b/fluss-server/src/main/java/org/apache/fluss/server/log/LogLoader.java
@@ -19,11 +19,9 @@
 
 import org.apache.fluss.config.ConfigOptions;
 import org.apache.fluss.config.Configuration;
-import org.apache.fluss.exception.InvalidOffsetException;
 import org.apache.fluss.exception.LogSegmentOffsetOverflowException;
 import org.apache.fluss.exception.LogStorageException;
 import org.apache.fluss.metadata.LogFormat;
-import org.apache.fluss.server.exception.CorruptIndexException;
 import org.apache.fluss.utils.FlussPaths;
 import org.apache.fluss.utils.types.Tuple2;
 
@@ -33,7 +31,6 @@
 import java.io.File;
 import java.io.IOException;
 import java.nio.file.Files;
-import java.nio.file.NoSuchFileException;
 import java.util.ArrayList;
 import java.util.Arrays;
 import java.util.Comparator;
@@ -113,8 +110,18 @@ public LoadedLogOffsets load() throws IOException {
         // Additionally, using 0 versus using logStartOffset does not affect correctness—they both
         // can restore the complete WriterState. The only difference is that using logStartOffset
         // can potentially skip over more segments.
+        LOG.info(
+                "In load for bucket {}, end offset {}, before rebuild: {}",
+                logSegments.getTableBucket(),
+                writerStateManager.mapEndOffset(),
+                writerStateManager.toJsonString());
         LogTablet.rebuildWriterState(
                 writerStateManager, logSegments, 0, nextOffset, isCleanShutdown);
+        LOG.info(
+                "In load for bucket {}, end offset {}, after rebuild: {}",
+                logSegments.getTableBucket(),
+                writerStateManager.mapEndOffset(),
+                writerStateManager.toJsonString());
 
         LogSegment activeSegment = logSegments.lastSegment().get();
         activeSegment.resizeIndexes((int) conf.get(ConfigOptions.LOG_INDEX_FILE_SIZE).getBytes());
@@ -136,60 +143,64 @@ public LoadedLogOffsets load() throws IOException {
      *     overflow
      */
     private Tuple2<Long, Long> recoverLog() throws IOException {
-        if (!isCleanShutdown) {
-            List<LogSegment> unflushed =
-                    logSegments.values(recoveryPointCheckpoint, Long.MAX_VALUE);
-            int numUnflushed = unflushed.size();
-            Iterator<LogSegment> unflushedIter = unflushed.iterator();
-            boolean truncated = false;
-            int numFlushed = 1;
-
-            while (unflushedIter.hasNext() && !truncated) {
-                LogSegment segment = unflushedIter.next();
-                LOG.info(
-                        "Recovering unflushed segment {}. {}/{} recovered for bucket {}",
-                        segment.getBaseOffset(),
-                        numFlushed,
-                        numUnflushed,
-                        logSegments.getTableBucket());
-
-                try {
-                    segment.sanityCheck();
-                } catch (NoSuchFileException | CorruptIndexException e) {
-                    LOG.warn(
-                            "Found invalid index file corresponding log file {} for bucket {}, "
-                                    + "recovering segment and rebuilding index files...",
-                            segment.getFileLogRecords().file().getAbsoluteFile(),
-                            logSegments.getTableBucket(),
-                            e);
-
-                    int truncatedBytes = -1;
-                    try {
-                        truncatedBytes = recoverSegment(segment);
-                    } catch (InvalidOffsetException invalidOffsetException) {
-                        long startOffset = segment.getBaseOffset();
-                        LOG.warn(
-                                "Found invalid offset during recovery for bucket {}. Deleting the corrupt segment "
-                                        + "and creating an empty one with starting offset {}",
-                                logSegments.getTableBucket(),
-                                startOffset);
-                        truncatedBytes = segment.truncateTo(startOffset);
-                    }
-
-                    if (truncatedBytes > 0) {
-                        // we had an invalid message, delete all remaining log
-                        LOG.warn(
-                                "Corruption found in segment {} for bucket {}, truncating to offset {}",
-                                segment.getBaseOffset(),
-                                logSegments.getTableBucket(),
-                                segment.readNextOffset());
-                        removeAndDeleteSegments(unflushedIter);
-                        truncated = true;
-                    }
-                }
-                numFlushed += 1;
-            }
-        }
+        //        if (!isCleanShutdown) {
+        //            List<LogSegment> unflushed =
+        //                    logSegments.values(recoveryPointCheckpoint, Long.MAX_VALUE);
+        //            int numUnflushed = unflushed.size();
+        //            Iterator<LogSegment> unflushedIter = unflushed.iterator();
+        //            boolean truncated = false;
+        //            int numFlushed = 1;
+        //
+        //            while (unflushedIter.hasNext() && !truncated) {
+        //                LogSegment segment = unflushedIter.next();
+        //                LOG.info(
+        //                        "Recovering unflushed segment {}. {}/{} recovered for bucket {}",
+        //                        segment.getBaseOffset(),
+        //                        numFlushed,
+        //                        numUnflushed,
+        //                        logSegments.getTableBucket());
+        //
+        //                try {
+        //                    segment.sanityCheck();
+        //                } catch (NoSuchFileException | CorruptIndexException e) {
+        //                    LOG.warn(
+        //                            "Found invalid index file corresponding log file {} for bucket
+        // {}, "
+        //                                    + "recovering segment and rebuilding index files...",
+        //                            segment.getFileLogRecords().file().getAbsoluteFile(),
+        //                            logSegments.getTableBucket(),
+        //                            e);
+        //
+        //                    int truncatedBytes = -1;
+        //                    try {
+        //                        truncatedBytes = recoverSegment(segment);
+        //                    } catch (InvalidOffsetException invalidOffsetException) {
+        //                        long startOffset = segment.getBaseOffset();
+        //                        LOG.warn(
+        //                                "Found invalid offset during recovery for bucket {}.
+        // Deleting the corrupt segment "
+        //                                        + "and creating an empty one with starting offset
+        // {}",
+        //                                logSegments.getTableBucket(),
+        //                                startOffset);
+        //                        truncatedBytes = segment.truncateTo(startOffset);
+        //                    }
+        //
+        //                    if (truncatedBytes > 0) {
+        //                        // we had an invalid message, delete all remaining log
+        //                        LOG.warn(
+        //                                "Corruption found in segment {} for bucket {}, truncating
+        // to offset {}",
+        //                                segment.getBaseOffset(),
+        //                                logSegments.getTableBucket(),
+        //                                segment.readNextOffset());
+        //                        removeAndDeleteSegments(unflushedIter);
+        //                        truncated = true;
+        //                    }
+        //                }
+        //                numFlushed += 1;
+        //            }
+        //        }
 
         // TODO truncate log to recover maybe unflush segments.
         if (logSegments.isEmpty()) {
@@ -264,12 +275,24 @@ private int recoverSegment(LogSegment segment) throws IOException {
         // Additionally, using 0 versus using logStartOffset does not affect correctness—they both
         // can restore the complete WriterState. The only difference is that using logStartOffset
         // can potentially skip over more segments.
+        LOG.info(
+                "In recoverSegment for bucket {} for segment {}, end offset {}, before rebuild: {}",
+                logSegments.getTableBucket(),
+                segment.getBaseOffset(),
+                writerStateManager.mapEndOffset(),
+                writerStateManager.toJsonString());
         LogTablet.rebuildWriterState(
                 writerStateManager, logSegments, 0, segment.getBaseOffset(), false);
         int bytesTruncated = segment.recover();
         // once we have recovered the segment's data, take a snapshot to ensure that we won't
         // need to reload the same segment again while recovering another segment.
         writerStateManager.takeSnapshot();
+        LOG.info(
+                "In recoverSegment for bucket {} for segment {}, end offset {}, after rebuild: {}",
+                logSegments.getTableBucket(),
+                segment.getBaseOffset(),
+                writerStateManager.mapEndOffset(),
+                writerStateManager.toJsonString());
         return bytesTruncated;
     }
 
diff --git a/fluss-server/src/main/java/org/apache/fluss/server/log/LogTablet.java b/fluss-server/src/main/java/org/apache/fluss/server/log/LogTablet.java
@@ -1256,6 +1256,10 @@ static void rebuildWriterState(
                     FetchDataInfo fetchDataInfo =
                             segment.read(startOffset, Integer.MAX_VALUE, maxPosition, false);
                     if (fetchDataInfo != null) {
+                        LOG.info(
+                                "Loading WriterState for bucket {} from segment {}",
+                                segments.getTableBucket(),
+                                segment);
                         loadWritersFromRecords(writerStateManager, fetchDataInfo.getRecords());
                     }
                 }
diff --git a/fluss-server/src/main/java/org/apache/fluss/server/log/WriterStateManager.java b/fluss-server/src/main/java/org/apache/fluss/server/log/WriterStateManager.java
@@ -478,6 +478,22 @@ private static void writeSnapshot(File file, Map<Long, WriterStateEntry> entries
         }
     }
 
+    public String toJsonString() {
+        List<WriterSnapshotEntry> snapshotEntries = new ArrayList<>();
+        writers.forEach(
+                (writerId, writerStateEntry) ->
+                        snapshotEntries.add(
+                                new WriterSnapshotEntry(
+                                        writerId,
+                                        writerStateEntry.lastBatchSequence(),
+                                        writerStateEntry.lastDataOffset(),
+                                        writerStateEntry.lastOffsetDelta(),
+                                        writerStateEntry.lastBatchTimestamp())));
+        byte[] jsonBytes = new WriterSnapshotMap(snapshotEntries).toJsonBytes();
+
+        return new String(jsonBytes);
+    }
+
     /** Writer snapshot map json serde. */
     public static class WriterSnapshotMapJsonSerde
             implements JsonSerializer<WriterSnapshotMap>, JsonDeserializer<WriterSnapshotMap> {

Original file line number	Diff line number	Diff line change
`@@ -1256,6 +1256,10 @@ static void rebuildWriterState(`
`1256`	`1256`	`FetchDataInfo fetchDataInfo =`
`1257`	`1257`	`segment.read(startOffset, Integer.MAX_VALUE, maxPosition, false);`
`1258`	`1258`	`if (fetchDataInfo != null) {`
	`1259`	`+ LOG.info(`
	`1260`	`+ "Loading WriterState for bucket {} from segment {}",`
	`1261`	`+ segments.getTableBucket(),`
	`1262`	`+ segment);`
`1259`	`1263`	`loadWritersFromRecords(writerStateManager, fetchDataInfo.getRecords());`
`1260`	`1264`	`}`
`1261`	`1265`	`}`