chore: automated publish

github-actions[bot] · github-actions[bot] · commit 72079f783a35 · 2025-08-02T20:34:44.000Z
diff --git a/public/blog/2025-08-02/index.pdf b/public/blog/2025-08-02/index.pdf
diff --git a/public/blog/2025-08-02/index.tex b/public/blog/2025-08-02/index.tex
@@ -0,0 +1,44 @@
+\title{"深入理解并实现基本的后缀树（Suffix Tree）数据结构"}
+\author{"杨子凡"}
+\date{"Aug 02, 2025"}
+\maketitle
+后缀树是解决复杂字符串问题的核心数据结构，广泛应用于模式匹配、最长重复子串查找等领域。在生物信息学中，它用于 DNA 序列分析；在搜索引擎和数据压缩中，它扮演关键角色。后缀树的显著优势在于其时间复杂度：构建时间为 $O(m)$，模式搜索时间为 $O(n)$，其中 m 是模式串长度，n 是文本长度。本文的目标是帮助读者深入理解后缀树的核心概念与构建逻辑，逐步实现一个基础版本的后缀树（以 Python 示例为主），并探讨优化方向与实际应用场景。通过学习，读者将掌握如何从理论推导到代码实现，解锁这一强大工具在实践中的潜力。\par
+\chapter{基础概念铺垫}
+后缀定义为字符串从某一位置开始到末尾的子串，具有线性排列特性；例如，字符串「BANANA」的所有后缀包括「A」、「NA」、「ANA」、「NANA」、「ANANA」和「BANANA」。后缀树的核心特性是将所有后缀存储在一个压缩字典树（Trie）结构中，内部节点代表公共前缀，叶节点对应后缀的起始位置，边标记为子串而非单字符。关键术语包括活动点（Active Point），它是一个三元组 (active\_{}node, active\_{}edge, active\_{}length)，用于跟踪构建过程中的当前位置；后缀链接（Suffix Link）用于在节点间快速跳转公共前缀路径；以及隐式节点和显式节点，区分完全存储的节点和逻辑存在的节点。\par
+\chapter{后缀树的构建：朴素方法 vs Ukkonen 算法}
+朴素构建法首先生成文本的所有后缀，然后将它们插入压缩 Trie 结构；这种方法简单易懂但时间复杂度高达 $O(n^2)$，空间开销大，仅适用于小规模文本，缺乏实用性。相比之下，Ukkonen 算法在线性时间内构建后缀树，其核心思想是增量式处理文本字符，并利用后缀链接优化跳转。算法通过阶段（Phase）与扩展（Extension）机制逐字符处理文本，活动点三元组 (active\_{}node, active\_{}edge, active\_{}length) 动态维护当前构建位置，后缀链接则实现高效路径回溯。构建规则分为三条：规则 1 适用于当前路径可直接扩展时；规则 2 在需要时分裂节点创建新内部节点；规则 3 当隐式后缀已存在时跳过扩展。以文本「BANANA」为例，构建过程可逐步推演：初始状态为空树，逐字符添加时应用规则，例如添加「B」时创建根节点子节点，添加「A」时可能触发规则 2 分裂，后缀链接确保在添加后续字符时快速定位公共前缀。\par
+\chapter{后缀树的代码实现（Python 示例）}
+数据结构设计是后缀树实现的基础，以下 Python 代码定义节点类，每个节点存储必要属性和子节点映射。\par
+\begin{lstlisting}[language=python]
+class SuffixTreeNode:
+    def __init__(self):
+        self.children = {}    # 子节点字典：键为字符，值为子节点对象
+        self.start = None     # 边标记的起始索引（在文本中的位置）
+        self.end = None       # 边标记的结束索引（使用指针避免子串拷贝）
+        self.suffix_link = None  # 后缀链接，指向其他节点以加速构建
+        self.idx = -1         # 叶节点存储后缀起始索引，-1 表示非叶节点
+\end{lstlisting}
+这段代码解读：\texttt{SuffixTreeNode} 类初始化一个后缀树节点，\texttt{children} 字典用于高效存储子节点关系，键是字符（如 'A'），值是对应子节点对象。\texttt{start} 和 \texttt{end} 属性表示边标记的索引范围，避免复制子串以节省空间；例如，边标记「BAN」可能由 \texttt{start=0} 和 \texttt{end=2} 表示。\texttt{suffix\_{}link} 初始为 \texttt{None}，在构建过程中链接到其他节点，实现 Ukkonen 算法的快速跳转。\texttt{idx} 属性在叶节点中存储后缀起始索引（如 0 表示整个后缀），值为 -1 表示当前节点是内部节点，非叶节点。\par
+Ukkonen 算法核心逻辑涉及全局变量和关键函数，以下伪代码展示构建流程。\par
+\begin{lstlisting}[language=python]
+def build_suffix_tree(text):
+    global active_point, remainder
+    root = SuffixTreeNode()
+    active_point = (root, None, 0)  # 活动点三元组 (节点 , 边 , 长度)
+    remainder = 0                   # 剩余待处理后缀数
+    for phase in range(len(text)):  # 每个阶段处理一个字符
+        remainder += 1
+        while remainder > 0:        # 应用扩展规则处理剩余后缀
+            # 规则应用逻辑：检查当前活动点，决定扩展或分裂
+            # 更新活动点和 remainder
+\end{lstlisting}
+这段代码解读：\texttt{build\_{}suffix\_{}tree} 函数以输入文本 \texttt{text} 构建后缀树。全局变量 \texttt{active\_{}point} 是三元组，存储当前活动节点、活动边和活动长度；\texttt{remainder} 记录待处理的后缀数量。在循环中，每个 \texttt{phase} 对应文本的一个字符位置；\texttt{remainder} 递增后，内部 \texttt{while} 循环应用构建规则。关键函数包括 \texttt{split\_{}node()} 处理规则 2 的分裂操作，创建新节点并调整链接；\texttt{walk\_{}down()} 更新活动点位置，确保其在正确路径；\texttt{extend\_{}suffix\_{}tree(pos)} 实现单字符扩展逻辑，根据规则执行操作。后缀链接的维护在分裂或扩展后自动设置，例如在创建新内部节点时，将其 \texttt{suffix\_{}link} 指向根节点或其他相关节点，以优化后续步骤。\par
+\chapter{应用场景}
+后缀树在精确模式匹配中发挥核心作用，给定模式 P 和文本 T，后缀树支持 $O(m)$ 时间查找 P 是否在 T 中出现，通过从根节点向下遍历匹配路径即可实现。查找最长重复子串时，遍历所有内部节点，找出深度最大的节点，其路径即为最长重复子串。对于最长公共子串（LCS），需构建广义后缀树，合并多个字符串的后缀，然后查找深度最大的共享节点。后缀树还可用于求解最长回文子串，作为 Manacher 算法的替代方案；方法是将文本 T 与反转文本拼接（如 T + '\#{}' + reverse(T)），构建后缀树后查找特定路径。\par
+\chapter{优化与局限性}
+空间优化技巧包括边标记使用 (start, end) 指针而非子串拷贝，大幅减少内存占用；叶节点压缩存储仅存起始索引，避免冗余数据。实践中，后缀数组结合最长公共前缀（LCP）是常见替代方案，内存消耗更小但功能略弱，不支持某些复杂查询。Ukkonen 算法的调试难点集中在活动点更新逻辑，错误可能导致构建失败；后缀链接的维护需精确，否则影响线性时间复杂度；实际实现中，需通过单元测试验证边界条件。\par
+后缀树的核心价值在于以线性时间解决复杂字符串问题，解锁高效算法设计。学习曲线陡峭，但掌握后能应用于生物信息学和数据处理等领域。现代应用中，后缀树常演变为结合后缀数组的混合结构，平衡性能与资源消耗。\par
+\chapter{附录}
+完整代码示例可在 GitHub Gist 链接中获取，便于读者实践。可视化工具推荐 Suffix Tree Visualizer（https://brenden.github.io/ukkonen-animation/），辅助理解构建过程。延伸阅读包括 Dan Gusfield 的著作《Algorithms on Strings, Trees and Sequences》和 Esko Ukkonen 的 1995 年原始论文，深入探讨算法细节。\par
+\chapter{挑战题}
+实现「查找文本中最长重复子串」的函数，基于后缀树遍历逻辑；扩展代码支持多个字符串，构建广义后缀树；对比后缀树与 Rabin-Karp 或 KMP 算法的性能差异，分析时间复杂度和实际运行效率。\par
diff --git a/public/blog/2025-08-02/sha256 b/public/blog/2025-08-02/sha256
@@ -0,0 +1 @@
+12f42d3934068e48894e02cb50a0ac72726da0875f315145bd31056887ebc7f2

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+12f42d3934068e48894e02cb50a0ac72726da0875f315145bd31056887ebc7f2`