Skip to content

过度拟合的风险 #2

@hjyssg

Description

@hjyssg

过度拟合的风险:如果脚本反复在同一份历史数据中寻找特定模式或条件,可能会得到只对过去有效的“最佳”规则,而无法适用于未来。

单纯的统计学也存在过度拟合的风险,并不仅限于机器学习模型。过度拟合本质上是“模型与数据结合得太紧”,以至于把随机噪声也解释为有意义的模式,导致在新数据上的表现很差。

在统计学中,以下情形都可能产生过度拟合:

变量或模型复杂度过高
例如在回归分析里加入过多自变量、使用过度灵活的分布或高阶多项式,都会让模型非常贴合当前样本,但难以推广到新样本。

过多次地在同一数据上探索和筛选
在仓库里的许多脚本(如 find_good_uptrend.py、backtest_dynamic_rebalance.py 等)会不断尝试不同区间或参数。如果反复在同一份历史数据上调参,一旦结果看起来很好,往往只是偶然契合了历史噪声;换到另一段数据就可能失效。

忽视适用假设或显著性校正
若统计推断时没有验证数据分布、独立性等假设,或在多重检验中不做校正,也会放大偶然性并导致过度解释。

因此,即使是常规的统计分析,若模型或方法与数据结合得过于密集,同样会出现过度拟合的现象。常见的缓解做法包括保持模型简洁、划分训练和验证样本、交叉验证、以及明确假设检验和显著性校正等。这样才能让统计结论在新数据上更具稳定性。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions