过度拟合的风险

过度拟合的风险：如果脚本反复在同一份历史数据中寻找特定模式或条件，可能会得到只对过去有效的“最佳”规则，而无法适用于未来。

单纯的统计学也存在过度拟合的风险，并不仅限于机器学习模型。过度拟合本质上是“模型与数据结合得太紧”，以至于把随机噪声也解释为有意义的模式，导致在新数据上的表现很差。

在统计学中，以下情形都可能产生过度拟合：

变量或模型复杂度过高
例如在回归分析里加入过多自变量、使用过度灵活的分布或高阶多项式，都会让模型非常贴合当前样本，但难以推广到新样本。

过多次地在同一数据上探索和筛选
在仓库里的许多脚本（如 find_good_uptrend.py、backtest_dynamic_rebalance.py 等）会不断尝试不同区间或参数。如果反复在同一份历史数据上调参，一旦结果看起来很好，往往只是偶然契合了历史噪声；换到另一段数据就可能失效。

忽视适用假设或显著性校正
若统计推断时没有验证数据分布、独立性等假设，或在多重检验中不做校正，也会放大偶然性并导致过度解释。

因此，即使是常规的统计分析，若模型或方法与数据结合得过于密集，同样会出现过度拟合的现象。常见的缓解做法包括保持模型简洁、划分训练和验证样本、交叉验证、以及明确假设检验和显著性校正等。这样才能让统计结论在新数据上更具稳定性。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

过度拟合的风险 #2

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

过度拟合的风险 #2

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions