原始训练集(30个井点)
→ 数据预处理(清除无效值较多的属性,清除井点与地震在属性的统计指标上不符的属性)
→ PCA降维
→ 对主成分和砂厚的非线性关系进行多模型简单拟合,生成一些虚拟井并筛选,使样本分布均衡
→ 如果样本依旧不均衡,添加随机扰动,使样本均衡
→ 根据自相关性将属性分组
→ 遍历从多个组中选三个组的属性组合(如果组里只有一个属性,选这个属性即可;有多个属性,则随机选择)
→ 将这三个属性作为输入,训练组合数 × 参数网格大小个SVR模型,取最好的五个,求平均
无论是数据扩容还是模型选择,都只能造成一些软边界的改变,例如原来预测薄砂的地方经过方法迭代可以预测得厚一点,但是无法影响相与相之间的硬边界,这种现象的本质,是训练集样本数的不足和样本空间位置过于集中,导致监督模型的预测无法泛化,使原始地震属性之间的数据相似度占据了最终结果的主导地位。