×

华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合

hqy hqy 发表于2025-02-25 05:07:19 浏览23 评论0百度已收录

抢沙发发表评论

今天分享的是:华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合

报告共计:28页

量化投资中 Bootstrap 重采样检验过拟合的研究

本文聚焦于量化投资领域,探讨如何运用 Bootstrap 重采样技术检验机器学习选股模型的过拟合问题,核心在于借助该技术构建“平行 A 股市场”,以精准剖析模型在不同随机性情境下的表现及结论可靠性。

Bootstrap 重采样作为关键手段,其核心是以有放回抽样方式从原始数据集获取多组数据,进而深入探究统计量特性及分布。在机器学习量化研究体系里,它作用关键,鉴于机器学习量化策略开发复杂度高、环节众多、参数繁杂,任何环节随机性均可能引发蝴蝶效应,而 Bootstrap 可模拟随机性,系统评估其对结果的综合影响。

构建“平行 A 股市场”时,充分考量选股模型随机性的三大源头:样本内与样本外数据集因子值的随机扰动,以及回测时间的抉择。与之对应的是三种 Bootstrap 方案,分别是针对样本内数据集、样本外数据集和回测时间进行重采样,借此全方位构建平行世界展开深入研究。

研究以华泰金工的三组交叉验证调参方法为样本,其均以 XGBoost 为基学习器构建选股模型,仅超参数有所差异。经严谨测试流程,包含数据处理、特征提取、模型训练及测试等环节,运用回归法、IC 值分析法和分层回测法等多元手段对模型展开全方位评估。

经对样本内、样本外数据集及回测时间的 Bootstrap 重采样测试,结果清晰显示:分组时序交叉验证方法在“平行 A 股市场”里,模型性能与单因子回测指标优势显著。样本内数据集小幅扰动常削弱模型表现;样本外数据集小幅变动影响呈中性;回测时间改变对模型表现影响较大且程度不一,如分层回测法中 Top 组合表现对回测时间敏感度颇高。

综上所述,Bootstrap 是构建“平行 A 股市场”、检验过拟合的有效途径。它明晰了不同随机性对模型影响规律,为研究者提供精准判断模型优劣的新思路,有力推动机器学习多因子选股框架优化升级,于量化投资研究意义深远、价值非凡。

以下为报告节选内容

报告共计: 28页

中小未来圈,你需要的资料,我这里都有!返回搜狐,查看更多