×

基于深度强化学习的结构突变感知配对交易策略

hqy hqy 发表于2025-06-06 22:53:01 浏览14 评论0百度已收录

抢沙发发表评论

配对交易是一种有效的统计套利策略,它通过考虑成对股票之间的价差来实现套利。然而,市场快速变化可能会破坏这种稳定的协整关系,导致所谓的“结构断点”,从而在日内交易中造成巨大损失。本文设计了一个两阶段的配对交易策略优化框架,即结构断点感知配对交易策略(SAPT),利用机器学习技术解决这一问题。第一阶段是一个混合模型,通过提取频率域和时间域特征来检测结构断点;第二阶段则通过一个新颖的强化学习模型优化配对交易策略,同时感知包括结构断点和市场收盘风险在内的关键风险,并考虑交易成本,以避免盈利能力大幅下降。通过在台湾股市的真实数据集上进行大规模实验,SAPT在利润和Sortino比率方面至少比现有最佳策略高出456%和934%。

图 1. 2337.TW和2344.TW的股票价格

随着通信技术的发展,信息传播速度比过去更快,这意味着更多外部因素(如突发新闻)可以实时影响金融市场,增加了金融市场的波动性,导致投资风险上升。对于投资者来说,既要抓住盈利机会,又要考虑投资风险以实现稳定回报,难度越来越大。为了实现这一目标,配对交易的概念应运而生,并被广泛应用于多个金融市场。

金融专家发现,某些成对金融工具的价格差(即两者价格之差)总是处于一种长期稳定的协整关系中。配对交易策略正是利用这种稳定的协整关系来寻找套利机会。不同的配对定义方法被提出,如基于距离的、基于协整的、基于随机过程的和基于时间序列的。本文重点关注基于协整的配对交易,因为基于协整的配对价格差被证明在计量经济学上更为可靠。

图 2. 配对股票的标准化价差示例

在配对交易场景中,交易由一个空头和一个多头组成,当套利机会出现时开启交易。直到价差回归到历史均值时,交易通过执行相反的操作来关闭。例如,当价差偏离历史均值时,投资者会在特定时间做空一只股票并做多另一只股票,然后在价差回归时平仓获利。然而,价差可能会意外地远离历史均值,为了避免因价差过度偏离而导致的巨大损失,投资者会设置止损边界,当价差触及这些边界时,交易会被强制平仓。此外,如果交易开启后,价差在市场收盘前仍未回归历史均值,交易也会被强制平仓,这被称为“退出”。

为了优化配对交易策略,确定交易和止损边界至关重要。如果交易边界的差距过小,套利空间有限,利润微薄,甚至可能被交易成本(如交易税和手续费)抵消。相反,如果边界过宽,可能会错过一些小的套利机会,并增加巨大损失的风险。因此,在捕捉套利机会和控制风险之间取得平衡是必要的。

为了在日内交易中捕捉套利机会,我们的想法是设计一种基于高频数据(如分钟级别)的新型配对交易策略。需要注意的是,大多数现有的配对交易策略是为日数据设计的,其中价差通常较为稳定且处于长期均衡状态。然而,由于股票市场容易受到外部因素(如新闻和政府政策)的实时影响,它们可能会错过日内交易中的套利机会。此外,由于高频数据的敏感性,价差的协整关系更弱,结构断点的风险增加,这可能会导致价差无法回归历史均值,从而造成巨大损失。

图 3. 结构断点示例

为了检测结构断点,现有的方法如增强型迪基-富勒检验和乔检验需要大量数据进行统计检验,且不适用于在线检测。另一方面,在异常检测领域,基于似然比和概率的变点检测方法可以识别时间序列数据中的突然和剧烈模式变化。然而,结构断点可能存在于缓慢变化的价差中,这使得它们对于变点检测方法来说难以检测。因此,设计一种有效的结构断点检测方法以改善配对交易策略变得十分迫切。

本文提出的两阶段框架SAPT如下:

- **第一阶段:结构断点检测**。给定一对协整股票、它们之前的股票价格序列以及当前股票价格,目标是估计当前时间戳发生结构断点的概率。通过结合时间域和频率域特征,可以显著提高性能。我们提出了一个名为SWANet的混合网络,通过连续小波卷积神经网络(CNN)和长短期记忆网络(LSTM)分别提取价差的频率域特征和时间域特征。通过结合这两个方面,SWANet能够更好地处理股票数据中的非线性和复杂性。

- **第二阶段:配对交易策略优化**。给定一对协整股票、它们之前的股票价格序列、第一阶段预测的结构断点发生概率以及市场定义的交易成本,目标是动态决定每个时间戳的交易数量、交易边界和止损边界。我们提出了一个名为SADQN的深度Q网络,它考虑了交易成本、结构断点和市场收盘风险,并通过一个成本感知的目标函数和风险感知的状态及奖励定义来优化配对交易策略。

为了评估SAPT的效果,我们在台湾证券交易所资本加权股价指数(TAIEX)的前150家公司中收集了大规模数据集,时间跨度从2017年11月1日到2020年5月31日。实验结果表明,SWANet在检测结构断点方面比现有最佳方法的漏检率低30.4%。在配对交易策略方面,SADQN在风险控制方面分别比现有最佳方法提高了456%的利润和934%的Sortino比率。本文的主要贡献如下:

1. 在机器学习领域,我们首次提出了在日内交易场景中开发带有结构断点检测的配对交易策略的迫切需求。

2. 我们提出了一个新颖的结构断点检测方法SWANet,它同时考虑了频率域和时间域特征,能够高效地检测协整对的断点。

3. 我们设计了一个新的深度Q网络SADQN,它考虑了结构断点、市场收盘风险和交易成本,以优化配对交易策略。

4. 我们收集了台湾股市的大规模tick数据进行实验,结果表明我们的解决方案显著优于现有方法。

本文的结构如下:第二部分比较了相关工作;第三部分概述了配对交易策略的背景和SAPT框架;第四部分和第五部分分别详细介绍了我们的模型SWANet和SADQN;第六部分展示了实验结果;第七部分总结了本文。

# 参考文献

Lu, J.-Y., Lai, H.-C., Shih, W.-Y., Chen, Y.-F., Huang, S.-H., Chang, H.-H., Wang, J.-Z., Huang, J.-L., & Dai, T.-S. (2022). Structural break‑aware pairs trading strategy using deep reinforcement learning. The Journal of Supercomputing, 78, 3843–3882.