基于有向二分图与机器学习的中美股市跨市场收益预测

chengsenw

22332
文章

0
评论

2026年3月27日 16:04:38网络营销评论1阅读模式

基于有向二分图与机器学习的中美股市跨市场收益预测

“A Bipartite Graph Approach to U.S.-China Cross-Market Return Forecasting”

收益预测是实证资产定价和投资组合管理的核心问题，但金融市场的噪声、非平稳性和非线性依赖结构，大幅提升了其统计难度。

现有方法多聚焦于同期联动、波动率溢出或因果传导分析，却鲜有研究开展明确的个股层面跨市场收益预测。少数结合机器学习的跨市场研究也仅停留在指数层面，且未充分考虑不同市场的异步交易时段特征。

本文创新性融合有向二分图与机器学习框架，利用美中股票市场非重叠交易时段的时序特征，首次系统性探究个股层面的跨市场收益可预测性，揭示了两国市场间显著的预测信息不对称性，为跨市场收益预测提供了结构化、可解释的新方法。

实证证明，将有向二分图的经济结构剥离能力与机器学习处理非线性高维映射的能力相结合，能够系统性击败传统单市场动量预测模型。中美市场间呈现出极致的单向信息倾销现象，美国pvCLCL收益率中隐匿的隔夜信号是驱动次日中国市场日内价格运动的强效火控参数。

【扫描文末二维码加入星球获取论文】

摘要

本文创新性融合有向二分图与机器学习框架，利用美中股票市场非重叠交易时段的时序特征，首次系统性探究个股层面的跨市场收益可预测性，揭示了两国市场间显著的预测信息不对称性，为跨市场收益预测提供了结构化、可解释的新方法，也为实证资产定价和投资组合管理提供了新的实证依据。本文将按研究脉络，对该文的研究背景、数据、方法、实证结果及结论进行核心总结，整体梳理研究的核心价值与创新点。

研究背景

收益预测是实证资产定价和投资组合管理的核心问题，但金融市场的噪声、非平稳性和非线性依赖结构，大幅提升了其统计难度。机器学习方法已广泛应用于单市场收益预测，LSTM、神经网络、XGBoost等模型均被验证在中美单市场的收益预测中具备有效性，但现实交易时段约束下的个股层面跨市场收益预测，仍是现有研究的空白领域。

现有跨市场相关研究多聚焦于同期联动、波动率溢出或因果传导分析，如通过向量自回归、GARCH模型验证国际市场间的关联，或通过因果检验证实美国市场在全球价格发现中的引领作用，却鲜有研究开展明确的个股层面跨市场收益预测。少数结合机器学习的跨市场研究也仅停留在指数层面，且未充分考虑不同市场的异步交易时段特征。同时，金融领域的图方法应用多集中于单市场内的网络构建，通过同期相关性定义节点关联，机器学习应用也以单市场信息为核心，尚未有研究将有向二分图的特征筛选与机器学习结合，挖掘跨市场的时序预测关联。

在此背景下，该研究以美中市场为研究对象，利用两国非重叠交易的时序特征，构建有向二分图捕捉跨市场的有向预测链接，并将其作为特征选择层嵌入机器学习模型，开展个股层面的跨市场开盘至收盘（OPCL）收益预测。研究并非设计可直接落地的交易策略，而是验证跨市场预测的方向不对称性，因此所有绩效指标均为交易成本前数据，未考虑流动性优化权重，核心旨在揭示跨市场的收益依赖结构。

研究数据与核心定义

研究选取2014-2021年美中两国核心交易所的股票数据，美国市场涵盖纽交所、纳斯达克，数据来源于CRSP，中国市场涵盖上交所、深交所，数据来源于万得数据库（Wind）。两国市场非重叠的交易时段为研究提供了清晰的时序结构：美国市场交易时间为美东时间9:30-16:00，中国市场为北京时间9:30-11:30、13:00-15:00，即使考虑夏令时调整，也无交易重叠，确保美国前一交易日收盘信息可在中国市场交易前完全观测。

研究采用市场超额收益为核心分析指标，定义为个股收益与代表市场整体表现的ETF收益的差值，美国市场选用SPY，中国市场选用513500.SH。研究涉及两类核心收益指标：一是前一收盘至收盘（pvCLCL）对数原始收益，即相邻交易日收盘价格的对数差；二是开盘至收盘（OPCL）对数原始收益，即同一交易日收盘与开盘价格的对数差，在此基础上分别计算对应的市场超额收益。

为保证样本的流动性和连续性，研究从美中两国各选取平均市值排名前500的个股，并对训练样本收益进行0.5%和99.5%分位数的缩尾处理，缓解极端值和异常值的影响。研究同时说明，样本选择基于全样本市值信息存在轻微前瞻偏差，但这一偏差不会单独驱动核心结论——美中市场的预测方向不对称性，而基于时序局部信息的样本构建，将是未来的重要拓展方向。

方法

研究的预测框架分为两大核心阶段：有向二分图构建（特征筛选）和机器学习预测分析，整体围绕美中市场的时序特征，挖掘跨市场的个股预测关联，确保预测信息的先验性和有效性。

有向二分图的构建

二分图的核心是将美中两个市场分别作为源节点集和目标节点集，个股为具体节点，有向边代表源市场个股对目标市场个股的预测关联，边的存在通过滚动窗口的统计检验确定。研究将图定义为 G=(V, E)，节点集 V 划分为两个不相交子集，所有边的两端分属不同子集，邻接矩阵元素代表边的权重，即预测关联强度。

在长度为 w 的滚动训练窗口内，提取源市场个股 X_j 和目标市场个股 Y_i 的收益时间序列，引入滞后参数 l 捕捉非重叠交易的时序特征，确保源市场收益先于目标市场收益观测。对每一对（X_j, Y_i）进行一元线性回归，以目标市场个股收益为被解释变量，源市场个股收益为解释变量，计算回归系数的t统计量，作为预测关联的衡量指标。

研究设置t统计量阈值 τ=2，当∣tβ∣>τ时，认为两者存在显著预测关联，在二分图中构建从 X_j 到 Y_i 的有向边，将 X_j 的收益作为 Y_i 的预测因子。这种成对一元筛选是高维预测中计算可行的稀疏化手段，虽存在多重检验可能引入虚假边的问题，但研究核心是构建提升样本外预测表现的预测图，而非对单个边进行统计推断，因此通过后续样本外预测和稳健性分析验证其有效性。

基于有向二分图与机器学习的中美股市跨市场收益预测

二分图的结构特征分析显示：跨市场预测关联并非局限于同行业，跨行业传递是重要形式；行业层面存在系统性依赖，如中国金融服务业与美国公用事业板块关联较强；美中市场的跨市场预测连通性随时间不断增强，且美国对中国的预测节点数显著高于反向。

基于机器学习的预测分析

基于有向二分图筛选的预测因子，研究构建机器学习模型预测目标市场个股的OPCL市场超额收益，核心模型形式为：rYi(t)=Fi(rX1(t−l),rX2(t−l),...,rXn(t−l);θ)+ϵi(t)，其中 F_i 为机器学习模型，θ 为模型参数，n 为筛选出的源市场预测个股数量。

根据美中市场的交易时序，合理设置滞后参数 l ：以美国为源、中国为目标时，l=1，使用美国前一交易日pvCLCL收益预测中国当日OPCL收益；以中国为源、美国为目标时，l=0，使用中国当日pvCLCL收益预测美国当日OPCL收益，确保预测信息在目标市场交易前完全可观测，避免前瞻偏差。

研究选取十种涵盖不同类型的机器学习模型，全面评估跨市场预测收益是否依赖模型类型，包括：线性模型（OLS、LASSO、岭回归）、核基模型（SVM）、树基模型（XGBoost、LGBM、随机森林、AdaBoost）、集成模型（结果平均、结果中位数）。所有模型均在滚动训练窗口内估计，并进行严格的样本外验证，保证结果的可靠性。

实验

研究通过滚动窗口估计开展大量实证实验，所有结果均为样本外验证结果，核心围绕评估指标、实验设置、主要结果和稳健性分析展开，验证跨市场个股收益的可预测性和有向二分图框架的有效性。

评估指标与实验设置

研究选用盈亏（PnL）和年化夏普比率（SR）作为预测表现评估指标，明确指出指标均为交易成本前数据，未考虑流动性优化、市场冲击、卖空限制等交易摩擦，仅作为衡量预测能力的指标，而非可落地策略的绩效。PnL计算结合预测收益方向、实际收益和流动性约束的资金配置规则，美国市场单只个股最大配置10万美元，中国市场为150万元人民币；年化夏普比率通过日度PnL的均值与标准差的比值乘以基于有向二分图与机器学习的中美股市跨市场收益预测计算，反映风险调整后的预测表现。

实验采用250天滚动训练窗口，每10天更新一次二分图和预测模型，预测区间为2016-2021年。为分离跨市场信息和图基建模的独立贡献，设置两类基准模型：一是非图基单市场基准，以目标个股自身前25日收益为预测因子；二是图基单市场基准，将源市场和目标市场设为同一市场，基于二分图筛选同市场内的预测因子。同时，为检验信号强度与预测表现的关系，构建六个嵌套分位数投资组合，按个股预测收益绝对值从高到低分为全部股票（qr1）、前80%（qr2）至前10%（qr6），组合构建仅基于当日预测值，避免前瞻偏差。

核心实证结果

实证结果的核心结论是美中跨市场收益预测存在显著的方向不对称性，且跨市场信息与图基特征选择的结合能显著提升预测表现，具体表现为三点：

1. 美国对中国的预测表现显著优于反向。以美国pvCLCL收益预测中国OPCL收益时，岭回归、LGBM及两种集成模型表现突出，除SVM外，其余模型在多数分位数下的夏普比率均超过1，部分接近2，集成模型凭借模型多样化优势表现稳健；累积盈亏曲线呈持续上升趋势，证明其经济层面的显著盈利性。而以中国市场收益预测美国市场时，所有模型在各分位数下的夏普比率均显著偏低，预测价值有限。同时，美国pvCLCL收益的预测表现优于OPCL收益，凸显隔夜信息传递对中国市场的重要性。

2. 图基建模本身具有显著的预测价值。图基单市场基准的夏普比率显著高于非图基单市场基准，说明基于有向二分图的特征筛选机制，能有效识别市场内的个股预测关联，提升单市场收益预测表现，验证了图方法在特征选择中的有效性。

3. 跨市场信息与图基建模的结合存在协同效应。图基跨市场预测（美国预测中国）的表现最优，显著优于图基单市场基准和非图基单市场基准，证明美国市场的跨市场信息能为中国个股收益预测提供显著的增量价值，二者结合是提升预测表现的关键。

基于有向二分图与机器学习的中美股市跨市场收益预测

稳健性分析

为验证预测结果的可靠性，研究以美国pvCLCL收益预测中国OPCL收益为核心场景，围绕二分图结构和时序对齐开展两项敏感性分析，计算各分位数下十种模型的中位数夏普比率作为评估指标，结果均证实了框架的有效性：

1. 特征替换检验：保持目标节点入度不变，随机替换二分图中20%-100%的边，结果显示夏普比率随替换比例上升持续下降，低、中分位数下降更显著，最高分位数（qr6）略有韧性，说明预测表现高度依赖二分图捕捉的经济意义上的结构关联，而非一般性分散化效应。

基于有向二分图与机器学习的中美股市跨市场收益预测

2. 时序敏感性检验：逐步扩大滞后参数 l，使用更早的美国收益预测中国收益，结果显示夏普比率随时间间隔扩大整体下降，符合跨市场预测信息随时间衰减的假设，qr6的抗衰减性说明大幅值信号能捕捉更持久的跨市场效应；滞后4期后夏普比率轻微企稳，或与周度交易周期相关。

两项分析共同证实，基于有向二分图的跨市场预测表现，高度依赖图结构的经济准确性和跨市场信息的时效性。

研究结论与未来方向

研究通过构建有向二分图与机器学习结合的创新框架，首次系统探究了非重叠交易时段下美中市场个股层面的跨市场收益可预测性，得出三大核心结论：

1. 跨市场信息与图基特征选择的结合具有显著协同效应，相较于图基单市场方法和非图基单市场基准，该框架能显著提升收益预测的风险调整后表现，证明了跨市场信息的增量预测价值和图方法在高维特征筛选中的有效性。

2. 美中跨市场收益预测存在强烈的方向不对称性，美国市场的pvCLCL收益对中国市场的OPCL收益具有较强的预测能力，而中国市场对美国市场的反向预测能力十分有限，这一结论与现有研究中美国市场在全球价格发现中的核心引领地位相一致。

3. 隔夜信息传递和时序有效性是预测有效的关键，美国pvCLCL收益的预测表现优于OPCL收益，且预测表现随跨市场信息时间间隔的扩大而衰减，同时二分图的结构准确性对预测结果至关重要，随机破坏图结构会显著降低预测表现。

基于核心结论，作者提出了三个未来研究方向：

1. 拓展研究区域，将分析延伸至欧洲、其他亚洲市场，验证跨市场预测关联的普适性，探究美国市场的引领作用是否适用于全球其他市场，或不同区域间存在独特的跨市场依赖结构。

2. 融合图神经网络（GNN），将构建的有向二分图直接与GNN结合，挖掘跨市场间的非线性依赖关系，充分发挥图模型在刻画复杂关联中的优势，进一步提升预测模型表现。

3. 引入时序专用大语言模型，利用大语言模型在时序数据分析中的最新进展，为建模结构化的跨市场互动提供新框架，探索大语言模型在跨市场收益预测中的应用潜力。

整体而言，该研究填补了个股层面跨市场收益预测的研究空白，提出的结构化机器学习框架既保留了经济可解释性，又能有效挖掘跨市场的时序预测关联，丰富了实证资产定价和金融机器学习的相关研究，也为国际投资者的跨市场投资决策提供了重要的实证参考。

基于有向二分图与机器学习的中美股市跨市场收益预测

▌关于我们

我们致力于人工智能、量化交易领域前沿研究，分享前沿论文、模型代码、策略实现。如有相关需求，请私信与我们联系。

▌商务合作

请加微信“LingDuTech163”，或公众号后台私信“联系方式”。

关注【灵度智能】公众号，获取更多AI资讯。

基于有向二分图与机器学习的中美股市跨市场收益预测

证监会:加强资本市场法治建设,为促进理性投资、价值投资、长期投资提供坚实保障

全世界最大的跳蚤市场居然在巴黎?!

从源头到出厂——江安县市场监督管理局对肉制品相关企业开展“穿透式”检查

GEO获客成本大幅上升?真相是:你一开始就没认真做

重拳出击!高新区市场监管部门联合公安部门亮剑网络餐饮食品安全

【赋能】“跨境出海 AI获客”业务实操培训活动成功举办

企业注销登记“一件事”,让市场新陈代谢更顺畅!

一汽能源实现西藏市场开拓新突破

特别报道 | 新春将近,纺织服装专业市场休市启市时间一览表

“优嗅”!金旗新材料,加速拓展海内外市场!

加载中...

发表评论

热门搜索

发表评论