深度强化学习驱动的全球股票市场动态投资组合配置研究

引言：从静态优化到序贯决策

投资组合管理的核心问题，本质上是一个在不确定环境中做序贯决策（sequential decision-making）的问题。从 Markowitz 1952 年提出的均值-方差优化（MVO）开始，金融工程领域沉淀了大量的组合构建框架。然而，无论是 MVO，还是后来的 Black-Litterman、风险平价、或者基于机器学习预测收益的”预测+优化”两阶段方法，本质上都有一个共同的特征：把”预测”和”决策”拆分开来。先估计期望收益与协方差矩阵，再求解一个静态的优化问题。

这种范式存在两个长期被诟病的问题。其一，估计误差敏感性。即便是经典文献也表明（如 DeMiguel et al. 2009），简单的等权重策略在样本外往往可以击败精心优化过的 MVO 组合，原因正是参数估计噪声被优化器放大。其二，缺乏对动态环境的适应性。市场状态在结构性破裂、危机、不同宏观周期中切换，单一的静态参数估计很难跨制度（regime）稳健。

强化学习（Reinforcement Learning, RL）提供了另一种思路：把预测和决策融合到同一个目标函数下。智能体（agent）在与市场环境的交互中，直接学习一个从市场状态到投资组合权重的映射策略，目标是最大化长期累积的风险调整后收益。它不显式预测未来收益，而是把”预测”内化为价值函数（value function）与策略（policy）的隐式表达。

本文要系统讨论的是一个基于 Soft Actor-Critic（SAC）的深度强化学习框架，覆盖 Nasdaq-100、Nikkei 225、Euro Stoxx 50 三大全球股票指数，用walk-forward方式回测约 17 年的样本外表现，并比较了五种结构不同的 RL 配置以及四个经典基准。

一、问题的 MDP 表述

强化学习的标准形式是马尔可夫决策过程（MDP），由五元组描述。在投资组合的语境下：

：状态空间，对应于当前可观测的市场信息（价格、波动、动量、技术指标、宏观特征等）；
：动作空间，对应于资产权重向量；
：环境转移，即给定当前状态与动作后，下一时点市场状态的条件分布；
：奖励函数，反映组合在期的表现；
：折现因子，控制对未来奖励的重视程度。

策略是从状态到动作的（条件）分布。智能体从时刻起的累积回报为：

学习目标是找到使期望累积回报最大化的最优策略。两个核心价值函数分别为：

图：强化学习智能体与环境的交互闭环：智能体观测状态，按策略选取动作，环境反馈奖励并转移到新状态。

需要强调的是，金融市场严格意义上并不满足马尔可夫性。当前价格并不”概括”全部历史信息——波动聚集、长记忆效应、宏观周期都意味着状态需要更丰富的表达。实际操作中，研究者通常通过把最近的若干历史观测窗口纳入状态，来近似满足马尔可夫性。这也是 LSTM、Transformer 这类时序编码器在 RL 框架中被广泛使用的原因。

二、数据与可交易宇宙的构建

研究覆盖三个具有代表性的指数：美国的 Nasdaq-100、日本的 Nikkei 225、欧洲的 Euro Stoxx 50，样本期为 2003-01-02 至 2026-03-13，日频。

图：三个指数成分股的标准化价格路径（红线为对应的可交易 ETF 基准），可以直观看出各市场的历史走势特征差异。

这里有一个非常重要的细节：幸存者偏差（survivorship bias）的处理。如果直接拿”当前在册的成分股”回到 2003 年回测，结果会被严重高估——退市、被剔除的股票被系统性地忽略掉了。研究者通过 Bloomberg 终端获取了完整的指数成分历史变更（加入与剔除事件），并构建了一个可交易掩码（tradability mask）：

也就是说，资产在时刻”可交易”，当且仅当它既是当时指数成分，又有有效价格数据。这一处理对回测结果的真实性至关重要。

基准 ETF 方面，QQQ 用于 Nasdaq-100，FEZ 用于 Euro Stoxx 50，EWJ 用于 Nikkei 225。这些都是流动性充足、可直接交易的工具，保证了 Buy & Hold 基准的现实可执行性。

三、状态表征：多维特征的工程

状态向量是 RL 智能体的”眼睛”。设计得过于稀疏会损失信息，过于稠密又会让网络在样本量有限的金融数据上过拟合。本框架的状态分为五类特征。

第一类是动量特征。对每个资产在时刻，计算多窗口的对数收益率：

第二类是波动率特征，使用滚动标准差：

第三类是技术指标，包括 RSI、MACD 直方图、Bollinger %B、距 20 日高点的距离、相对 20 日均线的偏离度。这些特征用于捕捉非线性的价格动力学与均值回归信号。

第四类是市场相对特征，包括对市场代理（QQQ/FEZ/EWJ）的 60 日滚动 beta，以及 20 日的绝对表现。

第五类是全局宏观特征：VIX 水平及其 5 日变化、横截面平均收益及其滚动波动、市场宽度（即正中期收益资产的比例）、市场代理的标准化收益。

此外，为了控制维度灾难，框架使用了一个非常实用的预筛选机制——top-k 动量选股。在每个时点，只保留 120 日动量最高的个资产（）进入候选集：

这一选股环节是外生于 RL 智能体的，目的有二：一是把动作空间从近百个收窄到一个可控的数量，二是把”明显的动量过滤”和”权重分配”两个子问题解耦。后续做基准比较时，这一点至关重要——我们需要分清楚到底是动量预筛选在创造收益，还是 RL 的权重分配策略在创造价值。

四、动作空间与 Dirichlet 策略

智能体的动作就是一个权重向量：

其中是现金权重。权重必须满足预算约束：

为了保证策略网络的输出天然满足”非负且求和为 1″的单纯形约束，作者采用 Dirichlet 分布参数化策略：神经网络输出 Dirichlet 分布的浓度参数，再从该分布采样得到权重。这是连续动作空间下的一种自然选择，既保留了随机性以利探索，又通过分布约束保证了组合的合法性。

更进一步，本框架对比了两种策略结构。第一种是扁平 Dirichlet，直接用一个 Dirichlet 分布对所有股票 + 现金做权重分配。第二种是层级化（hierarchical）策略：先用一个分布决定”股票 vs 现金”的总暴露，再用另一个 Dirichlet 在股票内部做横截面分配。其结构上类似：

层级结构的好处是把”宏观仓位决策”与”个股选择决策”解耦，这与人类基金经理的实际决策流程更接近，也更利于网络分别学习两类不同时间尺度的信号。

五、奖励函数：把现实摩擦写进目标

奖励函数是 RL 框架中最具”金融工程意味”的部分。如果直接用原始收益作为奖励，智能体会倾向于学到换手极高、集中度极高的极端策略——这在现实交易中根本无法实现。因此奖励函数需要嵌入三类要素：组合收益、交易摩擦、分散化约束。

记为扣除交易成本后的组合收益。为稳定训练梯度，做对数变换：

换手率定义为前后两期权重向量的距离，反映组合再平衡的强度：

集中度用 Herfindahl 指数衡量：

理论最小值对应等权重组合。最终的奖励函数（绝对收益形式）为：

另一种形式是基准相对（benchmark-relative）奖励：

奖励项的缩放系数（1000、100）是为了让三项贡献在数值上保持相近量级，避免某一项淹没梯度信号。这是 RL 训练中常见的实践技巧。

图：奖励函数的三段式分解结构：组合净收益项促使追求高收益，换手率惩罚项抑制过度交易，集中度惩罚项推动分散化。

值得一提的是，交易成本设定为每单位换手 2 个基点（bps），这一水平与 Interactive Brokers 在分层定价下机构与高频交易者实际可以获得的费率相符，因此具有一定的真实性。

六、模型架构：SAC + 时序编码器 + Dirichlet 策略

整个 RL 算法基于 Soft Actor-Critic（SAC）。SAC 是一个 off-policy 的演员-评论员算法，相比 PPO、DDPG 等方法的核心改进在于最大熵正则化：策略不仅要最大化期望回报，还要最大化策略的熵：

熵正则化项鼓励探索，对金融这种信号噪声比极低的场景尤其有用。本文将熵系数固定为 0.2，而不是常见的自适应调节——作者发现自适应在walk-forward的窗口切换中会引入训练不稳定性，固定值反而带来更可复现的结果。

SAC 网络结构包括：一个策略网络（actor，输出 Dirichlet 浓度参数）和两个独立的 Q 函数网络（twin critics，缓解 Q 值高估偏差）。目标网络通过软更新机制平滑参数：

其中。

时序编码器有两种选择。基线是 LSTM：对每个资产的历史窗口（60 天）单独编码，再通过横截面注意力机制汇总。另一种是 Transformer 编码器，用自注意力替代 RNN 的递归结构。在金融时序里，二者各有优势：LSTM 顺序处理对局部时序依赖建模更直接，Transformer 的并行注意力则更擅长捕捉长程关联。但参数量与训练时间也相差悬殊——单折训练 LSTM 需约 14 小时，Transformer 需约 23 小时。

五种模型配置的对比如下表所示，每行对应一个完整的”编码器 + 策略 + 奖励 + 约束”组合：

配置	编码器	策略	奖励	约束	top-k
LSTM_1	LSTM	扁平 Dirichlet	对数收益	含现金、灵活暴露	20/30
LSTM_2	LSTM	层级 Dirichlet	对数收益	含现金、灵活暴露	20/30
LSTM_NC_1	LSTM	扁平 Dirichlet	基准相对	全仓投资、无现金	10/20
LSTM_NC_2	LSTM	扁平 Dirichlet	基准相对	全仓投资、无现金	20
TRANSFORMERS	Transformer	扁平 Dirichlet	对数收益	含现金、灵活暴露	20/30

七、walk-forward优化与自适应再训练

金融时序的非平稳性意味着，传统的 k-fold 交叉验证根本不适用——它会泄露未来信息。研究者采用了非锚定式的walk-forward（walk-forward）框架：每一折包含 5 年训练、1 年验证、1 年测试，窗口随时间向前滚动，从 2003 年开始一路推到 2026 年，总共 16 个测试折。

图：walk-forward回测的窗口滚动结构。绿色为训练集，黄色为验证集，红色为测试集，暗红色累积条带表示完整的样本外评估期。

这种设置最大限度地模拟了真实部署环境——任何时点的决策都只能用过去的数据训练模型。但每折都从头训练既昂贵又可能引入不必要的不稳定性，因此作者设计了一个自适应再训练机制：只有当模型的近期验证表现下滑时才重新训练。具体地，记第折验证集上的夏普比为，定义阈值：

其中。若满足以下任一条件，则触发再训练：

这一机制既节约了算力，也避免在模型仍然适用时强行重训带来的扰动。

八、基准策略：合理的对照组

公允评价 RL 策略，必须有覆盖不同范式的基准组。本文使用了四个：

第一是 Buy & Hold，对应基准 ETF 的被动持有。这是最严苛的对照——它没有任何主动管理、零交易成本。学界普遍认为，能在风险调整后稳定打败被动持有，是任何主动策略的最低门槛。

第二是 Momentum Top-20，按 120 日动量每月选股 20 只并等权重持有。这一基准的目的是隔离”动量预筛选”的贡献——如果 RL 策略和这个动量基准表现相近，那说明真正在创造收益的是动量预筛选，而非 RL 学到的权重分配策略。

第三是 Equal-Weight Monthly，对 RL 用的同一个 top-k 候选池等权配置、月度再平衡。这是 DeMiguel et al. (2009) 推崇的”朴素分散”基准。

第四是 Markowitz 最小方差组合，在 5 年滚动训练窗口上估计协方差矩阵，求解长期、全仓、有上限的最小方差问题，月度再平衡。这是经典优化方法的代表。

九、绩效指标：超越夏普比的多维评估

研究采用了一个比较全面的指标体系。除了常见的年化复合收益 ARC 和年化波动率 ASD，最大回撤 MD、最大损失持续期 MLD（以年计），还有：

夏普比（SR）：

修正信息比 IR2，这是本文的主要评估指标：

IR2 的设计意图是：在同时奖励高收益、低波动的基础上，再用最大回撤进行”惩罚”。一个频繁深度回撤的策略，即使夏普比看起来还行，IR2 也会被压低。这对于实盘投资者而言更具参考价值。

扩展信息比 IR3 进一步把回撤持续时间也纳入：

十、实证结果：三个市场的差异化表现

图：从数据工程、walk-forward、模型架构到评估与集成的完整研究流程框架。

Nasdaq-100：被动策略难以战胜

在 Nasdaq-100 这个 2009 年以来持续单边上涨的市场里，被动策略表现极为亮眼。Buy & Hold 的 ARC 达 19.27%，IR2 为 0.52；Equal-Weight Monthly 也表现强劲（IR2 = 0.49）。在 RL 策略中，表现最好的是 LSTM_2（层级化、含现金），IR2 = 0.46，年化波动率（18.67%）和最大回撤（28.77%）都明显低于其他 RL 配置，体现了层级化策略和现金缓冲的下行保护能力。

图： Nasdaq-100 三种 RL 配置（含现金 LSTM、不含现金 LSTM、Transformer）的样本外权益曲线，以及与四个基准的对比。

值得注意的是 LSTM_NC_1（不含现金的 RL 配置）实现了 1666.4% 的最高累计收益，但年化波动率高达 24.20%，最大回撤 41.23%，IR2 只有 0.39。这清楚地说明了一个事实：满仓投资能放大趋势，但代价是回撤——风险调整后并不优。

总体看，Nasdaq-100 这种强趋势市场，是被动策略的”主场”，RL 难以在其中创造系统性 alpha。

Nikkei 225：分散化才是王道

日本市场的情况则完全不同。Buy & Hold（EWJ）在整个样本期里表现极差，ARC 仅 4.57%，最大损失持续期 MLD 高达 11.35 年——也就是说，从 2007 年附近的高点出发，要等十一年才能回本。这反映了日本市场长期的结构性问题。

图： Nikkei 225 三种 RL 配置的样本外权益曲线。可以明显观察到 Buy & Hold 长期跑输 Equal-Weight Monthly 与 Markowitz 最小方差组合。

在这种市场中，Markowitz 最小方差（ARC 13.17%）和 Equal-Weight Monthly（ARC 12.40%）反而表现最好。RL 中表现最好的 LSTM_1 实现 ARC 11.22%、IR2 0.15，虽然好于 Buy & Hold，但仍然没有超过这两个经典分散化基准。

Euro Stoxx 50：RL 的相对优势区

欧洲市场是 RL 表现最好的环境。所有 RL 配置在 IR2 上都超过了 Buy & Hold。其中 LSTM_2（层级化）以 IR2 = 0.146、波动率 15.97%、最大回撤 29.94% 的组合达到全场 RL 最佳水平，甚至略高于 Equal-Weight Monthly（IR2 = 0.129）。

图： Euro Stoxx 50 三种 RL 配置的样本外权益曲线。

这一现象有合理的金融直觉：欧洲市场在样本期内更接近震荡而非强趋势，结构性不确定性更高（欧债危机、英国脱欧、能源危机等），主动型动态资产配置更容易找到价值。

十一、统计显著性：被严格检验后才有意义

绩效指标的差异，未必等于统计意义上的真正优势。金融收益序列存在自相关、异方差、厚尾——直接做配对 t 检验会严重低估标准误。研究者采用了两套互补的稳健推断方法。

第一是 Newey-West HAC 估计量，对均值收益差做异方差和自相关稳健的标准误修正。

第二是平稳块自助法（stationary block bootstrap），构造夏普比和 IR2 差异的经验分布。

零假设是，备择假设是。

结果让人冷静。在所有三个市场，在所有 RL 配置上，对均值收益差、夏普比差、IR2 差的检验都未在 10% 显著性水平上拒绝原假设。也就是说，那些看起来漂亮的指标差距，可能更多是随机变异而非系统性 alpha。

研究者进一步做了截距回归：

在 HAC 标准误下检验。这是经典的”超额收益”检验。结果是：Nasdaq-100 和 Nikkei 225 上没有 RL 配置实现显著的，但在 Euro Stoxx 50 上，LSTM_1、LSTM_2 和 Transformer 都实现了在 10% 显著性水平下的正（LSTM_2 的 t 统计量达 2.26，p 值 0.012）。

这一发现具有重要含义：RL 在”易于做主动管理”的市场上确实可以捕捉到一些异常收益，但不能跨市场普适化。

十二、宏观体制分析：什么时候 RL 才有用？

研究者把样本期切成三个宏观体制：金融危机后复苏（2009-2013）、长期牛市（2014-2019）、新冠+加息周期（2020-2026），观察各策略在不同体制下的表现。

在 Nasdaq-100 上，RL 仅在 2009-2013 的复苏期能超过 Buy & Hold；进入 2014 年以后的科技股大牛市，被动策略全面占优。这印证了一个朴素的逻辑：在强趋势市场里，任何”主动择时”都是负 alpha 的，因为最优策略就是不动。

在 Nikkei 225 上，2014-2019 期间 LSTM_2 跑出全场最佳（IR2 = 0.265），明显优于所有基准。这个时期日本市场震荡较多，RL 的动态择时和分散化产生了实质性价值。

在 Euro Stoxx 50 上，RL 策略在三个体制中都稳定优于 Buy & Hold（虽然不一定优于 Markowitz）。尤其值得注意的是 2020-2026 期间，Momentum Top-20 几乎崩盘（IR2 接近 0），而 RL 的 IR2 仍维持在 0.09-0.10 区间——这说明 RL 学到的不仅仅是简单动量，而是某种适应性更强的信号组合。

总结性的规律是：RL 在不确定性高、趋势持续性弱的环境中创造更多价值；在强趋势的市场里，主动管理本身就是劣势。

十三、集成视角：跨市场组合的价值

如果把三个市场的 RL 信号通过等权方式集成成一个”总基金”组合，结果会怎样？

图：跨市场集成组合的样本外权益曲线，五种 RL 配置都被纳入比较。

集成结果是相当亮眼的。LSTM_1 集成组合实现 ARC 13.03%、波动率 14.72%、IR2 0.41，明显高于跨市场基准（IR2 0.34）。LSTM_2 集成组合的波动率（12.75%）和最大回撤（25.46%）是全场最低。

策略	ARC (%)	ASD (%)	MD (%)	IR2
跨市场基准（B&H 均值）	12.68	16.53	28.63	0.34
LSTM_1 集成	13.03	14.72	28.16	0.41
LSTM_2 集成	11.33	12.75	25.46	0.40
Transformer 集成	12.21	14.77	27.92	0.36

更重要的是，集成情境下的回归检验里，LSTM_1 和 LSTM_2 集成组合的在 10% 显著性水平上为正（p 值分别为 0.0496 和 0.0481）。这是地理分散化的真实价值——不同市场的 RL 信号去相关，组合层面降低了系统性风险，把单一市场上不显著的 alpha 在集成后放大到统计显著的水平。

十四、对量化研究的几点思考

把整个研究串起来，可以得出几个对实际量化研究有价值的观察。

第一，奖励工程比算法选择更重要。SAC 是个稳定的算法，但真正决定了策略行为模式的，是奖励函数里换手率惩罚、集中度惩罚的相对权重，是允许现金还是强制满仓，是绝对收益还是基准相对。在金融 RL 里，”模型设计”很大程度上等于”经济约束的数学化表达”。

第二，层级化策略结构有真实增量价值。LSTM_2 跨三个市场都比扁平 LSTM_1 拥有更低的波动和回撤。把”宏观仓位决策”与”个股选择决策”分离，让网络在两个不同时间尺度的子问题上分别学习，是一个值得推广的设计思路。

第三，含现金 vs 满仓的权衡，背后是收益与回撤的取舍。满仓配置追逐 beta，含现金配置追求 alpha。如果你的评估指标重视回撤控制（如 IR2、Calmar、Sortino），那含现金几乎总是更优；如果只看绝对累计收益，满仓有时候更亮眼，但稳健性差。

第四，Transformer 不是万能药。在这个任务里，Transformer 没能击败 LSTM 的风险调整后表现，而训练时间是 LSTM 的 1.6 倍以上。这与近期一些其他金融时序文献的发现一致——Transformer 强大的归纳偏置在数据量充足、长程依赖明显的场景下才能体现。日级别股票收益序列既不缺数据、也不太需要超长程依赖。

第五，跨市场集成是真实的”免费午餐”。等权集成三个去相关的市场信号，把单市场上不显著的 alpha 在投资组合层面放大到统计显著。这是一种典型的去噪 + 利用横截面信息的机制。从实操角度，构建全球多市场的 RL 配置系统，比深耕单一市场更有效率。

第六，要敬畏统计显著性。从指标层面看 LSTM_NC_1 在 Nasdaq-100 创造了 1666% 的累计收益，但在 HAC 检验下完全不显著。如果只看 P&L 不做严格的统计检验，很容易把噪声当成 alpha。

十五、局限与展望

需要诚实地指出研究的局限性。

其一，五种配置之间不是严格的 ceteris paribus 消融。比如 LSTM_NC 同时变了奖励（基准相对）和约束（满仓），无法把性能差异精确归因到某一个维度。后续工作可以做严格的逐维变量消融。

其二，交易成本固定为 2 bps，没有压力测试更高的成本水平。对换手率高的 RL 策略而言，5 bps 或 10 bps 的成本可能就让 alpha 消失。

其三，walk-forward参数（5 年训练 / 1 年验证 / 1 年测试）本身没有做敏感性分析，存在”元过拟合”的风险——也就是说，最终展示的好结果可能部分来自于参数选择本身。

其四，集成是等权固定的，没有学习一个自适应的跨市场动态权重。

未来值得探索的方向有几个：把状态空间扩展到日内高频或加密资产；把宏观特征（利差、信用利差、PMI）和情感信号（LLM 嵌入的新闻文本）纳入状态；把固定等权集成升级为学习型的元配置层；以及把这类框架嫁接到衍生品对冲、最优执行等更复杂的金融决策场景。

结语

强化学习并非金融市场的”圣杯”。它在某些市场（如 Euro Stoxx 50）和某些体制（不确定性高、趋势弱）下能创造价值，在另一些市场（强趋势的 Nasdaq-100）里则难以击败被动策略。但它提供的范式价值是真实的——把预测、决策、风险管理三个传统上独立优化的环节，融合到一个端到端的目标函数中，让我们以一种更灵活、更适应非平稳环境的方式去构建投资组合策略。

对量化研究而言，关键在于：不要把 RL 当成万能药，也不要因为它在某个市场没出 alpha 就否定整个范式。理解它适用的边界、设计合适的奖励函数与策略结构、严格地做统计推断与跨市场稳健性检验——这才是把这一工具真正变成 alpha 来源的方式。

参考文献

Kashif, K., & Ślepaczuk, R. (2026). Deep Reinforcement Learning Framework for Diversified Portfolio Management Across Global Equity Markets. arXiv preprint arXiv:2605.17307. Quantitative Finance Research Group, Faculty of Economic Sciences, University of Warsaw.