预测越准,赚得越多?——储能多市场调度的反直觉真相

一家储能运营商花了 200 万从 AI 公司买了一套电价预测模型。

部署三个月后，技术团队拿出了漂亮的回测报告：MAE（平均绝对误差）降了 15%，RMSE 降了 12%，在各种评估指标上全面碾压之前用的简单模型。

但财务部月底算账时发现：收入比上个季度少了 8%。

技术团队说模型没问题。交易员说策略没变。老板问：钱去哪了？

答案不在模型里，而在模型和决策之间——”预测越准”和”赚得越多”之间，隔着一道大多数人没意识到的沟。

最近两篇论文，分别从德国/瑞士市场和德国日前市场的实证数据出发，用严格的数学框架和六年的真实交易数据，揭示了这道沟的形状。它们的结论对中国独立储能的多市场运营有直接的操作含义。

一、论文说了什么？两个研究的核心发现

论文一：ETH Zürich，Falezza（2026）

“When Forecast Accuracy Fails: Rank Correlation and Decision Quality in Multi-Market Battery Storage Optimization”

这篇论文用一个 10MW/10MWh 的储能系统，在德国和瑞士市场同时参与四个市场（FCR 调频、aFRR 自动调频、日前、连续日内），跑了 2020-2025 年六年的真实数据回测。

核心发现一：预测的”排序精度”比”数值精度”更重要

论文引入了一个叫 Kendall τ（肯德尔秩相关系数）的指标——它不看你预测的价格数值有多准，而是看你预测的价格排序有多对。比如今天有 96 个 15 分钟时段，你的模型是否正确地把”最贵的时段”排在最前面、”最便宜的时段”排在最后面？

作者通过 24000 次动态规划模拟发现了一个惊人的阈值效应：

当 τ 低于 0.85 时，预测精度的提升会显著增加收入——这是线性区，改善预测有真金白银回报。

但当 τ 超过 0.85-0.95 时，收入捕获率已经达到了完美预见（oracle）的 97-100%——继续提升预测精度几乎不产生额外经济价值。

用实际数字说：在 τ = 0.918 的 ML 模型和 τ = 0.948 的混合模型之间，每天的收入差距只有 9 欧元——对于一台日均收入 1750 欧元的储能来说，这个差距完全可以忽略。

而一个简单的”昨天价格复制今天”的持久性预测，虽然 MAE 看起来还行（在市场平稳时），但 τ 接近于零——它只捕获了 32.8% 的完美预见收入，三分之二的钱白白丢了。

这意味着什么？MAE 会骗你。一个 MAE 看起来不错的模型，如果排序搞错了，收入可能只有好模型的三分之一。反过来，一个 MAE 不太好看但排序对了的模型，收入可能已经接近理论最优。

核心发现二：容量分配比预测精度更重要

论文的第二个发现更致命：在多市场储能中，真正决定总收入的不是日内预测的质量，而是你把多少容量分配给了哪个市场。

在德国 2023-2025 年的实际数据中，FCR（一次调频）每兆瓦的边际收入是日内市场的 6.5 倍。储能系统的优化器在所有 157 个测试周都把 FCR 容量拉满到约束上限——说明 FCR 市场在当前价格水平下是绝对优先的收入来源。

剩余给日内交易的容量只有每天约 0.86 个等效循环。在这个有限的预算里，只要你的预测达到了 τ 充分性（τ > 0.85），日内收入已经接近最优——瓶颈不是预测精度，而是你有多少容量可以用来做日内交易。

核心发现三：瑞士水电的”自然实验”

论文还分析了瑞士平衡市场——一个由水电主导的系统。发现水库水位异常（高于季节均值）与平衡市场价格有显著的统计关联（p = 0.0005）：高水位周的向下调节储备（SRL-）收入是低水位周的 8 倍以上。

这个发现对理解中国水电大省（云南、四川）的储能机会有直接参考价值——我们后面会详细讨论。

论文二：Duisburg-Essen / Statkraft，Hirsch & Ziel（2026）

“Probabilistic Forecasting for Day-ahead Electricity Prices, Battery Trading Strategies and the Economic Evaluation of Predictive Accuracy”

这篇论文的第一作者在 Statkraft（欧洲最大水电公司的交易部门）工作，理论和实务兼具。它聚焦于一个更根本的问题：用储能交易利润来评价预测模型好坏，这件事本身靠谱吗？

核心发现一：流行的”分位数交易策略”可以被操纵

目前学术界和产业界流行一种叫 QBTS（Quantile-Based Trading Strategy）的策略：用概率预测的分位数来设定买卖价格的限价。比如在预测的 10% 分位数处买入、90% 分位数处卖出。

论文严格证明了：QBTS 不是一个”proper scoring rule”——它可以被系统性地”欺骗”。 具体地说，一个故意把预测区间放宽的模型（过度分散），在某些市场条件下反而能比精确预测赚更多的钱。因为更宽的区间意味着更高的成交概率——虽然每笔交易赚得少了，但成交量增大带来的额外收入可能超过单笔利润的下降。

这个结论对储能实操的含义是：如果你只看”谁的策略赚得多”来选模型，你可能选到一个预测质量差但碰巧赚了钱的模型——长期看，这种”虚假优胜”会在市场环境变化时暴露出来。

核心发现二：价格之间的联合分布比单个时段的边际分布更重要

QBTS 只看每个时段的边际分位数，完全忽略了不同时段价格之间的相关性。但储能的利润恰恰来自不同时段之间的价差——如果低谷时段和高峰时段的价格高度正相关（同涨同跌），套利空间就小；如果负相关或弱相关，套利空间就大。

论文证明了：忽略这种依赖结构会导致成交概率的系统性高估，以及风险的系统性低估。用建模了完整联合分布的方法（DLENAR-DEP）做出的决策，在 VaR 超限率上比忽略依赖结构的方法校准得好得多。

核心发现三：赚钱最多的模型，风险管控可能最差

在风险厌恶（CVaR）优化下，LEAR-BS 模型赚了最多的利润。但它的 VaR 超限率高达 23%——名义上应该是 10% 的尾部风险，实际超限了一倍多。

这意味着：如果你只看利润排名来选模型，你选中的可能是一个”赚得多但控不住风险”的模型。 它在顺风时赚得多，但在逆风时亏得也更猛——这正是SunEdison 式的”看起来很好直到崩盘”的逻辑。

二、对中国独立储能的三个操作含义

读完两篇论文，回到中国独立储能的现实。

含义一：别再迷信 MAE，开始看 Kendall τ

中国储能运营商目前评价预测模型的标准，几乎清一色是 MAE/RMSE——”误差小就是好模型”。供应商也按这个指标来卖模型。

但 Falezza 的研究明确告诉我们：MAE 和赚钱之间的关系是非线性的，甚至可能是误导性的。 一个 MAE 30 欧元/MWh 的持久性预测，在市场平稳时看起来精度不差，但因为排序完全错了（τ ≈ 0），只能拿到三分之一的理论收入。

对中国储能运营商来说，下次评估预测供应商时，多问一个问题：“你的模型在历史回测中的 Kendall τ 是多少？是否稳定在 0.85 以上？”

如果答案是肯定的——恭喜，你的预测已经”够用”了，钱应该花在别的地方。

如果答案是否定的——那不管 MAE 多漂亮，这个模型都会让你丢钱。

含义二：容量分配决策 > 预测精度

中国独立储能目前同时面对的市场越来越多：

现货电能量市场（日前+实时）
调频辅助服务市场（AGC/FCR）
容量补偿（114 号文）
日内市场（部分省份）
未来可能的省间现货市场

Falezza 的论文告诉我们，在德国市场中，FCR 容量分配是总收入的主要驱动力，日内预测质量只是二阶效应。 这个结论的中国版本是什么？

在中国，调频市场（尤其是广东的 AGC 调频）的单位 MW 收入可能远高于现货套利——但它需要预留响应容量，减少了可用于现货套利的容量预算。114 号文要求储能在顶峰时段放电以获得容量补偿——但顶峰时段恰恰可能是现货套利机会最大的时段。

每一个”参与”都是一个”放弃”。在中国的多市场结构下，你把 1MW 容量给了调频，就意味着这 1MW 不能用来做现货套利；你为了满足 114 号文的顶峰放电要求，就可能错过日内市场的高价窗口。

论文给出的操作建议是：与其花钱升级日内价格预测模型，不如先优化你的跨市场容量分配策略——在当前的中国市场条件下，1MW 容量给调频还是给现货，这个决策带来的收入差异，远大于日内预测精度提升 10% 带来的增量。

含义三：风险管控和利润不能只看一个

Hirsch & Ziel 的论文揭示了一个在中国储能圈几乎没人讨论的问题：赚钱最多的模型可能风险管控最差。

在我们的”从看均价到做决策”系列第四篇里，我们介绍了 CVaR（条件风险价值）作为将概率预测接入储能决策的桥梁。Hirsch & Ziel 的论文进一步证明了：

在风险中性（只追求期望利润最大化）下，概率预测相比点预测几乎没有额外收益——因为最优策略只取决于价格的期望排序
在风险厌恶（CVaR 约束）下，概率预测的全部联合分布才开始发挥价值——因为你需要知道”最坏情况有多坏”

对中国储能来说，如果你的运营策略是”看到价差就冲”（风险中性），那花钱买概率预测确实没太大必要。但如果你要做 REITs 退出、要向金融投资者展示稳定的现金流曲线、要控制月度亏损不超过某个阈值——那你必须用概率预测+CVaR 约束，而且必须关注预测的联合分布质量，而不只是边际精度。

这个结论直接连接了我们之前写的两个系列：“从看均价到做决策”（方法论）和”能源资产的金融翻译”（REITs估值）——储能要做 REITs，现金流的可预测性是核心；现金流的可预测性取决于风险管控的质量；风险管控的质量取决于概率预测的联合分布。这是一条完整的因果链。

三、一个来自瑞士水电的中国启示

论文的第三个发现——瑞士水电与平衡市场收入的关联——对中国有特别的参考价值。

瑞士是一个水电主导的小型电力系统，水库水位直接影响电网对向下调节灵活性的需求。当水位异常偏高时，电网需要更多的”吸收”能力来消化过剩的水电出力——这时平衡市场的向下调节价格飙升，储能的充电收入暴涨。

中国的云南和四川是极度相似的结构——水电占绝对主导，汛期出力远超需求。在云南，汛期现货均价只有 83.7 元/MWh，而论文的瑞士数据显示，高水位周的向下储备收入是低水位周的 8 倍以上。

如果中国在云南和四川建立了类似欧洲的平衡市场或灵活性服务市场，水库水位将成为储能收入的关键预测变量——而且它是可以提前 2-4 周观测到的。 这意味着储能运营商可以根据水文数据调整自己的市场参与策略：高水位周增加向下调节的投标量，低水位周减少。

这个信息在目前中国的储能调度策略中几乎完全缺失。没有人在看水库水位来做储能交易决策。但在水电大省，它可能比电价预测本身更重要。

四、一个判断

预测精度竞赛已经进入”收益递减”阶段。下一轮储能运营竞争力的分化，将发生在”跨市场容量分配策略”和”风险管控质量”上，而不是在”谁的 MAE 更低”上。

这不是说预测不重要——而是说，当预测精度达到 τ 充分性之后（这并不难达到），继续砸钱在预测上的边际回报急剧下降。同样的投入，用在以下三个方向会更值：

第一，跨市场容量分配的自动化优化——中国储能目前的多市场参与大多靠人工经验决定”给调频留多少、给现货留多少”，没有形式化的优化框架。论文里的三层分层架构（周度容量分配→日度调度→15分钟实时交易）提供了一个可落地的参照。

第二，联合分布建模——不要只预测”每个时段的价格分布”，而是预测”哪些时段的价格会一起涨、哪些会一起跌”。这对储能套利策略的风险评估至关重要，尤其是在中国新能源大量入市后，午间-晚峰的联动结构正在发生系统性变化。

第三，建立可追溯的预测-决策-结果档案——每一次预测、每一次交易决策、每一次结算结果，自动配对存档。三个月后你就能知道：你的模型在什么类型的日子里 τ 高、什么时候 τ 低，哪些市场的预测改善能真正转化为收入增量。

这三件事的共同点是：它们都不是”买一个更贵的模型”就能解决的。它们需要的是系统设计能力和运营纪律——这正是”从工具到系统”的那一步。

论文来源：

1. Falezza, A. (2026). “When Forecast Accuracy Fails: Rank Correlation and Decision Quality in Multi-Market Battery Storage Optimization.” arXiv:2604.12082. ETH Zürich.

2. Hirsch, S. & Ziel, F. (2026). “Probabilistic Forecasting for Day-ahead Electricity Prices, Battery Trading Strategies and the Economic Evaluation of Predictive Accuracy.” arXiv:2604.19580. University of Duisburg-Essen / Statkraft Trading GmbH.

延伸阅读：

· 茉言能源《从看均价到做决策 04》——CVaR与储能风险账本

· 茉言能源《114号文来了》——容量补偿如何改变储能的收入结构

· 茉言能源《从看均价到做决策 06》——从工具到系统的最后一步

· 茉言能源《云南136号文落地》——水电主导市场中的定价逻辑

茉言能源 | 电力市场独立研究

转载请注明出处，引用数据请标注原始来源。