Kronos:用 GPT 的方式读懂金融市场,清华开源了什么?

一个交易员盯着屏幕上密密麻麻的 K 线图，试图从红绿交错的柱状序列中捕捉下一个方向。他用经验、用指标、用直觉——但本质上，他在做的事情和语言翻译没太大区别：把视觉模式翻译成概率判断。

清华大学的一群研究者决定让 AI 来做这件事。不是教它看图，而是教它读图——像读一门语言一样读 K 线。他们把这个项目叫 Kronos。

2025 年 11 月，Kronos 被 AAAI 2026 正式接收。截至目前，GitHub Star 数突破 21,700+，是金融类开源项目中增速最快的仓库之一。一个学术模型凭什么能在工程社区引起如此大的反响？这背后的技术逻辑，值得认真拆解。

一、K 线是一种「语言」，而 Kronos 是它的 GPT

Kronos 的核心洞察非常直觉：K 线序列有语法、有语义、有上下文依赖——它就是一门语言。

传统时序预测模型把金融数据当作连续浮点数来处理，忽略了一个重要事实：K 线图中 OHLCV（开盘价、最高价、最低价、收盘价、成交量）这五个维度之间存在结构性关系。一根长上影线配放量，和一根长上影线配缩量，传递的信号完全不同。这种多维度的组合语义，正是通用时序模型难以捕捉的。

Kronos 的解法是：先用一个专用金融分词器把连续数据离散化，再用自回归 Transformer 学习这些离散 Token 之间的依赖关系。

这个分词器基于 BSQ（Binary Spherical Quantization）技术，将高维连续的 OHLCV 数据压缩成分层的离散 Token。你可以把它理解为：把价格动态信息和交易活动模式编码成一套”金融词汇表”，让模型能像 GPT 预测下一个词一样，预测下一根 K 线的 Token 序列。

这一步的工程意义在于：它同时保留了价格走势和成交量语义，而不是像传统方法那样把它们当作独立变量处理。

二、120 亿条数据，45 个交易所——规模本身就是护城河

预训练数据的规模和多样性，是 Kronos 能被 AAAI 接收的关键因素之一。

团队从全球45个交易所采集了120 亿条 K 线记录，覆盖上交所、纳斯达克、东京交易所、加密货币市场、外汇市场以及港股、韩股、印度、印尼等市场。这是目前已知规模最大的金融时序预训练数据集。

在模型规模上，Kronos 提供四个版本：mini（4.1M 参数）、small（24.7M）、base（102.3M）和 large（499.2M，未开源）。mini 版可以在笔记本电脑上运行，这对个人研究者和小团队来说是一个重要的实用优势。

三、论文数据：「93% 提升」到底意味着什么？

论文在 5 个核心任务上进行了系统评测，其中最引人注目的数据是：价格序列预测的 RankIC 指标比领先的通用时序基础模型提升 93%，比最佳非预训练基线提升 87%。

但这里需要一个重要的澄清：RankIC 提升不等于胜率提升。

RankIC（Rank Information Coefficient）衡量的是模型预测排名与实际排名之间的相关性。简单来说，它评估的是”模型认为明天涨得最多的股票，实际是否确实涨得最多”，而不是”模型预测明天涨，明天就一定涨”。93% 的提升意味着 Kronos 在相对排序上的预测能力远超其他模型，但这与”40% 还不如抛硬币”的胜率争议并不矛盾——两者衡量的是不同维度的预测质量。

其他任务同样亮眼：波动率预测的 MAE 降低 9%，R² 提升至 0.262；合成 K 线的保真度提升 22%；在中国 A 股市场的只做多策略回测中实现了最高的年化超额收益。

不过，学术 benchmark 和实盘交易之间有一道巨大的鸿沟。回测中的”最高年化超额收益”是在特定时间窗口、特定调仓频率、忽略交易成本和滑点的理想条件下得出的。任何有实盘经验的人都知道，回测漂亮和实盘赚钱之间，隔着一个”市场适应”的问题。

四、与通用时序模型的根本区别：垂直化 vs 通用化

Kronos 的竞品包括 TimesFM（Google）、Chronos（Amazon）、MOIRAI（Salesforce）等通用时序基础模型。这些模型的训练数据涵盖天气、能源、交通等多个领域，金融数据在其中的占比通常不到 1%。

Kronos 的核心竞争力在于：100% 金融语料 + 专为 OHLCV 设计的分词器。

这个差异不是量级上的，而是范式上的。通用时序模型试图用一套架构捕捉所有时间序列的共性模式，但金融数据的特殊性——高噪声、强时变、多市场联动、政策事件驱动——让它成为时序数据中”最不规则”的那一类。一个在天气数据上学到的模式，很难直接迁移到金融场景。

Kronos 的做法更像是 NLP 领域从 Word2Vec 到 GPT 的演进：不是试图找到一个通用的”时序词汇表”，而是为金融数据量身定制一套 Token 化方案，然后用大规模语料让模型自己学习这套语言的语法规则。

这引出了一个更深层的问题：是否所有垂直领域都需要自己的”GPT”？金融领域有足够多的结构化数据和足够强的业务需求支撑这种范式，但其他领域呢？医疗影像？工业传感器数据？Kronos 的价值不仅在于它做出了一个好的金融模型，更在于它证明了垂直化预训练这条路是走得通的。

五、开源、争议与「公地悲剧」

Kronos 采用 MIT 许可开源，提供完整的推理代码和微调脚本。这意味着任何人都可以免费使用、修改和商用。目前已有第三方项目（如花卷猫量化的 FaceCat-Kronos）基于它开发了可视化量化工具，并整合了 A 股实时数据。社区中也有用户分享了经过一个月优化后的微调策略，表示接入实盘后”有比较大的突破”。

但质疑声同样真实。有用户直言”完全不准，胜率 40% 多，还不如抛硬币”，也有人评论”AI 读 K 线跟算命似的”。一位清华背景的评论者指出，Kronos 目前的输入维度不够，在当前市场环境下有一定局限。

这引出一个有趣的悖论：量化市场的核心逻辑是，公开的 Alpha 会迅速被套利掉。当越来越多的人用 Kronos 做同方向的预测，其预测信号的有效性会衰减。基础模型越成功、采用越广泛，它的实盘价值可能就越低。

但换一个角度看，Kronos 作为研究基础设施的价值反而会因为生态扩大而增加。就像 Linux 内核一样，没有人因为 Linux 开源而失去竞争优势——关键在于你在上面构建了什么。Kronos 提供的是一个高质量的金融时序预训练基座，真正的 Alpha 来自你在它之上叠加的因子、策略和风控体系。

我认为，Kronos 最被低估的能力是合成 K 线生成。量化研究的核心瓶颈之一是历史数据不足——你只能用过去 20 年的数据回测，但好的策略需要更多样本。如果 Kronos 生成的合成 K 线在统计分布上足够真实（保真度提升 22% 是一个积极信号），它就能成为策略回测的”数据增强器”，解决小样本过拟合问题。这比”预测明天涨跌”更值得关注——它改变的是研究基础设施，而不是交易终端。

结语

Kronos 做的事情，本质上是把 NLP 领域”大规模预训练 + 特定领域微调”的方法论移植到了金融 K 线上，并且在工程层面做出了实质性创新——专用分词器、跨市场大规模预训练、多任务统一框架。能被 AAAI 2026 接收，说明学术价值是得到认可的。

但量化交易不是学术 benchmark。市场会适应任何公开的策略，而金融市场的非平稳性意味着历史规律随时可能失效。Kronos 不会告诉你”明天买什么”，它给你的是一套更高质量的起点——一个在 120 亿条 K 线上预训练过的、理解价格语言的基础模型。

对于有技术背景的量化研究者来说，这个项目值得认真研究。不一定是拿来直接赚钱，而是作为一个高质量的金融时序预训练基础，叠加上自己的因子和策略，或许会有意想不到的效果。

毕竟，K 线确实会说话。现在，AI 终于有了第一版”字典”。

项目地址

：https://github.com/shiyu-coder/Kronos

论文地址

：https://arxiv.org/abs/2508.02739

在线 Demo

：https://shiyu-coder.github.io/Kronos-demo/