Kronos:用 GPT 的方式读懂金融市场,清华开源了什么?
一个交易员盯着屏幕上密密麻麻的 K 线图,试图从红绿交错的柱状序列中捕捉下一个方向。他用经验、用指标、用直觉——但本质上,他在做的事情和语言翻译没太大区别:把视觉模式翻译成概率判断。
清华大学的一群研究者决定让 AI 来做这件事。不是教它看图,而是教它读图——像读一门语言一样读 K 线。他们把这个项目叫 Kronos。
2025 年 11 月,Kronos 被 AAAI 2026 正式接收。截至目前,GitHub Star 数突破 21,700+,是金融类开源项目中增速最快的仓库之一。一个学术模型凭什么能在工程社区引起如此大的反响?这背后的技术逻辑,值得认真拆解。

一、K 线是一种「语言」,而 Kronos 是它的 GPT
Kronos 的核心洞察非常直觉:K 线序列有语法、有语义、有上下文依赖——它就是一门语言。
传统时序预测模型把金融数据当作连续浮点数来处理,忽略了一个重要事实:K 线图中 OHLCV(开盘价、最高价、最低价、收盘价、成交量)这五个维度之间存在结构性关系。一根长上影线配放量,和一根长上影线配缩量,传递的信号完全不同。这种多维度的组合语义,正是通用时序模型难以捕捉的。
Kronos 的解法是:先用一个专用金融分词器把连续数据离散化,再用自回归 Transformer 学习这些离散 Token 之间的依赖关系。
这个分词器基于 BSQ(Binary Spherical Quantization)技术,将高维连续的 OHLCV 数据压缩成分层的离散 Token。你可以把它理解为:把价格动态信息和交易活动模式编码成一套”金融词汇表”,让模型能像 GPT 预测下一个词一样,预测下一根 K 线的 Token 序列。
这一步的工程意义在于:它同时保留了价格走势和成交量语义,而不是像传统方法那样把它们当作独立变量处理。
二、120 亿条数据,45 个交易所——规模本身就是护城河
预训练数据的规模和多样性,是 Kronos 能被 AAAI 接收的关键因素之一。
团队从全球45个交易所采集了120 亿条 K 线记录,覆盖上交所、纳斯达克、东京交易所、加密货币市场、外汇市场以及港股、韩股、印度、印尼等市场。这是目前已知规模最大的金融时序预训练数据集。
在模型规模上,Kronos 提供四个版本:mini(4.1M 参数)、small(24.7M)、base(102.3M)和 large(499.2M,未开源)。mini 版可以在笔记本电脑上运行,这对个人研究者和小团队来说是一个重要的实用优势。
三、论文数据:「93% 提升」到底意味着什么?
论文在 5 个核心任务上进行了系统评测,其中最引人注目的数据是:价格序列预测的 RankIC 指标比领先的通用时序基础模型提升 93%,比最佳非预训练基线提升 87%。
但这里需要一个重要的澄清:RankIC 提升不等于胜率提升。
RankIC(Rank Information Coefficient)衡量的是模型预测排名与实际排名之间的相关性。简单来说,它评估的是”模型认为明天涨得最多的股票,实际是否确实涨得最多”,而不是”模型预测明天涨,明天就一定涨”。93% 的提升意味着 Kronos 在相对排序上的预测能力远超其他模型,但这与”40% 还不如抛硬币”的胜率争议并不矛盾——两者衡量的是不同维度的预测质量。
其他任务同样亮眼:波动率预测的 MAE 降低 9%,R² 提升至 0.262;合成 K 线的保真度提升 22%;在中国 A 股市场的只做多策略回测中实现了最高的年化超额收益。
不过,学术 benchmark 和实盘交易之间有一道巨大的鸿沟。回测中的”最高年化超额收益”是在特定时间窗口、特定调仓频率、忽略交易成本和滑点的理想条件下得出的。任何有实盘经验的人都知道,回测漂亮和实盘赚钱之间,隔着一个”市场适应”的问题。

四、与通用时序模型的根本区别:垂直化 vs 通用化
Kronos 的竞品包括 TimesFM(Google)、Chronos(Amazon)、MOIRAI(Salesforce)等通用时序基础模型。这些模型的训练数据涵盖天气、能源、交通等多个领域,金融数据在其中的占比通常不到 1%。
Kronos 的核心竞争力在于:100% 金融语料 + 专为 OHLCV 设计的分词器。
这个差异不是量级上的,而是范式上的。通用时序模型试图用一套架构捕捉所有时间序列的共性模式,但金融数据的特殊性——高噪声、强时变、多市场联动、政策事件驱动——让它成为时序数据中”最不规则”的那一类。一个在天气数据上学到的模式,很难直接迁移到金融场景。
Kronos 的做法更像是 NLP 领域从 Word2Vec 到 GPT 的演进:不是试图找到一个通用的”时序词汇表”,而是为金融数据量身定制一套 Token 化方案,然后用大规模语料让模型自己学习这套语言的语法规则。
这引出了一个更深层的问题:是否所有垂直领域都需要自己的”GPT”? 金融领域有足够多的结构化数据和足够强的业务需求支撑这种范式,但其他领域呢?医疗影像?工业传感器数据?Kronos 的价值不仅在于它做出了一个好的金融模型,更在于它证明了垂直化预训练这条路是走得通的。
五、开源、争议与「公地悲剧」
Kronos 采用 MIT 许可开源,提供完整的推理代码和微调脚本。这意味着任何人都可以免费使用、修改和商用。目前已有第三方项目(如花卷猫量化的 FaceCat-Kronos)基于它开发了可视化量化工具,并整合了 A 股实时数据。社区中也有用户分享了经过一个月优化后的微调策略,表示接入实盘后”有比较大的突破”。
但质疑声同样真实。有用户直言”完全不准,胜率 40% 多,还不如抛硬币”,也有人评论”AI 读 K 线跟算命似的”。一位清华背景的评论者指出,Kronos 目前的输入维度不够,在当前市场环境下有一定局限。
这引出一个有趣的悖论:量化市场的核心逻辑是,公开的 Alpha 会迅速被套利掉。 当越来越多的人用 Kronos 做同方向的预测,其预测信号的有效性会衰减。基础模型越成功、采用越广泛,它的实盘价值可能就越低。
但换一个角度看,Kronos 作为研究基础设施的价值反而会因为生态扩大而增加。就像 Linux 内核一样,没有人因为 Linux 开源而失去竞争优势——关键在于你在上面构建了什么。Kronos 提供的是一个高质量的金融时序预训练基座,真正的 Alpha 来自你在它之上叠加的因子、策略和风控体系。
我认为,Kronos 最被低估的能力是合成 K 线生成。 量化研究的核心瓶颈之一是历史数据不足——你只能用过去 20 年的数据回测,但好的策略需要更多样本。如果 Kronos 生成的合成 K 线在统计分布上足够真实(保真度提升 22% 是一个积极信号),它就能成为策略回测的”数据增强器”,解决小样本过拟合问题。这比”预测明天涨跌”更值得关注——它改变的是研究基础设施,而不是交易终端。
结语
Kronos 做的事情,本质上是把 NLP 领域”大规模预训练 + 特定领域微调”的方法论移植到了金融 K 线上,并且在工程层面做出了实质性创新——专用分词器、跨市场大规模预训练、多任务统一框架。能被 AAAI 2026 接收,说明学术价值是得到认可的。
但量化交易不是学术 benchmark。市场会适应任何公开的策略,而金融市场的非平稳性意味着历史规律随时可能失效。Kronos 不会告诉你”明天买什么”,它给你的是一套更高质量的起点——一个在 120 亿条 K 线上预训练过的、理解价格语言的基础模型。
对于有技术背景的量化研究者来说,这个项目值得认真研究。不一定是拿来直接赚钱,而是作为一个高质量的金融时序预训练基础,叠加上自己的因子和策略,或许会有意想不到的效果。
毕竟,K 线确实会说话。现在,AI 终于有了第一版”字典”。
项目地址
:https://github.com/shiyu-coder/Kronos
论文地址
:https://arxiv.org/abs/2508.02739
在线 Demo
:https://shiyu-coder.github.io/Kronos-demo/