02/05 因子:市场的DNA


02/05 因子:市场的DNA

这个系列写给对量化投资好奇但被术语劝退的人。第一篇拆了量化系统的骨架,第二篇聊聊量化的灵魂—策略的规律到底怎么找之理论派与数据派。

第一篇我们说过,量化系统的第一模块叫 Alpha 模型,回答”买什么”。但 Alpha 模型里面装的是什么?

因子

什么叫因子?一个会反复出现的统计特征,跟未来收益率有相关性。比如:过去三个月涨得猛的股票,接下来是继续涨还是回调?市盈率低的那些,长期看是不是比市盈率高的更赚钱?

量化不做预测,它只找特征。每一个这类问题,就是一个因子。


找因子有两条路。

第一条是理论驱动。你先有一个经济学直觉——”便宜的东西终归要涨”,或者”跌多了会反弹”——然后拿着这个直觉去数据里验证。先有故事,再找证据。趋势跟踪、均值回归、价值、质量,这些都是经典理论型因子,被验证过无数次。

第二条是数据驱动。你不知道什么管用。把几十万条数据扔进算法,让它自己告诉你:什么规律,历史上反复出现过?

理论驱动像侦探办案,手里有线索,去现场找痕迹。数据驱动像勘探队进原始森林,不预设矿脉在哪,走一步测一步。

后一条路听起来更科学,但有个致命陷阱。算法从海量数据里筛出来的规律,有多少是真规律,多少是巧合?


1989年大奖章基金遭遇大幅回撤,西蒙斯确立了改写量化基金发展的核心思路:不必主观预判市场的合理走势,市场的真实形态早已沉淀在交易数据之中。

在劳佛等人主导下,文艺复兴彻底转向纯统计研究路径:放下行业研报、财经新闻与宏观经济逻辑推演,全部研究聚焦于从成交价、成交量原始数据里,挖掘具备统计显著性的重复规律。

后来更精彩。两位语音识别研究员加入,发现金融价格序列跟语音信号有惊人相似——都是一大串噪声里藏着少量可识别模式。他们把贝尔实验室训练语音识别的隐马尔可夫模型,原封不动搬过来扫金融数据。

这不是经济学,这是信号处理。


内部的争论没断过。科学家们绞尽脑汁想给一个赚钱策略写经济学解释。1989年,大奖章基金因策略分歧,创始人之一埃克斯退出团队;此后亨利·劳佛定下改写基金命运的投资准则:不必纠结规律背后的成因,不必弄懂鸟儿的飞行原理,只要造出能正常升空的飞机就够了。

这句话后来成了现代量化投资最著名的方法论宣言。


两派之争到今天也没结束。

理论派说:你不理解规律背后的因果,它就是个幽灵,市场环境一变就散。数据派回一句:你理解的那些因果,多半是事后编的故事。市场从来不是你想象的那个样子。理论派是白盒子,数据派是黑盒子。

谁对?不重要。重要的是,两派都承认同一个底线:不管用什么方法找到因子,必须用你没见过的数据再验一遍。不听故事,只问证据。

这正好是下篇要聊的核心——回测这件事,为什么人人都在做,但几乎人人都在自欺欺人。

(第二篇完,本系列共五篇)