梁文峰的率道而行:那些玩营销、搞噱头、玩资本者,热闹是他们的,但未来不是!
梁文锋这哥们,身上有股子广东人特有的“闷声发大财”的狠劲。
他不是那种在乌镇饭局上觥筹交错、称兄道弟的互联网大佬,也不是那种在PPT上给你画“星辰大海”的梦想家。
你甚至很难在互联网上找到他几句豪言壮语。但就是这个人,用不到三年的时间,把整个AI世界搅得天翻地覆。
2026年4月24日,当DeepSeek-V4的预览版悄悄挂在公众号上时,港股市场直接炸了。
智谱、MiniMax的股价跟跳水运动员似的,直线往下掉。
资本市场是什么地方?那是全世界最聪明、最冷血、嗅觉最灵敏的一群狼待的地方。它们闻到了血腥味——来自梁文锋磨了三年的那把刀。
要说梁文锋的故事,得从他骨子里那套“算法思维”讲起。
1985年,他出生在广东湛江吴川的一个村子里。那地方我去过,属于典型的粤西农村,没什么工业,也没什么矿产,最大的资源可能就是海边那点咸水。
这么个穷地方出来的孩子,按理说格局也就那样了,但梁文锋不一样,他从小就对两样东西上瘾:数字和代码。
这种感觉很奇妙,就好像他天生就带着一种降维打击的基因。
2003年,他考上了浙江大学,读的是信息与电子工程。
在浙大的那几年,他干了一件很有意思的事——2008年,全球金融危机,华尔街哀鸿遍野,大部分人吓得屁滚尿流。
什么叫量化交易?说人话就是用数学模型代替人脑去炒股。人看到K线图会慌,机器不会;人追涨杀跌会情绪化,机器不会。
2015年,他跟同学徐进搞了个公司,叫幻方量化。这名字听着挺玄乎,干的事更玄乎——他们把AI用到了买股票上。
2021年,砸10个亿买了上万张英伟达A100显卡,搞了个“萤火二号”训练平台。
2023年,规模直接干到千亿,成了量化私募界的“四大天王”之一。
能做到这个份上,说明梁文锋对两件事有极其深刻的理解——第一是算力,第二是算法。
而他后来干的事,恰恰证明了这一点:他搞量化赚的钱,本质上是在给中国的AI革命“输血”。
2023年,就在所有人都以为梁文锋要安安静静做个千亿私募大佬、每天喝喝茶打打高尔夫的时候,他突然调转枪口,宣布进军通用人工智能,搞了个公司叫DeepSeek。
你想啊,2023年的AI赛道是什么光景?OpenAI的ChatGPT已经火遍全球,谷歌、微软、Meta这些巨无霸正拿着几亿美元往里砸。
国内的智谱、MiniMax、Kimi已经跑出了模型,拿到了大厂的融资。你一个搞金融的,半路出家来搞大模型,这不是找死吗?
2024年5月,DeepSeek-V2发布,用了混合专家模型架构。
说人话就是,它不搞“大锅饭”,而是让一堆小模型各管一摊,哪个问题来了,就让最擅长这个问题的“专家”去回答。
结果就是,性能跟上了第一梯队,成本却只有别人的零头。
同年12月,V3出来了,训练成本只花了558万美元。558万美元!你知道同行搞一个差不多的模型要花多少钱吗?
Meta的Llama 3据说花了几个亿。这就好比别人造火箭要烧几吨燃料,梁文锋搞了个小摩托就给蹬上去了。
2025年1月,DeepSeek-R1发布。这玩意儿不得了,它是全球第一个登上《自然》杂志封面的主流大模型。
更关键的是,梁文锋把这个模型的代码、权重、训练日志,全部公开了,而且是MIT许可证,随便用,甚至可以做商业产品。
你想啊,美国人花了多少钱、堆了多少算力、搞了多少封禁,好不容易建立起来的AI壁垒,结果梁文锋一个广东农村出来的程序员,拿着把菜刀就给劈开了。
而且他还告诉全世界,这把刀怎么打的、用的什么钢、火候怎么控制,统统写在说明书里。
Hugging Face社区在R1发布一周内,衍生出了550多个版本,下载量几百万次。
到了2026年4月,V4一出,更是直接把底裤都扒光了。
V4有两个版本:Pro版1.6万亿参数,Flash版2840亿参数。但真正吓人的不是参数,是梁文锋对成本的控制。
百万token上下文,Pro版单次推理延迟才20毫秒,Flash版10毫秒。推理成本比闭源API降低了90%。
90%!这意味着什么?意味着以前你调用一次高级AI要花一块钱,现在只要一毛钱。
以前只有财大气粗的大公司能用得起这种级别的AI,现在一个大学生写论文、一个小微企业做客服,都能用。
梁文锋在强行把AI从“奢侈消费品”变成“水电煤”。
但你如果以为梁文锋只是个搞技术的狂人,那就太小看他了。
这哥们的狠,体现在他不仅能把技术做出来,还能把生态给搭起来。
V4发布的时候,外界疯传DeepSeek要抛弃英伟达,全面切换到华为昇腾芯片。
实际情况没那么激进,但他确实干了一件更牛逼的事——让V4同时跑通了英伟达GPU和华为昇腾NPU。
这是什么意思呢?就是以后不管美国怎么卡脖子,不管英伟达的芯片卖不卖给中国,DeepSeek的模型都能在国产芯片上跑。
而且他不只是在华为的芯片上跑,寒武纪、海光这些国产芯片,他也都做了适配。
寒武纪甚至在V4发布的当天,就宣布完成了“Day 0适配”,代码直接开源。
这就像修路,梁文锋不仅在修高速公路,还在给不同品牌的汽车做适配,让你不管开什么车,都能在这条路上跑。
这就是他常说的“修路人”角色——不做最耀眼的主播,而是做那个给主播搭台子、铺光纤的人。
虎嗅那篇文章说得很到位:在几家头部大模型公司里,DeepSeek是最不像创业公司的那一个。
甚至当智谱、MiniMax都已经上市、市值冲破3000亿的时候,DeepSeek还在那吭哧吭哧地搞什么注意力压缩、推理优化。
这种做法的好处是,它在底层把问题解决了,地基打得特别牢。坏处是,太慢了,而且容易被市场误解。
梁文锋搞量化赚了不少钱,但大模型是个无底洞。V4的训练需要海量算力,光靠幻方那点家底,撑不了多久。
而且2025年底到2026年初,至少有5个核心研发人员跑路了,为什么?因为别的公司给的期权更值钱,给的现金更多。
梁文锋再理想主义,也不能让兄弟们饿着肚子跟他搞革命。
所以2026年4月,DeepSeek启动了首轮外部融资,估值200亿美元,腾讯、阿里联合领投。
这个动作很有意思。梁文锋以前是出了名的不拿外部钱,觉得拿了钱就得听别人的,节奏就乱了。
这说明什么?说明他也在变。从纯粹的“理想主义”,变成了“务实主义”。
不是说理想不重要了,而是要实现理想,得先活下来,得先把兄弟们稳住。
老梁的团队特别年轻,平均年龄才28岁,150来号人,全是国内顶尖名校出来的,很多都是刚毕业的愣头青。
这些人为什么愿意跟着他干?因为他那套管理哲学太野了——公司只有三层:梁文锋、小组长、一线员工。
没有固定部门,没有固定团队,没有年度计划。想搞项目,随时拉人开干,失败了不追责。
有个离职员工叫Benjamin Liu,他说过一句话:“就算是我这样的实习生,也被赋予过重要职责,跟正式员工一样。”
你想想,一个刚毕业的毛头小子,如果去大厂,可能头两年都在拧螺丝、写文档。
但在DeepSeek,直接上手干核心项目。这种“被信任”和“被重视”的感觉,是多少钱都换不来的。
梁文锋把这叫“信用自治”——用数字中台取代人力监管,每个人用的算力资源、每次调用的记录,全员可见。
滥用的人会被系统标记,失去权限。干得好的人,权力越来越大。
这其实就是他搞量化那套逻辑的翻版——用算法代替人情,用数据代替感觉,用效率代替关系。
他不是那种热血沸腾的革命者,也不是那种老谋深算的资本家。他更像一个工程师,一个解题的人。
在他的世界观里,世界上所有的难题,本质上都是“算法效率”的问题。算力不够就堆算力,算法不好就优化算法,成本太高就搞工程创新。
所以他搞量化,是把炒股这件事变成了一个算法优化问题;
他搞大模型,是把AI训练这件事变成了一个算力效率问题;
他搞开源,是把技术垄断这件事变成了一个普惠化问题。
这种人,你看他的外表,可能觉得他很闷,甚至有点无聊。
但如果你能钻进他的脑子里,你会发现那里面运转着一个极其高效的算法——每一步都在计算投入产出比,每一步都在想怎么用最小的代价,实现最大的效果。
当别人在忙着融资、刷榜、搞发布会的时候,他在优化注意力架构。
当别人在搞商业化、搞To B、搞上市的时候,他在搞KV Cache压缩。
当别人在争论开源好还是闭源好的时候,他已经把代码扔出去了。
他不去争谁是“中国OpenAI”,不去争谁是“AI四小龙”,他甚至不在乎DeepSeek能不能赚大钱。
他在乎的是,单位智能的成本还能不能更低?国产芯片的上限还能不能再高一点?中国AI产业的底座,能不能不再依赖英伟达?
这些问题,每一个都很难,每一个都很慢,每一个都不性感。
但恰恰是这些问题,决定了中国AI产业五年后、十年后能不能真正站起来。
就像他自己说的那句话:“我们创新缺少的不是资本,而是信心,以及组织高密度人才的能力。”
这种自信,不是来自他的千亿身家,不是来自《自然》杂志的封面报道,不是来自胡润富豪榜上的排名。
当一个人真正相信一件事,而且有能力、有资源、有耐心去推动这件事的时候,他是很难被打败的。
梁文锋的DeepSeek,正在做的就是这样一件事——把AI从“神坛”上拉下来,从“奢侈品”变成“日用品”,从“少数人的特权”变成“所有人的工具”。
这个国家,需要更多像梁文锋这样,能沉下心来、不被噪音干扰、踏踏实实“修路”的人。
因为只有路修好了,车才能跑得快;只有地基打牢了,楼才能盖得高。
至于那些只会搞营销、搞噱头、搞资本游戏的,热闹是他们的,但未来不是。
作者:我是洛羽杉,我将长期在【阅文时光】写作,关注【阅文时光】,我们在文字里相遇。