闪存市场解读:KV Cache、超高IOPS、QLC全面爆发,AI正在重新定义存储
🗄️ CFMS | MemoryS 2026 存储行业盛会全记录:KV Cache、超高IOPS、QLC全面爆发,AI正在重新定义存储
2026年3月27日,深圳前海。 一年一度的CFMS | MemoryS存储行业峰会落下帷幕。铠侠、三星、SanDisk、Solidigm、英特尔、阿里云、长江存储、慧荣科技……几乎所有闪存产业链上的主角悉数登台。
这场盛会传递的核心信息只有一个:AI推理正在把存储行业逼到前所未有的设计边界,旧的架构正在崩塌,新的秩序正在建立。
📋 大会议程:演讲主题速览
本届CFMS | MemoryS 2026于2026年3月27日在深圳前海W万豪酒店举办,逾30场演讲覆盖闪存架构、AI推理存储、移动端应用、边缘AI等核心议题。各位演讲嘉宾的主题关键词如下:
上午场——行业定调 三星电子张实完聚焦AI系统架构演进与未来存储技术路线,长江存储谭弘阐述以存力突破AI时代算力瓶颈的企业级方案,铠侠福田浩一主张高性能与大容量双引擎驱动AI智存时代,闪迪Eric Spanneut探讨闪存创新赋能全域应用,阿里云李彬分享千问大模型的发展与演进趋势,高通万卫星聚焦智能体AI与端侧个人AI未来,慧荣科技苟嘉章提出重塑存储定位、构筑AI时代核心引擎,恩得倪锦峰强调夯实存储根基以拥抱AI时代。
下午场——技术与产业落地 英特尔高宇分享端云协同AI PC OpenClaw的部署实践,江波龙蔡华波探讨集成存储与端侧AI,群联电子潘健成提出闪存从价到值的转变逻辑,联芸科技方小玲聚焦推理时代存储主控芯片的价值重塑,宜鼎国际吴志清探讨边缘AI规模化落地,平头哥半导体周冠锋发布镇岳510 AI存储方案,腾讯云曾敬翔分享云原生场景弹性内存方案,小鹏汽车段志飞探讨面向具身智能终端的端侧AI存储演进,忆恒创源张泰乐聚焦高性能NVMe SSD迎接AI时代,大普微杨亚飞分析AI竞逐下的存储跃迁,楷登电子陈会馨从IP视角剖析AI数据中心算力芯片解决方案,FADU康雷发布面向AI数据中心的新一代SSD。
🌐 宏观背景:AI时代的存储趋势,Solidigm给出了一张清醒的账单
"存储行业最大的变量,不是NAND颗粒的良率,而是AI推理的上下文规模。"
Solidigm的演讲用四组数据把整个行业的处境说透了:
服务器支出年复合增长率 33%,2024年AI服务器支出已超越通用服务器。相较于HCI和VDI服务器,AI服务器的存储数据量增加 3倍。AI加速了整个基础设施采购的节奏,而存储往往是最后被重视、却最先成为瓶颈的那个环节。
Blackwell推理性能提升 30倍,推理工作负载增长 35%,但GPU存在 46%的低利用率,根源在于数据加载和检查点瓶颈。算力在等存储——这句话已经不是隐喻,而是可量化的性能损耗。
全球 50% 的关键IT电力由AI驱动,40% 数据中心电力用于散热,机房空置率已降至个位数,计算机架利用率仍然偏低。能耗和空间的双重天花板正在倒逼数据中心运营商重新评估每瓦特的存储密度价值。
近期QLC需求增长迅猛,2026年将面临 250EB 的HDD供应挑战,预计到2026年 60% 的数据将存储在QLC上,目前很大部分近线存储仍是HDD。这是QLC替代HDD的最后一个窗口期,错过就是留给对手的市场。
🧠 KV Cache:AI推理最深的隐痛
"你需要一条更大的船。"
——Solidigm用《大白鲨》里的台词点出了KV Cache问题的本质。
KV Cache(键值缓存)是LLM推理过程中存储注意力机制中间计算结果的关键数据结构。每一次推理都要读写它,随着上下文窗口越来越长、并发用户越来越多,KV Cache的规模呈指数级膨胀。这不是未来的问题,是现在进行时。
Solidigm在现场给出了一组极具冲击力的对比数据:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
约 45 PB |
45PB的KV Cache需求,今天没有任何一套HBM或DRAM系统能独立承载。72块GPU、20.7TB HBM4,对着10万并发用户只是杯水车薪。
KV Cache问题的本质是上下文经济学。推理服务商想支持更长的对话历史、更多并发用户,就必须找到比HBM便宜10倍以上的存储介质承载"温数据"。
这正是SSD在AI推理链路中从辅助角色跃升为核心角色的历史时机——不是技术进步推动,而是成本压力倒逼。
🏗️ 存储分层架构:业界正式确立四级体系
本届大会上,多家厂商不约而同展示了以KV Cache为核心逻辑构建的存储分层架构,最清晰的版本来自铠侠的演讲,结合NVIDIA Dynamo分布式KV Cache Manager的架构,整个体系如下:
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
铠侠在此次大会上明确提出G3.5层的概念,这不是一个过渡层,而是一个全新的市场。它需要的不是通用企业SSD,而是专门为KV Cache读写模式优化的高耐久、大容量、低延迟NVMe介质,通过高速以太网和Smart NIC与生产LLM集群互联。
NVIDIA Dynamo架构中的分布式KV Cache Manager已经将整套卸载逻辑标准化:GPU(Hot KV)→ RAM(Warm KV)→ NVMe(Cold KV),配合预取机制实现三级联动,最终目标是让推理系统在不感知存储层级差异的前提下,自动调度最合适的介质存放对应温度的数据。
KV Cache Offload架构的标准化意味着:未来企业级SSD的选型维度将发生根本性变化,不再只看顺序读写带宽,而是小块随机IOPS、延迟抖动(P99延迟尤为关键)以及混合读写耐久度。这三个维度的权重重排,将直接影响未来两年的企业SSD产品格局。
🔴 铠侠重磅发布:双线出击,GP系列与CM9 CMX版齐上阵
铠侠本届大会亮出了两张最重的牌,分属两个完全不同的技术路线,但目标一致:拿下AI推理存储的核心市场。
🚀 铠侠GP系列——为NVIDIA Storage-Next™而生的超高IOPS SSD
铠侠GP系列基于自研XL-FLASH™技术,专为NVIDIA Storage-Next™框架开发,定位超高IOPS场景。XL-FLASH的核心优势在于从闪存颗粒级别重新设计了低队列深度小块随机读取路径,而非在标准NAND上叠加软件优化——这是两种本质不同的技术路径。
当前阶段:超高IOPS仿真器 可达 100+ MIOPS,支持GPU配置I/O(NVIDIA SCADA™),用于GP系列性能仿真(延迟直方图设置与IOPS设定),帮助下游系统提前集成验证。
2026年:GP系列正式产品 512B随机读取IOPS达 10M(即一千万IOPS),功耗低于 25W,基于第二代XL-FLASH™,采用PCIe 6.0接口,评估样品2026年底交付。
2027年展望 512B随机读取IOPS冲向 约100M(即一亿IOPS),基于第三代XL-FLASH™,接口升级至PCIe 7.0。
一年时间从10M跳到100M IOPS,是XL-FLASH在小块随机IO场景的架构原生优势。值得注意的是,PCIe 7.0的时间节点与铠侠2027年GP产品的推出高度吻合,接口带宽的翻倍是支撑100M IOPS实际落地的必要条件。
🛡️ 铠侠CM9 CMX版——KV Cache卸载的企业级专属介质
铠侠CM9系列推出了专为Context Memory Storage设计的CMX版本,已于2026年3月16日(PT时间)正式发布。
-
容量:25.6TB,E3.S规格 -
耐久度:混合耐久 3 DWPD(每天可全盘写入3次) -
接口:PCIe 5.0(最高128GT/s) -
协议:NVMe 2.0 及 NVMe-MI -
定位:AI工作负载 KV Cache 扩展,Context Memory Storage专属
3 DWPD是精准卡位的结果。KV Cache的写入模式介于企业读取型(约1 DWPD)和企业混合型之间,CM9 CMX版既不浪费耐久成本,又能满足长期稳定运行要求。25.6TB的单盘容量配合E3.S外形,意味着单台服务器可以部署相当规模的KV Cache卸载池,无需跨机架互联,延迟可控。
铠侠同时布局GP系列(超高IOPS、XL-FLASH)和CM9 CMX(大容量KV Cache卸载),两条技术路线基因完全不同,却指向同一个推理加速需求。
这说明AI存储市场不会被单一产品形态垄断,性能型和容量型将长期并存。存储厂商的真正考验不是能否做出一款好产品,而是能否同时管理好两条截然不同的产品逻辑。
📊 AI内存阶梯:从HBM到对象存储,每一层都有存在的价值
会场流传最广的一张参考图,是一份完整的"AI Memory Ladder",从底层到顶层呈现了各存储介质的核心参数:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这张梯子图的意义在于,它为整个行业统一了一套语言。HBM负责最热的数据,DDR做缓冲,CXL扩展内存池,NVMe承接温热数据,对象存储托底冷数据。每一层的延迟和带宽边界清晰,采购决策和系统设计终于有了共同的坐标系。
值得观察的是,CXL Memory正在从实验室走向量产,其200ns的延迟填补了DDR和NVMe之间长达两个数量级的延迟鸿沟——这个层级的市场规模在2026年以后会快速放大。
💾 Solidigm D5-P5800:122TB单盘,用密度重新定义近线存储
"1U机架,4PB数据。" 这不是概念设计,是Solidigm在深圳台上拿着实物说出的数字。
Solidigm D5-P5800是面向AI大规模存储需求的高密度QLC SSD,其在现场的出现本身就是一个信号:近线存储的密度竞争已经进入新阶段。
-
单盘容量:122TB -
读取性能:7000 MB/秒(持续读取) -
支持外形:U.2 及 E1.L -
耐久性:5年无限(Solidigm官方承诺) -
1U机架部署密度:可容纳 4PB 数据,空间效率为同等容量HDD部署方案的约 1/9
250EB HDD面临供应挑战、数据中心空间越来越贵——122TB单盘QLC SSD给出了一个暴力解题思路:用密度换空间,用可靠性换运维成本。4PB每1U的密度,对于AI训练数据集中存储、向量数据库持久化、RAG语料库冷热分层等场景,是颠覆性的改变。
从TCO(总拥有成本)角度计算,高密度SSD替代HDD阵列的空间成本优势,在数据中心租金持续攀升的背景下将越来越显著。
🔍 铠侠AiSAQ™:把向量搜索从DRAM的笼子里解放出来
RAG(检索增强生成)正在成为企业AI落地的标配,但DRAM容量的天花板正在勒死它的规模上限。
铠侠AiSAQ™(AI Storage-based Approximate nearest neighbor Query)是一套基于SSD的ANNS(近似最近邻搜索)方案,核心逻辑是将向量数据库的索引和检索负载从DRAM卸载至NVMe SSD,消除DRAM对RAG可扩展性的硬限制。
传统ANNS方案(如HNSW)依赖DRAM存储图索引,当向量数量达到百亿级时,DRAM成本不可接受。AiSAQ通过全存储ANNS搜索加GPU加速索引构建,实现在SSD上完成搜索,仅在GPU上执行计算密集型排序,重新分配了计算与存储之间的职责边界。
-
索引构建时间:CPU需要28.4天,4块H100 GPU仅需 1.4天,提速 20.4倍(对比双路Intel Xeon Gold 6548Y+ CPU) -
端到端数据摄取时间加速 7.8倍(含上传、导入、聚类、索引构建和加载全流程,端到端由31天压缩至约4天) -
当前基准测试规模:已完成 48亿条 数据集,目标正在向 100亿条 挺进
48亿到100亿,背后是铠侠在向量数据库市场的真实野心。大模型的知识库规模正在以季度为单位扩张,能支撑100亿量级向量检索的存储方案,将成为企业AI基础设施的刚性需求,而不是可选项。
AiSAQ™的技术价值不仅是"SSD代替DRAM"这么简单,而是重新设计了向量搜索的计算-存储协同架构,让SSD参与到推理链路的最前端。
如果这个方案能在百亿量级上稳定交付,铠侠将在RAG基础设施市场获得一个目前没有对手坐在上面的席位。
📱 SanDisk Mobile QLC:端侧AI存储的多元化布局
SanDisk在本届CFMS聚焦移动端QLC这个相对低调却市场规模庞大的方向,核心产品是面向中高端安卓手机市场的iNAND EU721(UFS 4.1规格)。
-
采用SmartSLC™缓存延长QLC耐久性,同时提升用户体验响应速度 -
约2W功耗下实现高吞吐,UFS 4.1节能运行 -
在系统级存储基准测试中,相比EU711展现出可量化的性能提升 -
搭载Longsys(江波龙)Gear5 5nm控制器 -
覆盖范围:从旗舰到低端全市场段
这里有一个值得深挖的细节:SanDisk在中国市场选择了与江波龙深度合作,由江波龙提供5nm主控,SanDisk提供颗粒和品牌,共同覆盖从旗舰到低端的手机存储市场。
这是在供应链约束下的现实选择,也是中国存储产业链自主化进程的真实写照——本土主控厂商正在从低端补缺走向中高端产品的核心位置。
移动端QLC的普及路径和数据中心QLC逻辑完全不同,它不靠IOPS说话,靠的是功耗控制、耐久管理和成本结构。
SanDisk加江波龙的组合,是以最低摩擦系数完成QLC从中高端到全覆盖渗透的路径选择。到2026年底,手机里装QLC大概率会成为常态而非例外,SmartSLC缓存方案是让用户感知不到差异的关键技术润滑剂。
🌩️ 场外震荡:谷歌TurboQuant论文引发存储芯片股恐慌,华尔街称市场误读
"一篇尚未正式发表的论文,让全球主要内存巨头在一天内蒸发超900亿美元市值。"
就在CFMS | MemoryS 2026召开前夕的2026年3月26日,一场意外的资本市场风暴席卷全球存储芯片板块。导火索是谷歌研究院即将在ICLR 2026(国际学习表征会议)正式亮相的论文——TurboQuant。
技术原理:KV Cache的极限压缩
谷歌团队通过两项核心创新技术实现了这一压缩成果:
PolarQuant(极坐标量化) 利用注意力键值向量在极坐标系中的分布特性,以更低比特数编码相同语义信息,在数学上找到了比标准量化更紧凑的表达方式。
QJL(量化JL变换) 基于约翰逊-林登斯特劳斯(Johnson-Lindenstrauss)随机投影理论,在量化过程中保持向量之间的距离关系不变形,确保压缩后的KV Cache在注意力计算中仍能产生高质量的输出。
两项技术叠加,谷歌声称在"零损失"前提下,将KV Cache压缩至 3-bit精度,内存占用缩小至少 6倍。在英伟达H100 GPU上,4-bit TurboQuant的注意力计算速度比32-bit未量化版本快 8倍。Cloudflare首席执行官将这一突破称为谷歌的"DeepSeek时刻",认为其有望大幅拉低AI运行成本。
二级市场随即剧烈反应,大规模卖盘涌入全球内存及HBM相关个股。
华尔街的冷静:这是误读,不是颠覆
面对科技圈的狂热与市场的恐慌性抛售,华尔街投行展现出明显不同的判断。
摩根士丹利在最新研报中明确指出:市场存在系统性误读。TurboQuant仅作用于推理阶段的键值缓存,不影响模型权重所占用的HBM,也与AI训练任务无关。
分析师强调,所谓"6倍压缩"并非存储总需求的减少,而是通过效率提升增加单GPU的吞吐量——这两件事的方向截然相反。
Lynx Equity Strategies分析师KC Rajkumar更直接指出了技术对比基准的水分:当前推理模型早已广泛采用4-bit量化,谷歌的"8倍性能提升"是建立在与老旧32位模型对比的基础之上,实际相对于业界现有4-bit基准的提升幅度远没有数字看起来那么惊人。
富国银行分析师Andrew Rocha的判断角度更具建设性:压缩算法的存在从未从根本上改变硬件采购的整体规模,通过大幅降低单次查询的服务成本,这类技术能让原本只能在昂贵云端集群上运行的模型迁移至本地,有效降低AI规模化部署的门槛,反而会激发更大规模的需求释放。
摩根士丹利援引经济学中经典的**"杰文斯悖论"**来解释这个逻辑:技术效率提升虽降低单位成本,但往往因使用门槛下降而带动整体需求扩张,历史上每一次存储效率革命最终都以需求爆发而非需求萎缩收尾。
从供应链视角看,2026年服务器DRAM需求预计增长 39%,HBM需求年增 58%。即便TurboQuant能在量产模型中稳定落地,其优化效果大概率会被行业整体增长浪潮淹没——更大的模型、更长的上下文、更多的并发用户,会把压缩节省出来的内存空间立即填满,甚至填不够。
关键问题悬而未决
截至目前,谷歌尚未公布TurboQuant在Gemini等自研模型中的具体部署时间表。关于该技术的进一步讨论将在2026年4月的ICLR会议上继续发酵。而在这之前,这篇论文已经完成了它最戏剧性的工作——让整个资本市场用一天的时间,把对AI存储前景的分歧彻底暴露出来。
TurboQuant事件的真正意义不在于技术本身,而在于它揭示了资本市场对AI存储逻辑的理解仍然非常浅薄:一看到"压缩"就联想到"需求减少",却完全忽略了在推理规模持续扩张的背景下,效率提升与需求增长之间的正反馈关系。这种误读本身就是投资机会的来源。下一次类似论文出现,市场的反应将是观察多空双方理解深度的最好试金石。
🔑 深层洞察:这场峰会真正在说什么
表面上是产品发布会,本质上是存储行业的战略重新定位大会。
过去十年,企业SSD的核心叙事是"更快、更省电、替代HDD"。但从这届CFMS | MemoryS 2026开始,整个行业的价值坐标发生了根本性位移:
第一,KV Cache卸载成为企业SSD最重要的新应用场景。 不是RAG,不是检查点,是KV Cache。因为它的读写频率最高、延迟敏感度最强、规模增长最快。谁能提供满足3 DWPD混合耐久度、低延迟、大容量的NVMe产品,谁就能吃下AI推理数据中心的核心增量。
第二,超高IOPS是另一条平行赛道,不能混为一谈。 GP系列要做的10M甚至100M IOPS,针对的是512B小块随机读取场景,这和CM9 CMX的顺序大块KV Cache读写完全不同。两条路同时跑,说明AI推理的存储需求已经分化出了至少两个截然不同的子市场,产品策略的颗粒度要对应地细化。
第三,QLC时代已经不是"if"的问题,而是"how fast"的问题。 2026年60%数据将在QLC上,这不是激进预测,而是HDD供应受限、数据中心空间饱和、AI存储密度要求极高的多重压力下,唯一合理的演进路径。
第四,中国存储产业链正在从跟随走向分赛道领跑。 长江存储的企业级SSD、江波龙与SanDisk的主控合作、慧荣科技的主控芯片价值重塑……本土厂商不再只做低端替代,开始在AI存储的技术前沿争夺定义权。这个趋势在本届大会上第一次如此集中地呈现出来。
第五,效率提升不等于需求萎缩。 TurboQuant事件已经用市值蒸发的方式提了一次醒:每当一项压缩技术或效率算法出现,都会触发市场对存储需求的悲观判断。但历史一次次证明,杰文斯悖论在存储行业的适用性极强——效率越高,门槛越低,用得越多,需求反而越大。
存储行业正在经历一次"AI-native"的架构迁移,这次迁移的技术方向已经清晰:KV Cache分层卸载、超高IOPS小块随机、QLC大容量近线。方向清晰不代表竞争格局已定——恰恰相反,每一个分层、每一种接口、每一个应用场景都是新的战场。接下来两到三年,存储行业的竞争烈度将超过过去十年的总和,而今天坐在深圳前海这场大会里的人,大多数已经清醒地意识到了这一点。
本文信息来源于CFMS | MemoryS 2026现场资料、公开发布信息及环球网财经报道,数据截至2026年3月。




评论