一纸预印本震动全球:存储芯片板块集体跳水

3月26日,A股与美股存储赛道遭遇“黑色星期二”。恒烁股份、兆易创新、佰维存储等龙头跌幅均超5%,美股盘前闪迪、美光、西部数据亦挫4%—6%。触发点并非库存或业绩,而是一篇尚未正式发表的谷歌论文——TurboQuant

TurboQuant是什么?

简单说,它是一套针对大模型推理的“键值缓存”(KV Cache)极致压缩方案,可把上下文内存占用压到原来的1/6,并在H100 GPU上跑出最高8倍吞吐。谷歌用PolarQuant与QJL两项数学 trick,在3-bit量化下宣称“零精度损失”。

市场为何瞬间“膝跳”?

资本担忧:如果单卡能顶八卡用,云厂商对DRAM、HBM的采购是否会断崖?这一“以软代硬”叙事,与年初DeepSeek带来的训练成本地震形成共振,恐慌盘蜂拥而出。

投行冷静派:误读了

摩根士丹利连夜指出:TurboQuant只压缩推理阶段的临时缓存,不占HBM容量的模型权重丝毫未动;所谓“6倍”是单卡吞吐提升,而非总需求消失。Lynx Equity更质疑8倍性能对比的是32位老基线,现实主流早已4-bit量化,提升幅度被夸大。

技术普及度仍待验证

目前论文只在Gemma、Mistral等开源模型上测试,Gemini尚未官宣上线;国内月之暗面KimiLinear、DeepSeek V2的MLA也做过类似缓存瘦身。换言之,思路并不新鲜,谷歌只是把“长上下文优化”再往前推了一步。

杰文斯悖论:效率越高,用量越大?

服务器DRAM今年预计增39%,HBM增58%。历史告诉我们,蒸汽机省煤却引爆煤炭总需求,AI推理成本骤降,反而可能把应用边界推向边缘设备与中小企业,最终拉动更大存储需求。压缩算法不会消灭硬件,而是搬掉成本门槛,让“AI民主化”水到渠成。

结语:恐慌之后,价值回归

一篇预印本就能让千亿市值蒸发,凸显AI基建投资逻辑的脆弱。待4月ICLR 2026正式讨论后,市场或将发现:真正决定存储周期的,仍是产能、库存与真实终端需求,而非一纸实验室数据。