谷歌AI内存黑科技引爆抛售潮存储芯片股“草木皆兵”后的真相反转

3月26日，A股与美股存储赛道遭遇“黑色星期二”。恒烁股份、兆易创新、佰维存储等龙头跌幅均超5%，美股盘前闪迪、美光、西部数据亦挫4%—6%。触发点并非库存或业绩，而是一篇尚未正式发表的谷歌论文——TurboQuant。

简单说，它是一套针对大模型推理的“键值缓存”（KV Cache）极致压缩方案，可把上下文内存占用压到原来的1/6，并在H100 GPU上跑出最高8倍吞吐。谷歌用PolarQuant与QJL两项数学 trick，在3-bit量化下宣称“零精度损失”。

资本担忧：如果单卡能顶八卡用，云厂商对DRAM、HBM的采购是否会断崖？这一“以软代硬”叙事，与年初DeepSeek带来的训练成本地震形成共振，恐慌盘蜂拥而出。

摩根士丹利连夜指出：TurboQuant只压缩推理阶段的临时缓存，不占HBM容量的模型权重丝毫未动；所谓“6倍”是单卡吞吐提升，而非总需求消失。Lynx Equity更质疑8倍性能对比的是32位老基线，现实主流早已4-bit量化，提升幅度被夸大。

目前论文只在Gemma、Mistral等开源模型上测试，Gemini尚未官宣上线；国内月之暗面KimiLinear、DeepSeek V2的MLA也做过类似缓存瘦身。换言之，思路并不新鲜，谷歌只是把“长上下文优化”再往前推了一步。

服务器DRAM今年预计增39%，HBM增58%。历史告诉我们，蒸汽机省煤却引爆煤炭总需求，AI推理成本骤降，反而可能把应用边界推向边缘设备与中小企业，最终拉动更大存储需求。压缩算法不会消灭硬件，而是搬掉成本门槛，让“AI民主化”水到渠成。

一篇预印本就能让千亿市值蒸发，凸显AI基建投资逻辑的脆弱。待4月ICLR 2026正式讨论后，市场或将发现：真正决定存储周期的，仍是产能、库存与真实终端需求，而非一纸实验室数据。

EBC平台官网 - 正规金融交易平台｜安全稳定官网入口