谷歌全新TurboQuant压缩算法:降低AI内存占用,且不损失模型性能

智能计算 时间:2026-03-26来源:

核心提要:谷歌 TurboQuant 人工智能压缩算法可将大语言模型的内存占用降低 6 倍,在提升模型运行效率的同时,不会像其他压缩方法那样导致输出质量下降。

1774492249387947.png

(图片来源:谷歌)

即便你对生成式人工智能模型的底层运作原理了解不多,想必也知道这类模型需要占用海量内存 —— 这也是如今哪怕买一根普通的内存条,价格也高得离谱的原因。谷歌研究院近期推出了一款名为 TurboQuant 的压缩算法,既能缩减大语言模型的内存占用,又能提升运行速度,同时还能保证模型的推理精度。

TurboQuant 的优化核心是大语言模型的键值缓存,谷歌将这一缓存比作一份数字速查手册,专门存储关键信息,避免模型对同类信息重复计算。这份 “手册” 对大语言模型而言不可或缺,因为这类模型本身并不具备真正的 “认知能力”,其看似能理解各类信息的表现,实则是通过向量实现的 —— 这些向量会对分词后的文本进行语义映射,当两个向量相似度较高时,就代表它们对应的概念存在关联。

高维向量可包含数百甚至数千个嵌入维度,能够描述图像像素、大型数据集等复杂信息,但同时也会占用大量内存,让键值缓存的体积大幅膨胀,进而成为模型性能的瓶颈。为了让模型更轻量化、运行更高效,开发者通常会采用量化技术,以更低的精度运行模型,但其弊端也十分明显:模型的输出效果会变差,分词预测的准确性会下降。而谷歌的早期测试结果显示,TurboQuant 在部分测试中实现了8 倍的性能提升和 6 倍的内存占用缩减,且全程无任何精度损失。

极坐标变换与误差修正:TurboQuant 的两步压缩法

为 AI 模型部署 TurboQuant 算法分为两个核心步骤。为实现高质量的压缩效果,谷歌研发了一套名为 PolarQuant 的极坐标量化系统。传统 AI 模型的向量均采用标准的直角坐标系(XYZ)编码,而 PolarQuant 会将笛卡尔坐标系中的向量转换为极坐标形式,在圆形坐标系中,原本的高维向量会被简化为两个核心信息:半径(代表核心数据的强度)和方向(代表数据的语义内涵)。

PolarQuant 就像一座高效的压缩桥梁,将直角坐标系的输入数据转换为简洁的极坐标 “简写形式”,再进行存储和运算。

谷歌用一个生动的现实场景类比这一转换过程:如果把向量坐标比作行进方向,传统的直角坐标编码描述可能是 “向东走 3 个街区,再向北走 4 个街区”,而用极坐标描述则简单直接 ——“沿 37 度方向走 5 个街区”。这种编码方式不仅占用的存储空间更少,还能让系统省去繁琐且耗时的数据归一化步骤。

PolarQuant 承担了算法大部分的压缩工作,而第二步则是对压缩过程中产生的细微误差进行修正。尽管 PolarQuant 的压缩效果显著,但仍会产生少量残余误差,谷歌为此提出了量化约翰逊 - 林德斯特劳斯(QJL) 技术来消除这一问题。该技术会为模型添加一个 1 比特的误差校正层,将每个向量简化为单个比特值(+1 或 - 1),同时完整保留描述向量间关联的核心数据,最终让模型输出更精准的注意力分数—— 这一分数是神经网络判断数据重要性的核心依据。若想了解该算法的更多技术细节,可下载相关预印论文。

1774492281424024.png

(配图:TurboQuant 量化性能基准测试图 图片来源:谷歌)

该图展示了在不同比特精度下,TurboQuant 算法在键值缓存中计算注意力对数几率时的性能提升幅度,所有数据均以高度优化的 JAX 基准模型为参照。

实测表现:6 倍内存缩减,8 倍速度提升,无精度损失

这套复杂的算法设计实际效果如何?谷歌表示,团队已基于 Gemma 和 Mistral 两款开源大语言模型,在多款长上下文基准测试中对该压缩算法进行了验证。测试结果显示,TurboQuant 在所有测试中均实现了完美的下游任务表现,同时将键值缓存的内存占用降低了 6 倍。该算法可在无需额外训练的前提下,将缓存量化至仅 3 比特,这意味着它能直接部署在现有各类模型上。此外,在英伟达 H100 加速器上,采用 4 比特 TurboQuant 算法计算注意力分数的速度,较 32 比特未量化的键值计算快了 8 倍。

一旦落地应用,TurboQuant 不仅能降低 AI 模型的运行成本、减少内存消耗,企业还能利用算法释放出的内存资源,运行更复杂的大模型。未来大概率会是两种应用场景并存,而移动人工智能领域将成为该算法的最大受益方 —— 受智能手机硬件性能的限制,TurboQuant 这类压缩技术能让移动端 AI 在无需将数据上传至云端的情况下,大幅提升本地推理的输出质量。

关键词: 谷歌 TurboQuant 压缩算法 AI内存占用 模型性能

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版