链接已复制!

通用权重子空间:100倍人工智能压缩已实现

一篇具有突破性的 2025 年论文揭示,神经网络存在于一个共享的“子空间”中,从而实现了 100 倍的压缩。这是人工智能模型的 MP3 时刻。

🌐
机器翻译

本文由英文原文自动翻译而成。 阅读英文原文

神经网路权重压缩成单一发光几何平面的抽象可视化

核心要点

  • 这一发现:研究人员证明,面向不同任务的神经网络权重会收敛到一个共享的低维“通用子空间”。
  • 核心指标:只需存储一个基础模型和针对特定任务的小型标量系数,即可实现最高 100 倍内存压缩
  • 潜在影响:手机、笔记本电脑等边缘设备未来或许能同时运行数百个“专家”模型,而内存不会爆炸式增长。
  • 科学意义:它把 LoRA、模型合并等以往的“技巧”统一到一个基于谱分解的严密数学理论之下。

智能的“MP3 时刻”

过去十年,AI 的进步遵循一条简单且暴力的法则:越大越好。从 GPT-3 的 1750 亿参数,到 2024 年的万亿参数巨兽,智能被等同于规模。这造成了一个巨大的瓶颈:要运行一个“聪明”的模型,需要数据中心;要运行一个“专用”的模型,则需要对这个巨型模型做一份微调副本,每增加一项新技能,存储成本就要翻倍。

但 2025 年 12 月,马里兰大学与约翰斯·霍普金斯大学的研究人员发布的一篇新论文打破了这一假设。论文题为 “通用权重子空间假设”(The Universal Weight Subspace Hypothesis),它提出并数学证明了:整个行业一直在存储大量“死空间”。

论文证明,当你在 500 个不同任务上训练神经网络时,权重并不会在高维空间中随机散落,而是坍缩到一个共享的几何平面:通用权重子空间(Universal Weight Subspace)

这是人工智能的 MP3 时刻。正如 MP3 算法发现人耳听不到大多数音频频率并将其丢弃一样,这一假设也证明神经网络并未使用其高维参数空间的大部分。通过剔除噪音,500 个专家模型的“智能”可以被压缩到仅一个模型的体积内,实现 100 倍 的压缩效率。

背景:“参数爆炸”危机

要理解这为何重要,必须先看 2025 年底行业遭遇的“内存墙”。

微调的陷阱

假设你是苹果或谷歌。你有一个基础模型(如 Llama-3 或 Mistral)。你想打造一个编程专家代理、一个医疗咨询专家、一个创意写作专家,以及一个法律分析专家。

传统上有两种选择:

  1. 全量微调:复制整个 70GB 模型并重新训练法律版。再复制一份训练医疗版。如果需要 100 个代理,就需要 7000GB 显存来部署。这对边缘设备来说不可能。
  2. LoRA(低秩适配):冻结主模型,只训练微小的“适配器”层。这是 2021 年发现的一种省空间技巧,但一直被视为近似方法或“有损”捷径。

行业一直在拼命尝试用 TIES、RegMean 等技术合并模型,造出无所不能的“弗兰肯斯坦”模型,但性能总会下降——权重之间会相互冲突。

“通用子空间”解决方案

Kaushik、Chaudhari 等人提出了一个根本性问题:如果所有这些任务的最优权重其实都位于同一个地方呢?

如果这是真的,就不需要存储 500 个不同的矩阵。只需存储该区域的“地图”(子空间)以及每个任务的一组“GPS 坐标”(标量)。

理解其物理机制:它是如何工作的

到这里,论文开始变得极其技术化。研究人员分析了超过 1100 个模型,包括 500 个不同变体的 Mistral-7B 和 500 个视觉 Transformer。他们不只关注输出,而是研究了权重矩阵的几何结构

谱分解

研究团队使用了一种叫做谱分解(具体为主成分分析,PCA)的技术,分析这些模型的权重差异。

想象你有 500 支箭头,都略微指向“北方”的不同方向。在三维空间里看,它们似乎各不相同。但如果分析数据,你可能会发现它们全部完美地落在一张倾斜 30 度的二维纸片上。这张“纸片”就是子空间

研究人员发现,对于任何给定架构(如 Transformer),权重都会收敛到一个由权重协方差导出的特定低秩子空间。

S~=Top-k Eigenspace of 1T(WtWavg)(WtWavg)T\tilde{S} = \text{Top-k Eigenspace of } \frac{1}{T} \sum (W_t - W_{avg})(W_t - W_{avg})^T

“内在维度”

论文通过矩阵 Bernstein 不等式(一种复杂的统计工具)证明,这些任务的“内在维度”极低。虽然一个模型可能拥有数十亿参数,但“数学模型”与“编程模型”之间的差异,只需用该空间的一个极小比例就能描述。

他们发现:

  1. 通用性:该子空间在不同数据集之间共享。一个训练于医学图像的模型和一个训练于卫星图像的模型,具有相同的权重机制。
  2. 收敛性:检查的模型越多,子空间越清晰。收敛速度为 O(1/T)O(1/\sqrt{T})

杀手级指标:100 倍压缩

这些数学结论带来的实际效果令人震惊。

在实验中,研究团队成功用一个通用子空间表示 500 个不同的视觉 Transformer

  • 传统方法:存储 500 套权重。成本:巨大。
  • 通用子空间方法:存储 1 个子空间 + 500 套标量系数。
  • 结果内存减少 100 倍。

更令人印象深刻的是,准确率并未下降。在 8 个多样化任务上,与最先进的模型合并技术相比:

  • RegMean:60.9% 准确率
  • TIES Merging:63.7% 准确率
  • 通用子空间83.5% 准确率

他们不仅节省了空间,还保留了通常在压缩或合并模型时会丢失的智能。

行业影响:“群体智能”时代

这一发现从根本上改变了 2026/2027 年边缘 AI 的路线图。

1. 手机上的“超级智能体”

目前,你的 iPhone 运行的是一个经过量化的小型通用模型。它什么都懂一点,但什么都不精通。

借助 UWSH(通用权重子空间假设),手机可以存储一个冻结的“基础大脑”和数千组“技能坐标”:

  • 打开 Xcode?NPU 立即加载“编程坐标”。
  • 打开 WebMD?NPU 切换到“医疗坐标”。
  • 打开 Photoshop?它切换到“视觉坐标”。

总内存成本?微乎其微。你实际上在本地运行了一个专家混合模型,却没有 Mixture-of-Experts(MoE)架构的内存开销。

2. 为 LoRA 正名

多年来,研究人员把 LoRA 看作启发式方法或幸运的工程技巧。这篇论文为 PEFT(参数高效微调)为何有效提供了理论基础。它证明 LoRA 不只是“够好”,而是在化学意义上描绘出了神经网络真实几何结构的轨迹。

3. 可持续 AI

单独训练 500 个模型是环境灾难。如果一个子空间可以被训练好,然后只需为新任务找到“坐标”(计算成本极低),那么创建专用 AI 的碳足迹将下降数个数量级。

挑战与局限

这是万能灵药吗?并不完全是。作者指出,该理论仍在以下关键约束条件下接受检验。

  1. “数学”壁垒:论文指出,虽然子空间适用于大多数语义任务,但在需要离散、刚性逻辑的领域——特别是数学——面临挑战。“创意写作”与“Python 编程”的子空间重叠得很好,但“数论”可能完全位于另一个几何平面上。
  2. 分布外(OOD)泛化:虽然泛化能力很强,但对于基础模型从未见过的真正陌生数据类型,其表现尚不清楚。
  3. 训练动态:目前,这个子空间是在训练多个模型之后找到的。“圣杯”是在训练之前就找到它,从而从第一步起就在子空间内进行显式训练(这与“PretrainZero”概念所暗示的方向一致)。

未来展望

“通用权重子空间”表明,智能不是一团随机的数字云,而是一个结构化的几何对象。

短期(2026)

预计 Apple 和 Google 会在移动操作系统中实现“子空间切换”。不再推送一个 3GB 的模型更新,而是推送一个 10MB 的“子空间补丁”,其中包含 50 项新功能的坐标。

长期(2027+)

行业可能会逐渐告别传统意义上的“训练”模型。未来的 AI 开发可能更像导航:先构建一个庞大而完美的“宇宙”(基础模型),而“学习”一项新任务,就只是找到该任务在通用子空间中的坐标。

对你意味着什么

如果你是 AI 工程师:

  • 停止合并模型:传统的模型合并方法(TIES、DARE)在数学上更差。开始关注子空间投影技术。
  • LoRA 才是王道:加倍投入 LoRA 和基于适配器的架构。它们现在已被科学验证为正确路径。

如果你是投资者:

  • 关注边缘 AI 硬件:那些专注于快速内存交换和矩阵投影芯片(如微型 NPU)的公司将胜出。这打破了“边缘 AI 需要 100GB 内存”的论断。实际上,边缘 AI 需要的只是聪明的几何。

“越大越好”的时代正在终结。“越小越智能”的时代已经开启。

资料来源

Advertisement

🦋 Discussion on Bluesky

Discuss on Bluesky

Searching for posts...