リンクをコピーしました!

普遍的な重み部分空間:100倍のAI圧縮が実現

画期的な2025年の論文で、ニューラルネットワークが共有の「部分空間」に存在し、100倍の圧縮が可能になることが明らかになりました。これはAIモデルにとってMP3の瞬間です。

🌐
機械翻訳

この記事は英語の原文から自動翻訳されています。 英語の原文を読む

単一の光る幾何学的平面に圧縮されるニューラルネットワークの重みの抽象的な視覚化

重要なポイント

  • 発見: 研究者らは、さまざまなタスクのニューラル ネットワークの重みが、共有された低次元の「普遍部分空間」に収束することを証明しました。
  • メトリクス: これにより、1 つの基本モデルと特定のタスクの小さなスカラー係数のみを保存することで、最大 100 倍のメモリ圧縮が可能になります。
  • その意味: エッジ デバイス (電話、ラップトップ) は、メモリ使用量を爆発的に増やすことなく、数百の「エキスパート」モデルを同時に実行できるようになる可能性があります。
  • 科学: LoRA やモデル マージングなどの以前の「ハック」を、スペクトル分解に基づいた単一の厳密な数学理論に統合します。

インテリジェンスのための「MP3 モーメント」

過去 10 年間、AI の進歩は、大きいほど優れているという単純かつ強引な法則によって定義されてきました。 GPT-3 の 1,750 億パラメータから 2024 年の数兆パラメータの巨大企業に至るまで、インテリジェンスはサイズと同等視されてきました。 これにより、大きなボトルネックが生じています。 「スマート」モデルを実行するには、データセンターが必要です。 「特殊な」モデルを実行するには、その巨大なモデルのコピーを微調整する必要があり、新しいスキルが追加されるたびにストレージ コストが 2 倍になります。

しかし、メリーランド大学とジョンズ・ホプキンスの研究者らによって2025年12月に発表された新しい論文は、この仮定を打ち砕いた。 「普遍重量部分空間仮説」 と題されたこの論文は、業界がずっと「デッドスペース」を蓄えてきたことを提案し、数学的に証明しています。

この論文は、500 の異なるタスクでニューラル ネットワークをトレーニングした場合、重みが高次元空間でランダムに分散しないことを示しています。 代わりに、それらは単一の共有幾何学的平面、つまり ユニバーサル ウェイト サブスペース に折りたたまれます。

これは人工知能の MP3 の瞬間です。 MP3 アルゴリズムが、人間の耳ではほとんどの音声周波数が聞き取れないことに気づき、それらを削除したのと同じように、この仮説は、ニューラル ネットワークが高次元パラメーター空間のほとんどを使用していないことを証明します。 ノイズを破棄することで、500 のエキスパート モデルの「インテリジェンス」を、100 倍の圧縮 効率で 1 つのフットプリントに圧縮できます。

背景: 「パラメータ爆発」危機

これがなぜ重要なのかを理解するには、2025 年後半に業界を襲う「メモリの壁」を見なければなりません。

微調整の罠

あなたが Apple または Google だとしましょう。 基本モデル (Llama-3 や Mistral など) があります。 あなたは、コーディングのためのエキスパート エージェント、医療アドバイスのためのエキスパート エージェント、クリエイティブ ライティングのためのエキスパート エージェント、そして法的分析のためのエキスパート エージェントを構築したいと考えています。

従来は、次の 2 つの選択肢がありました。

  1. 完全な微調整: 70GB モデル全体をコピーし、Law 用に再トレーニングします。 次に、それを Medicine 用にもう一度コピーします。 100 のエージェントが必要な場合、それらをホストするには 7,000 GB の VRAM が必要です。 これはエッジデバイスでは不可能です。
  2. LoRA (低ランク適応): メインモデルをフリーズし、小さな「アダプター」レイヤーをトレーニングします。 これは 2021 年に発見されたスペースを節約するハッキングでしたが、近似、つまり「損失の多い」ショートカットとみなされていました。

業界は、(TIES や RegMean などの技術を使用して) モデルをマージして、何でもできる「フランケンシュタイン」モデルを作成しようと必死になってきましたが、パフォーマンスは常に低下します。 重みが互いに衝突しているだけです。

「普遍亜空間」ソリューション

カウシク、チャウダリ、他。 これらの すべて のタスクの最適な重みが実際に同じ場所にある場合はどうなりますか?

それが本当であれば、500 の異なる行列を保存する必要はありません。 その場所の「地図」(部分空間)と各タスクの GPS 座標(スカラー)のセットを保存するだけです。

物理学を理解する: 仕組み

ここで、この論文は興味深い技術的な内容になります。 研究者らは、500 のバリエーションの Mistral-7B と 500 のビジョン トランスフォーマーを含む 1,100 を超えるモデルを分析しました。 彼らは単に出力を見ただけではありませんでした。 彼らは重み行列の幾何学に注目しました。

スペクトル分解

チームは、これらのモデルの重みの違いに対して スペクトル分解 (具体的には主成分分析 (PCA)) と呼ばれる手法を使用しました。

「北」のわずかなバリエーションを指す 500 個の矢印があると想像してください。 3D 空間で見ると、それらは異なって見えるかもしれません。 しかし、データを分析すると、30 度の角度で傾けられた 2D の紙の上にすべてが完全に平らに配置されていることがわかるかもしれません。 その「紙」が亜空間です。

研究者らは、特定のアーキテクチャ (Transformer など) について、重みが重みの共分散から導出される特定の低ランクの部分空間に収束することを発見しました。

S~=Top-k Eigenspace of 1T(WtWavg)(WtWavg)T\tilde{S} = \text{Top-k Eigenspace of } \frac{1}{T} \sum (W_t - W_{avg})(W_t - W_{avg})^T

「本質的な次元」

この論文は、行列バーンスタイン不等式 (複雑な統計ツール) を介して、これらのタスクの「固有の次元」が信じられないほど低いことを証明しています。 モデルには数十億のパラメーターがあるかもしれませんが、「数学モデル」と「コーディング モデル」の「違い」は、その空間のほんの一部で説明できます。

Advertisement

彼らは次のことを発見しました。

  1. 普遍性: この部分空間は、互いに素なデータセット間で共有されます。 医療画像でトレーニングされたモデルと衛星画像でトレーニングされたモデルは、同じ重みの仕組みを共有します。
  2. 収束: 検査するモデルが増えるほど、この部分空間はより鮮明になります。 O(1/T)O(1/\sqrt{T}) のレートで収束します。

キラーメトリクス: 100 倍の圧縮

この数学の実際の結果は驚くべきものです。

実験では、チームは 500 の異なるビジョン トランスフォーマーを表すために 単一の普遍部分空間を利用することに成功しました。

  • 従来の方法: 500 セットの分銅を保管します。 費用: 膨大。
  • ユニバーサル部分空間法: 1 つの部分空間 + 500 セットのスカラー係数を保存します。
  • 結果: メモリが 100 倍削減されました。

さらに印象的なのは、精度が維持されていることです。 この方法を 8 つの多様なタスクに関する最先端のモデル結合手法と比較すると、次のようになります。

  • RegMean: 60.9% の精度
  • TIES マージ: 63.7% の精度
  • 普遍亜空間: 83.5% の精度

単にスペースを節約しただけではありません。 通常、モデルを圧縮または結合しようとすると失われるインテリジェンスが保存されています。

業界への影響: 「群知能」の時代

この発見は、2026/2027 年のエッジ AI のロードマップを根本的に変更します。

1. 携帯電話の「スーパーエージェント」

現在、iPhone では、一般的なモデルの小規模な量子化バージョンが実行されています。 すべてにおいて大丈夫ですが、何もできません。 UWSH (Universal Weight Subspace Hypothesis) を使用すると、携帯電話に 1 つの凍結された「基本脳」と数千の「スキル座標」を保存できます。

  • Xcode を開きますか? NPU は「コーディング座標」を即座にロードします。
  • WebMD を開きますか? NPU は「医療座標」に切り替わります。
  • Photoshop を開きますか? 「ビジョン座標」に切り替わります。

メモリの総コストは? 無視できるほどです。 専門家混合 (MoE) アーキテクチャの RAM コストを負担せずに、専門家混合モデルを効率的にローカルで実行できます。

2. LoRA の検証

長年にわたり、研究者らは LoRA をヒューリスティック、または幸運なエンジニアリングのトリックとみなしていました。 このペーパーでは、PEFT (パラメーター効率の良い微調整) が機能する理由の 理論的基礎 を提供します。 これは、LoRA が単に「十分に優れている」だけではないことを証明しています。 それはニューラル ネットワークの実際の形状を化学的にトレースしていました。

3. 持続可能な AI

500 の個別のモデルをトレーニングすることは環境災害を引き起こします。 1 つの部分空間をトレーニングし、新しいタスクの「座標」を見つけるために単純に使用できる場合 (計算コストが低い)、特殊な AI の作成による二酸化炭素排出量は桁違いに減少します。

課題と限界

これは特効薬でしょうか? 完全にではありません。 著者らは、理論がまだ検証されているところにいくつかの重要な制約があることに注目しています。

  1. 「数学」の障壁: 論文では、部分空間はほとんどの意味論的なタスクには機能しますが、離散的で厳密なロジックを必要とする領域、特に 数学では課題に直面していると述べています。 「クリエイティブ ライティング」と「Python コーディング」の部分空間はうまく重なっていますが、「数論」はまったく異なる幾何学的平面に存在する可能性があります。
  2. 配布外 (OOD): 一般化は強力ですが、基本モデルが見たことのない真に異質なデータ型にこれがどのように当てはまるかは不明です。
  3. トレーニングダイナミクス: 現在、この部分空間は多くのモデルをトレーニングした*後に見つかります。 「聖杯」は、トレーニングの「前」にそれを見つけることであり、ステップ 1 から部分空間内で明示的にトレーニングできるようになります (「PretrainZero」の概念によって示唆されたテクニック)。

次は何ですか?

「普遍重み部分空間」は、知能がランダムな数字の雲ではなく、構造化された幾何学的なオブジェクトであることを示唆しています。

短期 (2026)

Apple と Google がモバイル OS に「亜空間スイッチング」を実装すると予想されます。 1 つの 3GB モデル アップデートを出荷する代わりに、50 個の新機能の座標を含む 10MB の「サブスペース パッチ」を出荷します。

長期 (2027 年以降)

業界は従来の意味での「トレーニング」モデルから離れる可能性があります。 将来の AI 開発は ナビゲーション に似たものになるかもしれません。 1 つの巨大で完璧な「宇宙」 (基本モデル) が構築され、新しいタスクを「学習」することは、単純に宇宙部分空間内でそのタスクの座標を見つける行為になります。

これはあなたにとって何を意味しますか

あなたが AI エンジニアの場合:

  • マージを停止: 従来のモデルのマージ (TIES、DARE) は数学的に劣っています。 部分空間投影技術の検討を開始します。
  • LoRA is King: LoRA とアダプターベースのアーキテクチャをさらに強化します。 現在、それらは正しい道であると科学的に検証されています。

あなたが投資家の場合:

  • エッジ AI ハードウェアに注目: 高速メモリ スワッピングと行列投影 (小型 NPU など) に最適化されたチップを構築する企業が勝ちます。 これにより、「Edge AI には 100GB の RAM が必要である」という説は無効になります。 そうではありません。 必要なのはスマートなジオメトリだけです。

「大きいことは良いこと」の時代は終わりつつあります。 「賢ければ小さいほど」の時代が始まりました。

出典

Advertisement

🦋 Discussion on Bluesky

Discuss on Bluesky

Searching for posts...