Link kopiert!

Der universelle Gewichtsunterraum: 100-fache KI-Komprimierung ist da

Ein bahnbrechendes Papier aus dem Jahr 2025 enthüllt, dass neuronale Netze in einem gemeinsamen 'Unterraum' leben, was eine 100-fache Komprimierung ermöglicht. Dies ist der MP3-Moment für KI-Modelle.

🌐
Automatische Übersetzung

Dieser Artikel wurde automatisch aus dem englischen Original übersetzt. Zum englischen Original

Abstrakte Visualisierung von neuronalen Netzwerkgewichten, die sich in eine einzelne, leuchtende geometrische Ebene komprimieren

Wichtige Erkenntnisse

  • Die Entdeckung: Forscher haben bewiesen, dass die Gewichte neuronaler Netzwerke für verschiedene Aufgaben zu einem gemeinsamen, niedrigdimensionalen „universellen Unterraum“ konvergieren.
  • Die Metrik: Dies ermöglicht eine bis zu 100-fache Speicherkomprimierung durch die Speicherung eines Basismodells und nur kleiner Skalarkoeffizienten für bestimmte Aufgaben.
  • Die Implikation: Edge-Geräte (Telefone, Laptops) könnten bald Hunderte von „Experten“-Modellen gleichzeitig ausführen, ohne dass die Speichernutzung explodiert.
  • Die Wissenschaft: Sie vereint frühere „Hacks“ wie LoRA und Model Merging in einer einzigen, strengen mathematischen Theorie, die auf der Spektralzerlegung basiert.

Der „MP3-Moment“ für Intelligenz

Im letzten Jahrzehnt wurde der KI-Fortschritt durch ein einfaches Brute-Force-Gesetz definiert: Je größer, desto besser. Von den 175 Milliarden Parametern von GPT-3 bis hin zu den Billionen-Parameter-Giganten von 2024 wird Intelligenz mit Größe gleichgesetzt. Dadurch ist ein massiver Engpass entstanden. Um ein „intelligentes“ Modell zu betreiben, ist ein Rechenzentrum erforderlich. Um ein „spezialisiertes“ Modell auszuführen, muss eine Kopie dieses riesigen Modells feinabgestimmt werden, wodurch sich die Speicherkosten für jede neue hinzugefügte Fähigkeit verdoppeln.

Doch ein neues Papier, das im Dezember 2025 von Forschern der University of Maryland und Johns Hopkins veröffentlicht wurde, hat diese Annahme widerlegt. Unter dem Titel „The Universal Weight Subspace Hypothesis“ wird vorgeschlagen und mathematisch bewiesen, dass die Industrie schon immer „toten Raum“ gespeichert hat.

Advertisement

Der Artikel zeigt, dass die Gewichte im hochdimensionalen Raum nicht zufällig streuen, wenn man ein neuronales Netzwerk auf 500 verschiedene Aufgaben trainiert. Stattdessen kollabieren sie auf einer einzigen, gemeinsamen geometrischen Ebene: einem Universal Weight Subspace.

Dies ist der MP3-Moment für künstliche Intelligenz. So wie der MP3-Algorithmus erkannte, dass das menschliche Ohr die meisten Audiofrequenzen nicht hören konnte, und sie löschte, beweist diese Hypothese, dass neuronale Netze den Großteil ihres hochdimensionalen Parameterraums nicht nutzen. Durch die Beseitigung des Rauschens kann die „Intelligenz“ von 500 Expertenmodellen mit 100-facher Komprimierungseffizienz auf die Stellfläche von nur einem komprimiert werden.

Hintergrund: Die „Parameterexplosion“-Krise

Um zu verstehen, warum dies wichtig ist, muss man sich die „Memory Wall“ ansehen, die Ende 2025 die Branche erreicht.

Die Feinabstimmungsfalle

Nehmen wir an, Sie sind Apple oder Google. Sie haben ein Basismodell (wie Llama-3 oder Mistral). Sie möchten einen Expertenagenten für Codierung, einen weiteren für medizinische Beratung, einen weiteren für kreatives Schreiben und einen weiteren für rechtliche Analysen aufbauen.

Traditionell hatte man zwei Möglichkeiten:

  1. Vollständige Feinabstimmung: Kopieren Sie das gesamte 70-GB-Modell und trainieren Sie es für Law neu. Dann kopieren Sie es noch einmal für Medizin. Wenn 100 Agenten benötigt werden, sind 7.000 GB VRAM erforderlich, um sie zu hosten. Dies ist für Edge-Geräte nicht möglich.
  2. LoRA (Low-Rank Adaptation): Sie frieren das Hauptmodell ein und trainieren winzige „Adapter“-Ebenen. Dies war ein im Jahr 2021 entdeckter Hack, der Platz sparte, aber er wurde als Annäherungswert oder „verlustbehaftete“ Abkürzung angesehen.

Die Branche hat verzweifelt versucht, Modelle zusammenzuführen (unter Verwendung von Techniken wie TIES und RegMean), um „Frankenstein“-Modelle zu erstellen, die alles können, aber die Leistung nimmt immer ab. Die Gewichte stehen einfach im Widerspruch zueinander.

Die „universelle Subraum“-Lösung

Kaushik, Chaudhari et al. stellte eine grundlegende Frage: Was wäre, wenn die optimalen Gewichte für alle diese Aufgaben tatsächlich am selben Ort liegen?

Wenn das wahr wäre, müssten Sie nicht 500 verschiedene Matrizen speichern. Sie würden einfach die „Karte“ dieses Ortes (des Unterraums) und einen Satz GPS-Koordinaten (Skalare) für jede Aufgabe speichern.

Advertisement

Die Physik verstehen: Wie es funktioniert

Hier wird die Arbeit faszinierend technisch. Die Forscher analysierten über 1.100 Modelle, darunter 500 Variationen von Mistral-7B und 500 Vision Transformers. Sie schauten sich nicht nur die Ausgabe an; Sie haben sich die Geometrie der Gewichtsmatrizen angesehen.

Spektrale Zerlegung

Das Team verwendete eine Technik namens Spektrale Zerlegung (insbesondere Hauptkomponentenanalyse oder PCA) für die Gewichtsunterschiede dieser Modelle.

Stellen Sie sich vor, Sie haben 500 Pfeile, die in leichten Variationen von „Norden“ zeigen. Wenn Sie sie im 3D-Raum betrachten, könnten sie unterschiedlich erscheinen. Wenn Sie die Daten jedoch analysieren, stellen Sie möglicherweise fest, dass sie alle perfekt flach auf einem 2D-Blatt Papier liegen, das in einem Winkel von 30 Grad geneigt ist. Dieses „Blatt Papier“ ist der Unterraum.

Die Forscher fanden heraus, dass die Gewichte für jede gegebene Architektur (wie einen Transformer) zu einem bestimmten Unterraum mit niedrigem Rang konvergieren, der aus der Kovarianz der Gewichte abgeleitet wird.

S~=Top-k Eigenspace of 1T(WtWavg)(WtWavg)T\tilde{S} = \text{Top-k Eigenspace of } \frac{1}{T} \sum (W_t - W_{avg})(W_t - W_{avg})^T

Die „intrinsische Dimension“

Das Papier beweist mithilfe von Matrix Bernstein Inequalities (einem komplexen statistischen Tool), dass die „intrinsische Dimension“ dieser Aufgaben unglaublich gering ist. Während ein Modell Milliarden von Parametern haben kann, kann der Unterschied zwischen einem „Mathe-Modell“ und einem „Codierungsmodell“ durch einen winzigen Bruchteil dieses Raums beschrieben werden.

Sie entdeckten Folgendes:

  1. Universalität: Dieser Unterraum wird von disjunkten Datensätzen gemeinsam genutzt. Ein Modell, das auf medizinischen Bildern trainiert wurde, und ein Modell, das auf Satellitenbildern trainiert wurde, weisen dieselbe Gewichtsmechanik auf.
  2. Konvergenz: Je mehr Modelle Sie untersuchen, desto schärfer wird dieser Unterraum. Es konvergiert mit einer Rate von O(1/T)O(1/\sqrt{T}).

Die Killer-Metrik: 100-fache Komprimierung

Das praktische Ergebnis dieser Mathematik ist atemberaubend.

In ihren Experimenten nutzte das Team erfolgreich einen einzigen universellen Unterraum, um 500 verschiedene Vision Transformers darzustellen.

  • Traditionelle Methode: Speichern Sie 500 Gewichtssätze. Kosten: Massiv.
  • Universelle Unterraummethode: Speichern Sie 1 Unterraum + 500 Sätze Skalarkoeffizienten.
  • Ergebnis: 100-fache Reduzierung des Speichers.

Noch beeindruckender war, dass die Genauigkeit erhalten blieb. Beim Vergleich dieser Methode mit modernsten Techniken zur Modellzusammenführung bei 8 verschiedenen Aufgaben:

  • RegMean: 60,9 % Genauigkeit
  • TIES-Zusammenführung: 63,7 % Genauigkeit
  • Universeller Subraum: 83,5 % Genauigkeit

Sie haben nicht nur Platz gespart; Sie haben die Intelligenz bewahrt, die normalerweise verloren geht, wenn Sie versuchen, Modelle zu komprimieren oder zusammenzuführen.

Advertisement

Branchenauswirkungen: Das Zeitalter der „Schwarmintelligenz“

Diese Entdeckung verändert die Roadmap für Edge AI 2026/2027 grundlegend.

1. Der „Super-Agent“ auf Ihrem Telefon

Derzeit läuft auf Ihrem iPhone eine kleine, quantisierte Version eines allgemeinen Modells. Es ist in allem in Ordnung, aber in nichts großartig. Mit UWSH (Universal Weight Subspace Hypothesis) könnte Ihr Telefon ein eingefrorenes „Basisgehirn“ und Tausende von „Fertigkeitskoordinaten“ speichern.

  • Xcode öffnen? Die NPU lädt die „Coding Coordinates“ sofort.
  • WebMD öffnen? Die NPU wechselt zu „Medizinische Koordinaten“.
  • Photoshop öffnen? Es wechselt zu „Visionskoordinaten“.

Gesamtspeicherkosten? Vernachlässigbar. Sie verfügen effektiv über ein lokal ausgeführtes Mix-of-Experts-Modell ohne die RAM-Kosten einer Mixture-of-Experts-Architektur (MoE).

2. LoRA validieren

Jahrelang betrachteten Forscher LoRA als eine Heuristik oder einen glücklichen technischen Trick. Dieses Papier liefert die theoretische Grundlage dafür, warum PEFT (Parameter-Efficient Fine-Tuning) funktioniert. Es beweist, dass LoRA nicht nur „gut genug“ war; es verfolgte chemisch die tatsächliche Geometrie des neuronalen Netzwerks.

3. Nachhaltige KI

Das Training von 500 einzelnen Modellen ist eine Umweltkatastrophe. Wenn ein Unterraum trainiert und dann einfach dazu verwendet werden kann, die „Koordinaten“ für neue Aufgaben zu finden (was rechenintensiv ist), sinkt der CO2-Fußabdruck der Entwicklung spezialisierter KI um Größenordnungen.

Herausforderungen und Einschränkungen

Ist das eine Wunderwaffe? Nicht ganz. Die Autoren stellen mehrere wichtige Einschränkungen fest, bei denen die Theorie noch getestet wird.

  1. Die „Mathe“-Barriere: In der Arbeit wird darauf hingewiesen, dass der Unterraum zwar für die meisten semantischen Aufgaben geeignet ist, in Bereichen, die diskrete, starre Logik erfordern, jedoch vor Herausforderungen steht – insbesondere in der Mathematik. Der Unterraum für „kreatives Schreiben“ und „Python-Codierung“ überschneidet sich gut, aber „Zahlentheorie“ könnte auf einer völlig anderen geometrischen Ebene leben.
  2. Out-of-Distribution (OOD): Obwohl die Verallgemeinerung stark ist, ist nicht bekannt, wie sich dies auf wirklich fremde Datentypen auswirkt, die das Basismodell noch nie gesehen hat.
  3. Trainingsdynamik: Derzeit wird dieser Unterraum nach dem Training vieler Modelle gefunden. Der „Heilige Gral“ würde darin bestehen, ihn vor dem Training zu finden und ab Schritt eins ein explizites Training innerhalb des Unterraums zu ermöglichen (eine Technik, die in den „PretrainZero“-Konzepten angedeutet wird).

Was kommt als nächstes?

Der „Universal Weight Subspace“ legt nahe, dass Intelligenz keine zufällige Zahlenwolke, sondern ein strukturiertes, geometrisches Objekt ist.

Kurzfristig (2026)

Erwarten Sie, dass Apple und Google „Subspace Switching“ in ihren mobilen Betriebssystemen implementieren. Anstatt ein 3-GB-Modellupdate auszuliefern, werden sie einen 10 MB großen „Subspace-Patch“ ausliefern, der die Koordinaten für 50 neue Funktionen enthält.

Langfristig (2027+)

Die Branche könnte sich von „Ausbildungsmodellen“ im herkömmlichen Sinne entfernen. Zukünftige KI-Entwicklung könnte eher wie Navigation aussehen. Ein riesiges, perfektes „Universum“ (das Basismodell) wird aufgebaut, und das „Lernen“ einer neuen Aufgabe wird einfach darin bestehen, die Koordinaten für diese Aufgabe im universellen Unterraum zu finden.

Was das für Sie bedeutet

Wenn Sie ein KI-Ingenieur sind:

  • Stop Merging: Die traditionelle Modellzusammenführung (TIES, DARE) ist mathematisch minderwertig. Beginnen Sie mit der Untersuchung von Subraum-Projektionstechniken.
  • LoRA ist König: Verdoppeln Sie LoRA und adapterbasierte Architekturen. Sie sind mittlerweile wissenschaftlich als der richtige Weg bestätigt.

Wenn Sie ein Investor sind:

  • Edge AI-Hardware ansehen: Unternehmen, die Chips entwickeln, die für schnellen Speicheraustausch und Matrixprojektion optimiert sind (wie winzige NPUs), werden gewinnen. Dies widerlegt die These, dass „Edge AI 100 GB RAM benötigt“. Das ist nicht der Fall. Es braucht nur eine intelligente Geometrie.

Die Ära von „Größer ist besser“ geht zu Ende. Die Ära „Smarter is Smaller“ hat begonnen.

Quellen

Advertisement

🦋 Discussion on Bluesky

Discuss on Bluesky

Searching for posts...