링크가 복사되었습니다!

범용 가중치 부분 공간: 100배 AI 압축이 여기 있습니다.

획기적인 2025년 논문에서는 신경망이 공유된 '부분 공간'에 존재하여 100배 압축이 가능하다고 밝혔습니다. 이는 AI 모델의 MP3 순간입니다.

🌐
기계 번역

이 기사는 영어 원문에서 자동 번역되었습니다. 영어 원문 읽기

단일 빛나는 기하학적 평면으로 압축되는 신경망 가중치의 추상적 시각화

주요 내용

  • 발견: 연구원들은 다양한 작업에 대한 신경망 가중치가 공유된 저차원 “보편적 부분 공간”으로 수렴된다는 것을 입증했습니다.
  • 메트릭: 하나의 기본 모델과 특정 작업에 대한 작은 스칼라 계수만 저장하여 최대 100배 메모리 압축이 가능합니다.
  • 의미: 엣지 장치(휴대폰, 노트북)는 곧 메모리 사용량을 초과하지 않고 수백 개의 “전문가” 모델을 동시에 실행할 수 있습니다.
  • 과학: LoRA 및 Model Merging과 같은 이전의 “해킹”을 스펙트럼 분해에 기반한 하나의 엄격한 수학적 이론으로 통합합니다.

지능을 위한 “MP3 순간”

지난 10년 동안 AI의 발전은 클수록 좋다는 단순한 무차별 법칙에 의해 정의되었습니다. GPT-3의 1,750억 개의 매개변수부터 2024년의 1조 개의 매개변수에 이르기까지 지능은 크기와 동일시되었습니다. 이로 인해 엄청난 병목 현상이 발생했습니다. “스마트” 모델을 실행하려면 데이터 센터가 필요합니다. “전문화된” 모델을 실행하려면 거대한 모델의 복사본을 미세 조정해야 하며, 새로운 기술이 추가될 때마다 스토리지 비용이 두 배로 늘어납니다.

그러나 2025년 12월 메릴랜드 대학과 존스 홉킨스 대학의 연구자들이 발표한 새로운 논문은 이러한 가정을 깨뜨렸습니다. **“보편적 무게 하위 공간 가설”**이라는 제목의 이 보고서는 업계가 줄곧 “데드 스페이스”를 저장해 왔다는 것을 제안하고 수학적으로 증명합니다.

이 논문에서는 500개의 서로 다른 작업에 대해 신경망을 훈련할 때 가중치가 고차원 공간에서 무작위로 흩어지지 않는다는 것을 보여줍니다. 대신 단일 공유 기하학적 평면인 범용 가중치 하위 공간으로 축소됩니다.

Advertisement

인공지능을 위한 MP3의 순간입니다. MP3 알고리즘이 인간의 귀가 대부분의 오디오 주파수를 들을 수 없다는 것을 깨닫고 이를 삭제한 것처럼, 이 가설은 신경망이 고차원 매개변수 공간의 대부분을 사용하지 않는다는 것을 증명합니다. 노이즈를 제거함으로써 500명의 전문가 모델의 “지능”을 100배 압축 효율성으로 단 한 명의 공간으로 압축할 수 있습니다.

배경: ‘매개변수 폭발’ 위기

이것이 왜 중요한지 이해하려면 2025년 말 업계를 강타할 ‘메모리 월’을 살펴봐야 합니다.

미세 조정의 함정

당신이 애플이나 구글이라고 가정해보자. 기본 모델(예: Llama-3 또는 Mistral)이 있습니다. 코딩을 위한 전문 에이전트, 의학적 조언을 위한 전문 에이전트, 창의적인 글쓰기를 위한 전문 에이전트, 법률 분석을 위한 전문 에이전트를 구축하려고 합니다.

전통적으로 다음과 같은 두 가지 선택이 있었습니다.

  1. 전체 미세 조정: 70GB 모델 전체를 복사하고 Law용으로 다시 학습시킵니다. 그런 다음 의학용으로 다시 복사하세요. 100개의 에이전트가 필요한 경우 이를 호스팅하려면 7,000GB의 VRAM이 필요합니다. 이는 엣지 장치에서는 불가능합니다.
  2. LoRA(낮은 순위 적응): 기본 모델을 동결하고 작은 “어댑터” 레이어를 훈련합니다. 이는 공간을 절약하기 위해 2021년에 발견된 해킹이었지만 근사치 또는 “손실이 많은” 지름길로 간주되었습니다.

업계에서는 모든 작업을 수행할 수 있지만 항상 성능이 저하되는 “프랑켄슈타인” 모델을 만들기 위해 모델을 병합(TIES 및 RegMean과 같은 기술 사용)하려고 필사적으로 노력해 왔습니다. 가중치가 서로 충돌합니다.

”보편적 부분공간” 솔루션

Kaushik, Chaudhari 등. 근본적인 질문을 던졌습니다. 이러한 작업 모든에 대한 최적의 가중치가 실제로 같은 위치에 있다면 어떨까요?

이것이 사실이라면 500개의 서로 다른 행렬을 저장할 필요가 없습니다. 해당 장소(하위 공간)의 “지도”와 각 작업에 대한 GPS 좌표 세트(스칼라)를 저장하면 됩니다.

물리학 이해: 작동 원리

이것이 바로 이 논문이 매우 기술적이게 되는 부분입니다. 연구원들은 Mistral-7B의 500개 변형과 500개의 Vision Transformer를 포함하여 1,100개 이상의 모델을 분석했습니다. 그들은 단지 결과만 보지 않았습니다. 그들은 가중치 행렬의 기하학을 살펴보았습니다.

스펙트럼 분해

팀은 이러한 모델의 무게 차이에 대해 스펙트럼 분해(구체적으로 주성분 분석, PCA)라는 기술을 사용했습니다.

“북쪽”을 약간 변형하여 가리키는 500개의 화살표가 있다고 상상해 보십시오. 3D 공간에서 보면 뚜렷하게 보일 수도 있습니다. 하지만 데이터를 분석해 보면 30도 각도로 기울어진 2D 종이 위에 완벽하게 평평하게 놓여 있는 것을 발견할 수 있습니다. 해당 “종이”는 하위 공간입니다.

Advertisement

연구원들은 주어진 아키텍처(예: Transformer)에 대해 가중치가 가중치의 공분산에서 파생된 특정 하위 공간으로 수렴한다는 사실을 발견했습니다.

S~=Top-k Eigenspace of 1T(WtWavg)(WtWavg)T\tilde{S} = \text{Top-k Eigenspace of } \frac{1}{T} \sum (W_t - W_{avg})(W_t - W_{avg})^T

“본질적 차원”

이 논문은 행렬 번스타인 불평등(복잡한 통계 도구)을 통해 이러한 작업의 “내재적 차원”이 엄청나게 낮다는 것을 증명합니다. 모델에는 수십억 개의 매개변수가 있을 수 있지만 “수학 모델”과 “코딩 모델” 간의 차이는 해당 공간의 아주 작은 부분으로 설명할 수 있습니다.

그들은 다음을 발견했습니다:

  1. 보편성: 이 부분공간은 분리된 데이터세트 전체에서 공유됩니다. 의료 영상을 학습한 모델과 위성 영상을 학습한 모델은 동일한 무게 역학을 공유합니다.
  2. 수렴: 검사하는 모델이 많을수록 이 부분 공간은 더욱 선명해집니다. O(1/T)O(1/\sqrt{T})의 속도로 수렴합니다.

최고의 지표: 100배 압축

이 수학의 실제 결과는 놀랍습니다.

실험에서 팀은 500가지의 다양한 Vision Transformers를 표현하기 위해 단일 범용 하위 공간을 성공적으로 활용했습니다.

  • 기존 방법: 분동 500세트를 저장합니다. 비용: 막대함.
  • 범용 부분공간 방법: 1개의 부분공간 + 500세트의 스칼라 계수를 저장합니다.
  • 결과: 메모리가 100배 감소합니다.

더욱 인상적인 것은 정확도가 유지되었다는 것입니다. 이 방법을 8가지 다양한 작업에 대한 최첨단 모델 병합 기술과 비교할 때:

  • RegMean: 60.9% 정확도
  • TIS 병합: 63.7% 정확도
  • 유니버설 부분공간: 83.5% 정확도

공간만 절약한 것이 아닙니다. 모델을 압축하거나 병합하려고 할 때 일반적으로 손실되는 지능을 보존했습니다.

업계에 미치는 영향: “군집 지능”의 시대

이 발견은 2026/2027 Edge AI의 로드맵을 근본적으로 변경합니다.

1. 휴대폰 속 ‘슈퍼 에이전트’

현재 귀하의 iPhone은 일반 모델의 작은 양자화 버전을 실행합니다. 모든 것이 괜찮지만 아무것도 훌륭하지 않습니다. UWSH(Universal Weight Subspace Hypothese)를 사용하면 휴대전화에 한 개 고정된 ‘기본 두뇌’와 수천 개의 ‘기술 좌표’를 저장할 수 있습니다.

  • Xcode를 열까요? NPU는 “코딩 좌표”를 즉시 로드합니다.
  • WebMD를 여시겠습니까? NPU가 “의료 좌표”로 전환됩니다.
  • 포토샵을 열까요? “시각 좌표”로 전환됩니다.

총 메모리 비용? 무시할 수 있습니다. 전문가 혼합(MoE) 아키텍처의 RAM 비용 없이 로컬에서 전문가 혼합 모델을 효과적으로 실행할 수 있습니다.

2. LoRA 검증

수년 동안 연구자들은 LoRA를 경험적이거나 운이 좋은 엔지니어링 트릭으로 여겼습니다. 이 문서에서는 PEFT(매개변수 효율적인 미세 조정)가 작동하는 이유에 대한 이론적 기초를 제공합니다. 이는 LoRA가 단순히 “충분히 좋은” 것이 아니라는 것을 증명합니다. 그것은 신경망의 실제 기하학적 구조를 화학적으로 추적하는 것이었습니다.

Advertisement

3. 지속 가능한 AI

500개의 개별 모델을 훈련하는 것은 환경 재앙입니다. 하나의 하위 공간을 훈련한 다음 새로운 작업에 대한 “좌표”를 찾는 데 간단히 사용할 수 있다면(계산 비용이 저렴함) 특수 AI 생성에 따른 탄소 배출량은 몇 배로 감소합니다.

과제 및 한계

이게 마법탄인가요? 완전히는 아닙니다. 저자는 이론이 아직 테스트 중인 몇 가지 주요 제약 사항에 대해 언급합니다.

  1. “수학” 장벽: 이 논문에서는 부분 공간이 대부분의 의미론적 작업에 작동하지만 이산적이고 엄격한 논리, 특히 수학이 필요한 영역에서는 문제에 직면한다고 지적합니다. “창의적인 글쓰기”와 “파이썬 코딩”에 대한 하위 공간은 잘 겹치지만 “수 이론”은 완전히 다른 기하학적 평면에 존재할 수 있습니다.
  2. OOD(Out-of-Distribution): 일반화가 강력하지만 기본 모델에서 본 적이 없는 진정한 외계인 데이터 유형에 대해 이것이 어떻게 유지되는지는 알 수 없습니다.
  3. 훈련 역학: 현재 이 부분공간은 많은 모델을 훈련한 발견됩니다. “성배”는 훈련 전에 이를 찾아 1단계의 하위 공간 내에서 명시적인 훈련을 허용하는 것입니다(“PretrainZero” 개념에서 암시하는 기술).

다음은 무엇입니까?

“Universal Weight Subspace”는 지능이 임의의 숫자 구름이 아니라 구조화된 기하학적 개체임을 시사합니다.

단기(2026)

Apple과 Google이 모바일 OS에 “부분 공간 전환”을 구현할 것으로 예상됩니다. 하나의 3GB 모델 업데이트를 제공하는 대신 50개의 새로운 기능에 대한 좌표가 포함된 10MB의 “하위 공간 패치”를 제공할 것입니다.

장기(2027+)

업계는 전통적인 의미의 “훈련” 모델에서 벗어날 수도 있습니다. 미래의 AI 개발은 내비게이션과 유사할 수 있습니다. 하나의 거대하고 완벽한 “우주”(기본 모델)가 구축될 것이며, 새로운 작업을 “학습”하는 것은 단순히 Universal Subspace 내에서 해당 작업에 대한 좌표를 찾는 행위일 것입니다.

이것이 당신에게 의미하는 것

AI 엔지니어인 경우:

  • 병합 중지: 기존 모델 병합(TIES, DARE)은 수학적으로 열등합니다. 부분공간 투영 기술을 살펴보세요.
  • LoRA는 왕이다: LoRA와 어댑터 기반 아키텍처를 더욱 강화합니다. 이제 올바른 경로로 과학적으로 검증되었습니다.

투자자인 경우:

  • Edge AI 하드웨어 보기: 빠른 메모리 교환 및 매트릭스 프로젝션(예: 작은 NPU)에 최적화된 칩을 구축하는 회사가 승리할 것입니다. 이는 “Edge AI에는 100GB의 RAM이 필요하다”는 논제를 무효화합니다. 그렇지 않습니다. 스마트 지오메트리가 필요합니다.

“Bigger is Better”의 시대가 끝났습니다. “Smarter is Smaller” 시대가 시작되었습니다.

출처

Advertisement

🦋 Discussion on Bluesky

Discuss on Bluesky

Searching for posts...