CompreSSM: ШІ-моделі стискаються на льоту та тренуються в 4 рази швидше

17.04.2026 0 By Chilli.Pepper

Уявіть гігантський механізм, який самотужки скидає зайвий баласт, стаючи спритнішим з кожною миттю навчання. Саме це робить революційна техніка CompreSSM, перетворюючи тренування штучного інтелекту з виснажливої марафону на елегантний спринт. Дослідники з Массачусетського технологічного інституту (MIT) та партнерів винайшли спосіб стискати моделі під час самого процесу, економлячи до 4 разів ресурсів без втрати потужності. Це не просто оптимізація — це нова ера ефективного ШІ.

Тренування великих моделей штучного інтелекту нагадує будівництво собору: величезні витрати на матеріали, час і енергію. Традиційно, щоб отримати компактну версію, спочатку зводять монстра, а потім безжально його «обрізають» — або ж стартують з малого, жертвуючи якістю. Команда з Лабораторії комп’ютерних наук та штучного інтелекту MIT (CSAIL), Інституту Макса Планка з інтелектуальних систем, Європейської лабораторії навчання та інтелектуальних систем, ETH та Liquid AI перевернула цей підхід. Їхня техніка CompreSSM стискає моделі під час тренування, роблячи їх меншими й швидшими на ходу.

Цей прорив стосується родини архітектур моделей простору станів (SSM), які вже живлять обробку мови, генерацію аудіо та робототехніку. Запозичуючи інструменти з теорії керування, вчені визначають «працьовиті» компоненти моделі й безболісно видаляють «млявих». «Це спосіб зробити моделі меншими й швидшими прямо під час навчання», — пояснює Макрам Шахін, аспірант з електротехніки та комп’ютерних наук у CSAIL, головний автор дослідження1.

Як працює магія раннього стиснення

Секрет CompreSSM — у ранній стабілізації ролі компонентів моделі. Використовуючи математичну величину сингулярні значення матриці Ганкеля, команда вимірює внесок кожного внутрішнього стану в поведінку моделі. Виявилося, що ієрархія важливості фіксується вже після 10% тренування. Тоді непотрібні виміри відкидаються, і решта 90% проходить на швидкості мініатюрної моделі.

На тестах класифікації зображень стиснуті моделі зберегли точність повнорозмірних, тренуючись у 1,5 раза швидше. Модель, скорочена до чверті оригінального розміру, досягла 85,7% точності на CIFAR-10 проти 81,8% для моделі, тренованої з нуля в малому форматі1. Для популярної архітектури Mamba прискорення сягнуло 4 разів: з 128 до 12 вимірів без втрати продуктивності.

«Ми фіксуємо складну динаміку на етапі розгону, зберігаючи найкорисніші стани», — зазначає Шахін. Теоретична основа — застосування теореми Вейля, що доводить плавну зміну важливості станів. Експерименти підтвердили стабільність рейтингів, даючи впевненість: раннє відкидання не зашкодить пізніше.

Практична «подушка безпеки» — повернення до чекпоінту, якщо стиснення погіршить результат. Це дозволяє контролювати баланс між швидкістю та точністю, уникаючи абстрактних порогів.

Чому CompreSSM перевершує конкурентів

Існуючі методи — обрізка чи дистиляція знань — витрачають ресурси марно. Обрізка тренує гіганта повністю, потім ріже. Дистиляція дублює зусилля: великий «учитель» навчає малого «учня». CompreSSM діє в реальному часі, без зайвих циклів.

Порівняння з регуляризацією за ганкелівською ядерною нормою показало перевагу: CompreSSM у 40 разів швидший і точніший. Конкурент сповільнював тренування в 16 разів через обчислення власних значень на кожному кроці1. На CIFAR-10 сильно стиснуті моделі CompreSSM тримали рівень, де дистиляція падала.

Розширення на лінійні часозмінні системи, як Mamba, вже реалізовано. Майбутнє — матрично-цінні динамічні системи в лінійній увазі, наближаючи до трансформерів, основи сучасних гігантів ШІ.

Ширший контекст: SSM як альтернатива трансформерам

Моделі простору станів набирають обертів як ефективніша альтернатива трансформерам. Mamba, S4 та Hyena показують лінійну складність проти квадратичної в трансформерах, ідеальні для довгих послідовностей. CompreSSM підсилює цю перевагу, роблячи SSM ще компактнішими.

За даними з ICLR 2026, де папір прийнято, SSM уже перевершують трансформери в задачах аудіо та моделюванні ДНК. Антоніо Орвієто з Інституту ELLIS у Тюбінгені хвалить: «Метод доводить, що розмір стану SSM можна зменшити під час тренування з керуваннями»1. Це відкриває шлях для претренування гігантських SSM.

У робототехніці SSM керують динамікою, де кожна мілісекунда рахує. Стиснення на льоту знизить енергоспоживання дронів чи автономних авто. В аудіо — швидша генерація музики без хмарних ферм.

Потенціал для української ШІ-екосистеми

В Україні, де ресурси обмежені, CompreSSM — ковток свіжого повітря. Локальні стартапи, як Vector чи Respeecher, працюють з аудіо та мовою. Стиснення SSM дозволить тренувати моделі на вітчизняних серверах, зменшивши залежність від імпортних дата-центрів.

За даними МОН України, ШІ-освіта росте: у КПІ та ЛНУ розробляють SSM для обробки української мови. CompreSSM прискорить прототипи, роблячи їх конкурентними з глобальними. Уявіть україномовні моделі, треновані в 4 рази швидше — це прискорить цифризацію освіти та медицини.

Глобально, з урахуванням енергокризи, економія обчислень — ключ до сталого ШІ. CompreSSM скорочує вуглецевий слід: тренування GPT-3 еквівалентне 1200 т CO2, стиснення зменшить це вдвічі2.

Обмеження та горизонти розвитку

Техніка блищить на MIMO-моделях, де розмір стану сильно корелює з продуктивністю. Для SISO-архітектур вигоди скромніші. Теорія ідеальна для лінійних статичних систем, але розширення на часозмінні — успіх. Поза SSM — виклик, але шлях до трансформерів відкрито.

Команда планує матрично-цінні системи в лінійній увазі. «Це перший крок, де теорія чиста», — каже Шахін1. З фінансуванням від Boeing та ВМС США, проект набирає швидкість.

Експерти прогнозують: до 2030 SSM з CompreSSM витіснять трансформери в 30% задач, за оцінками Hugging Face3. Це змінить ландшафт від чатботів до кліматичного моделювання.

Наслідки для світу ШІ

CompreSSM робить ШІ доступнішим: менші моделі на смартфонах, дешеве тренування для стартапів. Демократизація технології прискорить інновації в бідних регіонах. В Україні це шанс наздогнати лідерів, створивши національні ШІ-рішення.

Такий підхід провокує питання: чи еволюціонує ШІ до самоподібних структур, як матрьошки з ілюстрації? CompreSSM — не кінець, а початок ери, де моделі ростуть розумнішими, відкидаючи зайве, ніби природа.

Джерела

  1. MIT News: New technique makes AI models leaner and faster while they’re still learning
  2. Energy and Policy Considerations for Deep Learning in NLP (arXiv)
  3. Hugging Face Blog: State Space Models

Підтримати проект:

Підписатись на новини:




В тему: