Менші моделі проти гігантів: як MIT навчило LLM думати розумніше – і платити менше

MIT представило спосіб, що навчає LLM самостійно дозувати "обчислювальний час" залежно від труднощі запиту. Завдяки каліброваним PRM моделі досягають зіставної точності, витрачаючи до половини ресурсів – і це відкриває шлях для менших моделей.

Сергій КуликОпубліковано: 4 грудня 2025 р. о 09:31 (Київ)Оновлено: 19 травня 2026 р. о 14:443 хв читанняПереглядів: 76

MIT показало instance-adaptive scaling: як LLM можуть витрачати до половини обчислень без втрати точності?

Зміст статті

8 розділів

Що саме запропонували в MIT
Як це працює під капотом
Що показали тести
Навіщо це індустрії прямо зараз
Ключові факти коротко
Хто стоїть за роботою
Що далі
Фінішна пряма: обчислювати те, що справді має сенс

Команда розробила метод під назвою instance-adaptive scaling. На відміну від фіксованого бюджету обчислень, модель на льоту коригує кількість проміжних розв'язків і кроків міркування. Ключову роль тут відіграє процесна модель винагороди (PRM), яка оцінює перспективність кожного часткового кроку та допомагає вирішити – продовжувати цю гілку чи скоротити пошук. Такий підхід особливо корисний для складних задач, де обґрунтоване "довше мислення" справді окупається.

Як це працює під капотом

LLM генерує кілька кандидатних рішень або ланцюжків міркувань.

PRM оцінює кожну часткову спробу та ймовірність її успіху.

Бюджет обчислень адаптується на кожному кроці – модель або поглиблює пошук, або обрізає слабкі траєкторії.

Втім, дослідники виявили, що наявні PRM часто переоцінюють шанси моделі на успіх. Щоб усунути цю надмірну впевненість, вони додали калібрування: PRM вчиться віддавати не одну точкову оцінку, а діапазон ймовірностей, який краще відображає невизначеність. Таке калібрування підвищує надійність оцінок і робить саме instance-adaptive scaling ефективним.

Що показали тести

На серії математичних задач різної складності новий підхід використовував менше обчислень для кожної проблеми за збереження зіставної точності з типовими схемами inference-time scaling. Додатково з'ясувалося: менші, менш ресурсомісткі моделі можуть зрівнятися або перевершити більші в складних сценаріях, якщо правильно розподілити обчислювальний бюджет і вибудувати процес міркування.

Навіщо це індустрії прямо зараз

Оптимізація інференсу – не лише про швидкість. Це також про гроші й екологію: підхід MIT здатен знизити енергоспоживання генеративного ІІ та витрати на інфраструктуру, а ще – зробити моделі більш надійними у високоризикових і часочутливих сценаріях. Від фінансової аналітики до медичних консультацій – можливість "думати довше там, де треба, і коротше там, де можна" відкриває шлях до ширшого впровадження LLM.

Ключові факти коротко

Метод: instance-adaptive scaling із каліброваними PRM.

Ефект: до половини обчислювальних ресурсів порівняно з типовими підходами.

Якість: зіставна точність на задачах різної складності.

Висновок: менші моделі можуть зрівнятися або перевершити великі на складних задачах за умови адаптивного бюджету.

Презентація: цього тижня на конференції NeurIPS (Conference on Neural Information Processing Systems).

"Тривалість інференсу стала серйозним "вузьким місцем" для провідних моделей… Надавши моделям здатність знати, чого вони не знають, ми дозволяємо їм витрачати більше обчислень на найскладніші проблеми і значно менше – на легкі," – Navid Azizan. "Перевага нашого підходу в тому, що адаптація відбувається на льоту, під час розв'язання задачі, а не задається наперед," – Kristjan Greenewald.

Хто стоїть за роботою

Старший автор – Navid Azizan (Department of Mechanical Engineering; Institute for Data, Systems, and Society; LIDS). Провідний автор – Young‑Jin Park (LIDS/MechE). Співавтори: Kristjan Greenewald (MIT‑IBM Watson AI Lab), Kaveh Alim (IDSS), Hao Wang (MIT‑IBM Watson AI Lab; Red Hat AI Innovation Team). Роботу підтримали MIT‑IBM Watson AI Lab, MIT‑Amazon Science Hub, MIT‑Google Program for Computing Innovation та MathWorks.

Що далі

Команда планує застосувати підхід до генерації коду та ІІ‑агентів, а калібрування PRM – у підкріплювальному навчанні та тонкому налаштуванні моделей. Це крок до систем, які краще усвідомлюють власну невизначеність і здатні розвиватися безпеки та стабільності.

Фінішна пряма: обчислювати те, що справді має сенс

Instance-adaptive scaling від MIT показує, що розумний розподіл зусиль важить не менше, ніж самі зусилля. Якщо моделі витрачатимуть обчислення там, де це найпродуктивніше, користувачі отримають точніші відповіді швидше, а індустрія – нижчі витрати й нові можливості масштабування.

Менші моделі проти гігантів: як MIT навчило LLM думати розумніше – і платити менше

Зміст статті

Теги

Що саме запропонували в MIT

Як це працює під капотом

Що показали тести

Навіщо це індустрії прямо зараз

Ключові факти коротко

Хто стоїть за роботою

Що далі

Фінішна пряма: обчислювати те, що справді має сенс

MIT про електромережу США: що дає 30% інтерконектів і чому «оптимізований» сценарій дешевший на 1,13%?

Популярне

Останнє в категорії

Зміст статті

Теги

Що саме запропонували в MIT

Як це працює під капотом

Що показали тести

Навіщо це індустрії прямо зараз

Ключові факти коротко

Хто стоїть за роботою

Що далі

Фінішна пряма: обчислювати те, що справді має сенс

MIT про електромережу США: що дає 30% інтерконектів і чому «оптимізований» сценарій дешевший на 1,13%?

Популярне

Останнє в категорії

Найкраще за тиждень — на пошту