Img Img Img Img Img Img
Готові купити криптовалюту?
Обирайте криптобіржу та дійте!

Коли великі мовні моделі стикаються зі складними питаннями, їхня якість відповіді зростає, якщо дати більше часу на міркування. Проблема в іншому – більшість систем витрачають однаково багато обчислень і на легкі, і на важкі задачі. Дослідники MIT запропонували вихід: динамічний розподіл обчислень залежно від реальної складності запиту та шансів конкретного підходу привести до правильної відповіді. Результат – до половини обчислювальних ресурсів проти типових методів за умов зіставної точності на різнорівневих завданнях.

Що саме запропонували в MIT

Команда розробила метод під назвою instance-adaptive scaling. На відміну від фіксованого бюджету обчислень, модель на льоту коригує кількість проміжних розв’язків і кроків міркування. Ключову роль тут відіграє процесна модель винагороди (PRM), яка оцінює перспективність кожного часткового кроку та допомагає вирішити – продовжувати цю гілку чи скоротити пошук. Такий підхід особливо корисний для складних задач, де обґрунтоване «довше мислення» справді окупається.

Як це працює під капотом

  • LLM генерує кілька кандидатних рішень або ланцюжків міркувань.
  • PRM оцінює кожну часткову спробу та ймовірність її успіху.
  • Бюджет обчислень адаптується на кожному кроці – модель або поглиблює пошук, або обрізає слабкі траєкторії.

Втім, дослідники виявили, що наявні PRM часто переоцінюють шанси моделі на успіх. Щоб усунути цю надмірну впевненість, вони додали калібрування: PRM вчиться віддавати не одну точкову оцінку, а діапазон ймовірностей, який краще відображає невизначеність. Таке калібрування підвищує надійність оцінок і робить саме instance-adaptive scaling ефективним.

Що показали тести

На серії математичних задач різної складності новий підхід використовував менше обчислень для кожної проблеми за збереження зіставної точності з типовими схемами inference-time scaling. Додатково з’ясувалося: менші, менш ресурсомісткі моделі можуть зрівнятися або перевершити більші в складних сценаріях, якщо правильно розподілити обчислювальний бюджет і вибудувати процес міркування.

Навіщо це індустрії прямо зараз

Оптимізація інференсу – не лише про швидкість. Це також про гроші й екологію: підхід MIT здатен знизити енергоспоживання генеративного ІІ та витрати на інфраструктуру, а ще – зробити моделі більш надійними у високоризикових і часочутливих сценаріях. Від фінансової аналітики до медичних консультацій – можливість «думати довше там, де треба, і коротше там, де можна» відкриває шлях до ширшого впровадження LLM.

Ключові факти коротко

  • Метод: instance-adaptive scaling із каліброваними PRM.
  • Ефект: до половини обчислювальних ресурсів порівняно з типовими підходами.
  • Якість: зіставна точність на задачах різної складності.
  • Висновок: менші моделі можуть зрівнятися або перевершити великі на складних задачах за умови адаптивного бюджету.
  • Презентація: цього тижня на конференції NeurIPS (Conference on Neural Information Processing Systems).

“Тривалість інференсу стала серйозним «вузьким місцем» для провідних моделей… Надавши моделям здатність знати, чого вони не знають, ми дозволяємо їм витрачати більше обчислень на найскладніші проблеми і значно менше – на легкі,” – Navid Azizan. “Перевага нашого підходу в тому, що адаптація відбувається на льоту, під час розв’язання задачі, а не задається наперед,” – Kristjan Greenewald.

Хто стоїть за роботою

Старший автор – Navid Azizan (Department of Mechanical Engineering; Institute for Data, Systems, and Society; LIDS). Провідний автор – Young‑Jin Park (LIDS/MechE). Співавтори: Kristjan Greenewald (MIT‑IBM Watson AI Lab), Kaveh Alim (IDSS), Hao Wang (MIT‑IBM Watson AI Lab; Red Hat AI Innovation Team). Роботу підтримали MIT‑IBM Watson AI Lab, MIT‑Amazon Science Hub, MIT‑Google Program for Computing Innovation та MathWorks.

Що далі

Команда планує застосувати підхід до генерації коду та ІІ‑агентів, а калібрування PRM – у підкріплювальному навчанні та тонкому налаштуванні моделей. Це крок до систем, які краще усвідомлюють власну невизначеність і здатні розвиватися безпеки та стабільності.

Фінішна пряма: обчислювати те, що справді має сенс

Instance-adaptive scaling від MIT показує, що розумний розподіл зусиль важить не менше, ніж самі зусилля. Якщо моделі витрачатимуть обчислення там, де це найпродуктивніше, користувачі отримають точніші відповіді швидше, а індустрія – нижчі витрати й нові можливості масштабування.

Довідка
Що таке MIT - колиска інновацій
MIT — це Массачусетський технологічний інститут. Один з найкращих технічних університетів у світі. Заснований у 1861 році, він розташований у Кембриджі, неподалік від Бостона. Тут готують інженерів, науковців, дослідників, підприємців.  MIT — це не тільки навчання, а й лабораторії, експерименти, розробки. Студенти вирішують завдання, які стосуються реального життя. У Технології…
Теги:
Повідомити про помилку
Знайшли помилку? Виділіть її в тексті та надішліть нам на info@gosta.ua
ПІДТРИМАТИ ПРОЄКТ
g Бажаєте збільшити онлайн присутність вашого бренду?

Отримайте
понад 5+ публікацій
на різних платформах
щомісяця

Замовити
Останні новини
Сьогодні
Попередні
Свіжі статті