Чат-бот, який пам’ятає важливе з вчорашньої розмови, – не фантастика, а новий напрям у штучному інтелекті. Команда MIT запропонувала підхід SEAL, що дозволяє великим мовним моделям не просто тримати контекст, а й постійно оновлювати ваги після взаємодії з новими даними. Модель сама створює «конспекти» зі свіжої інформації, перевіряє себе та закріплює найкращі зміни. Результат – стабільне запам’ятовування без повного перевчання.
Що таке SEAL і чому це злам для LLM
SEAL (self-adapting LLMs) – це фреймворк, у якому модель на основі вхідного тексту генерує синтетичні дані – перефразовані й узагальнені «навчальні листи». Кожен такий лист – це саморедагування (self-edit), яке потенційно може покращити її роботу. Далі модель сама себе «екзаменує» на прикладних завданнях – зокрема, на запитаннях-відповідях – і обирає редагування, що дає найбільший приріст якості.
Після відбору найвдалішого варіанту SEAL фіксує нове знання, оновлюючи внутрішні ваги. Це принципово відрізняється від звичного «в контексті» навчання, де інформація зникає після завершення діалогу. Додатково модель може сама задавати параметри, як-то швидкість навчання та кількість ітерацій – фактично, обирає як їй найкраще вчитися.
Як це працює під капотом
- Користувацьке повідомлення перетворюється на низку переформульованих «листів-конспектів» з висновками та імплікаціями.
- Модель перевіряє кожен варіант через підкріплювальне навчання – винагороду отримує редагування з найбільшим покращенням на цільовому завданні.
- Обране редагування закладається назавжди шляхом оновлення ваг – без повного перевчання всієї системи.
Ключові факти: SEAL підвищив точність відповідей на запитання майже на 15 відсотків; у низці завдань із опанування нових навичок успішність зросла більш як на 50 відсотків. Невелику модель вдалося налаштувати так, що вона випередила значно більші LLM.
Результати: більше точності, менше залежності від розміру
У порівнянні з базовими методами SEAL стабільно покращував результати на різних типах задач – від швидкого опанування нових умінь до інтеграції знань із текстових уривків. На блоках з питаннями та відповідями приріст склав майже на 15 відсотків, а в окремих сценаріях навчання навичок – понад 50 відсотків. Дослідники також повідомляють про випадки, коли менша модель перевершувала більші, що свідчить: грамотне оновлення знань інколи важливіше за кількість параметрів.
Обмеження: ризик «забути старе»
Головний виклик техніки – катастрофічне забування: із часом, засвоюючи нові факти, модель може повільно втрачати точність на раніших завданнях. Команда планує працювати над пом’якшенням цього ефекту та тестувати метод у мультиагентних сценаріях, де кілька моделей тренують одна одну. Це має показати, як масштабувати підхід без втрат попередніх знань.
Хто за цим стоїть і де презентують
Співавтори роботи – аспірант Джйотіш Парі та студент Адам Цвайґер; до команди входять також Хань Ґо й Екін Акюрек. Старші автори – Юн Кім та Пулкіт Агравал з кафедри електротехніки та інформатики MIT і лабораторії CSAIL. Дослідження представлять на Conference on Neural Information Processing Systems.
Проєкт частково підтримано U.S. Army Research Office, U.S. Air Force AI Accelerator, Stevens Fund for MIT UROP і MIT-IBM Watson AI Lab. Це підкреслює зацікавленість як академічної спільноти, так і індустріальних партнерів у ШІ, що здатен до оновлення без повного перевчання.










