Трансформери давно вміють «дивитися назад» завдяки увазі, але губляться, коли треба відстежувати, як змінюються стани й залежності у довгих текстах чи коді. MIT та MIT‑IBM Watson AI Lab пропонують вихід – PaTH Attention. Це контекстно‑залежне позиційне кодування, яке не фіксує відстані між словами раз і назавжди, а враховує, що відбувається між ними, крок за кроком. Результат – краще розуміння послідовностей без втрати швидкості.
Що саме представили і де
Команда MIT і MIT‑IBM Watson AI Lab презентувала роботу про PaTH Attention на конференції Neural Information Processing Systems (NeurIPS) цього місяця. У дослідженні взяли участь Yoon Kim (MIT, MIT‑IBM Watson AI Lab) та співавтори: Songlin Yang, Kaiyue Wen, Liliang Ren, Yikang Shen, Shawn Tan, Mayank Mishra і Rameswar Panda. Проєкт частково підтримали MIT‑IBM Watson AI Lab та програма AI2050 від Schmidt Sciences.
Як працює PaTH Attention
Класичний RoPE кодує лише відносну відстань між токенами. PaTH Attention натомість моделює «шлях» між словами: кожне проміжне слово накладає невелике, залежне від даних перетворення, побудоване на Householder reflection – відображенні, що діє як «динамічне дзеркало». Так формується «позиційна пам’ять», яка відслідковує, як змінюються сутності та зв’язки в міру руху по тексту.
Оптимізація під залізо
Щоб залишитися швидкими на GPU, дослідники запропонували апаратно‑ефективний алгоритм, який стискає кумулятивне перетворення та розбиває його на менші обчислення. Це дозволяє обчислювати оцінки уваги між усіма парами токенів без «просідання» продуктивності.
Чим PaTH Attention відрізняється від RoPE
- Замість статичних обертів – послідовність контент‑залежних кроків уздовж шляху між токенами.
- Контент‑обізнаність замість однакового ставлення до всіх пар із однаковою відстанню.
- Краще відстеження станів і умовних залежностей у тексті та коді.
Що показали тести
PaTH Attention випробували на синтетичних і реальних задачах: міркування, довгі контексти та повне навчання LLM середнього розміру. Серед перевірок – завдання на вибір останньої «записуючої» команди попри відволікаючі кроки, багатокрокове відтворення та оцінювання стабільності на довгі контексти – десятки тисяч токенів. PaTH Attention послідовно демонстрував обізнаність щодо вмісту, покращив perplexity і перевершив альтернативи на бенчмарках із міркування, на які безпосередньо не тренувався.
Поєднання з «забуванням»: PaTH‑FoX
Дослідники також інтегрували PaTH із Forgetting Transformer (FoX), що дозволяє вибірково «гасити» менш релевантний контекст. Комбінація PaTH‑FoX додала дано‑залежне зменшення ваги інформації та показала сильні результати в міркуванні, розумінні довгих контекстів і мовному моделюванні.
«Transformers enable accurate and scalable modeling, але мають обмеження у відстеженні станів. Наше запитання – як зберегти масштабованість і додати state tracking?», – пояснює Yoon Kim з MIT і MIT‑IBM Watson AI Lab.
«І на діагностичних завданнях, і на реальному мовному моделюванні новий підхід перевершив наявні механізми уваги, не втрачаючи ефективності», – додає він, відзначаючи потенціал PATH для структурованих доменів на кшталт біології.
Що це означає для індустрії
PaTH Attention піднімає стелю для довгоконтекстних LLM, де ключовим є не лише «скільки токенів» у вікні, а й як модель стежить за змінами в межах послідовності. Це важливо для аналізу юридичних і фінансових документів, супроводу коду з умовами й змінними, а також потенційно – для структурованих даних у біології (протеїни, ДНК), де відносини критично залежать від порядку та контексту.
Хто і навіщо
Автори підкреслюють ширшу мету – створювати нові «примітиви» архітектур, які поєднують виразність, точність, гнучкість і масштабованість на апаратному рівні. PaTH Attention демонструє, як зміна схеми позиціонування може розширити можливості трансформерів без переписування всієї парадигми.









