Відкриття MIT: Як великі мовні моделі “втрачаються” у середині тексту

18 Червня, 2025 3 хв. читання

Сергій Кулик

Відкриття MIT: Як великі мовні моделі "втрачаються" у середині тексту

Вчені з MIT виявили, що великі мовні моделі (LLM) можуть демонструвати так зване “позиційне зміщення”, коли вони надають перевагу інформації на початку та в кінці документа, нехтуючи серединою. Це може суттєво вплинути на точність, з якою моделі витягують інформацію з великих текстів.

Як позиційне зміщення впливає на точність

Дослідники створили теоретичну основу для вивчення механізмів, що спричиняють це явище. Вони виявили, що певні архітектурні рішення у моделях, такі як техніки маскування уваги та позиційні кодування, можуть підсилювати зміщення. Зокрема, маскування причинності підсилює увагу до початку тексту, навіть якщо це не виправдано даними.

Експерименти показали, що точність моделей у витяганні правильної інформації має U-подібну форму: найвища на початку, знижується в середині та трохи підвищується в кінці. Це явище може бути шкідливим для застосувань, які вимагають об’єктивного аналізу тексту, наприклад, в юридичних або медичних системах.

Головне цього тижня:

Все про мікрокредити для ФОП: умови, ризики, альтернативи

Мікропозика чи банківський кредит: що варто знати українцям

Daily Horoscope Today, November 1, 2025

Можливі рішення та майбутні дослідження

Вчені запропонували кілька шляхів для зменшення позиційного зміщення, таких як використання інших технік маскування, зменшення кількості шарів уваги або оптимізація позиційних кодувань. У майбутньому планується детальніше дослідити ефекти позиційних кодувань та можливість стратегічного використання цього зміщення у певних застосуваннях.

Це дослідження може сприяти розробці більш надійних та точних моделей, які здатні краще обробляти великі обсяги інформації без втрати її частин у середині тексту.

Вам може бути цікаво:
Втрата наукового гіганта: Джон Жоаннопулос та його спадщина

Довідка

Що таке наука і навіщо вона потрібна

Наука — це шлях до розуміння світу. Вона ставить запитання, шукає відповіді і перевіряє їх. Це система знань, яку люди створюють через спостереження, експерименти й логіку. Вона постійно змінюється, розвивається. Те, що ми знаємо сьогодні, колись було невідомим. І саме завдяки їй ми маємо електрику, інтернет, ліки, літаки і прогнози…