Вчені з MIT виявили, що великі мовні моделі (LLM) можуть демонструвати так зване “позиційне зміщення”, коли вони надають перевагу інформації на початку та в кінці документа, нехтуючи серединою. Це може суттєво вплинути на точність, з якою моделі витягують інформацію з великих текстів.
Як позиційне зміщення впливає на точність
Дослідники створили теоретичну основу для вивчення механізмів, що спричиняють це явище. Вони виявили, що певні архітектурні рішення у моделях, такі як техніки маскування уваги та позиційні кодування, можуть підсилювати зміщення. Зокрема, маскування причинності підсилює увагу до початку тексту, навіть якщо це не виправдано даними.
Експерименти показали, що точність моделей у витяганні правильної інформації має U-подібну форму: найвища на початку, знижується в середині та трохи підвищується в кінці. Це явище може бути шкідливим для застосувань, які вимагають об’єктивного аналізу тексту, наприклад, в юридичних або медичних системах.









