Компанії дедалі частіше обирають мовні моделі для підсумування звітів чи підтримки клієнтів за допомогою рейтингів LLM. Але свіжа робота дослідників Массачусетського технологічного інституту ставить цьому підхід під сумнів: навіть кілька взаємодій користувачів здатні змістити вершину таблиці. Команда MIT розробила метод швидкої перевірки того, наскільки такі платформи вразливі до краудсорсингового шуму та помилок, і показала масштаб чутливості на реальних даних. Це питання не лише академічне – неправильний вибір моделі може коштувати бізнесу часу, грошей і довіри.
Що саме з’ясували дослідники
Найпопулярніший формат платформ – порівняння відповідей двох моделей і голос користувача за кращу. Саме ці голоси агрегують у загальний рейтинг для різних завдань – від кодування до аналізу зображень. Дослідники MIT виявили, що кілька голосів можуть змінити лідера, отже верхні позиції не завжди узагальнюються на нові дані й близькі сценарії використання.
Щоб виміряти цей ефект без дорогого повного перебору, команда запропонувала ефективний метод наближення, який знаходить голоси з найбільшим впливом на підсумкове місце моделі. Далі користувач може вручну прибрати ці точки, перерахувати рейтинг і перевірити, чи зміниться розклад сил.
Наскільки мало даних достатньо?
Емпіричні перевірки на популярних платформах здивували навіть авторів. На одному датасеті вилучення лише двох голосів із понад 57 000 (це 0,0035 відсотка) поміняло топ-модель. Інша платформа з експертними анотаторами виявилася стійкішою: там потрібно було прибрати 83 з 2 575 оцінок (близько 3 відсотків), щоб лідери помінялися місцями.
| Тип платформи | Обсяг оцінок | Скільки треба прибрати, щоб змінити лідера |
| Краудсорсингова платформа | понад 57 000 | 2 голоси (≈ 0,0035 відсотка) |
| Платформа з експертною розміткою | 2 575 | 83 з 2 575 оцінок (≈ 3 відсотки) |
Як працює перевірка чутливості
Механіка рейтингів передбачає мільйони можливих комбінацій «а якби ми прибрали N голосів». Наприклад, перевірити всі підмножини на рівні 0,1 відсотка для 57 000 голосів – практично неможливо, адже таких варіантів понад 10^194. Тому команда MIT адаптувала попередні напрацювання і створила швидку оцінку, що вказує на найбільш впливові точки.
Ключова перевага підходу в прозорості: алгоритм повертає конкретні голоси, підозрілі на викривлення результату. Далі платформа або дослідник можуть їх тимчасово прибрати, перерахувати рейтинги LLM і перевірити стабільність лідерів без потреби довіряти теорії «на слово».
«Ми здивовані, наскільки чутливими виявилися рейтингові платформи. Якщо вершина залежать від двох-трьох голосів із десятків тисяч, не можна вважати, що модель-лідер стабільно обходитиме конкурентів після розгортання», – зазначає Тамара Бродерік (Tamara Broderick), MIT.
Де береться перекіс
Під час аналізу найвпливовіші голоси часто виявлялися схожими на помилки користувачів: хибний клік, неуважність або невпевненість у виборі там, де відповідь виглядала очевидно. Такі одиничні відхилення не повинні визначати лідера, однак у сукупності вони можуть зміщувати підсумковий рейтинг. Це важливий сигнал для платформ, які масово покладаються на краудсорсингові дані.
Чому це має значення для бізнесу й держави
Обирати модель лише за місцем у таблиці – ризиковано, особливо коли на кону витрати на інтеграцію, безпеку і відповідність регуляціям. Для кейсів на кшталт підсумовування звітів продажів чи сортування звернень користувачів важливо, щоб обрана модель демонструвала стабільну перевагу на нових даних, а не завдяки випадковим голосам чи шуму. Результати MIT підштовхують до додаткових перевірок – пілотів, A/B‑тестів і валідації під конкретні задачі.
Що радять покращити на платформах
- Збирати детальніший фідбек – зокрема рівень упевненості кожного голосу.
- Додавати людських модераторів або медіаторів для перевірки спірних краудсорсингових відповідей.
- Регулярно запускати тест на чутливість, щоб знаходити і переглядати впливові голоси.
- Узгоджувати типи завдань і промптів із реальними сценаріями використання моделі.
«Ця робота демонструє, як отримати коректні оцінки впливу окремих даних на подальші процеси за умов, коли повний перебір є нездійсненним. Бачити, як кілька переваг змінюють поведінку моделі, – стимул для обережнішого збору даних», – підкреслює Джессіка Галлман (Jessica Hullman), Northwestern University.
Хто стоїть за дослідженням
Старша авторка – Тамара Бродерік (MIT EECS; Лабораторія інформації та систем прийняття рішень і Інститут даних, систем і суспільства; афілійована з CSAIL). Провідні автори – аспіранти Дженні Хуанг (Jenny Huang) та Юньї Шень (Yunyi Shen); серед співавторів – Денніс Вей (Dennis Wei), старший науковий співробітник IBM Research.
Роботу буде представлено на Міжнародній конференції з навчання уявлень (ICLR). Фінансування: Office of Naval Research, MIT‑IBM Watson AI Lab, National Science Foundation, Amazon і грант CSAIL.









