Img Img Img Img Img Img
Готові купити криптовалюту?
Обирайте криптобіржу та дійте!

Массачусетський технологічний інститут оприлюднив результати, що змушують переглянути підходи до валідації штучного інтелекту. Навіть якщо система навчається на великих вибірках і показує високі середні показники, в іншому середовищі вона може «спіткнутися» на конкретних групах даних. Йдеться про моделі машинного навчання, які у підмножинах нових наборів помиляються значно частіше, ніж це видно із загальної статистики. Для індустрій, де ставка – здоров’я та безпека, це сигнал діяти негайно.

Що саме знайшли в MIT

Команда MIT показала: модель, обрана як «найкраща» за середніми метриками в одній лікарні, може бути найгіршою для 6-75 відсотків пацієнтів у іншій. На агрегованих показниках це не видно – сукупні метрики маскують провали в підгрупах. Результати презентували у грудні на конференції NeurIPS 2025, випустивши код і визначені підмножини для подальших досліджень.

Наслідки особливо відчутні в медицини: на прикладі рентгенографія грудної клітки виявлено, що моделі, які «в середньому» працюють краще, гірше справляються з пацієнтами, що мають плевральні стани або збільшений кардіомедіастинум (збільшення серця чи центральної грудної порожнини). Поза медициною ризики підтверджено на гістопатології раку та в задачах детекції мови ненависті.

“We demonstrate that even when you train models on large amounts of data, and choose the best average model, in a new setting this ‘best model’ could be the worst model for 6-75 percent of the new data.” – Marzyeh Ghassemi (MIT)

Невидимі пастки: спотворені кореляції

Джерелом збоїв стають спотворені кореляції – зв’язки, які модель підхоплює зі специфіки даних першего середовища, а не з релевантних ознак. Наприклад, службові позначки на знімках однієї лікарні можуть «підказувати» діагноз, але в іншій лікарні таких маркувань немає. Подібно й у соцмережах: якщо модель рідко «бачила» певні контексти, вона може хибно класифікувати вміст при переносі на іншу платформу або регіон.

Попередні роботи групи MIT також показували, що моделі іноді підміняють клінічні ознаки демографічними – віком, статтю або расою. Це робить їх вразливими до змін контексту й неочікуваних похибок у нові середовища.

Як працює OODSelect: знайти провал, поки він не став системним

Провідний автор Olawale Salaudeen запропонував алгоритм OODSelect, який системно виявляє підмножини даних, де порушується гіпотеза accuracy-on-the-line – уявлення, що рейтинг моделей за точністю збережеться при перенесенні. Дослідник тренував тисячі моделей на даних «першого» середовища, обчислив їхню точність, а потім порівнював поведінку на «другому» наборі даних.

Якщо моделі з найвищою точністю в першому середовищі масово помилялися в конкретних піднаборах другого, ці піднабори вважали «проблемними». Команда також відфільтрувала «найскладніші для класифікації приклади», аби не змішувати об’єктивно важкі кейси зі справжніми артефактами даних. Публікація містить відкритий код і частину підмножин для відтворення результатів.

Чому «середня» точність оманлива

Висока середня точність створює хибне відчуття надійності. Коли пацієнтів або користувачів агрегують, слабкі місця розчиняються в масиві. Насправді ж конкретні групи – за патологією, обладнанням, стилем мовлення на платформах – можуть залишатися беззахисними. OODSelect показує, де саме ховаються ці «білі плями», і пропонує цілі для донавчання та перевірки.

Що це означає для лікарень, бізнесу та платформ

Головний висновок простий: тестуйте моделі в тих умовах, де вони працюють, і робіть це не лише за інтегральними метриками. Для практиків це означає зміну процедур приймання рішень на продакшні – з акцентом на підгрупи, контроль версій і моніторинг у реальному часі. Де можливо, варто адаптувати моделі під локальну специфіку та уникати «сліпого» переносу з одного середовища на інше.

  • Перевіряйте продуктивність на локальних підмножини даних (пристрої, підтипи патологій, сегменти аудиторії).
  • Не покладайтеся лише на сукупні метрики – аналізуйте розрізи за підгрупами.
  • Використовуйте OODSelect як інструмент виявлення ризикових піднаборів перед розгортанням.
  • Документуйте зміни середовища (джерела даних, маркування, обладнання) і повторно валідуйте моделі після кожної зміни.
  • Плануйте безперервний моніторинг, алерти на деградацію та процеси швидкого донавчання.

Хто стоїть за роботою

Дослідження виконали Olawale Salaudeen (MIT, провідний автор), Marzyeh Ghassemi (MIT EECS, IMES, LIDS), PhD-студенти Haoran Zhang і Kumail Alhamoud та доцент EECS Sara Beery. Роботу представлено на NeurIPS 2025, матеріали містять відкритий код і підмножини для подальших експериментів.

“We hope the released code and OODSelect subsets become a steppingstone toward benchmarks and models that confront the adverse effects of spurious correlations.”

Фінальний штрих – «Тестуй там, де застосовуєш»

Урок від MIT лаконічний: навіть «кращі» моделі можуть зрадити у новому контексті – від медичних знімків до модерації контенту. Щоб зберегти довіру до моделі машинного навчання, перейдіть від перевірки «в середньому» до перевірки «для кожної підгрупи». Це не про перестраховку – це про якість, безпеку та відповідальність.

FireВам може бути цікаво:
MIT відзначає нових випускників на церемонії OneMIT: заклик до позитивного впливу на суспільство

Теги:
Повідомити про помилку
Знайшли помилку? Виділіть її в тексті та надішліть нам на info@gosta.ua
ПІДТРИМАТИ ПРОЄКТ
g Бажаєте збільшити онлайн присутність вашого бренду?

Отримайте
понад 5+ публікацій
на різних платформах
щомісяця

Замовити
Останні новини
Сьогодні
Попередні
Свіжі статті