Дослідники з MIT разом з колегами з різних університетів розробили нову методику навчання штучного інтелекту, яка дозволяє системам AI обробляти аудіо та візуальні дані одночасно, подібно до того, як це роблять люди. Це може бути корисним в таких галузях, як журналістика і кіновиробництво, де автоматичний підбір мультимедійного контенту є важливим.

Попередні дослідження показували, що AI може обробляти аудіо та відео дані, але новий метод дозволяє моделі навчатися більш детально, без необхідності людських міток. Дослідники вдосконалили модель, змінивши її архітектуру та навчальні цілі, щоб вона могла краще розпізнавати відповідність між аудіо та відео даними.
Це нововведення дозволяє створювати точніші системи, які можуть, наприклад, автоматично співвідносити звук закривання дверей з відповідним візуальним кадром у відео. Такий підхід покращує точність моделей у завданнях пошуку відео та класифікації дій в аудіовізуальних сценах. Також це може стати фундаментом для розвитку більш складних моделей, які поєднують текстові дані, що відкриває нові можливості для AI.