Попередні дослідження показували, що AI може обробляти аудіо та відео дані, але новий метод дозволяє моделі навчатися більш детально, без необхідності людських міток. Дослідники вдосконалили модель, змінивши її архітектуру та навчальні цілі, щоб вона могла краще розпізнавати відповідність між аудіо та відео даними.
Це нововведення дозволяє створювати точніші системи, які можуть, наприклад, автоматично співвідносити звук закривання дверей з відповідним візуальним кадром у відео. Такий підхід покращує точність моделей у завданнях пошуку відео та класифікації дій в аудіовізуальних сценах. Також це може стати фундаментом для розвитку більш складних моделей, які поєднують текстові дані, що відкриває нові можливості для AI.
Вам може бути цікаво:
MIT приєднується до “No Mow May”: новий погляд на екологічні газони
Що таке MIT - колиска інновацій
MIT — це Массачусетський технологічний інститут. Один з найкращих технічних університетів у світі. Заснований у 1861 році, він розташований у Кембриджі, неподалік від Бостона. Тут готують інженерів, науковців, дослідників, підприємців. MIT — це не тільки навчання, а й лабораторії, експерименти, розробки. Студенти вирішують завдання, які стосуються реального життя. У Технології…