Img Img Img Img Img Img
Готові купити криптовалюту?
Обирайте криптобіржу та дійте!

Рятувальні операції не чекають – робот, що спускається у частково обвалену шахту, має миттєво «бачити» простір. У MIT представили підхід, який робить це практичним: система на основі ШІ генерує 3D‑карту незнайомого середовища за лічені секунди, водночас визначаючи позицію робота. Вона працює зі звичайними відео з камер і не вимагає ручного налаштування. Для індустрії це означає швидший, надійніший та масштабований мапінг там, де критичний кожен крок.

Що саме розробили в MIT

Інженери поєднали можливості сучасних моделей комп’ютерного зору та класичний комп’ютерний зір, щоб здолати обмеження, коли нейромережі можуть обробляти лише десятки кадрів. Замість побудови великої сцени «за один прохід», система інкрементально створює менші субмапи, а потім «склеює» їх у повну реконструкцію. Завдяки математично гнучким перетворенням, які враховують деформації, субмапи узгоджуються між собою навіть тоді, коли модель зору вносить неоднозначності у геометрію.

Результат – карта простору й оцінки положення камер, які робот використовує для орієнтації. Підхід не вимагає спеціальної оптики: достатньо відео зі звичайної камери смартфона.

Як це працює і чому це важливо

У задачі симультанного локалізування і картографування (SLAM) традиційні оптимізаційні методи часто «ламаються» у складних сценах або потребують попередньої калібровки. Навчальні моделі простіші у розгортанні, але впираються в ліміт близько 60 зображень за раз. MIT обійшов цей бар’єр: субмапи будуються з невеликих пакетів кадрів, а потім вирівнюються із застосуванням перетворень, що компенсують можливі «вигини» чи «розтягнення» геометрії. Тож система масштабується до довільної кількості зображень без втрати точності.

Що показали тести

Реконструкції створювалися для складних сцен – від тісних офісних коридорів до інтер’єру каплиці MIT – зі середньою похибкою менше 5 сантиметрів. Обчислення відбуваються майже в реальному часі, а камера не потребує калібрування. У підсумку система працювала швидше та точніше за інші підходи і не вимагала «ручних» налаштувань або додаткових інструментів.

Вхідні даніКадри зі звичайної камери, у тому числі відео зі смартфона
Калібровка камербез попередньої калібровки камер
Точністьпохибка менше 5 сантиметрів у 3D‑реконструкціях
Швидкодіяпобудова карт за лічені секунди, близька до режиму реального часу

Факти: систему презентують на ; її дослідники продемонстрували близькі до реального часу 3D‑реконструкції складних локацій зі «сирого» відео, отримуючи середню помилку, виміряну в менш ніж 5 сантиметрів.

Де це стане у пригоді

  • пошуково-рятувальні роботи – швидка навігація у завалених шахтах, тунелях і під завалами будівель;
  • носима розширена реальність – точні карти для VR/AR‑пристроїв у динамічних просторах;
  • склади та індустрія – майже в реальному часі локалізація роботів і швидке переміщення товарів;
  • будівництво та інспекції – документування стану об’єктів без складних вимірювальних систем.

Трохи бекграунду

Ключовий інсайт прийшов із класичної літератури 1980-1990‑х років: якщо нейромережа деформує локальні фрагменти сцени, то вирівнювати їх треба не лише обертаннями та зсувами, а й гнучкішими перетвореннями. Так вдалося стабільно склеювати субмапи без втрати геометрії. Підхід поєднує інтуїцію навчальних моделей і строгість оптимізацій, уникаючи складного «тонінгу» параметрів.

Хто стоїть за дослідженням

Роботу виконали дослідники MIT: Домінік Маджіо (аспірант, провідний автор), Хьонгтхе Лім (постдок) і Лука Карлоне (доцент кафедри аеронавтики та астронавтики, LIDS, директор MIT SPARK Laboratory). Дослідження буде представлено на Conference on Neural Information Processing Systems. Проєкт частково підтримали Національний науковий фонд США, Управління військово-морських досліджень США та Національний науковий фонд Кореї. Карлоне, який нині перебуває у відпустці як Amazon Scholar, завершив цю роботу до приєднання до компанії.

Що далі

Команда прагне підвищити надійність у ще складніших сценах і розгорнути технологію на реальних роботах у польових умовах. Це критично для сценаріїв, де секунди вирішують життя, а також для екосистеми автономних пристроїв, що працюють у людських просторах.

Карта, що встигає за ризиком

Система MIT показує, що інженерне «і» між навчанням і геометрією працює. Якщо ви будуєте роботів чи AR‑сервіси, зверніть увагу: довільна кількість зображень, точність до похибка менше 5 сантиметрів і робота без попередньої калібровки камер – це вже не амбіція, а інструмент, який можна впроваджувати.

FireВам може бути цікаво:
Web3-конференція Proof of Talk у Парижі: зустріч лідерів індустрії

Довідка
Комп'ютерний зір: Нові горизонти технологій
Комп'ютерний зір — це технологія, що дозволяє комп'ютерам "бачити" та інтерпретувати зображення, подібно до людського зору. Ця сфера постійно розвивається, відкриваючи нові можливості для промисловості, медицини, безпеки та багатьох інших галузей. Тут ви знайдете Gosta Media, де на вас чекає різноманітна й корисна інформація про комп'ютерний зір. Застосування комп'ютерного зору:…
Теги:
Повідомити про помилку
Знайшли помилку? Виділіть її в тексті та надішліть нам на info@gosta.ua
ПІДТРИМАТИ ПРОЄКТ
g Бажаєте збільшити онлайн присутність вашого бренду?

Отримайте
понад 5+ публікацій
на різних платформах
щомісяця

Замовити
Останні новини
Сьогодні
Попередні
Свіжі статті