Як зрозуміти людський розум через машини? На це запитання у MIT відповідає Філліп Ізола – щойно затверджений на постійній посаді доцент кафедри MIT EECS. Його підхід простий за формою, але амбітний за змістом: вивчати людиноподібний інтелект через обчислення. У фокусі – репрезентаційне навчання, самонавчання (self-supervised learning) і те, як у ШІ виникає внутрішня "карта" світу. Дослідження Ізоли підводять до нової рамки – Платонічної гіпотези репрезентацій, що пояснює, чому різні моделі "бачать" реальність схоже.
Хто такий Філліп Ізола і чому це важливо
Ізола виріс у Сан‑Франциско, захоплювався природничими науками, а в Єлі відкрив для себе когнітивістику. В MIT він зробив дисертацію про перцептивне групування, дослідивши, як люди й алгоритми об'єднують частини зображення в цілі об'єкти. Після PhD працював у Берклі, де розвивав image-to-image translation – ранній напрям генеративних моделей, що перетворюють ескіз на фото або розфарбовують чорно-білі знімки. Перед поверненням до MIT він рік працював у OpenAI, аби зануритися в підкріплювальне навчання та побачити, як фундаментальна наука зустрічається з інженерією.
Як машини "бачать" світ: репрезентаційне навчання
Команда Ізоли вивчає, як моделі – від мовних до візуальних і аудіо – конструюють внутрішні відображення зовнішнього світу. Попри різні завдання й дані, великі системи за архітектурою та динамікою навчання демонструють збіжність у внутрішніх представленнях. Це важливо: спільна "геометрія сенсів" вказує, що багатомодальні ШІ здатні узгоджувати мову, зображення й звук на рівні спільної абстракції. Така узгодженість відкриває шлях до надійнішого перенесення знань між задачами й доменами.
"Платонічна" гіпотеза: спільна модель реальності
На основі цих спостережень Ізола та колеги запропонували Платонічну гіпотезу репрезентацій (Platonic Representation Hypothesis): зі зростанням масштабів і даних різні моделі прагнуть до узагальненого, спільного опису причинної структури світу. Іншими словами, мова, візуальні та аудіальні дані – це різні проєкції однієї реальності, і моделі, навчаючись на кожній із них, поступово сходяться до подібної "карти" причинно-наслідкових зв'язків.
"Language, images, sound — all of these are different shadows on the wall... If you train models on all these different types of data, they should converge on that world model in the end."
Самонавчання без міток: менше залежності від ручної розмітки
Самонавчання (self-supervised learning) дозволяє моделям групувати пікселі чи слова без підписів, що знімає залежність від дорогих і обмежених міток даних. Це критично для масштабування ШІ в реальних галузях – від безпеки на дорогах до медичної діагностики.
- Автономні системи: узагальнення сцен і дорожніх ситуацій без повної розмітки.
- Медична візуалізація: виявлення структур на МРТ/КТ на базі величезних архівів без ручного підписування.
- Робототехніка: формування уявлень про об'єкти та дії для навчання з невеликими датасетами.
- Мова та переклад: побудова якісних представлень з неанотованих корпусів.
Маршрут дослідника: Сан‑Франциско – Єль – MIT – Берклі – OpenAI – MIT
Ізола зміцнив фундамент у когнітивних науках у Єлі, доповнив його візією комп'ютерних наук у MIT, а в Берклі збалансовував принципи та бенчмарки. Рік у OpenAI дав свободу експериментів і досвід швидкого прототипування ідей на практиці. Сьогодні він будує власну групу в MIT, що об'єднує когнітивну науку та машинне навчання для розкриття загальних механізмів інтелекту.
Освіта, де попит випереджає час
У співавторстві з колегами Ізола запустив курс курс 6.7960 (Deep Learning) чотири роки тому. На старті було близько 30 студентів, а цієї осені їх стало понад 700 – показник вибухового інтересу до глибинного навчання й швидкого оновлення знань у галузі.
Що це означає для безпеки й економіки
Якщо моделі сходяться до спільного "ядра" репрезентацій, інтеграція ШІ у сервіси та виробництво стане передбачуванішою – простіше виявляти збої, пояснювати результати та передавати знання між доменами. Це зменшує витрати на дані й прискорює розробку продуктів на перетині мови, зору та аудіо. Водночас наукове розуміння того, "який" інтелект мають машини, допомагає безпечніше впроваджувати їх у суспільство – від регуляцій до етики використання.
Погляд уперед: AGI як рубіж, а не фініш
Ізола не драматизує перехід до AGI, але вважає його недалеким і таким, що передбачає співіснування людей і машин. Це зсуває увагу з "коли?" на "як жити з цим?". На порядку денному – контроль, відповідальність і корисні застосунки пост‑AGI епохи.
"Я не думаю, що ШІ зробить усе за нас. Йдеться про співіснування розумних машин і людей, які зберігають агентність і контроль. Інтелект може виявитися досить простим, щойно ми його зрозуміємо".
Підсумок без ілюзій
Штучний інтелект не магія, а інженерія й наука про представлення світу. Робота Ізоли показує: коли моделі навчаються на різних "тінях" реальності, вони прагнуть до спільної сутності. Для читача це означає практичне: очікуйте швидшого злиття мовних, візуальних і аудіосервісів, кращих пояснень рішень моделей і ширшого застосування ШІ – від лікарень до авто та освіти. А головне – шанс зрозуміти себе краще через те, як "мислять" машини.