Ян ЛеКун: ШІ не розуміє світ, але скоро це зміниться
Ян ЛеКун: ШІ не розуміє світ, але скоро це зміниться

Ян ЛеКун: ШІ не розуміє світ, але скоро це зміниться

Сучасні системи штучного інтелекту демонструють вражаючі можливості: вони пишуть тексти, створюють зображення та навіть допомагають у наукових дослідженнях. Ця потужність часто змушує нас вірити, що ми вже на порозі створення повноцінного інтелекту. Однак, попри зовнішні ефекти, багато провідних експертів вважають, що нинішній ШІ — це система, яка насправді не розуміє, що робить.

Ця думка належить одному з найвидатніших умів сучасної науки — Яну ЛеКуну, лауреату премій Тюрінга та Королеви Єлизавети II, віце-президенту Meta. Його роздуми про справжні обмеження й майбутні напрямки розвитку ШІ, висловлені у відео на YouTube-каналі This Is World, дають чітке розуміння, чому мовні моделі досі далекі від людського інтелекту і що потрібно зробити для подолання цього бар’єру.

Чому сучасний ШІ вміло імітує, а не розуміє

Головна теза Яна ЛеКуна — ми помилково називаємо сучасний ШІ розумним. Він вважає, що ми «обмануті» через його здатність майстерно маніпулювати мовою. Великі мовні моделі тренуються на гігантських обсягах текстових даних, і це дозволяє їм генерувати цілком осмислені речення, але вони не мають базового розуміння причинно-наслідкових зв’язків, не можуть планувати, не мають постійної пам’яті, а головне — не розуміють фізичного світу.

ЛеКун нагадує, що розвиток ШІ ніколи не був лінійним. В історії цієї науки вже були так звані «зими ШІ», зокрема, в середині 90-х років. Тоді прогрес зупинився через надмірну вартість обчислювальної потужності та брак даних. Це слугує уроком, що технологічні прориви вимагають не лише ідей, а й доступності ресурсів. Сьогодні у нас є і те, й інше, але для повноцінного інтелекту цього все ще недостатньо.

Емоції як функція, а не почуття

Коли ми говоримо про ШІ, що розуміє світ, виникає питання про його емоції та свідомість. ЛеКун переконаний, що майбутні системи, які будуть здатні передбачати результати своїх дій у фізичному світі, матимуть певні емоції. Вони будуть функціональними, а не такими, як у людей. Наприклад, відчуття радості чи захвату може виникнути, коли дії системи призводять до очікуваного позитивного результату. Відчуття страху — коли вона очікує негативних наслідків. Це, по суті, системи передбачення. Однак, за словами ЛеКуна, такі емоції, як злість чи ревнощі, не будуть вбудовані, оскільки вони не сприяють раціональному ухваленню рішень.

Щодо свідомості, то, на думку вченого, ми досі не маємо чіткого визначення цього поняття. Неможливо виміряти те, що ми не можемо визначити, а отже, питання про свідомість ШІ залишається суто філософським.

Три парадигми навчання та їхні реальні обмеження

Щоб зрозуміти, чому сучасний ШІ має такі обмеження, потрібно розглянути три основні парадигми машинного навчання.

Навчання з учителем — це найпоширеніший метод, коли система отримує готові відповіді. Вона бачить тисячі зображень із підписом «стіл» і вчиться розпізнавати столи. Це ефективно для багатьох завдань, але вимагає величезних обсягів розмічених даних.

Навчання з підкріпленням — це метод спроб і помилок, коли за правильні дії система отримує винагороду, а за неправильні — покарання. Це працює для навчання гри в шахи, де кількість можливих ходів обмежена, але абсолютно непрактично для реального світу. Щоб навчити автомобіль самостійно їздити, йому довелося б пережити мільйони «аварій» у віртуальному чи реальному світі, що є неприйнятним.

Навчання із самоконтролем — найпрогресивніший метод. Він лежить в основі мовних моделей, які вчаться передбачати наступні слова в реченнях. Цей підхід чудово працює з мовою, оскільки вона дискретна, але не підходить для навчання в реальному світі.

Практичний висновок: подолання парадоксу Моравека

Ян ЛеКун наголошує на парадоксі Моравека, що пояснює найбільшу проблему ШІ: машини легко вирішують складні математичні задачі, але не можуть виконати прості фізичні дії, з якими справляється навіть кішка.

Цей парадокс є ключовим для розуміння того, чому ми досі не маємо повністю автономних автомобілів. За словами ЛеКуна, обсяг текстових даних, на яких тренується ШІ, величезний, але обсяг сенсорних даних (візуальних, тактильних), які дитина отримує за перші чотири роки життя, ще більший і значно багатший. Саме тому Ілон Маск, який протягом останніх восьми років постійно обіцяє, що Tesla досягне п'ятого рівня автономності вже «наступного року», щоразу помиляється.

Рекомендації для розробників і компаній:
  • Зосередьтеся на фізиці. Якщо ви розробляєте ШІ-систему, яка має взаємодіяти з реальним світом, фокус на її здатності розуміти фізичні закони є критичним. Моделі, що базуються виключно на мовних даних, ніколи не будуть достатньо надійними для управління роботами чи автомобілями.
  • Опануйте навчання із самоконтролем. Ця парадигма є майбутнім. Замість того щоб покладатися на розмічені дані, вчіть ваші моделі самостійно виявляти закономірності у великих масивах нерозмічених даних.

Відкрите майбутнє: колаборація та прикладні кейси

За словами Яна ЛеКуна, наступне десятиліття стане «десятиліттям робототехніки». Прогрес у сфері ШІ дозволить створити роботів, здатних не просто виконувати запрограмовані дії, а адаптуватися до непередбачуваних умов.

Для прискорення цього процесу вчений рішуче підтримує відкриті дослідження та відкрите програмне забезпечення. Приклад PyTorch, що використовується 70% світової індустрії ШІ, доводить, що спільна робота приносить набагато більше результатів, ніж закриті розробки.

Практичний приклад: ЛеКун, як член ради директорів, підтримує нью-йоркський стартап, що використовує ШІ для діагностики раку молочної залози. За його словами, медичні застосунки глибокого навчання є надзвичайно перспективними. Компанія, яку заснував його колишній колега, працює над системою, що не лише діагностує, а й допомагає розробляти стратегію лікування, використовуючи зображення та інші медичні дані. Це демонструє, як ШІ може приносити реальну користь уже сьогодні.

Проривна архітектура JEPA: шлях до справжнього інтелекту

Щоб подолати обмеження навчання із самоконтролем, Ян ЛеКун та його команда працюють над новою архітектурою під назвою JEPA (Joint Embedding Predictive Architecture). Її не слід розглядати як заміну мовним моделям, а як спосіб навчити ШІ розуміти відео, звук та інші фізичні дані.

Сучасні моделі намагаються передбачити кожен піксель у наступному кадрі відео, що є неможливим через нескінченну кількість деталей. Натомість, JEPA вчиться створювати абстрактне уявлення про дані та робити передбачення в цьому абстрактному просторі. Завдяки цьому модель фокусується на найважливіших аспектах, не звертаючи уваги на другорядні. Це дозволить ШІ розвинути інтуїтивне розуміння фізики, подібно до того, як це відбувається у людського мозку. Саме цей прорив, на думку ЛеКуна, відкриє шлях до створення повноцінного інтелекту, що не лише генерує текст, а й по-справжньому розуміє навколишній світ.

Джерело матеріала
loader
loader