З'явився глосарій специфічних термінів ШІ
З'явився глосарій специфічних термінів ШІ

З'явився глосарій специфічних термінів ШІ

Штучний інтелект змінює світ і одночасно винаходить цілком нову мову для опису того, як він це робить. Витратьте п'ять хвилин на читання про ШІ, і ви натрапите на LLM, RAG, RLHF та десяток інших термінів, які можуть викликати невпевненість навіть у дуже розумних людей у ​​світі технологій. Цей глосарій — наша спроба виправити це. Ми регулярно оновлюємо його в міру розвитку цієї галузі, тому вважайте його живим документом, подібним до систем ШІ, які він описує.


ЗУП

Загальний штучний інтелект, або ШІ, – це розпливчастий термін. Але загалом він стосується ШІ, який є більш здібним, ніж пересічна людина, у багатьох, якщо не в більшості, завдань. Генеральний директор OpenAI Сем Альтман колись описав ШІ як «еквівалент середньостатистичної людини, яку можна найняти колегою ». Тим часом,  статут OpenAI  визначає ШІ як «високоавтономні системи, які перевершують людей у ​​більшості економічно цінних робіт». Розуміння Google DeepMind дещо відрізняється від цих двох визначень; лабораторія розглядає ШІ як «ШІ, який принаймні такий же здібний, як і люди, у більшості когнітивних завдань». Розгублені? Не хвилюйтеся –  як і експерти, які перебувають на передовій досліджень ШІ .

ШІ-агент

Агент ШІ – це інструмент, який використовує технології ШІ для виконання низки завдань від вашого імені – понад те, що міг би зробити більш простий чат-бот зі ШІ – таких як ведення обліку витрат, бронювання квитків або столика в ресторані, або навіть написання та підтримка коду. Однак, як ми вже пояснювали раніше , у цьому новому просторі є багато рухомих елементів, тому «агент ШІ» може означати різні речі для різних людей. Інфраструктура також все ще створюється для реалізації передбачуваних можливостей. Але базова концепція передбачає автономну систему, яка може спиратися на кілька систем ШІ для виконання багатоетапних завдань.

Кінцеві точки API

Уявіть собі кінцеві точки API як «кнопки» на задній панелі програмного забезпечення, які інші програми можуть натискати, щоб вони виконували певні дії. Розробники використовують ці інтерфейси для створення інтеграцій, наприклад, дозволяючи одній програмі отримувати дані з іншої або дозволяючи агенту штучного інтелекту керувати сторонніми службами безпосередньо без участі людини, яка б вручну керувала кожним інтерфейсом. Більшість пристроїв розумного дому та підключених платформ мають ці приховані кнопки, навіть якщо звичайні користувачі ніколи їх не бачать і не взаємодіють з ними. Оскільки агенти штучного інтелекту стають більш спроможними, вони все частіше можуть самостійно знаходити та використовувати ці кінцеві точки, відкриваючи потужні, а іноді й несподівані, можливості для автоматизації.

Ланцюг думок

Якщо поставити просте запитання, людський мозок може відповісти, навіть не замислюючись надто багато, — наприклад, «яка тварина вища, жираф чи кіт?». Але в багатьох випадках, щоб дати правильну відповідь, часто потрібні ручка та папір, оскільки є проміжні кроки. Наприклад, якщо у фермера є кури та корови, і разом вони мають 40 голів та 120 ніг, вам може знадобитися записати просте рівняння, щоб отримати відповідь (20 курей та 20 корів).

У контексті штучного інтелекту, ланцюгове мислення для моделей великих мов означає розбиття проблеми на менші, проміжні кроки для покращення якості кінцевого результату. Зазвичай отримання відповіді займає більше часу, але відповідь, швидше за все, буде правильною, особливо в контексті логіки або кодування. Моделі міркувань розробляються на основі традиційних моделей великих мов та оптимізуються для ланцюгового мислення завдяки навчанню з підкріпленням.

(Див.: Модель великої мови )

Тільки цього тижня: Купуйте один абонемент, отримайте другий зі знижкою 50%


Ваш наступний раунд. Ваш наступний найм. Ваша наступна можливість прориву. Знайдіть її на TechCrunch Disrupt 2026, де понад 10 000 засновників, інвесторів та технологічних лідерів зберуться на три дні понад 250 тактичних сесій, потужних презентацій та інновацій, що визначають ринок. Зареєструйтесь до 8 травня, щоб отримати +1 за половину вартості.

Сан-Франциско, Каліфорнія | 13-15 жовтня 2026 року

Кодуючі агенти

Це більш конкретне поняття, ніж «агент штучного інтелекту», що означає програму, яка може самостійно, крок за кроком, виконувати дії для досягнення мети. Агент кодування — це спеціалізована версія, що застосовується до розробки програмного забезпечення. Замість того, щоб просто пропонувати код для перегляду та вставки людиною, агент кодування може писати, тестувати та налагоджувати код автономно, виконуючи ітеративну роботу методом проб і помилок, яка зазвичай займає день розробника. Ці агенти можуть працювати з усіма кодовими базами, виявляти помилки, проводити тести та просувати виправлення з мінімальним людським наглядом. Уявіть собі це як найм дуже швидкого стажера, який ніколи не спить і ніколи не втрачає концентрації — хоча, як і будь-який стажер, людині все одно потрібно переглядати роботу.

Обчисл.

Хоча термін «обчислення» є дещо багатозначним, він зазвичай стосується життєво важливої ​​обчислювальної потужності , яка дозволяє моделям штучного інтелекту працювати. Цей тип обробки живить індустрію штучного інтелекту, надаючи їй можливість навчати та розгортати свої потужні моделі. Цей термін часто є скороченням для позначення видів обладнання, яке забезпечує обчислювальну потужність — таких речей, як графічні процесори, центральні процесори, процесори TPU та інші форми інфраструктури, що формують основу сучасної індустрії штучного інтелекту.

Глибоке навчання

Підмножина самовдосконалюваного машинного навчання, в якому алгоритми ШІ розроблені з багатошаровою структурою штучної нейронної мережі (ШНМ). Це дозволяє їм створювати складніші кореляції порівняно з простішими системами на основі машинного навчання, такими як лінійні моделі або дерева рішень. Структура алгоритмів глибокого навчання черпає натхнення з взаємопов'язаних шляхів нейронів у людському мозку.

Моделі глибокого навчання штучного інтелекту здатні самостійно визначати важливі характеристики в даних, а не вимагати від інженерів-людей визначення цих ознак. Структура також підтримує алгоритми, які можуть навчатися на помилках і, шляхом процесу повторення та коригування, покращувати власні результати. Однак, системи глибокого навчання потребують великої кількості точок даних для отримання хороших результатів (мільйони або більше). Вони також зазвичай довше навчаються порівняно з простішими алгоритмами машинного навчання, тому витрати на розробку, як правило, вищі.

(Див.: Нейронна мережа )

Дифузія

Дифузія – це технологія, що лежить в основі багатьох моделей штучного інтелекту, що генерують мистецтво, музику та текст. Натхненні фізикою, системи дифузії повільно «руйнують» структуру даних – наприклад, фотографій, пісень тощо – додаючи шум, доки не залишиться нічого. У фізиці дифузія є спонтанною та незворотною – цукор, що дифундує в каву, не можна відновити до кубічної форми. Але системи дифузії в штучному інтелекті прагнуть навчитися свого роду процесу «зворотної дифузії» для відновлення знищених даних, отримуючи здатність відновлювати дані з шуму.

Дистиляція

Дистиляція – це техніка, яка використовується для вилучення знань з великої моделі штучного інтелекту за допомогою моделі «вчитель-учень». Розробники надсилають запити до моделі вчителя та записують результати. Відповіді іноді порівнюються з набором даних, щоб перевірити їхню точність. Ці результати потім використовуються для навчання моделі учня, яка навчається приблизно відображати поведінку вчителя.

Дистиляцію можна використовувати для створення меншої та ефективнішої моделі на основі більшої моделі з мінімальними втратами при дистиляції. Ймовірно, саме так OpenAI розробила GPT-4 Turbo, швидшу версію GPT-4.

Хоча всі компанії, що займаються штучним інтелектом, використовують дистиляцію внутрішньо, деякі компанії, можливо, також використовували її, щоб наздогнати передові моделі. Дистиляція у конкурента зазвичай порушує умови надання послуг API штучного інтелекту та помічників у чаті.

Точне налаштування

Це стосується подальшого навчання моделі штучного інтелекту для оптимізації продуктивності для більш конкретного завдання або області, ніж раніше було основним пунктом її навчання — зазвичай шляхом введення нових, спеціалізованих (тобто орієнтованих на завдання) даних. 

Багато стартапів у сфері штучного інтелекту беруть великі мовні моделі як відправну точку для створення комерційного продукту, але прагнуть підвищити корисність для цільового сектору чи завдання, доповнюючи попередні цикли навчання тонким налаштуванням на основі власних знань та досвіду в конкретній предметній області.

(Див.: Модель великої мови [LLM] )

ГАН

GAN, або генеративно-змагальна мережа (Generative Adversarial Network), – це тип фреймворку машинного навчання, який лежить в основі деяких важливих розробок у генеративному штучному інтелекті, коли йдеться про створення реалістичних даних, включаючи (але не лише) інструменти для глибоких фейків. GAN передбачають використання пари нейронних мереж, одна з яких використовує свої навчальні дані для генерації результату, який передається іншій моделі для оцінки.

Дві моделі, по суті, запрограмовані на спроби перевершити одна одну. Генератор намагається провести свій вихідний сигнал повз дискримінатор, тоді як дискримінатор працює над виявленням штучно згенерованих даних. Це структуроване змагання може оптимізувати вихідні дані ШІ, щоб вони були більш реалістичними без необхідності додаткового втручання людини. Хоча GAN найкраще працюють для вужчих застосувань (таких як створення реалістичних фотографій чи відео), а не для ШІ загального призначення.

Галюцинації

Галюцинації – це улюблений термін індустрії штучного інтелекту для позначення моделей штучного інтелекту, які вигадують речі, буквально генерують неправильну інформацію. Очевидно, що це величезна проблема для якості штучного інтелекту. 

Галюцинації створюють результати GenAI, які можуть вводити в оману та навіть призвести до реальних ризиків — з потенційно небезпечними наслідками (уявіть собі запит щодо здоров'я, який повертає шкідливу медичну пораду).

Вважається, що проблема фальсифікації інформації штучним інтелектом виникає внаслідок прогалин у навчальних даних. Галюцинації сприяють просуванню до дедалі спеціалізованіших та/або вертикальних моделей штучного інтелекту, тобто специфічних для певної предметної області штучних інтелектів, які потребують вужчої експертизи, як спосіб зменшення ймовірності прогалин у знаннях та зменшення ризиків дезінформації.

Висновок

Висновок – це процес запуску моделі штучного інтелекту. Це вільний доступ моделі для здійснення прогнозів або висновків на основі раніше перевірених даних. Щоб було зрозуміло, висновок неможливий без навчання; модель повинна вивчити закономірності в наборі даних, перш ніж вона зможе ефективно екстраполювати з цих навчальних даних.

Багато типів обладнання можуть виконувати логічний висновок, починаючи від процесорів смартфонів і закінчуючи потужними графічними процесорами та спеціально розробленими прискорювачами штучного інтелекту. Але не всі вони можуть запускати моделі однаково добре. Дуже великим моделям знадобиться багато часу, щоб робити прогнози, скажімо, на ноутбуці, порівняно з хмарним сервером з високопродуктивними чіпами штучного інтелекту.

[Див.: Навчання ]

Модель великої мови (LLM)

Моделі великих мов, або LLM, – це моделі штучного інтелекту, що використовуються популярними помічниками ШІ, такими як ChatGPT , Claude , Gemini від Google , AI Llama від Meta , Microsoft Copilot або Le Chat від Mistral . Коли ви спілкуєтеся з помічником ШІ, ви взаємодієте з моделлю великої мови, яка обробляє ваш запит безпосередньо або за допомогою різних доступних інструментів, таких як веб-браузер або інтерпретатори коду.

LLM – це глибокі нейронні мережі, що складаються з мільярдів числових параметрів ( або ваг, див. нижче ), які вивчають зв'язки між словами та фразами та створюють представлення мови, свого роду багатовимірну карту слів.

Ці моделі створюються шляхом кодування шаблонів, знайдених у мільярдах книг, статей та транскриптів. Коли ви запитуєте LLM, модель генерує найімовірніший шаблон, який відповідає запиту.

(Див.: Нейронна мережа )

Кеш-пам'ять

Кеш пам'яті – це важливий процес, який покращує логічний висновок (це процес, за допомогою якого штучний інтелект працює над генерацією відповіді на запит користувача). По суті, кешування – це метод оптимізації, розроблений для підвищення ефективності логічного висновку. ШІ, очевидно, керується складними математичними обчисленнями, і щоразу, коли ці обчислення виконуються, вони використовують більше енергії. Кешування призначене для зменшення кількості обчислень, які модель може виконати, шляхом збереження певних обчислень для майбутніх запитів та операцій користувачів. Існують різні види кешування пам'яті, хоча одним з найбільш відомих є кешування KV (або кешування ключ-значення) . Кешування KV працює в моделях на основі трансформаторів і підвищує ефективність, забезпечуючи швидші результати, зменшуючи кількість часу (і алгоритмічної праці), необхідної для генерації відповідей на запитання користувачів.   

(Див.: Висновок )  

Нейронна мережа

Нейронна мережа стосується багатошарової алгоритмічної структури, яка лежить в основі глибокого навчання — і, в ширшому сенсі, всього буму інструментів генеративного штучного інтелекту після появи моделей великих мов програмування. 

Хоча ідея натхнення щільно взаємопов'язаними шляхами людського мозку як структури проектування алгоритмів обробки даних сягає ще 1940-х років, саме набагато пізніший розвиток графічного процесора (GPU) — завдяки індустрії відеоігор — по-справжньому розкрив можливості цієї теорії. Ці чіпи виявилися добре пристосованими для навчання алгоритмів з набагато більшою кількістю шарів, ніж це було можливо в попередні епохи, що дозволило системам штучного інтелекту на основі нейронних мереж досягати набагато кращої продуктивності в багатьох областях, включаючи розпізнавання голосу, автономну навігацію та розробку ліків.

(Див.: Модель великої мови [LLM] )

Відкритий код

Відкритий вихідний код стосується програмного забезпечення — або, все частіше, моделей штучного інтелекту — де базовий код є загальнодоступним для використання, перевірки або зміни будь-ким. У світі штучного інтелекту яскравим прикладом є сімейство моделей Llama від Meta; Linux — відома історична паралель в операційних системах. Підходи з відкритим вихідним кодом дозволяють дослідникам, розробникам і компаніям по всьому світу будувати на базі роботи один одного, прискорюючи прогрес і дозволяючи проводити незалежні аудити безпеки, які закриті системи не можуть легко забезпечити. Закритий вихідний код означає, що код є приватним — ви можете використовувати продукт, але не бачити, як він працює, як у випадку з моделями GPT OpenAI — ця відмінність стала однією з визначальних дискусій в індустрії штучного інтелекту.

Паралелізація

Паралелізація означає виконання багатьох речей одночасно, а не одну за одною — наприклад, 10 співробітників працюють над різними частинами проекту одночасно, замість того, щоб один співробітник робив усе послідовно. У штучному інтелекті паралелізація є фундаментальною як для навчання, так і для логічного висновку: сучасні графічні процесори спеціально розроблені для виконання тисяч обчислень паралельно, що є однією з головних причин, чому вони стали апаратною основою галузі. Оскільки системи штучного інтелекту стають складнішими, а моделі — більшими, здатність паралелізувати роботу на багатьох чіпах і багатьох машинах стала одним з найважливіших факторів, що визначають, наскільки швидко та економічно ефективно можна створювати та розгортати моделі. Дослідження кращих стратегій паралелізації зараз є самостійною галуззю досліджень.

Рамагеддон

RAMageddon – це новий цікавий термін для позначення не дуже цікавої тенденції, яка охоплює технологічну індустрію: постійно зростаючої нестачі оперативної пам'яті з довільним доступом або чіпів оперативної пам'яті, які живлять практично всі технологічні продукти, які ми використовуємо у повсякденному житті. З розквітом індустрії штучного інтелекту найбільші технологічні компанії та лабораторії штучного інтелекту, які змагаються за те, щоб мати найпотужніший та найефективніший штучний інтелект, купують стільки оперативної пам'яті для живлення своїх центрів обробки даних, що для решти з нас не залишається багато. А цей дефіцит постачання означає, що те, що залишається, стає все дорожчим і дорожчим.

Це включає такі галузі, як ігри (де великим компаніям довелося підвищити ціни на консолі, оскільки стало важче знайти мікросхеми пам'яті для їхніх пристроїв), споживча електроніка (де дефіцит пам'яті може спричинити найбільше падіння поставок смартфонів за понад десять років) та загальні корпоративні обчислення (оскільки ці компанії не можуть отримати достатньо оперативної пам'яті для власних центрів обробки даних). Очікується, що зростання цін зупиниться лише після того, як закінчиться страшний дефіцит, але, на жаль, насправді немає жодних ознак того, що це станеться найближчим часом.  

Навчання з підкріпленням

Навчання з підкріпленням — це спосіб навчання ШІ, де система навчається, пробуючи різні речі та отримуючи винагороди за правильні відповіді, як-от дресирування вашого улюбленого вихованця ласощами, за винятком того, що «улюбленець» у цьому сценарії є нейронною мережею, а «ласощі» — математичним сигналом, що вказує на успіх. На відміну від навчання з учителем, де модель навчається на фіксованому наборі даних із позначеними прикладами, навчання з підкріпленням дозволяє моделі досліджувати своє середовище, вживати заходів та постійно оновлювати свою поведінку на основі отриманого зворотного зв'язку. Цей підхід виявився особливо потужним для навчання ШІ іграм, керуванню роботами та, останнім часом, покращенню здатності міркувати у великих мовних моделях. Такі методи, як навчання з підкріпленням від людського зворотного зв'язку, або RLHF, зараз є центральними для того, як провідні лабораторії ШІ налаштовують свої моделі, щоб вони були більш корисними, точними та безпечними.

Токен

Коли йдеться про комунікацію між людиною та машиною, існують деякі очевидні проблеми — люди спілкуються за допомогою людської мови, тоді як програми штучного інтелекту виконують завдання за допомогою складних алгоритмічних процесів, що базуються на даних. Токени заповнюють цю прогалину: вони є основними будівельними блоками комунікації між людиною та штучним інтелектом, що представляють окремі сегменти даних, оброблені або створені LLM. Вони створюються за допомогою процесу, який називається токенізацією, що розбиває необроблений текст на невеликі одиниці, які мовна модель може перетравити, подібно до того, як компілятор перетворює людську мову на двійковий код, який може зрозуміти комп'ютер. У корпоративних умовах токени також визначають вартість — більшість компаній, що займаються штучним інтелектом, стягують плату за використання LLM за кожен токен, тобто чим більше використовує бізнес, тим більше він платить.

Пропускна здатність токенів

Отже, знову ж таки, токени – це невеликі фрагменти тексту, часто частини слів, а не цілі, на які моделі мови ШІ розбивають мову перед обробкою; вони приблизно аналогічні «словам» для розуміння робочих навантажень ШІ. Пропускна здатність стосується того, скільки може бути оброблено за певний період часу, тому пропускна здатність токенів, по суті, є мірою того, скільки роботи ШІ може обробити система одночасно. Висока пропускна здатність токенів є ключовою метою для команд інфраструктури ШІ, оскільки вона визначає, скільки користувачів модель може обслуговувати одночасно та як швидко кожен з них отримує відповідь. Дослідник ШІ Андрій Карпатій описав своє відчуття тривоги, коли його підписки на ШІ простоюють, – це відчуття, яке він мав, будучи аспірантом, коли дороге комп’ютерне обладнання використовувалося не повністю – почуття, яке відображає, чому максимізація пропускної здатності токенів стала чимось на зразок одержимості в цій галузі.

Навчання

Розробка штучного інтелекту з машинним навчанням включає процес, відомий як навчання. Простими словами, це стосується введення даних, щоб модель могла навчатися на шаблонах і генерувати корисні результати. По суті, це процес реагування системи на характеристики даних, який дозволяє їй адаптувати результати для досягнення бажаної мети — будь то ідентифікація зображень котів чи створення хайку на вимогу.

Навчання може бути дорогим, оскільки воно вимагає багато ресурсів, а необхідні обсяги мають тенденцію до зростання — саме тому гібридні підходи, такі як точне налаштування штучного інтелекту на основі правил за допомогою цільових даних, можуть допомогти керувати витратами, не починаючи повністю з нуля.

[Див.: Висновок ]

Трансферне навчання

Методика, за якої попередньо навчена модель штучного інтелекту використовується як відправна точка для розробки нової моделі для іншого, але зазвичай пов'язаного завдання, що дозволяє повторно застосувати знання, отримані в попередніх циклах навчання. 

Трансферне навчання може призвести до економії ефективності завдяки скороченню розробки моделі. Це також може бути корисним, коли дані для завдання, для якого розробляється модель, дещо обмежені. Але важливо зазначити, що цей підхід має обмеження. Моделі, які покладаються на трансферне навчання для отримання узагальнених можливостей, ймовірно, потребуватимуть навчання на додаткових даних, щоб добре працювати у своїй галузі.

(Див.: Точне налаштування )

Ваги

Вагові коефіцієнти є ключовими для навчання ШІ, оскільки вони визначають, наскільки важливими (або вагою) є різні ознаки (або вхідні змінні) в даних, що використовуються для навчання системи, — тим самим формуючи вихідні дані моделі ШІ. 

Іншими словами, ваги – це числові параметри, які визначають, що є найважливішим у наборі даних для даного навчального завдання. Вони досягають своєї функції шляхом застосування множення до вхідних даних. Навчання моделі зазвичай починається з ваг, які призначаються випадковим чином, але в міру розгортання процесу ваги коригуються, оскільки модель прагне отримати результат, який ближче відповідає цільовому показнику.

Наприклад, модель штучного інтелекту для прогнозування цін на житло, навчена на історичних даних про нерухомість для цільового місця розташування, може включати ваги для таких характеристик, як кількість спалень і ванних кімнат, чи є нерухомість окремою чи напіввідокремленою, чи є в неї паркувальне місце, гараж тощо. 

Зрештою, ваги, які модель надає кожному з цих вхідних даних, відображають, наскільки вони впливають на вартість властивості, виходячи з заданого набору даних.

Втрата валідації

Втрата валідації – це число, яке показує, наскільки добре модель ШІ навчається під час навчання, і чим нижче, тим краще. Дослідники уважно відстежують його як своєрідний табель звітів у режимі реального часу, використовуючи його для вирішення, коли зупинити навчання, коли коригувати гіперпараметри або чи досліджувати потенційну проблему. Однією з ключових проблем, яку він допомагає виявити, є перенавчання, стан, за якого модель запам'ятовує дані навчання, а не справді вивчає шаблони, які можна узагальнити для нових ситуацій. Уявіть собі це як різницю між студентом, який справді розуміє матеріал, і тим, хто просто запам'ятав минулорічний іспит – втрата валідації допомагає виявити, ким із них стає ваша модель.

Источник материала
loader
loader