OpenAI представила GPT-4 – последнюю разработку в линейке языковых моделей искусственного интеллекта. Компания описывает ее как более безопасную, креативную и полезную. А мы разберемся, какие перспективы использования новинка открывает перед простыми пользователями.
Редакция MC.today выяснила что такое GPT-4, почему эту модель ИИ называют мультимодальной, чем она отличается от GPT-3.5, какие имеет ограничения и как получить к ней доступ уже сегодня.
Содержание
- Что такое GPT-4
- История создания GPT-4
- Чем GPT-4 отличается от предшественников
- Ограничения и недостатки GPT-4
- Как получить доступ к GPT-4
- Возможности и перспективы
Что такое GPT-4
GPT-4 – это новейшая модель ИИ от компании OpenAI, которая стала четвертой в линейке языковых моделей GPT и первой мультимодальной. Это значит, что она может обрабатывать не только текст, но и другие виды информации, – например, изображения.
here is GPT-4, our most capable and aligned model yet. it is available today in our API (with a waitlist) and in ChatGPT+.https://t.co/2ZFC36xqAJ
it is still flawed, still limited, and it still seems more impressive on first use than it does after you spend more time with it.
— Sam Altman (@sama) March 14, 2023
«Вот GPT-4, наша самая мощная и согласованная модель, – написал 14 марта в Twitter генеральный директор OpenAI Сэм Альтман. – С этого дня она доступна в нашем API (со списком ожидания) и в ChatGPT Plus»
Поисковая система Bing
Но, как оказалось, некоторые пользователи получили доступ к новой технологии намного раньше. Так, корпорация Microsoft подтвердила, что последние версии ее поисковой системы Bing тайно работали с GPT-4 еще до официального запуска модели.
Когда Microsoft запустила новый Bing, ходили слухи о том, что он уже использует GPT-4. Так что это сложно назвать сенсацией. Интересен тут другой момент: корпорация не побоялась поставить на карту свою репутацию, а значит была полностью уверена в возможностях и перспективах нового детища OpenAI.
CEO OpenAI Sam Altman / Источник: Flickr.com
В отчете о GPT-4 технические характеристики модели не указаны явно. Некоторые СМИ поспешили процитировать слухи о том, что число параметров увеличилось со 175 млрд. до 100 трлн. Однако сам CEO OpenAI Сэм Альтман назвал их «полной чушью».
«В обычном разговоре разница между GPT-3.5 и GPT-4 может быть едва уловимой, — указывает OpenAI в анонсе GPT-4. – Разница проявляется, когда сложность задачи достигает достаточного порога. GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5».
GPT-4 способен понимать, что происходит на картинках, хотя в данном случае это не совсем просто
Одной из самых интересных фишек GPT-4 является его способность понимать изображения. Например, если спросить его, что происходит на картинке выше, он ответит: «мужчина гладит одежду на гладильной доске, которая прикреплена к крыше автомобиля».
История создания GPT-4
Модель GPT-4 не появилась на пустом месте. Она является самым последним поколением семейства GPT. Аббревиатура расшифровывается, как Generative Pre-trained Transformer – предварительно обученный трансформер для генерации текста.
Обучение большой языковой модели
Трансформер тут – не название фантастического робота, а архитектура нейронной сети, которую в 2017 году разработали исследователи Google. Именно изобретение Трансформера вывело разработку ИИ из состояния застоя.
Главная особенность этой архитектуры в ее гибкости, масштабируемости и способности к параллельной обработке данных. Инженеры из OpenAI первыми доказали, что Трансформер можно использовать для генерации текстов.
Их языковая модель GPT-1 легко превзошла всех своих предшественников в умении работать с большими объемами информации. В 2019 году ее сменила GPT-2 с объемом тренировочного датасета в 40 Гб и полутора миллиардами параметров. А еще через год появилась GPT-3 со 175 млрд параметров и увеличенным до 420 Гб объемом данных.
Интерфейс ChatGPT
После дополнительного обучения GPT-3 с помощью обратной связи от тестеров, языковой модели присвоили индекс GPT-3.5. В сочетании с удобным интерфейсом она стала тем самым ChatGPT, который заслужил титул самой важной инновации XXI века от Билла Гейтса.
Для обучения GPT-4 инженеры OpenAI совместно с платформой облачных вычислений Microsoft Azure разработали с нуля специальный суперкомпьютер. Понадобилось 6 месяцев, чтобы с его помощью обучить GPT-4 на еще большем наборе данных и настроить с учетом реального опыта взаимодействия с людьми, который дала эксплуатация ChatGPT.
Следует заметить, что сам по себе ChatGPT не является версией языковой модели. И хотя его часто отождествляют с GPT-3.5, он выступает лишь способом взаимодействия с этой моделью. А теперь в версии Plus это еще и способ взаимодействия с GPT-4.
Чем GPT-4 отличается от предшественников
Чтобы лучше понять разницу между привычным нам чат-ботом и его усовершенствованной версией, перечислим пять основных различий.
GPT-4 может понимать изображения
Мультимодальность позволяет GPT-4 понимать более одного «модального» типа информации. Все предыдущие модели GPT могли обрабатывать только текст. В отличие от них, GPT-4 способен анализировать изображения и понимать, что на них изображено.
ChatGPT анализирует изображения и понимает юмор / Источник: OpenAI
В сочетании с возросшими логическими способностями это приводит к удивительным результатам. Например, GPT-4 не только понимает, что на картинке изображен огромный разъем для iPhone, но может объяснить почему это смешно! А ведь юмор долго считали недостижимой для ИИ вершиной.
Многообещающим выглядит также сотрудничество OpenAI с платформой Be My Eyes для незрячих людей. Приложение на основе GPT-4 позволит слепым и слабовидящим получить звуковое описание всего, что видит их телефон.
Виртуальный помощник определяет содержимое холодильника и предлагает на этой основе рецепты
Например, если пользователь отправит фотографию своего холодильника изнутри, виртуальный помощник сможет определить, что в нем находится. Кроме этого он может описать узор на платье, перевести этикетку, прочитать карту и объяснить, как добраться до нужного отдела в магазине.
GPT-4 сложнее сбить с толку
OpenAI провела огромную работу, чтобы сделать GPT-4 более безопасным. В результате модель на 82% реже предшественницы отвечает на запросы о запрещенном контенте. Существенно изменились в лучшую сторону также ответы на деликатные и неоднозначные запросы.
Безопасность – приоритет OpenAI
Между тем остается вероятность того, что GPT-4 может сгенерировать вредоносный контент. Условно его можно разбить на 5 групп риска.
- Советы, которые могут привести к самовредительству.
- Преследование, унижение и ненависть.
- Материалы эротического характера.
- Информация, которая может быть полезной для планирования нападений или насилия.
- Инструкции по поиску незаконного содержания.
GPT-4 может помнить в ходе разговора больше текста
Большие языковые модели обучались на миллионах веб-страниц. Но когда вы пытаетесь ввести в ChatGPT страницу текста, может выясниться, что это слишком много. Аналогичным образом ответ чат-бота часто прерывается после 4–5 абзаца.
Дело в том, что существует предел количества информации, которую языковая модель может «держать в уме». Кстати, подробнее об этом мы писали в статье про интеграцию GPT-помощника в Google Docs.
Для старой версии ChatGPT этот предел составлял 4096 токенов. Это примерно соответствует 8 тыс английских слов, но в разы меньше – при использовании других языков. К примеру, в английской фразе «What is your favorite animal» система выделяет 5 токенов. А в украинской фразе «Яка у тебе улюблена тварина» – 31 токен!
В GPT-4 проблема решена: максимальное количество токенов в запросе возросло до 32 768. Это примерно 50 страниц текста. Вполне достаточно для содержательной беседы с ИИ на любую тему.
GPT-4 имеет улучшенную многоязычность
Изначально ответы ChatGPT на английском были заметно лучше аналогичных на других языках. Поэтому многие пользователи были вынуждены делать двойную работу: сначала переводить запрос на английский, а потом переводить ответ с английского.
GPT-4 подучил языки
GPT-4 сделал в этом направлении шаг вперед. Теперь ответы на итальянском, украинском, корейском и еще 26 языках почти такие же корректные, как и на английском.
GPT-4 может менять свое поведение по требованию
Разработчики внедрили в GPT-4 расширенный инструментарий управляемости. Он позволяет отправлять через API системные сообщения, которые меняют стиль работы ИИ, задают тон его ответов и устанавливают определенные сценарии взаимодействия с человеком.
GPT-4 может менять тон ответов и сценарии взаимодействия с человеком
Например, системное сообщение может выглядеть так: «Вы репетитор, который всегда отвечает в стиле Сократа. Вы никогда не даете ученику ответа, но всегда стараетесь задать правильный вопрос, чтобы помочь ему научиться думать самостоятельно».
Ограничения и недостатки GPT-4
«GPT-4, как правило, не знает о событиях, которые произошли после сентября 2021 года, и не учится на своем опыте, – пишет OpenAI. – Иногда он может совершать простые логические ошибки или быть слишком легковерным, принимая очевидные ложные утверждения от пользователя».
GPT-4 также по-прежнему имеет социальные предубеждения, склонен к галлюцинациям и враждебным подсказкам. Однако разработчики стремятся расширить возможности участия людей в формировании модели и призывают их активнее оценивать удачные и неудачные ответы ИИ в окне чата.
Как получить доступ к GPT-4
Сегодня есть два способа получить доступ к GPT-4. Во-первых, он доступен платным пользователям OpenAI через ежемесячную подписку ChatGPT Plus (с ограничением использования). Стоимость услуги $20.
Варианты доступа к GPT-4 / Источник: OpenAI
Во-вторых, разработчики могут зарегистрироваться в списке ожидания для доступа к AP новой языковой модели. Цена его использования составляет $0,03 за 1 тыс. токенов «запроса» (около 750 английских слов) и $0,06 за 1 тыс. токенов «завершения».
Напомним, что токены запроса – это части слов, которые вы передаете в GPT-4, а токены завершения – это содержимое ответа GPT-4.
Возможности и перспективы
OpenAI уже сотрудничает с рядом компаний, которые интегрировали GPT-4 в свои продукты. Например, приложение Stripe использует GPT-4 для сканирования сайтов.
GPT-4 – Generative Pre-Trained Transformer model 4
Duolingo встроил новейшую модель ИИ в новый уровень подписки на изучение языков. Morgan Stanley создает систему на основе GPT-4, которая будет извлекать информацию из документов компании и предоставлять ее финансовым аналитикам.
В дальнейшем таких приложений станет еще больше. А простые пользователи получат более мощного и безопасного GPT-ассистента, который понимает шутки, может запоминать длинные разговоры, заменит для детей репетиторов по любому предмету и станет вторыми глазами для слабовидящих.
«Мы надеемся, что GPT-4 станет ценным инструментом для улучшения жизни людей за счет поддержки многих приложений, – пишет OpenAI. – Предстоит еще много работы, и мы с нетерпением ждем возможности улучшить эту модель благодаря коллективным усилиям сообщества».