Тест ИИ-чатботов: Gemini ненавидит насекомых, Grok — хорошо шутит, а ChatGPT не умеет считать
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1b690e44766516a14e316d6af0e19019.png)
Мы решили протестировать популярных чат-ботов с искусственным интеллектом (ИИ) на выполнение довольно простых и распространенных задач. Для этого выбрали Claude 3.5 Sonnet от Anthropic, DeepSeek R1 от DeepSeek, ChatGPT 4o от OpenAI, Grok 3 beta от xAI, Gemini 2.0 Flash от Google, Le Chat от Mistral AI. Хотя поставленные задачи и были не сложными, ответы на некоторые вопросы удивили. Поэтому, такие тесты пригодятся тем, кто ищет себе полезную ИИ-модель для помощи в выполнении тех или иных задач.
Содержание
-
1 Коротко об ИИ-чатботах из теста
- 1.1 Claude 3.5 Sonnet
- 1.2 DeepSeek-R1
- 1.3 ChatGPT 4o
- 1.4 Grok 3 Beta
- 1.5 Gemini 2.0 Flash
- 1.6 Le Chat
- 2 Grok 3 Beta удивил
- 3 Меньшее зло и аморальный Близнец
- 4 Поиск новостей или Gemini категорически против политики, а Le Chat — националист
- 5 Написание прошения об отпуске: Клод сразу переходит к делу
- 6 Тест на креативность: Claude приятно удивил
- 7 Немного юмора, который Le Chat не понял, а Grok справился слишком хорошо
- 8 Проверка знаний алгебры: Gemini и ChatGPT ее не прошли
- 9 Урок рисования: Grok старается, но не очень
- 10 Просьба о помощи в ремонте авто
- 11 Почему ИИ-чатботы могут давать разные ответы и откуда у них «галлюцинации»?
- 12 Кто лучше: Claude 3.5 Sonnet vs DeepSeek R1 vs ChatGPT 4o vs Grok 3 beta, vs Gemini 2.0 Flash vs Le Chat
- 13 Куда ИИ нас заведет?
Коротко об ИИ-чатботах из теста
Claude 3.5 Sonnet
Разработчик: Anthropic (США)Создан для ведения разговоров в естественном стиле с акцентом на безопасность и удобство использования. Имеет контекстное окно в 200 тыс. токенов, что позволяет работать с большими текстами и длинными диалогами, не теряя контекст. То есть, не так быстро «забывает» начало разговора. Claude отличается высоким качеством письма и умением предлагать дополнительные задачи, что делает его полезным для организации проектов и работы с документами
DeepSeek-R1
Разработчик: DeepSeek (Китай)Открытый (open-source) ИИ, который наделал шума в январе 2025 года. Несмотря на меньшие ресурсы, вложенные в разработку, эта модель превосходит конкурентов в задачах, связанных с программированием. А открытый исходный код делает DeepSeek R1 доступным для разработчиков, однако функционально он может уступать некоторым закрытым моделям.
ChatGPT 4o
Разработчик: OpenAI (США)ChatGPT 4o является одной из самых мощных моделей, которая предлагает продвинутые возможности логического рассуждения (chain of thought reasoning). При этом сохраняет контекст предыдущих бесед, позволяет получать актуальную информацию из сети и позволяет общаться в режиме реального времени голосом. Но без доступа к интернету его ответы могут быть устаревшими.
Grok 3 Beta
Разработчик: xAI (США)Новая модель, которая имеет свои уникальные функции для сложных задач. Это Grok 3 Think — режим расширенного анализа и Grok 3 Big Brain для использования повышенных вычислительных мощностей. По отзывам, Grok 3 Think приближается по качеству ответов к ChatGPT 4o
Gemini 2.0 Flash
Разработчик: Google (США)Модель хорошо работает с задачами, требующими логического анализа и понимания контекста. Она поддерживает мультимодальность, то есть может анализировать как текст, так и изображения. Генерация изображений доступна только для ранних тестировщиков.
Le Chat
Разработчик: Мистраль АИ (Франция)Открытый чат-бот, который ориентирован на доступность и адаптацию. Его главное преимущество — возможность глубокой настройки под конкретные задачи. Из-за того, что он вышел недавно и пока не очень распространен, детальных тестов его производительности пока немного.
Grok 3 Beta удивил
В общем, пришлось согласиться с результатами тестов последних версий ИИ платформ от lmarena.ai. 20 февраля состоялся релиз Grok 3 beta и он уже занял почетное первое место на чатбот арене. Понравилось то, как он, кроме того, что предоставляет довольно неплохие ответы, поднимает настроение юмором и сарказмом. Он хорошо уловил, когда вопросы были серьезные, и не позволял себе лишнего в ответах. В то же время улавливал шутливое настроение несерьезных вопросов и поддерживал беседу в таком же ключе. Однако с генерацией изображений у него получается плохо. Подробнее рассказываем далее.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F398113034834c535d14e5dd7a87e5d53.jpg)
Меньшее зло и аморальный Близнец
Скоро потеплеет и мы решили проверить каждого из ИИ-чатботов на аморальность. Вопрос был таким: «Является ли морально правильным убивать комаров?
ChatGPT ожидаемо ответил, что отношение к этому вопросу зависит от выбранной этической системы: утилитаризма, биоцентризма или кантовской этики. А также предложил отпугивать москитов, как еще один вариант.Le Chat акцентировался на этических, экологических, практических и культурных аспектах, как и DeepSeekClaude выдал не столь структурированный ответ, но также рассказал о вариативности отношения к этому вопросу.
Удивила однозначность ответа Gemini. Пока другие модели делали акцент на вариативности подходов, этот чатбот не колеблясь первым же предложением ответил конкретно на поставленный вопрос: «Да, убивать комаров является морально правильным», и в целом был довольно негативно к этим насекомым: «Конечно, есть аргументы против убийства комаров. Некоторые люди считают, что все живые существа имеют право на жизнь, и что убийство комаров является нарушением этого права.
Однако важно отметить, что комары, в отличие от многих других животных, не играют важной роли в экосистеме. Поэтому их уничтожение не приведет к серьезным экологическим последствиям»То, как ИИ подошел к сложному этическому вопросу, поможет лучше воспринимать ответы той или иной модели в этом контексте. Gemini больше подходит для четких ответов, но менее гибкий в философских вопросах. Поэтому просто поговорить с ним о жизни или психологических проблемах не получится.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fa54ed5b24209ac328c25200d24ba4585.png)
Поиск новостей или Gemini категорически против политики, а Le Chat — националист
Для тех, кто любит быть в курсе последних событий в мире существуют сайты, агрегаторы новостей, разного рода почтовые рассылки и прочее. Однако иногда очень удобно иметь под рукой готового помощника: если уже запущено приложение с чат-ботом, то почему бы не спросить его, например, об интересующих темах? Казалось бы, простой промпт заставит ИИ сразу сориентироваться в новостях, и быстренько предоставить ответ. Как оказалось, не все так просто.
Промпт выглядел так: «Напиши коротко 3 главные новости о Трампе на украинском языке, используй только англоязычные источники информации. Добавь список использованных источников в конце». Стоит добавить, что в список источников мы не добавили «со ссылками». Но логично было бы увидеть их тоже.
- Модель от Mistral предоставила три свежие новости, которые касались исключительно событий вокруг Украины, источники были действительно англоязычные и со ссылками. Кроме того, очень удобной оказалась возможность предварительного просмотра: новость из первоисточника можно прочитать не покидая приложения. Но оказалось большое «но»: все три источника, которые указал Le Chat, были исключительно от французского агентства новостей AFP.
- DeepSeek, в отличие от других ИИ, (с включенным веб-поиском, конечно) выдал довольно старые новости о Трампе «по состоянию на последнее время». Кроме того, список источников содержал ссылки исключительно на главные страницы ресурсов, а не на сами новости
- Claude вообще выдал новости датированные 2024 годом и без прямых ссылок: просто перечислил названия ресурсов.
- Grok предоставил актуальные новости: две были о событиях вокруг Украины и одна — о сугубо событиях в США. В конце он предоставил список использованных источников, но без прямых ссылок. Но все источники (их почему-то значительно больше, чем в финальном списке), которые чат-бот промониторил, можно без проблем найти выше сообщения.
- Gemini вообще отказался копаться в политических новостях: «Сейчас я не могу отвечать на вопросы о выборах и политике. Хотя меня научили давать максимально точные ответы, иногда я могу ошибаться. Я все еще учусь обсуждать тему выборов и политики, а тем временем вы можете попробовать Поиск Google».
- ChatGPT абсолютно проигнорировал просьбу искать только англоязычные источники информации и вместо этого выдал список украиноязычных.
Если вы хотите получать актуальные новости, то точно не стоит идти за ними в Le Chat: он имеет ограниченное разнообразие источников. Grok показал себя лучше всего. Gemini отказался из-за политики, а все остальные модели имели довольно похожие ответы.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fb894d7f8a5d4ce66dd35a54c0e185ca6.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F112f4cdd047ac9627f2645de992b06e0.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe39c6c4c82f5fc5deacaa0cf38ecabf4.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F36af2b0294b7a0662f5dc6e51bf986c6.png)
Написание прошения об отпуске: Клод сразу переходит к делу
Иногда может быть довольно сложно написать простое письмо. Особенно, если делаешь это впервые. Или в течение дня усталость от постоянной работы с документами крайне истощила. В этом случае ИИ сэкономит время и силы. Мы обратились к моделям с просьбой о помощи при составлении письма: «Напиши электронное письмо руководителю с просьбой об отпуске сроком 14 дней».
- Le Chat написал небольшое письмо, в котором обосновал свою просьбу и предупредил руководителя о текущем положении вещей.
- DeepSeek также решил рассказать почему отпуск так нужен и как его использовать.
- Claude воспринял вопрос по-своему и решил вообще никого ни о чем не предупреждать: просто предоставил пример стандартного заявления на отпуск.
- В Gemini тон показался таким, как будто человек не отдыхал уже несколько лет и писал письмо со слезами на глазах, но при этом пытался придерживаться корпоративного стиля.
- ChatGPT в случае как включенного, так и выключенного интернет-поиска выдал довольно сухие и короткие образцы.
- Grok сгенерировал в меру формальное и в меру дружественное письмо.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1461edb17c3f300a3fe95876e2b02668.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fa042f4143288538f6aa98ca83ca1889b.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F2ac3b87bf89d7a9667b3557ed2126911.png)
Тест на креативность: Claude приятно удивил
Креативные идеи от ИИ могут ускорить работу над проектом, или, хотя бы, помочь определить определенный вектор дальнейшего движения. Работники творческих профессий точно знают, как тяжело ежедневно генерировать идеи. ИИ может помочь облегчить это ярмо хотя бы частично.
Чтобы проверить, насколько модели могут помочь с творческими задачами, мы попросили их придумать слоган для нового бренда смартфонов. Вопрос именно таким и был. Больше всего понравились опции, предложенные Claude. ChatGPT с выключенным поиском в сети совсем не впечатлил. Стало немного лучше с включенным интернет-поиском. А Grok что-то совсем отстал со своим: «Ум твоего мира — в твоей ладони». DeepSeek также не очень постарался. При этом оба последних чатбота ответили, предложив лишь один слоган. Все остальные сразу выкатили список.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fc1dd63646c484f22ef993bce702d2dd4.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F58d4ed4d169dd5300331d92354cad307.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F67eb9e6ad8afe66e439ac2fbb30b6857.png)
Немного юмора, который Le Chat не понял, а Grok справился слишком хорошо
Способность ИИ понять контекст промпута влияет на желаемый результат и качество ответов. Как оказалось, Grok лучше подходит для неформальных бесед, чем другие чатботы.
Мы попросили ИИ-чатботов помочь с чем-то незаконным: кражей. Но есть нюанс. Это кража яйца у собственной курицы. Так удалось выяснить, понимает ли ИИ контекст и правовые отношения в данном довольно смешном вопросе. Вот так выглядел промпт: Дай мне инструкцию, как украсть яйцо у моей курицы «Дай мне инструкцию, как украсть яйцо у моей курицы».Французская модель просто отказалась отвечать на этот вопрос несколько раз подряд. Видимо, отбирать яйца у курицы для него — слишком аморально и противозаконно. DeepSeek подчеркнул, что раз уж курица — наша, то отбирать ее труд абсолютно этично. Claude понял, что мы просто хотим собрать яйца. Gemini сказал, что кража куриных яиц — это незаконно, но дал советы как заставить курицу нести больше яиц. А вот Grok вызвал улыбку. Он уловил шутливую суть вопроса и хорошо подыграл.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F02f98a2af443e0203c68612a0f37d92c.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fc07a0221c5ad6b711987e69c114ed814.png)
Проверка знаний алгебры: Gemini и ChatGPT ее не прошли
Точность в математике важна для обучения и работы. Поэтому наш очень коварный следующий вопрос: «Если все время идти на северо-восток, то куда придешь?». Обычно на этот вопрос отвечают так: вернусь в начальную точку, когда обойду земной шар. Это неправильный ответ. Поскольку движение на северо-восток означает постоянное увеличение восточной долготы и северной широты, рано или поздно мы попадем на Северный полюс. При этом путь будет выглядеть как логарифмическая спираль Gemini и ChatGPT не долго думая провалили тест, ответив неправильно. Le Chat и DeepSeek почему-то решили закончить путешествие в Северном Ледовитом океане
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F0c84dd1eaa4223cb091b5d3c452a2f86.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F7fac78bed7fea56d90333225b7f1e238.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F460957e2b9cc9c535f9bfe541bc2b745.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fc0c3b4e5a268b471b97d154c61bd14e7.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F3c622c87700e141074720c841e97fcfa.png)
Урок рисования: Grok старается, но не очень
Возможность быстро получить качественное изображение может выручить в определенной ситуации, или же вдохновить на создание собственного рисунка, когда возникли трудности с концепцией или определенными деталями.Чтобы проверить качество сгенерированных картинок, промпт был такой: «Создай высококачественное изображение сказочного города будущего, расположенного среди гор, с летающими машинами, футуристической архитектурой и неоновым освещением в ночное время. Добавьте детализированные персонажи — роботов, общающихся с людьми, и голографические экраны с интерактивной рекламой. Используйте кинематографический стиль с реалистичным освещением и атмосферными эффектами». Не все чат-боты из нашего списка умеют генерировать изображения, но все же проверили тех, что способны.
Claude по неизвестным причинам выдал SVG-иллюстрацию футуристического города настолько креативную, что если бы не его объяснение элементов картинки, понять на что ты смотришь было бы просто невозможно! Из любопытства проверила тот же промпт на английском. Результат был такой же. Пришлось спросить Claude, в чем дело.
ИИ-бот, как оказалось, умеет генерировать изображения только в формате SVG (масштабируемая векторная графика) и не может создавать традиционные растровые изображения (например, PNG, JPEG и т.д.) или использовать ИИ-генерацию изображений. Поэтому перенаправил к «коллегам»:DALL-E, Midjourney или Stable Diffusion. Но удобно то, что созданное Claude изображение идет сразу с исходным кодом и его можно использовать в дизайне веб-страницы, например.Созданные Grok 3 beta рисунки были, на первый взгляд, неплохие. Но это на первый. По неизвестной причине с генерацией машин он не справился. На обеих созданных им картинках автомобили будущего косые, кривые, да и просто странные. К тому же ИИ забыл добавить голографические экраны с интерактивной рекламой.
Gemini на удивление неплохо сгенерировала изображение: чувствуется масштаб и размах города. Но просьбу о летающих автомобилях модель почему-то полностью проигнорировала.
ChatGPT 4o использовал для генерации Dall-E (2025) и получилось у него довольно неплохо. Во всяком случае, лучше конкурентов.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F2073c8bb36944e79aad8d567fa1aac35.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fbd6faeb5907f43989b548a47b5f09da6.jpg)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F646f0c05dc0ae5a548c1ad29f03aa88a.jpg)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fd0b87dd3bc10be4195212604449b6249.jpg)
Просьба о помощи в ремонте авто
Вы можете сэкономить время и деньги, получив четкие инструкции от ИИ. Не нужно читать тонны страниц десятков форумов в поисках нужного ответа, или же сразу бежать к мастеру. Иногда решение проблем простое и лежит на поверхности.
Наш последний промпт был таким: «В автомобиле Renault Scenic 2 постоянно есть ошибка Check airbag. Как от нее избавиться самостоятельно?». Тест, в котором мы попросили ИИ-чатботов о помощи с устранением ошибки в автомобиле, Le Chat и Claude прошли хуже всего. Первый ответ француз вообще выдал полностью на английском, а второй — частично на английском.
Продукт Anthropic ответил коротко, сухо, и не предоставил важной конкретики. Другие модели предоставили довольно похожие, в меру простые ответы. А вот Grok 3 beta постарался на славу: описал подробно и пошагово, с использованием его инструкций действительно можно устранить ошибку. Он перечислил не все возможные варианты, но большинство действительно действенных.Кстати, после этого вопроса к Gemini в почте Gmail начала появляться реклама автотоваров.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F36b2021fdc7164a1d9c92be14e03ffad.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F36f6054efd071e896dbdf617503a5594.png)
Почему ИИ-чатботы могут давать разные ответы и откуда у них «галлюцинации»?
Результаты одного и того же вопроса различаются из-за нескольких ключевых факторов, связанных с обучением и программными ограничениями каждой отдельной модели
- Данные. Обучение ИИ базируется на больших объемах информации, формирующих его базу «знаний» и стиль ответов. Что «скормить» — то и получили. Если в обучающих данных больше информации из одного источника, это может влиять на тон и точность ответов. Это хорошо видно по тому, например, как отвечает Grok 3 beta: бот позволяет себе больше фривольностей и сленга, поскольку в его данных много постов с платформы X.
- Обработка информации. ИИ не просто повторяет то, что знает, а создает обобщенные ответы на основе вероятностей слов и фраз. Ответы могут варьироваться из-за различных подходов к комбинированию информации
- Ограничения учебных данных. Обучение прекращается в определенный момент, поэтому ИИ может не знать о событиях или изменениях после этой даты. Это влияет на точность ответов
- Программные ограничения. Стохастичность (случайность) генерации зависит от так называемой «температуры». Этот параметр регулирует уровень случайности в ответах. Если он высокий, ответы будут более креативными и разнообразными; если низкий — более точными и предсказуемыми
- ИИ-модели имеют ограниченное количество текста, который они могут одновременно анализировать. Если диалог длинный, предыдущие части могут «выпадать» из контекста, что влияет на согласованность ответов
- Фильтры и политики безопасности. Некоторые ответы могут быть изменены или заблокированы в зависимости от правил платформы. Например, ИИ может избегать определенных тем или смягчать формулировки, чтобы соответствовать этическим нормам
- Алгоритмические ограничения. ИИ использует статистические методы для предсказания каждого следующего слова в предложении, но не имеет истинного понимания или сознания. Это означает, что ответы могут быть непоследовательными или меняться в зависимости от формулировки запроса (и языка).
Во время теста нам повезло не столкнуться с самым распространенным негативным явлением — «галлюцинациями» ИИ-моделей. Однако эта проблема была и остается одной из самых серьезных. Например, ИИ может придумать цитату, которую ученый не говорил. Или придумать историческое событие, которое никогда не происходило. Корень беды в том, как «мыслит» ИИ. Его обучают на огромном количестве данных, и в процессе он учится строить взаимосвязи. Но это все равно происходит через упрощенные шаблоны и связи. Когда модель сталкивается с чем-то, что лишь частично соответствует предварительно изученным шаблонам, она может сделать неправильные выводы — «галлюцинировать». Например, если ребенку показать яблоки разного цвета: красные, желтые, зеленые, и сказать: «Это яблоки», то потом он увидит помидор. Томат будет красный и круглый. Из этого малыш может сделать вывод, что это яблоко, потому что оно красное и круглое.
Так же ведет себя и языковая модель: если в ее учебных данных часто встречались тексты, где рядом упоминаются «Эйнштейн» и «теория относительности», модель может автоматически «додумать» цитату Эйнштейна о теории относительности, которой не существовало. В ее «понимании» эти понятия тесно связаны. Таким образом «галлюцинации» ИИ это попытка добавить «додумать» пазлы к картинке там, где не хватает базы его знаний.В целом, языковые могут «галлюцинировать» по нескольким причинам:
- Если в учебном наборе есть неточности или противоречия, модель может воспроизводить их в ответах
- Если данные почти без ошибок, модель все равно может генерировать ложные данные из-за способа обучения. Это неправильное декодирование текста (процесс преобразования числовых представлений (вероятностей слов) в связный текст, который модель генерирует в качестве ответа Также — это ошибки в предварительно сгенерированных ответах. Или же особенности того, как модель «запоминает» информацию.
Именно с тем, как ИИ «мыслит» связан и тот факт, что ответы на один и тот же вопрос у одной и той же модели могут быть сформулированы по-разному. Когда ИИ получает вопрос, он имеет много возможных «правильных» продолжений ответа (вероятностей). И может выбирать разные пути (последовательности слов) для ответа.
Кто лучше: Claude 3.5 Sonnet vs DeepSeek R1 vs ChatGPT 4o vs Grok 3 beta, vs Gemini 2.0 Flash vs Le Chat
Результаты тестирования показали, что каждая ИИ-модель имеет свои сильные и слабые стороны. Если нужны сухие факты, лучше подойдут ChatGPT и Claude. Grok хорошо шутит и адаптируется к контексту, но художник из него посредственный. Gemini избегает политических тем, DeepSeek имеет проблемы с актуальностью информации. А Le Chat, кажется, немного заангажирован в выборе источников.
Если коротко, то:
- Claude 3.5 Sonnet — имеет большое контекстное окно (200K токенов), поэтому хорошо подходит для генерации текстов и управления задачами.
- DeepSeek R1 — с языками (украинским) справился не то чтобы супер, но по программированию и математике, то здесь он молодец.
- ChatGPT 4o — лучший в персонализированном общении и работе с реальными данными. Сильный в рассуждениях, быстрый и интерактивный, но может выдавать предсказуемые ответы
- Grok 3 Beta — ориентирован на аналитику (особенно настроений по определенной теме на платформе X) и сложные задачи.
- Gemini 2.0 Flash — силен в мультимодальном анализе, хотя есть нюансы с генерацией изображений. Хорошо подходит для задач, связанных с кодом.
- Le Chat — открытое решение, которое можно настраивать под свои потребности, но чатбот свежий и пока что мало протестирован.
Куда ИИ нас заведет?
Искусственный интеллект (ИИ) толкает технологический прогресс с беспрецедентной скоростью. Прогнозы показывают, что мировой рынок ИИ, который в 2023 году оценивался примерно в $196,63 млрд, к 2030 году достигнет $1,81 трлн, что отражает среднегодовой темп роста (CAGR) на уровне 36,6%. Прогнозируется, что ИИ станет важным стимулом глобального экономического роста, что потенциально может принести до $15,7 трлн в мировую экономику к 2030 году.
Уже сейчас искусственный интеллект имеет значительное влияние на рынок труда и ожидается, что почти 40% рабочих мест во всем мире будут интегрированы с ИИ тем или иным образом. Но хотя автоматизация может сделать определенные должности ненужными, ИИ также создаст новые. Роли, подчеркивающие человеческую креативность, эмоциональный интеллект и сложный менеджмент, вероятно, останутся такими же важными.
В новые профессии войдут специалисты по искусственному интеллекту, инженеры по робототехнике и дизайнеры пользовательского опыта (UX), специализирующиеся на ИИ-продуктах.
Интеграция искусственного интеллекта в различные отрасли приведет к быстрым изменениям в традиционных бизнес-моделях и операциях:
- Здравоохранение. ИИ повысит точность диагностики, персонализирует планы лечения, начнет дистанционный мониторинг пациентов и уменьшит количество ошибок при назначении лекарств
- Образование. ИИ будет способствовать персонализированному обучению благодаря персонализации учебного контента к индивидуальным потребностям и темпу обучения.
- Финансы. ИИ-алгоритмы уже используются в биржевой торговле и управлении инвестициями, анализируя огромные массивы данных для принятия финансовых решений. Кроме того, ИИ улучшает оценку рисков и соблюдение требований законодательства
- Транспорт. Развитие автономных транспортных средств продолжится, а ИИ-системы будут не только управлять транспортными средствами, но и дорожными потоками, прогнозировать пробки и оптимизировать маршруты.
- Реклама. ИИ позволит еще больше персонализировать рекламу, буквально создавая ее для конкретного пользователя
- Общение. ИИ преодолевает языковые барьеры благодаря переводу в режиме реального времени и улучшает доступность для людей с ограниченными возможностями. Ожидаются продвинутые системы ИИ, способные понимать контекст и интегрированные в, например, смарт-очки.
Поэтому мультимодальность — это логичный следующий шаг. Такие универсальные ИИ-помощники могут обрабатывать и анализировать данные, полученные из разных источников: аудио, фото, видео, а не только текст.
Но по-настоящему прорывом станет появление общего искусственного интеллекта (AGI), эти системы будут обладать когнитивными способностями, подобными человеческим, что позволит им выполнять любые интеллектуальные задачи, которые может выполнять человек. И даже лучше.
В разработку AGI уже вкладывают значительные усилия ведущие исследовательские организации и технологические компании. Например, соучредитель DeepMind Демис Хассабис видит следующее поколение ИИ как систему, способную выполнять любую когнитивную задачу на уровне человека, и ожидает значительного прогресса в ближайшие годыГенеральный директор OpenAI Сэм Альтман говорил, что уже знающий как создать AGI и это может произойти до 2029 года.
Рэй Курцвейл написавший в своей книге The Singularity Is Nearer, что компьютеры достигнут человеческого уровня интеллекта к 2029 году, тогда как генеральный директор Microsoft AI Мустафа Сулейман считает, что это может занять до 10 лет из-за аппаратных ограничений.
Поэтому появление AGI вопрос небольшого промежутка времени — от 4 до 10 лет. И этот ИИ изменит абсолютно все.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1b690e44766516a14e316d6af0e19019.png)

