OpenAI запустила GPT-5.4: до 1 млн токенов контекста, на 33% меньше ошибок

11
OpenAI запустила GPT-5.4: до 1 млн токенів контексту, на 33% менше помилок

OpenAI, в отчаянной потребности в успехе после ряда скандалов с Министерством Обороны, пытается вернуть доверие публики и запускает GPT-5.4. Модель должна стать большим шагом вперед для AI-агентов.

OpenAI назвала модель своей «самой способной и эффективной флагманской моделью для профессиональной работы» и заявлял, что она объединяет достижения в рассуждении, кодировании и агентских рабочих процессах в единую модель. Кроме стандартной версии, GPT-5.4 также доступна в вариантах GPT-5.4 Thinking (модель рассуждений) и GPT-5.4 Pro, оптимизированной для высокой производительности. API-версия модели поддерживает контекстные окна размером до 1 миллиона токенов — самое большое контекстное окно, которое OpenAI когда-либо предлагала.

Компания также подчеркивает улучшенную эффективность использования токенов: GPT-5.4 способна решать задачи с существенно меньшим количеством токенов, чем предшественник. GPT-5.4 начинает развертываться уже сегодня и будет доступна в ChatGPT, Codex и API OpenAI. GPT-5.4 Thinking будет доступна для пользователей Plus, Teams и Pro, а GPT-5.4 Pro — через API, а также для подписчиков ChatGPT Enterprise и Edu.

OpenAI запустила GPT-5.4: до 1 млн токенів контексту, на 33% менше помилок
Данные: OpenAI

По словам OpenAI, GPT-5.4 — первая модель общего назначения, выпущенная компанией со встроенными возможностями использования компьютера, что означает ее способность автономно работать в различных приложениях на устройстве от имени пользователя. Модель может писать код, выполнять задачи на компьютере, а также отправлять команды клавиатуры и мыши для навигации по операционной системе — значительный шаг в развитии агентного ИИ. Результаты бенчмарков компании выглядят амбициозно: GPT-5.4 заняла первое место в Mercor APEX-Agents — тесте профессиональных сервисных навыков в юриспруденции и финансах. Она также показала рекордные результаты в OSWorld-Verified и WebArena Verified, тестах, оценивающих работу модели с компьютером, и получила 83% в GDPval — оценке задач интеллектуальной работы.

OpenAI запустила GPT-5.4: до 1 млн токенів контексту, на 33% менше помилок
Данные: OpenAI

По заявлению генерального директора Mercor Брендана Фуди, модель «прекрасно справляется с созданием долгосрочных результатов, таких как презентации, финансовые модели и юридический анализ», демонстрируя высокую производительность при меньших затратах. Как и раньше, OpenAI делает акцент на уменьшении ошибок и галлюцинаций: GPT-5.4 на 33% реже делает ошибки в отдельных утверждениях по сравнению с GPT-5.2, а общее количество ответов с ошибками снизилось на 18%.

Компания также обновила API, внедрив систему Tool Search для работы с инструментами: вместо загрузки всех определений инструментов в системный промпт, модель может искать их по мере необходимости, что экономит токены и ускоряет запросы в системах с большим количеством инструментов. Дополнительно OpenAI представила новую оценку безопасности для тестирования цепочки рассуждений модели — промежуточных объяснений, которые демонстрируют процесс «мышления» во время многошаговых задач.

OpenAI запустила GPT-5.4: до 1 млн токенів контексту, на 33% менше помилок
Данные: OpenAI

Исследования показали, что GPT-5.4 Thinking менее склонна к фальсификации своей цепочки соображений, что, по заявлению компании, подтверждает эффективность мониторинга таких объяснений как инструмента безопасности. Платформа OpenAI, впрочем, сталкивается с вызовами. По сообщениям, после решения компании сотрудничать с Министерством обороны США платформа потеряла около 1,5 млн пользователей. Это решение вызвало публичную критику, особенно на фоне позиции конкурента Anthropic, который отказался от сотрудничества с Пентагоном, чтобы сохранить свои ограничения. Недовольство части пользователей и сотрудников показывает, что технологические успехи не всегда гарантируют общественное принятие — и компании придется доказывать, что ее курс соответствует ожиданиям рынка.

ChatGPT 5.3 Codex стер жорсткий диск вайбкодера одним хибодруком

Источник: Gizmodo

Предыдущая статьяЯке церковне свято 6 березня: традиції та прикмети
Следующая статьяАтаки на Дніпропетровщину: троє поранених, серед них 15-річна дівчинка