OpenAI Представила GPT-5.4: Новый Уровень Эффективности и Точности

Новые модели и улучшенные возможности для профессиональных задач

В четверг компания OpenAI представила модель GPT-5.4, описываемую как «наиболее способную и эффективную для профессиональной работы». Новая модель доступна в разных версиях — стандартной, в виде модели мышления (GPT-5.4 Thinking) или оптимизированной для высокой производительности (GPT-5.4 Pro).

API-версия модели может работать с контекстными окнами до 1 миллиона токенов, что является самой большой контекстной областью в истории OpenAI. Компания подчеркнула улучшенную эффективность использования токенов, отметив, что GPT-5.4 решает те же задачи с использованием значительно меньшего количества токенов по сравнению с предыдущей моделью.

Новая модель также улучшила результаты на бенчмарках, установив рекордные результаты в OSWorld-Verified и WebArena Verified, а также набрав 83 процента в тесте GDPval для задач, связанных с управлением знаниями.

Согласно заявлению генерального директора Mercor, Брендана Фуди, модель GPT-5.4 лидирует в бенчмарке APEX-Agents, предназначенном для тестирования профессиональных навыков в области права и финансов. Фуди отметил, что «GPT-5.4 превосходит в создании сложных отчетов, таких как презентации, финансовые модели и юридические анализы», показывая высокие результаты с меньшими затратами и более высокой скоростью, чем конкурентные модели.

Модель продолжает стараться ограничивать галлюцинации и фактические ошибки. OpenAI отметил, что новая модель на 33% меньше вероятности совершает ошибки в отдельных утверждениях и в целом дает на 18% меньше ошибок по сравнению с GPT 5.2.

Как часть запуска, OpenAI переработала систему управления инструментами в API-версии GPT-5.4, представив новую систему под названием Tool Search. Эта система позволяет моделям искать определения инструментов по мере необходимости, что делает запросы более быстрыми и экономичными, особенно в системах с большим количеством доступных инструментов.

Также OpenAI добавила новую оценку безопасности, чтобы протестировать цепочку размышлений модели, демонстрирующую ее процесс мышления при выполнении многошаговых задач. Исследования показывают, что обман менее вероятен в версии Thinking модели GPT-5.4, что свидетельствует о том, что модель не способна скрыть свои размышления, а мониторинг цепочек размышлений остается эффективным инструментом безопасности.

Отзывы