OpenAI раскрыла странное поведение GPT-5.5

Почему GPT-5.5 избегает упоминаний фантастических существ

Ранее на этой неделе OpenAI разместила в GitHub документ, который стал частью программы по открытию кода ее агента программирования Codex CLI. В документе содержалась необычная системная подсказка для GPT-5.5. Модель получила инструкцию в контексте программирования никогда не упоминать «гоблинов, гремлинов, енотов, троллей, огров, голубей и других животных или существ», если это не имеет «абсолютной и недвусмысленной» актуальности для запроса пользователя.

Теперь OpenAI наконец объяснила, почему столь специфичная инструкция, появившаяся дважды в подсказке, была так важна.

История странных упоминаний

На протяжении последнего года некоторые пользователи ChatGPT заметили, что модель часто упоминает в ответах гоблинов, гремлинов, троллей и других существ. Это странное поведение становилось все более распространенным с выходом новых моделей.

Даже генеральный директор OpenAI, Сэм Альтман, упомянул об этой проблеме в своей публикации на платформе X в понедельник утром. «Похоже, что Codex переживает момент ChatGPT,» — написал Альтман. «Прошу прощения, имел в виду момент с гоблинами.»

В тот же день OpenAI опубликовала блог-пост, объясняющий странное поведение и то, как оно было устранено.

Поиск причин одержимости

Как сообщается в посте, OpenAI впервые заметила навязчивость темы гоблинов с выходом версии GPT-5.1 в ноябре. Компания начала внутреннее расследование после жалоб пользователей на чрезмерную фамильярность ответов модели. Исследователь безопасности предложил включить «гоблинов» и «гремлинов» в проверку после многократных встреч с этими словами в ответах модели.

Компания обнаружила, что использование слова «гоблин» в ChatGPT увеличилось на 175% после выпуска GPT-5.1, тогда как упоминания «гремлина» выросли на 52%.

На тот момент OpenAI не считала это поведение слишком тревожным. Однако всего через несколько месяцев проблема вновь дала о себе знать.

Проблема повторилась

К марту, с выходом GPT-5.4, частота упоминаний существ еще увеличилась. Некоторые пользователи жаловались, что слово «гоблин» появляется «почти в каждом разговоре».

Это вызвало новую внутреннюю аналитику, которая и выявила корень проблемы. Компания заметила, что эти существа чаще всего упоминались в ответах для пользователей, выбравших настройку «Умный» (Nerdy) стиль.

Данная личность включала системную подсказку, стимулирующую модель использовать игривый язык для уменьшения серьезности.

Как OpenAI решила проблему

OpenAI использовала своего агента программирования Codex для сравнения результатов генерации в процессе обучения с подкреплением, в которых присутствовали слова «гоблин» и «гремлин», с теми, где их не было. Компания обнаружила, что один из сигналов награды предпочитал ответы с этими существами, оценивая их выше, чем аналогичные ответы без этих слов.

Исследования показали, что упоминания гоблинов, гремлинов и других существ начали распространяться и за пределы стиля Nerdy.

«После того как определенный стиль получает вознаграждение, дальнейшее обучение может распространить или усилить его в других ситуациях, особенно если эти результаты используются в процессе тонкой настройки или предпочтительных данных,» — говорится в блоге.

Чтобы решить проблему, OpenAI удалила «Умный» стиль, убрала сигнал награды за упоминания гоблинов и отфильтровала тренировочные данные, содержащие слова о фантастических существах.

Поскольку GPT-5.5 начала обучение до обнаружения причины, новая модель также имела странное влечение к гоблинам. OpenAI добавила специальную инструкцию, которую некоторые пользователи заметили в открытом коде модели, чтобы помочь снизить неуместные упоминания гоблинов и гремлинов.

«В зависимости от того, кого вы спросите, гоблины — это либо забавная, либо раздражающая черта модели,» — написала OpenAI в блоге. «Однако они также являются ярким примером того, как сигналы награды могут формировать поведение модели неожиданными способами и как модели могут учиться обобщать вознаграждения в определенных ситуациях на незнакомые.»

Отзывы