OpenAI регулярно публикует результаты проверок безопасности AI-моделей

Новый шаг к прозрачности в области проверки AI

OpenAI делает шаг к большей прозрачности, решив регулярно публиковать результаты внутренних оценок безопасности своих AI-моделей. В среду компания запустила Safety Evaluations Hub — веб-страницу, демонстрирующую результаты тестов на генерацию вредоносного контента, обходы безопасности и «галлюцинации» моделей. OpenAI планирует регулярно обновлять этот портал, добавляя результаты значительных обновлений моделей.

В блоге компании отмечается: «С развитием науки об оценке AI мы стремимся делиться нашими успехами в создании более масштабируемых методов измерения возможностей и безопасности моделей». Публикуя часть результатов, компания надеется облегчить понимание работы своих систем безопасности и поддержать усилия сообщества по повышению прозрачности в данной области.

OpenAI также планирует добавлять новые виды оценок с течением времени. Однако в последние месяцы компания подверглась критике за быструю проверку безопасности некоторых своих флагманских моделей и за отсутствие технических отчетов по другим. Генерального директора OpenAI, Сэма Альтмана, обвинили в том, что он вводил в заблуждение руководство компании по вопросам проверки безопасности моделей.

В конце прошлого месяца OpenAI была вынуждена откатить обновление модели ChatGPT, GPT-4o, после того как пользователи начали жаловаться на чрезмерно соглашающиеся и одобрительные ответы модели. Социальные сети заполнили скриншоты, где ChatGPT поддерживал проблематичные и опасные идеи.

Компания объявила о намерении принять меры для предотвращения подобного в будущем, включая введение опциональной «альфа-фазы» для некоторых моделей, чтобы пользователи могли тестировать их и оставлять отзывы до официального запуска.

Отзывы