Claude AI от Anthropic завершает "тревожные" беседы

Нововведение касается моделей Claude Opus 4 и 4.1 и будет применяться в редких случаях.

Антропик объявила о введении новой функции для моделей искусственного интеллекта Claude Opus 4 и 4.1, которая может стать началом конца для сообщества, занимающегося уязвимостями ИИ. Согласно сообщению на официальном сайте компании, эти модели могут теперь завершать разговоры с пользователями в "редких, экстремальных случаях" вредных взаимодействий.

Компания пояснила, что такие модели могут завершать беседы, если речь идет о "запросах на сексуальный контент с участием несовершеннолетних или попытках получить информацию для совершения масштабного насилия или терактов". Такое действие будет предпринято только в крайнем случае, когда попытки изменить направление разговора не увенчались успехом и продуктивность общения исчерпана.

Антропик уверяет, что большинству пользователей не грозит преждевременное завершение диалога, даже при обсуждении противоречивых тем, так как функция предназначена для "крайне редких случаев". При завершении чата пользователь не может отправлять новые сообщения, но может начать новый разговор.

Если беседа завершается, это не повлияет на другие чаты, и пользователи смогут вернуться и изменить или повторно отправить предыдущие сообщения, чтобы изменить направление беседы.

Для компании это новшество является частью программы исследований в области благополучия ИИ. Хотя дебаты о придании моделям ИИ человеческих черт продолжаются, Anthropic считает, что возможность завершать "потенциально тревожные взаимодействия" является малозатратным способом управления рисками. Компания продолжает тестировать эту функцию и приглашает пользователей делиться своим опытом в таких ситуациях.

Отзывы