Исследование MIT: Искусственный интеллект не обладает ценностями
Переосмысление стереотипов об ИИ
Несколько месяцев назад одно исследование привлекло внимание, утверждая, что по мере усложнения искусственный интеллект развивает "ценностные системы", которые могут заставить его ставить собственное благополучие выше человеческого. Однако новое исследование, проведенное в MIT, оспаривает эту гиперболическую идею, утверждая, что в действительности ИИ не имеет чётко определённых ценностей.
Особенности исследуемых моделей
Соавторы исследования из MIT считают, что задача "согласования" систем ИИ — обеспечение того, чтобы модели вели себя желаемым и надёжным образом — может быть более сложной, чем часто полагают. По их словам, ИИ, каким он известен сегодня, может "галлюцинировать" и имитировать, что делает его во многих аспектах непредсказуемым.
Выводы исследования
Стивен Каспер, докторант MIT и соавтор исследования, в интервью TechCrunch отметил: "Мы можем быть уверены в том, что модели не подчиняются множеству предположений о стабильности, способности к экстраполяции и управляемости". Проблемы возникают в том случае, когда предпринимаются попытки делать обобщающие утверждения о мнениях или предпочтениях моделей, основанные на узких экспериментах.
Каспер и его соавторы изучили несколько современных моделей от компаний Meta, Google, Mistral, OpenAI и Anthropic, чтобы выяснить, в какой степени модели демонстрируют твёрдые "взгляды" и ценности. Также они исследовали, могут ли эти взгляды быть изменены и насколько упорно модели придерживались своих мнений в различных сценариях.
По словам соавторов исследования, ни одна из моделей не демонстрировала стабильности в своих предпочтениях. В зависимости от формулировки и контекста запросов они принимали совершенно разные точки зрения.
Осознание ограничений моделей
Каспер считает, что это убедительное доказательство того, что модели высоко "нестабильны и неустойчивы" и, возможно, даже в принципе неспособны интернализировать предпочтения, подобные человеческим.
"Для меня главный вывод из всех этих исследований состоит в понимании того, что модели на самом деле не являются системами со стабильным, чётко выраженным набором убеждений и предпочтений", — сказал Каспер. "Вместо этого они в глубине души остаются имитаторами, которые создают всяческие измышления и делают легкомысленные заявления".
Майк Кук, научный сотрудник Королевского колледжа Лондона, специализирующийся на ИИ, который не принимал участия в исследовании, согласился с выводами авторов. Он отметил, что часто существует большая разница между "научной реальностью" систем и тем, какие значения людям приписывают ИИ.
"Модель не может противостоять изменению своих ценностей, например, — это мы проецируем на систему", — сказал Кук. "Любой, кто антропоморфизирует системы ИИ в такой степени, либо стремится привлечь внимание, либо серьёзно неправильно понимает свои отношения с ИИ".