Новое исследование подтверждает использование OpenAI защищенного авторским правом контента
Исследователи предлагают метод для выявления запомненных данных в моделях OpenAI
Новое исследование, выполненное совместно учёными из Университета Вашингтона, Копенгагенского университета и Стэнфорда, предполагает, что OpenAI обучала некоторые из своих моделей на материалах, защищённых авторским правом. В компании OpenAI возникли правовые проблемы с авторами, программистами и другими правообладателями, которые утверждают, что их работы использовались без разрешения.
OpenAI долгое время защищала свои действия, ссылаясь на доктрину добросовестного использования, но истцы утверждают, что в законе о копирайте США нет исключения для данных, используемых в обучении.
Исследование предлагает новый метод для выявления данных, «запомненных» моделями, которые работают через API, такими как у OpenAI. Модели являются механизмами предсказания, и обучаются они на основании больших объемов данных, изучая паттерны. Хотя большинство создаваемых ими результатов не являются точными копиями обучающих материалов, некоторые из них могут быть именно такими.
Метод исследования основывается на выявлении так называемых «высокосюрпризальных» слов — редких и необычных слов в тексте. Например, в предложении «Джек и я сидели совершенно неподвижно, в то время как радар гудел» слово «радар» считается высокосюрпризальным.
Авторы исследования тестировали несколько моделей OpenAI, включая GPT-4 и GPT-3.5, на предмет выявления запоминания данных. Для этого они удаляли высокосюрпризальные слова из отрывков художественной литературы и статей New York Times, проверяя, смогут ли модели угадать недостающие слова. Если это удавалось, то, возможно, модели запомнили эти фрагменты в ходе обучения.
Результаты тестирования показали, что GPT-4 запомнила фрагменты популярных художественных книг, среди которых есть работы из датасета BookMIA. Также модель запомнила фрагменты статей New York Times, но в меньшем объеме.
Абхилаша Равичандер, соавтор исследования и докторант Университета Вашингтона, в интервью TechCrunch заявила, что результаты проливают свет на «спорные данные», на которых могут быть обучены модели. Она отметила важность прозрачности данных, чтобы можно было проводить проверки и исследования таких моделей.
Компания OpenAI выступает за менее строгие ограничения на использование защищённых данных в обучении моделей. Хотя компания заключила некоторые соглашения о лицензировании контента и предлагает механизмы отказа, позволяющие правообладателям отмечать свой контент для отказа от использования, она также лоббирует правительства в пользу правил «добросовестного использования» для подходов к обучению ИИ.