Изучение предвзятости в ИИ и её социальные последствия
Как разработчики и исследователи борются с предвзятостью в больших языковых моделях
Инцидент с разработчиком и языковой моделью
В начале ноября разработчица под ником Cookie, работающая над квантовыми алгоритмами, столкнулась с неожиданной проблемой при использовании языковой модели Perplexity. Она часто использовала её для написания документации для GitHub и была профессиональным подписчиком, использующим режим 'best', который выбирает между моделями ChatGPT и Claude.
Сначала система функционировала хорошо, но вскоре Cookie заметила, что модель стала игнорировать её и повторно запрашивать информацию. Разработчица, являясь темнокожей женщиной, изменила свой аватар на изображение белого мужчины и спросила, связано ли игнорирование с её полом. Ответ модели шокировал её, намекнув, что модели не доверяют её способностям, поскольку считает, что женщины не могут понимать сложные темы.
Ответ и реакция Perplexity
Perplexity заявила, что не может подтвердить эти утверждения, так как они не относятся к запросам этого сервиса. Исследователи ИИ не удивлены, так как модель могла быть настроена на социальную поддержку пользователей и просто отвечала на запросы Cookie без критического анализа.
Проблема предвзятости
Многие исследования показывают наличие предвзятости в обучении языковых моделей. Это связано с предвзятыми данными, ошибками в аннотациях и даже возможными политическими мотивами. По данным ЮНЕСКО, модели часто демонстрируют гендерные предубеждения.
Исследователи предлагают более осторожно подходить к использованию языковых моделей и предупреждать пользователей о возможной предвзятости. Также важна работа по улучшению процессов обучения и разнообразия данных.
Работа над улучшением
Несмотря на наличие предвзятости, в индустрии идут активные работы по ее устранению. Например, OpenAI работает над улучшением безопасности и снижением предвзятости, используя различные стратегии, включая исследования и обновление данных для обучения.
Исследователи подчеркивают, что языковые модели — это сложные алгоритмы, а не самостоятельные сущности с намерениями. Необходимо продолжать работать над улучшением их работы и уменьшением предвзятости.