OpenAI на пути к улучшению тестов для ИИ: Программа "Пионеры"
Инициатива для создания новых стандартов оценки ИИ
Компания OpenAI, подобно многим другим лабораториям искусственного интеллекта, считает, что существующие методы оценки ИИ устарели. В стремлении их улучшить, компания создала новую инициативу — Программа "Пионеры".
Как говорится в блоге компании, программа будет направлена на создание оценок для моделей ИИ, которые будут считаться эталонами качества. "С ускорением внедрения ИИ в различные отрасли появляется необходимость понимать и улучшать его влияние на мир. Создание оценок, ориентированных на конкретные области, — это один из способов лучше отражать реальные ситуации использования, помогая командам оценивать производительность моделей в сложных условиях," — отмечает OpenAI в своем сообщении.
Недавние споры вокруг коллективных оценок в LM Arena и модели Meta’s Maverick показывают, насколько сложно сегодня определить, что именно отличает одну модель от другой. Многие известные тесты ИИ оценивают производительность на узких задачах, таких как решение уровней математических задач для аспирантов. Другие тесты можно обмануть, или они не соответствуют предпочтениям большинства пользователей.
Через Программу пионеров OpenAI хочет создать тесты для конкретных областей, таких как право, финансы, страхование, здравоохранение и бухгалтерия. Лаборатория планирует в ближайшие месяцы сотрудничать с "несколькими компаниями" для разработки этих адаптированных тестов и их последующего публичного распространения, вместе с "оценками, специфичными для каждой отрасли".
"Первая группа будет сфокусирована на стартапах, которые помогут заложить основы для Программы 'Пионеры,'" — пишет OpenAI в своем блоге. "Для этого первого набора мы выбрали несколько стартапов, работающих над высоко ценными практическими случаями, где ИИ может оказать реальное воздействие."
Компании, участвующие в программе, также получат возможность работать с командой OpenAI над усовершенствованием моделей через удобрение с подкреплением — технику, оптимизирующую модели для узкого набора задач.
Основной вопрос заключается в том, примет ли сообщество ИИ тесты, создание которых финансируется OpenAI. Ранее компания оказывала финансовую поддержку в создании тестов и разрабатывала собственные оценки. Однако партнерство с клиентами для выпуска тестов ИИ может вызвать этические вопросы.