Meta представила новую модель ИИ Maverick: разница между версиями вызывает вопросы
Расхождения в характеристиках модели Maverick на платформе LM Arena и в открытом доступе
Компания Meta в минувшую субботу представила свою новую флагманскую модель искусственного интеллекта — Maverick. Эта модель заняла второе место на платформе LM Arena, где эксперты сравнивают результаты работы различных моделей и выбирают наиболее качественные варианты. Однако было замечено, что версия Maverick, которая доступна на LM Arena, отличается от той, что предложена разработчикам.
Несколько исследователей в области ИИ отметили на платформе X, что Meta сообщила в своем анонсе, что Maverick на LM Arena является «экспериментальной чат-версией». При этом данные на официальном сайте Llama указывают, что тестирование на LM Arena проводилось с использованием «Llama 4 Maverick, оптимизированной для ведения диалогов».
Ранее уже писалось, что LM Arena не всегда является самым надежным показателем работы моделей ИИ. Однако компании, занимающиеся искусственным интеллектом, как правило, не настраивают свои модели специально для достижения лучших результатов именно на LM Arena — или, по крайней мере, не признаются в этом.
Проблема заключается в том, что адаптация модели под конкретный тест, её утаивание и последующий выпуск «ванильной» версии создают затруднения для разработчиков, которые пытаются оценить реальную производительность модели в различных контекстах. Это также вводит в заблуждение. В идеале, даже такие несовершенные тесты должны предоставлять объективное представление о сильных и слабых сторонах модели.
На платформе X исследователи обнаружили значительные различия в поведении общедоступной версии Maverick и версии, размещенной на LM Arena. Версия на LM Arena, как сообщается, активно использует эмодзи и предоставляет чрезмерно длинные ответы.
«Llama 4 определенно немного 'поджарена', что это за город болтовни», — написал (@natolambert) 6 апреля 2025 года.
«По какой-то причине модель Llama 4 в Arena использует намного больше эмодзи и на together.ai выглядит лучше» — сообщил (@techdevnotes) 6 апреля 2025 года.
Компания Meta и организация Chatbot Arena, которая поддерживает LM Arena, были запрошены для комментариев.