Решение проблемы объяснимости глубоких моделей от Guide Labs

Разработка новой архитектуры для интерпретируемых ИИ-моделей

Одна из ключевых сложностей в управлении моделями глубокого обучения заключается в понимании их действий. Независимо от природы проблемы — будь то странности ChatGPT или сложности с интерпретацией у xAI — разборка нейросети с миллиардами параметров остается сложной задачей.

Стартап из Сан-Франциско, Guide Labs, под руководством CEO Джулиуса Адебайо и главного научного сотрудника Аи Абдельсалам Исмаил, предложил решение данной проблемы. В понедельник компания открыла код новой модели Steerling-8B, состоящей из 8 миллиардов параметров. Эта модель использует архитектуру, которая позволяет легко интерпретировать её действия: каждый токен, созданный моделью, можно отследить до его источников в обучающих данных.

Это может быть как простая идентификация справочных материалов для фактов, так и более сложные задачи, такие как понимание моделью юмора или гендера. "Если у меня есть триллион способов закодировать гендер, и я закодировал его в одном миллиарде из этих триллионов, вы должны убедиться, что нашли все эти миллиарды", — объяснил Адебайо TechCrunch. "Это можно сделать с помощью текущих моделей, но это очень неустойчиво."

Адебайо начал эту работу, обучаясь в MIT, и стал соавтором цитируемой статьи в 2020 году, показывающей, что существующие методы понимания моделей глубокого обучения ненадежны. Эта работа привела к созданию нового способа построения моделей LLM: разработчики добавляют концептуальный слой в модель, который распределяет данные по трассируемым категориям.

Основное беспокойство, связанное с этим подходом, заключается в том, что он может устранить некоторые из возникающих поведений, которые делают LLM такими захватывающими. Однако Адебайо утверждает, что в модели компании это все еще возможно, упоминается, например, о "открытых концепциях", таких как квантовые вычисления.

Адебайо считает, что архитектура интерпретируемых моделей станет необходимостью для всех. Для моделей, ориентированных на потребителей, эти техники должны позволить строителям блокировать использование защищенных авторскими правами материалов или лучше контролировать результаты по темам, таким как насилие или наркотики. В регулируемых отраслях потребуется более контролируемые LLM, например, в финансах.

Как отмечается, Steerling-8B демонстрирует, что обучение интерпретируемым моделям теперь является инженерной задачей. Компания утверждает, что Steerling-8B может достичь 90% возможностей существующих моделей, используя меньше обучающих данных, благодаря своей новой архитектуре. Следующий шаг для компании — создание более крупной модели и начало предоставления API и агентской поддержки пользователям.

Отзывы