Малые языковые модели: Новые перспективы и преимущества

Альтернатива крупным моделям — сокращения затрат на вычисления и ресурсы

Оригинальная версия этой статьи была опубликована в журнале Quanta Magazine.

Крупные языковые модели демонстрируют высокую эффективность благодаря своим размерам. Последние разработки компаний OpenAI, Meta и DeepSeek используют сотни миллиардов параметров — настраиваемых переменных, которые определяют связи между данными и изменяются в процессе обучения. Чем больше параметров, тем лучше модель распознает закономерности и связи, становясь более мощной и точной.

Однако такая мощность имеет свою цену. Обучение модели с сотнями миллиардов параметров требует огромных вычислительных ресурсов. Например, для обучения модели Gemini 1.0 Ultra Google, как сообщается, потратила около 191 миллиона долларов. Крупные языковые модели также требуют значительных вычислительных мощностей и при каждом запросе, что делает их энергоемкими. Согласно данным Института исследований электроэнергии, на один запрос к ChatGPT расходуется примерно в 10 раз больше энергии, чем на один поиск в Google.

В ответ некоторые исследователи теперь делают ставку на малые модели. IBM, Google, Microsoft и OpenAI недавно выпустили маленькие языковые модели (Small Language Models, SLM), которые используют всего несколько миллиардов параметров — лишь малую часть по сравнению с их крупными аналогами.

Малые модели не используются как универсальные инструменты, подобно крупным. Но они отлично справляются с определенными узкоспециализированными задачами, такими как суммирование разговоров, ответы на вопросы пациентов в качестве чат-бота в здравоохранении и сбор данных в умных устройствах. "Для многих задач модель с 8 миллиардами параметров вполне подходит", — отметил Зико Колтер, ученый в области компьютерных наук из Университета Карнеги-Меллон. Их также можно запускать на ноутбуке или мобильном телефоне вместо больших дата-центров.

Чтобы оптимизировать процесс обучения для таких моделей, исследователи используют различные методы. Крупные модели зачастую собирают данные для обучения из интернета, и эти данные могут быть неорганизованными и трудными для обработки. Однако такие модели могут создавать высококачественные наборы данных, которые помогут обучить меньшие модели. Этот подход называется "дистилляцией знаний", при котором большая модель передает свое обучение, подобно учителю, дающему уроки ученику. Кольтер пояснил: "Маленькие модели достигают таких результатов благодаря использованию высококачественных данных, а не хаотичных массивов".

Исследователи также рассматривают способы создания маленьких моделей, начиная с крупных и упрощая их. Один из методов, известный как "обрезка" (pruning), заключается в удалении ненужных или неэффективных частей нейронной сети — сложной сети связей данных, лежащей в основе крупной модели.

"Обрезка" вдохновлена реальными нейронными сетями, а именно человеческим мозгом, который увеличивает свою эффективность, удаляя связи между синапсами по мере старения человека. Современные подходы к "обрезке" восходят к статье 1989 года, в которой компьютерный ученый Янн Лекун, ныне работающий в Meta, заявлял, что до 90% параметров обученной нейронной сети можно удалить без потери эффективности. Этот метод он назвал "оптимальным повреждением мозга". Обрезка помогает исследователям оптимизировать малую языковую модель для конкретной задачи или среды.

Для тех, кто интересуется тем, как языковые модели выполняют свои функции, меньшие модели предлагают доступный способ протестировать новые идеи. И поскольку у них меньше параметров, чем у крупных моделей, их работа может быть более прозрачной. "Если вы хотите создать новую модель, вам нужно экспериментировать", — отметил Лешем Хошен, научный сотрудник лаборатории MIT-IBM Watson AI. "Маленькие модели дают исследователям возможность попробовать новые идеи с меньшими затратами".

Крупные и дорогие модели с их растущим числом параметров останутся полезными для таких приложений, как обобщенные чат-боты, генераторы изображений и открытие новых лекарств. Но для многих пользователей маленькие, специально нацеленные модели будут работать так же хорошо, при этом их легче обучать и создавать. "Эти эффективные модели могут сэкономить деньги, время и вычислительные ресурсы", — подчеркнул Хошен.

Отзывы