Китайский стартап DeepSeek, прославившийся своей ИИ-моделью R1, представил новый метод обучения, который обещает значительное повышение эффективности искусственного интеллекта. Вместе с исследователями из университета Цинхуа компания опубликовала статью, в которой раскрыты детали инновационного подхода, использующего позитивное подкрепление для улучшения работы моделей ИИ.
Разработанный метод направлен на улучшение соответствия ИИ-моделей человеческим предпочтениям. Он использует систему вознаграждений для стимулирования генерации более точных и понятных ответов. Хотя обучение с подкреплением уже показало свою эффективность в специализированных задачах, его результаты ухудшаются при переходе к более универсальным задачам. Для решения этой проблемы команда DeepSeek предложила интеграцию генеративного моделирования вознаграждения (GRM) с самокритичной настройкой, основанной на принципах.
По данным исследования, новый подход превосходит существующие методы улучшения рассуждающих способностей больших языковых моделей (LLM). Тесты показали, что модели, обученные с применением GRM, показывают отличные результаты при обработке различных запросов, при этом требуя меньших вычислительных ресурсов.
Новые модели получили название DeepSeek-GRM, что расшифровывается как Generalist Reward Modeling (универсальное моделирование вознаграждения). Компания заявила, что намерена сделать эти модели с открытым исходным кодом, но точные сроки релиза пока не уточняются.