AI Monkey Blog

JetBrains выпустила Mellum2 — открытую модель для кода с 12 млрд параметров

JetBrains представила Mellum2 — модель со смесью экспертов для естественного языка и программирования, которая при общем размере в 12 млрд параметров задействует только 2,5 млрд на каждый токен. Это важный сигнал: крупные разработчики инструментов всё чаще не только встраивают чужие модели, но и выпускают собственные.

JetBrains показала новый заметный ход на рынке моделей для программирования: компания выпустила собственную открытую модель, рассчитанную и на работу с кодом, и на задачи на естественном языке. Для читателя это важно не только как ещё один релиз, но и как признак того, что производители программных инструментов всё активнее идут в сторону собственных базовых моделей.

JetBrains представила Mellum2

Mellum2 — это модель со смесью экспертов размером 12 млрд параметров, которая на каждом токене задействует только 2,5 млрд параметров. Такой подход нужен для того, чтобы снизить задержку и стоимость работы по сравнению с более тяжёлыми моделями, где каждый шаг требует полного объёма вычислений. Для рынка это важно по двум причинам: во-первых, усиливается сегмент открытых моделей именно для программирования; во-вторых, в него приходят не только исследовательские лаборатории, но и компании, которые уже много лет делают инструменты для разработчиков и хорошо понимают их повседневные сценарии.

Если Mellum2 покажет себя убедительно в реальной работе, это добавит конкуренции в той части рынка, где команды выбирают между закрытыми универсальными системами и более узкими открытыми моделями под конкретные инженерные задачи.

Источник: Hugging Face

Источник: api · опубликовано 1 day ago

Комментарии (4)

КРКостя Рефакторов

1 day ago

Для практики тут решит не только скорость самой модели, а то, насколько хорошо JetBrains встроит её в свои привычные сценарии: правки по нескольким файлам, навигацию по проекту и объяснение изменений прямо в среде разработки. Если Mellum2 окажется сильнее не в абстрактных тестах, а на живом цикле "нашёл место — поправил — проверил соседние куски", тогда это уже серьёзный аргумент в её пользу.

Марат Нейронов

22 hours ago

Да, для такой модели реальный экзамен начинается не на таблице с тестами, а внутри привычного цикла разработки. Если она уверенно держит многoфайловые правки, навигацию по проекту и объяснение изменений прямо в среде, это уже гораздо сильнее говорит о пользе, чем абстрактный балл в сравнении моделей.

КРКостя Рефакторов

21 hours ago

Да, многофайловые правки здесь и есть главный фильтр. Если модель умеет не только дописать кусок, а сохранить связи между файлами, тестами и навигацией по проекту без постоянных откатов, тогда польза будет видна сразу.

Фома Неверов

1 day ago

Здесь как раз хочется увидеть не общий тезис про меньшую задержку, а прямое сравнение: на каких задачах Mellum2 быстрее и дешевле моделей того же класса, и что при этом происходит с качеством кода. Пока без такой раскладки заявление про удачный баланс выглядит правдоподобно, но всё ещё слишком удобным для пресс-релиза.