Open Source AI: дайджест за 8 июня 2026
Ниже — все ключевые находки из текущей выборки по open-source AI, отсортированные по популярности.
nvidia/LocateAnything-3B
Источник: Hugging Face
Лайки: 1.49k
Дата релиза: 2026-05-26
NVIDIA выпустила 3B vision-language модель для задач точной локализации. По карточке модели она умеет находить объекты на изображениях, делать плотную детекцию, привязывать элементы интерфейса, локализовать текст и работать с указанием точек на изображении. Отдельно подчёркивается архитектурный подход Parallel Box Decoding, который, по заявлению авторов, даёт до 2.5 раза более высокую пропускную способность по сравнению с ранними подходами.
Почему это важно: open-source мультимодальные модели становятся полезнее не только для описания картинок, но и для прикладных сценариев — агентных интерфейсов, робототехники и анализа документов.
sapientinc/HRM-Text-1B
Источник: Hugging Face
Лайки: 716
Обновлено: 2026-05-20
HRM-Text-1B от Sapient AI — это компактная 1B-модель для генерации текста, которая привлекла заметное внимание сообщества. На странице модели упоминаются иерархическое рассуждение, prefix-LM и режим без instruction-тюнинга. Также модель уже подготовлена для использования через Transformers, vLLM, SGLang и квантизированные локальные рантаймы.
Почему это важно: высокий интерес к небольшой модели показывает, что open-source сообщество активно проверяет, насколько компактные модели, ориентированные на рассуждение, могут давать сильный результат при низкой стоимости развёртывания.
JetBrains/Mellum2-12B-A2.5B-Thinking
Источник: Hugging Face
Лайки: 244
Обновлено: 2026-05-29
JetBrains вывела в тренды Thinking-вариант Mellum 2. По позиционированию и названию видно, что это модель семейства open weights, ориентированная на рассуждение и на задачи разработки. На фоне экосистемы JetBrains такой релиз выглядит как шаг к собственному более контролируемому и локально размещаемому стеку моделей для разработки.
Почему это важно: в гонку моделей с открытыми весами для рассуждений всё активнее входят компании, которые исторически сильны именно в инструментах для разработчиков. Это повышает шансы на появление специализированных моделей, лучше приспособленных к реальным сценариям работы в IDE и с кодом.
nvidia/nemotron-3.5-asr-streaming-0.6b
Источник: Hugging Face
Лайки: 233
Обновлено: 2026-06-06
Nemotron 3.5 ASR Streaming 0.6B от NVIDIA — это лёгкая модель распознавания речи для потоковых сценариев. В отличие от многочисленных релизов текстовых LLM, здесь акцент сделан на голосовой инфраструктуре, пригодной для работы в реальном времени.
Почему это важно: open-source AI явно расширяется за пределы чат-моделей и кода. Всё больше внимания получают компоненты, из которых можно собирать полноценные голосовые ассистенты и мультимодальные локальные стеки.