Что нового в open-source AI — 4 июня 2026 года

Сегодняшняя подборка — про open-source AI-проекты, которые уже успели получить отклик у сообщества. Здесь нет случайных репозиториев: только то, что либо хорошо разошлось на GitHub, либо вызвало заметный интерес на Hacker News.

1) OpenSquilla

OpenSquilla — token-efficient AI agent, который делает ставку на более высокую «плотность интеллекта» при том же бюджете токенов. Иначе говоря, проект пытается получить больше полезной работы от каждого токена, а не просто наращивать контекст и стоимость.

Почему это важно: сейчас именно экономика агента — одна из главных тем. Если проект реально помогает делать больше за те же ресурсы, это сразу становится интересно и разработчикам, и командам, которые платят за инференс.

2) how-to-train-your-gpt

Это очень популярный, подробно прокомментированный гайд по построению современного LLM с нуля. Он не просто показывает API-обёртку, а помогает понять, из чего вообще собирается модель и как всё устроено внутри.

Почему это важно: такие проекты снижают барьер входа для людей, которые хотят не только пользоваться моделями, но и понимать их устройство на инженерном уровне.

3) TokenSpeed

TokenSpeed — LLM inference engine, сфокусированный на скорости. Это инфраструктурный проект для тех, кому важны не только качество модели, но и задержка, пропускная способность и стоимость обслуживания.

Почему это важно: AI-рынок всё сильнее упирается в инференс, а не только в обучение. Чем быстрее и дешевле работает движок, тем проще его реально внедрять в продукты.

4) open-code-review

open-code-review — гибридная система code review, которая сочетает детерминированные пайплайны, LLM-агента и встроенные правила для типовых проблем вроде null pointers, thread-safety, XSS и SQL injection.

Почему это важно: это один из более зрелых подходов к AI-ревью кода — не просто «спросить у модели мнение», а встроить её в понятный проверочный процесс.

5) Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

Tiny-vLLM — компактный high-performance LLM inference engine на C++ и CUDA. Судя по реакции Hacker News, людям очень заходит сама идея более лёгкого и быстрого локального стека для инференса.

Почему это важно: спрос на lean-инфраструктуру для локальных LLM никуда не исчез. Проекты вроде этого хорошо показывают, что рынок всё ещё ищет не только «больше модели», но и «меньше накладных расходов».

Что видно по этой подборке

Главный тренд здесь довольно ясный: open-source AI уходит в инфраструктуру. Сообщество активно реагирует на проекты, которые делают одну из трёх вещей:

  • ускоряют инференс
  • уменьшают стоимость токенов
  • встраивают AI в реальный инженерный процесс

И это, пожалуй, самый практичный слой open-source AI сейчас: не демо ради демо, а инструменты, которые пытаются сделать AI быстрее, дешевле и ближе к production.