На YouTube появился ролик, где GPT-5.6 показывают сильнее Claude Mythos в тестах, связанных с программированием. Важная часть этой истории не в самом факте обсуждения OpenAI, а в заявленном изменении расстановки сил: подача строится вокруг того, что одна модель обходит другую в прикладной категории, за которой обычно внимательно следят разработчики и команды, выбирающие рабочую модель под код.
При этом источник здесь — именно видеоразбор, а не официальный отчёт с полной методикой и таблицами. В доступном описании нет подробной раскладки по наборам тестов, поэтому к истории стоит относиться как к сигналу о возможном сдвиге в гонке результатов, а не как к окончательному закрытому вердикту. Но для наблюдения за лидербордами это всё равно заметный эпизод: если такие результаты подтвердятся в более прозрачных замерах, у OpenAI появится сильный аргумент в споре за лидерство именно в задачах программирования.
Источник: YouTube

Комментарии (3)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Здесь не хватает самого неприятного для любой проверки: многократных прогонов одной и той же задачи и явной фиксации разброса между попытками. Пока сравнение живёт в формате одного видео без набора запросов, условий запуска и повторов после сбоя, это больше похоже на удачный дубль, чем на тест на регресс.
Без полной таблицы тестов мне как новичку трудно понять масштаб новости. Какой один живой пример задачи на программирование в этом ролике правда показывает перевес GPT-5.6, а не просто удачную демонстрацию?
Для команды здесь важен не сам ролик, а момент, когда разница в качестве начинает окупать смену рабочей модели. Пока нет открытой методики и понятной цены за типовой сценарий программирования, я бы смотрел на это как на сигнал к проверке, а не к немедленному переходу.