AI Monkey Blog

Новый бенчмарк NatureBench проверил, способны ли coding-агенты выполнять реальные научные задачи уровня статей Nature. Результат отрезвляющий: лучшая конфигурация превзошла опубликованный state of the art только в 17,8% случаев. Рядом с этим — сильные работы по математическому поиску, цифровым двойникам болезни Альцгеймера, поиску ингибиторов и открытию кристаллов.

ИИ всё активнее заходит в науку, но свежая подборка показывает важный контраст: с одной стороны, появляются инфраструктура и модели для реальных научных задач, с другой — до полноценного автономного научного открытия нынешним агентам ещё далеко. Ниже пять заметных работ из AI Science.

NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

Авторы превратили 90 рецензируемых задач из статей семейства Nature в стандартизированные среды, чтобы проверить, могут ли coding-агенты делать настоящую научную работу, а не решать игрушечные бенчмарки. Главный результат очень конкретный: лучшая протестированная конфигурация превзошла опубликованный state of the art лишь в 17,8% задач.

Это важно потому, что рынок часто обсуждает AI-агентов как почти готовых автономных исследователей. NatureBench показывает более трезвую картину: нынешние системы заметно лучше справляются с воспроизведением и адаптацией уже известных методов, чем с реальным научным изобретением. Для лабораторий и инвесторов это полезный ориентир — AI уже помогает ускорять исследовательский цикл, но не заменяет научную новизну.

TheoremGraph: Bridging Formal and Informal Mathematics

TheoremGraph соединяет неформальную математику из arXiv-статей и формальную математику из библиотек Lean на уровне отдельных утверждений и зависимостей. Масштаб работы впечатляет: 11,7 млн theorem-like passages и более 11 млн формальных связей.

Практическая ценность в том, что ИИ-системам для математики хронически не хватает качественного мостика между человеческим языком статьи и машинно-проверяемым доказательством. Такая инфраструктура может заметно улучшить поиск, атрибуцию, верификацию и в будущем — системы, которые помогают не только находить известные результаты, но и строить новые доказательные цепочки.

Neural operator-based digital twins for modeling amyloid-β and tau propagation and treatment optimization in Alzheimer's disease

В этой работе строятся персонализированные цифровые двойники болезни Альцгеймера: модель учится по разреженным продольным PET-данным предсказывать, как со временем распространяются amyloid-beta и tau, а затем использует эту динамику для оптимизации лечения. Авторы сообщают точность прогноза 87% для amyloid-beta и 81% для tau.

Почему это важно: это уже шаг не просто к диагностике, а к индивидуальному прогнозированию и планированию терапии. Если такие подходы будут подтверждаться на более широких данных, ИИ сможет помогать врачам оценивать не только текущее состояние пациента, но и вероятную траекторию развития нейродегенеративного процесса.

Machine learning-based modeling to predict inhibitors for targets of Alzheimer's Disease

Здесь машинное обучение применяют для скрининга ингибиторов сразу по нескольким мишеням болезни Альцгеймера, включая BACE-1, AChE и GSK-3 beta. Авторы сообщают AUC-ROC выше 0,9 по всем целям.

Работа не означает, что готовое лекарство уже найдено, но она важна как инструмент раннего сужения пространства поиска. В нейродегенеративных заболеваниях стоимость лабораторной проверки особенно высока, поэтому даже инкрементальные улучшения на этапе отбора кандидатов могут экономить много времени и ресурсов и быстрее подсказывать, какие биологические направления выглядят наиболее перспективно.

SVGym (SciVerseGym): An Environment for Reinforcement Learning and Bayesian Optimization in Crystal Discovery

SciVerseGym оформляет задачу открытия кристаллов в переиспользуемую среду, где агент может редактировать структуры, проверять стабильность и получать reward-сигналы через machine-learned interatomic potentials.

Это важно не столько одной моделью, сколько формой стандартизации. Исследования на стыке ИИ и материаловедения часто остаются разрозненными пайплайнами, которые трудно воспроизводить и сравнивать. Общая среда для reinforcement learning, байесовской оптимизации и language-agent подходов может сделать закрытый цикл открытия новых материалов заметно более сопоставимым и ускорить реальный прогресс в области.

Источник: arXiv

Комментарии (1)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Вера Багова

1 hour ago

Число 17,8% здесь полезно только как верхний уровень, но для вывода о реальной надёжности хочется разрез по типам провала. Сколько задач агент терял на воспроизведении окружения, сколько — на длинной цепочке шагов, а сколько — именно на научной новизне? Без такой раскладки команде всё ещё трудно понять, где у системы ломается контур.

NatureBench показал, что AI-агенты превзошли опубликованный state of the art лишь в 17,8% задач из Nature