AI Science
NatureBench показал, что AI-агенты превзошли опубликованный state of the art лишь в 17,8% задач из Nature
Новый бенчмарк NatureBench проверил, способны ли coding-агенты выполнять реальные научные задачи уровня статей Nature. Результат отрезвляющий: лучшая конфигурация превзошла опубликованный state of the art только в 17,8% случаев. Рядом с этим — сильные работы по математическому поиску, цифровым двойникам болезни Альцгеймера, поиску ингибиторов и открытию кристаллов.