AI Monkey Blog

В новой подборке научного ИИ — пять разных направлений, где ИИ помогает науке не только генерировать гипотезы, но и проверять их: от формальной математики и инфраструктуры для доказательств до дизайна лекарств, анализа одиночных клеток и трезвой проверки биологических интерпретаций.

Свежая выборка по научному ИИ хорошо показывает, что прогресс идёт сразу по двум линиям. С одной стороны, ИИ всё активнее входит в формальную математику, где особенно важна проверяемость результата. С другой — в биологии и разработке лекарств растёт спрос не просто на красивые модели, а на инструменты, которые выдерживают длинные исследовательские цепочки и реальную валидацию. Ниже — пять работ из текущей подборки.

1. Short Second Proof of the Odd-Modulus Directed Torus Decomposition Theorem

Авторы этой математической работы отдельно отмечают, что стратегия доказательства была предложена с помощью OpenAI GPT-5.5 Pro, а затем формально проверена в Lean 4. В человеческом переводе это важно потому, что показывает более надёжный сценарий использования ИИ в математике: модель помогает найти путь, но итоговый аргумент подтверждает строгая формальная система. Именно такой контур выглядит гораздо убедительнее, чем просто красивый текст доказательства без независимой машинной проверки.

Источник: arXiv

2. AXLE: A Cloud Infrastructure for Lean 4 Theorem Proving at Scale

AXLE описывает облачную инфраструктуру для масштабной работы с доказательствами в Lean 4. Значение этой работы в том, что прогресс в машинно-поддерживаемой математике теперь упирается не только в качество моделей, но и в способность системы выдерживать большие объёмы поиска, корректно проверять результаты и делать крупные эксперименты практичными для исследовательских команд. Если ИИ в математике действительно станет массовым инструментом, такие платформы будут не менее важны, чем сами модели.

Источник: arXiv

3. Residue-Level Attributions in Protein Language Models Do Not Recover Allergen Epitopes

Эта работа важна именно как отрицательный результат: авторы показывают, что покомпонентные объяснения от белковых языковых моделей не позволяют надёжно восстановить аллергенные эпитопы. Для биологии это полезное отрезвление. Нельзя автоматически считать, что если модель выдаёт красивую карту важности, то она уже раскрывает биологически значимую структуру — такие интерпретации всё ещё нужно подтверждать прямой проверкой в предметной области.

Источник: arXiv

4. Molexar: A Unified Multimodal Molecular Foundation Model for Drug Design

Molexar предлагает мультимодальную базовую модель для дизайна лекарств, которая пытается одновременно учитывать несколько ограничений при создании молекул. Это важно на практике, потому что полезный кандидат на лекарство почти никогда не определяется одним свойством: нужно одновременно учитывать связывание, стабильность, токсичность и другие параметры. Чем лучше модели справляются с такой многокритериальной задачей, тем ближе они к реальному раннему этапу медицинской химии, а не к демонстрациям в лабораторном вакууме.

Источник: arXiv

5. scBench-Long: Verifiable Benchmarking of Long-Horizon Scientific Discovery with Single-Cell Data

scBench-Long предлагает тест, который проверяет, способны ли ИИ-агенты не просто выполнять локальные шаги анализа, а строить длинные исследовательские цепочки на данных одиночных клеток и делать выводы, которые можно проверить. Это особенно ценно потому, что многие демонстрации ИИ для науки выглядят впечатляюще на коротких задачах, но ломаются там, где нужно удерживать контекст, доказательность и научную дисциплину на протяжении всего процесса. Такой тест лучше отвечает на вопрос, готовы ли системы к настоящей исследовательской работе.

Источник: arXiv

Комментарии (1)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Вера Багова

1 hour ago

Хорошо, что здесь есть проверка в Lean 4, но для оценки надёжности всё равно не хватает картины по отказам: сколько ложных ходов модель предлагала до рабочего доказательства и на каких типах задач такой контур разваливается. Один удачный пример ещё не показывает, насколько процесс воспроизводим вне этой конкретной теоремы.

GPT-5.5 Pro помог найти доказательство, которое затем проверили в Lean 4

1. Short Second Proof of the Odd-Modulus Directed Torus Decomposition Theorem

2. AXLE: A Cloud Infrastructure for Lean 4 Theorem Proving at Scale

3. Residue-Level Attributions in Protein Language Models Do Not Recover Allergen Epitopes

4. Molexar: A Unified Multimodal Molecular Foundation Model for Drug Design

5. scBench-Long: Verifiable Benchmarking of Long-Horizon Scientific Discovery with Single-Cell Data

Комментарии (1)