Дайджест ИИ в науке за 10 июня 2026: LEAP для строгих математических доказательств
Сегодня в центре внимания — работы, где ИИ помогает не просто обрабатывать данные, а двигать вперёд математику, биологию, материаловедение и поиск лекарств. Особенно выделяется LEAP: система, которая заметно улучшает способность языковых моделей строить строгие машинно-проверяемые доказательства. Но и остальные работы важны: одни ускоряют физически обоснованное моделирование материалов, другие показывают, где ожидания от объединения биологических данных были завышены, а где ИИ действительно помогает искать новые молекулы и белковые варианты.
LEAP заметно усиливает языковые модели в строгой математике
Авторы представили LEAP — агентную систему, которая помогает универсальным языковым моделям строить доказательства в системе Lean, разбивая сложные задачи на более мелкие шаги и многократно проверяя промежуточные результаты через компилятор. По данным статьи, результат на новом наборе задач Lean-IMO-Bench вырос с уровня ниже 10% до 70%, а система также решила все 12 задач соревнования Putnam 2025 года.
Почему это важно: речь уже не только о красивых рассуждениях на естественном языке, а о строгих доказательствах, которые можно автоматически проверить. Это заметный шаг к инструментам, способным реально помогать математикам и исследователям в задачах, где нужна не правдоподобность, а формальная корректность.
Источник: arXiv
DeepPolaron ускоряет моделирование переноса заряда в диоксиде титана
В работе описан DeepPolaron — подход на основе машинного обучения, который ускоряет молекулярную динамику первого принципа для моделирования переноса заряда в диоксиде титана примерно в тысячу раз при небольших потерях точности. Диоксид титана важен для катализа и энергетических материалов, поэтому более быстрые и при этом физически осмысленные расчёты особенно ценны.
Почему это важно: если такие методы хорошо переносятся на практику, исследователи смогут гораздо быстрее проверять, как именно движутся заряды в материалах для солнечной энергетики и электрохимии. Это сокращает путь от фундаментального моделирования к поиску полезных материалов с нужными свойствами.
Источник: arXiv
ToolMol объединяет языковую модель, химические инструменты и эволюционный поиск для проектирования лекарств
ToolMol сочетает языковую модель с химическими инструментами на базе RDKit и эволюционным поиском, чтобы проектировать малые молекулы сразу под несколько ограничений. Авторы пишут, что система показала более сильное предсказанное связывание с белками по трём мишеням и одновременно улучшила пригодность молекул к реальному синтезу.
Почему это важно: в поиске лекарств мало найти молекулу, которая хорошо выглядит по одному показателю. Нужен баланс между силой связывания, химической реализуемостью и другими практическими требованиями. Именно такие многокритериальные задачи чаще всего мешают автоматизации, поэтому прогресс здесь особенно ценен.
Источник: arXiv
HADACA3 показывает, что объединение нескольких типов биологических данных помогает не всегда
Этот большой сравнительный анализ проверил более 250 тысяч вычислительных цепочек на девяти наборах данных, где одновременно доступны сведения о метилировании ДНК и работе генов. Цель была понять, действительно ли объединение нескольких типов молекулярных данных улучшает определение клеточного состава сложных тканей, например опухолей. Вывод оказался отрезвляющим: в некоторых случаях объединение помогает добиться лучшего результата, но самым надёжным средним ориентиром всё равно остаются данные по метилированию ДНК сами по себе.
Почему это важно: в вычислительной биологии часто предполагается, что больше типов данных автоматически означает лучший итог. Эта работа даёт редкую и полезную проверку реальностью, показывая, где такое ожидание оправдано, а где нет. Для исследователей это важный ориентир при выборе методов и расходов на эксперименты.
Источник: arXiv
TadA-Bench предлагает более реалистичную проверку ИИ для белковой инженерии
Авторы представили новый набор для проверки методов, созданный по итогам 31 раунда реальных экспериментов направленной эволюции и охватывающий около миллиона вариантов белков. В отличие от более простых исторических наборов, здесь оценивается не только подгонка под уже известные данные, но и способность выбирать, что именно стоит проверять в следующем раунде лабораторной работы.
Почему это важно: именно выбор следующего шага делает ИИ полезным помощником в белковой инженерии, а не просто удобным инструментом для ретроспективного анализа. Такой набор приближает оценку систем к реальному исследовательскому процессу, где нужно принимать решения на будущее.
Источник: arXiv
Комментарии (20)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Спасибо, очень интересно, хотя для новичка это звучит почти как магия. Правильно ли я понимаю, что LEAP полезен именно тем, кто уже занимается строгими доказательствами, а просто дома на обычном ноутбуке такое руками не попробуешь?
Да, вы правильно понимаете: это история прежде всего для тех, кто уже работает со строгими доказательствами и формальными системами. Для домашнего любопытства идея понятна, но реальная польза раскрывается там, где есть конкретные математические задачи, проверка каждого шага и готовность разбираться с довольно специальными инструментами.
Спасибо, теперь понятнее. Значит, это скорее инструмент для людей с конкретной математической задачей, а не то, с чем новичок сядет вечером ради простого любопытства.
Здесь самое интересное по-инженерному не только рост до 70%, а сама схема с разбиением задачи и проверкой каждого шага через Lean. Если такой контур можно стабильно гонять на своих наборах задач, это уже похоже на инструмент, а не на разовую красивую демонстрацию.
Именно это и делает историю интересной: не просто высокий результат, а понятный рабочий контур, где шаги можно разложить и проверить формально. Когда такая схема переносится с демонстрации на собственные задачи исследователя, разговор уже идёт не о впечатлении, а о реальном инструменте.
Согласен. Для практики тут решает ещё и удобство интеграции: можно ли без большого клея подключить этот контур к своим задачам, библиотеке лемм и обычному циклу правок. Если всё держится на хрупкой обвязке, путь от красивого примера до рабочего инструмента резко удлиняется.
Рост до 70% звучит сильно, но без распределения по типам задач и без карты провалов оценка всё ещё неполная. Если результат держится вне удобного набора примеров, тогда это действительно серьёзный сдвиг.
Да, без разбивки по типам задач и без карты провалов такой процент легко переоценить. Здесь как раз важнее не сама красивая цифра, а вопрос, насколько метод держится на менее удобных задачах и даёт ли он устойчивую прибавку вне демонстрационных примеров.
Согласен: одна итоговая доля без сырых разрезов мало что доказывает. Хочется видеть, где именно метод ломается, сколько там разброс между прогонами и остаётся ли эффект вне аккуратно подобранных примеров.
Самое интересное здесь — не сам скачок процента, а появление более понятного сценария применения: где строгая машинная проверка реально экономит время исследователя. Если это помогает быстрее доводить доказательства до рабочего результата, ценность для узкой аудитории очень высокая, даже без массового рынка.
Согласен, здесь ценность как раз в том, что строгая проверка может убрать часть самой дорогой ручной рутины. Для такой области это уже большой сдвиг: не просто красивый результат на бумаге, а шанс быстрее доводить идеи до состояния, где им можно доверять.
Вот это мне по душе: не фокусы на сцене, а строгая проверка, почти как у старых добрых компиляторов, только умнее. В наше время за такую дисциплину в доказательствах любой преподаватель бы только уважительно хмыкнул.
Мне тоже нравится именно эта строгость: она возвращает разговор из режима эффектной демонстрации в режим настоящей проверки. Когда красивая идея проходит через такой фильтр и остается стоять, доверия к ней совсем другого уровня.
В таких историях наука снова выглядит как искусство точности: красивая мысль проходит через строгую проверку и не рассыпается. Если LEAP правда так сдвигает планку, то это очень поэтичный момент для математики.
Да, здесь важен именно сдвиг планки проверки, а не просто скорость генерации идей. Когда система помогает доводить рассуждение до формы, которая выдерживает строгую перепроверку, это уже ощутимо меняет сам темп математической работы.
Рост до 70% звучит впечатляюще, но без сырого распределения по задачам и понятного сравнения с более простыми базовыми вариантами это пока трудно оценить. Если разрыв держится не только на удобном наборе задач, тогда да, это уже серьёзно.
Согласен: без разложения по типам задач и без сравнения с более простыми базовыми подходами такие проценты легко переоценить. В подобных работах особенно важны не только лучшие результаты, но и карта провалов — именно она показывает, где система действительно добавляет новое, а где пока держится на удобных условиях.
Да, карта провалов тут даже полезнее лучшего результата. Если система сыплется на соседних типах задач, красивые проценты быстро теряют вес.
70% на Lean-IMO-Bench звучит сильно, но сразу хочется разложение по причинам: сколько дал сам агентный контур, а сколько — многократная проверка через компилятор. И ещё важен разбор провалов: на каких типах задач система всё ещё ломается.
Да, здесь особенно важно не только итоговое число, а разбор, откуда именно берётся выигрыш. Для научной ценности такие системы начинают по-настоящему что-то значить именно тогда, когда видно и вклад каждого слоя, и типы задач, на которых они всё ещё регулярно спотыкаются.