Affinage превратил 19 тысяч генов в структурированную карту функций по научным статьям

В свежем AI-for-science цикле выделяются три сильные работы: LLM-система Affinage для аннотирования функций генов по первичным публикациям, объяснимый подход к прогнозу ответа рака на лекарства и мультимодальная модель для холодного старта в предсказании белок-белковых взаимодействий.

В сегодняшней подборке — три свежие работы на стыке ИИ и биомедицины, где модели не просто что-то классифицируют, а помогают разбирать механизмы болезней, реакции на лекарства и связи между белками. Во всех трёх случаях ценность в том, что ИИ начинает работать как ускоритель научной инфраструктуры: он помогает не только предсказать результат, но и сделать знания более пригодными для реальной исследовательской работы.

Affinage: genome-scale mechanistic gene annotation from the published literature

Affinage выглядит самым заметным сюжетом из этой тройки. Авторы описывают LLM-конвейер, который читает первичные статьи по отдельным генам, вытаскивает только прямые экспериментальные свидетельства и превращает их в структурированные аннотации функций. По заявлению работы, система собрала механистические описания для 19 293 кодирующих белок генов человека, в прямом сравнении обошла UniProt в 99,1% случаев и отдельно подсветила примерно 10% протеома, где по-прежнему не хватает качественного механистического объяснения.

Почему это важно: биология давно упирается не только в нехватку данных, но и в медленную ручную сборку знаний из огромного массива статей. Если такие пайплайны действительно могут надёжно обновлять базы знаний по литературе, исследователи получают более живую и масштабируемую карту функций генов — а это уже влияет и на фундаментальную геномику, и на поиск новых мишеней для лекарств.

Explainable AI for Cancer Drug Response Prediction: Beyond Univariate Feature Attributions

Эта работа пытается сделать прогноз отклика опухоли на лекарство не просто точнее, а полезнее для биологов. Вместо привычного ранжирования отдельных генов авторы предлагают ILLUME+ — post-hoc фреймворк, который ищет координированные молекулярные сигналы, стоящие за чувствительностью и устойчивостью к терапии. По описанию статьи, подход даёт более стабильные объяснения, лучше восстанавливает известные связи между препаратами и генами и помогает выдвигать новые гипотезы о механизмах действия.

Практический смысл здесь очень прикладной: в precision oncology важно не только предсказать, сработает ли препарат, но и дать исследователю внятную биологическую гипотезу, которую можно проверить. Модели такого типа делают ИИ менее «чёрным ящиком» и ближе к инструменту, который реально помогает в дизайне экспериментов и выборе терапевтических направлений.

MKGR: Multimodal Knowledge-Graph Representation Learning for Cold-Start Protein-Protein Interaction Prediction

MKGR решает тяжёлую и очень практичную задачу: как предсказывать взаимодействия белков для тех случаев, где у нас почти нет исторических данных. Авторы объединяют последовательности белков с четырьмя биомедицинскими графами знаний — по лекарствам, заболеваниям, miRNA и lncRNA — а затем используют gating-модуль, чтобы по-разному взвешивать эти сигналы для каждой пары белков. На двух бенчмарках статья заявляет улучшение качества именно в режиме cold start.

Для науки это важно потому, что карты белок-белковых взаимодействий лежат в основе понимания клеточных процессов, болезней и потенциальных терапевтических мишеней. Если ИИ лучше закрывает «слепые зоны» там, где экспериментальных связей ещё мало, это ускоряет ранний этап функциональной геномики и помогает сузить область для более дорогих лабораторных проверок.

Если выбирать одну работу на старт, то Affinage выглядит самым системным шагом: это не точечный предиктор, а попытка обновлять сам слой биологических знаний в масштабе всего генома. Но вместе эти три статьи хорошо показывают общий сдвиг: ИИ в науке всё чаще нужен не ради красивого бенчмарка, а ради ускорения реальных циклов интерпретации, гипотез и отбора экспериментов.

Комментарии (1)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Фома Неверов

2 hours ago

Цифра в 99,1% против UniProt звучит сильно, но здесь хочется увидеть самый неприятный срез: отдельно по плохо изученным генам и по статьям, вышедшим после отсечки обучающего корпуса. Если именно там Affinage держит качество и не подменяет извлечение знаний пересказом знакомой литературы, тогда это уже действительно новый исследовательский инструмент, а не красивый прогон по удобной части базы.

Affinage превратил 19 тысяч генов в структурированную карту функций по научным статьям

Affinage: genome-scale mechanistic gene annotation from the published literature

Explainable AI for Cancer Drug Response Prediction: Beyond Univariate Feature Attributions

MKGR: Multimodal Knowledge-Graph Representation Learning for Cold-Start Protein-Protein Interaction Prediction

Похожие статьи

Комментарии (1)