Исследователи Apple разработали SimpleFold — легкий ИИ для прогнозирования сворачивания белков

Работа Google DeepMind с AlphaFold была настоящим чудом, но она требует значительных вычислительных ресурсов. Учитывая это, исследователи Apple решили разработать альтернативный метод использования ИИ для прогнозирования трехмерной структуры белков, и он подает надежды. Вот подробности.

Если вы не знакомы с AlphaFold, это революционная модель ИИ от Google DeepMind, способная предсказывать трехмерную структуру белка по его аминокислотной последовательности. Это оказалось особенно ценным для разработки более эффективных лекарств, а также совершенно новых материалов.

До недавнего времени эта задача была невероятно сложной. Прогнозирование трехмерной атомной структуры одного белка могло занимать месяцы, а то и годы.

Но благодаря AlphaFold, а теперь и AlphaFold2, а также другим передовым моделям, таким как RoseTTAFold и ESMFold, процесс прогнозирования занимает всего несколько часов или даже минут, в зависимости от аппаратного обеспечения.

Каждая из этих моделей использует свои собственные методы и фреймворки для достижения такой высокой точности, но в целом они требуют чрезвычайно дорогостоящих вычислений, а их фреймворки имеют очень строгую структуру.

Как отмечают исследователи Apple:

«Устоявшиеся модели сворачивания белков, такие как AlphaFold2 и RoseTTAFold, достигли прорывной точности, полагаясь на тщательно разработанные архитектуры, которые интегрируют вычислительно сложные специализированные конструкции для задач сворачивания белков, таких как множественные выравнивания последовательностей (MSA) аминокислотных последовательностей, парные представления и треугольные обновления. Эти проектные решения (MSA, парные представления, треугольные обновления и т. д.) представляют собой попытку жестко закодировать наше текущее понимание процесса генерации структуры в эти модели, вместо того чтобы позволить моделям изучать это непосредственно из данных, что могло бы быть полезно по ряду причин».

Представляем SimpleFold от Apple

В своей предложенной модели, вместо того чтобы полагаться на «MSA, карты парного взаимодействия, треугольные обновления или любые другие эквивариантные геометрические модули», Apple использует так называемые модели сопоставления потоков (flow matching models), которые были представлены в 2023 году и оказались очень популярными для моделей преобразования текста в изображение и текста в 3D.

В двух словах, модели сопоставления потоков являются эволюцией диффузионных моделей, которые мы рассматривали в этой статье. Но вместо того, чтобы просто итеративно удалять шум из исходного изображения, они учатся более плавному пути, который превращает случайный шум прямо в готовое изображение за один проход.

И поскольку этот метод пропускает многие этапы шумоподавления, он менее требователен к вычислительным ресурсам и генерирует результаты быстрее.

Исследователи Apple обучили SimpleFold в нескольких разных размерах, включая 100M, 360M, 700M, 1.1B, 1.6B и 3B параметров, и оценили их на «двух широко используемых бенчмарках прогнозирования структуры белка: CAMEO22 и CASP14, которые являются строгими тестами на обобщение, устойчивость и точность на уровне атомов для моделей сворачивания».

Результаты были очень многообещающими:

«Несмотря на свою простоту, SimpleFold демонстрирует конкурентоспособную производительность по сравнению с этими базовыми моделями. В обоих бенчмарках SimpleFold показывает стабильно лучшие результаты, чем ESMFlow, которая также является моделью сопоставления потоков, построенной с использованием ESM-вложений. На CAMEO22 SimpleFold демонстрирует сравнимые результаты с лучшими моделями сворачивания (например, ESMFold, RoseTTAFold2 и AlphaFold2). В частности, SimpleFold достигает более 95% производительности RoseTTAFold2/AlphaFold2 по большинству метрик без применения дорогостоящего и эвристического треугольного внимания и MSA».

И

«Для полноты мы сообщаем результаты SimpleFold с использованием различных размеров моделей. Самая маленькая модель SimpleFold-100M показывает конкурентоспособную производительность, учитывая ее преимущество в эффективности как при обучении, так и при выводе. В частности, SimpleFold достигает более 90% производительности ESMFold на CAMEO22, что демонстрирует эффективность создания модели сворачивания с использованием универсальных архитектурных блоков».

Они также наблюдали улучшения производительности, связанные с масштабированием, что означает, что более крупные модели с большим объемом обучающих данных надежно обеспечивают лучшую производительность сворачивания, особенно на самых сложных бенчмарках.

Наконец, они отмечают, что SimpleFold — это лишь первый шаг, и говорят, что «надеются, что он послужит инициативой для сообщества по созданию эффективных и мощных генеративных моделей белков».

Полное исследование можно прочитать на arXiv.

Скидки на аксессуары на Amazon