20个实验数据创造AI蛋白质里程碑!上海交大联合上海AI Lab发布FSFP,有效优化蛋白质预训练模型

蛋白质,这些微小而强大的生物分子,是生命活动的基础,在生物体内扮演着多种角色。然而,要精确地调整和优化蛋白质功能,以适应特定的工业或医疗需求,却是一项极具挑战性的任务。传统上,科学家们依赖于湿实验方法来探索蛋白质的奥秘,但这种方法既耗时又昂贵。

幸运的是,随着人工智能的飞速发展,一种新的工具——预训练蛋白质语言模型 (PLMs),正在帮助我们以前所未有的方式理解和预测蛋白质的行为。PLMs 以无监督的方式学习数百万蛋白质中氨基酸序列的分布特征,在揭示蛋白质序列与其功能之间的隐含关系方面显示出了巨大的潜力,因此有助于高效地探索大量的设计空间。如今,预训练的 PLMs 在缺少实验数据的情况下已经取得了显著进展,但其准确性和可解释性仍有待提高。 此外,传统监督学习模型需要大量的标记训练样本,这也是实际应用难以克服的障碍。

为了解决上述问题,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组,联合上海人工智能实验室青年研究员谈攀, 综合利用元迁移学习 (meta-transfer learning, MTL)、排序学习 (learning to rank, LTR) 和参数高效微调 (parameter-efficient fine-tuning, PEFT),开发了一种能在数据极度匮乏的情况下,有效优化蛋白质语言模型的训练策略 FSFP, 可用于蛋白质适配性的小样本学习,在使用极少湿实验数据的情况下,极大地提高传统蛋白质预训练大模型在突变-性质预测的效果,在实际应用中也显示出了巨大的潜力。

相关研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」为题,发表在 Nature 子刊 Nature Communications。

在这里插入图片描述

论文地址:
https://doi.org/10.1038/s41467-024-49798-6

ProteinGym 蛋白质突变数据集下载地址:

https://go.hyper.ai/6GvFD

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s

直击数据匮乏难题,FSFP 优化蛋白质语言模型

FSFP 方法包括三个阶段: 为元学习构建辅助任务(Build auxiliary tasks for meta-training)、在辅助任务上训练 PLMs 模型(Meta-train PLMs on the auxiliary tasks)、以及将 PLMs 模型转移到目标任务(Transfer PLMs to the target task via LTR)。

在这里插入图片描述

基于目标蛋白的野生型序列或结构检索

其中,元学习旨在通过从多个学习任务中积累经验,以训练一个仅需使用少量训练样例和迭代就能快速适应新任务的模型。因此,该研究首先用 PLMs 将目标蛋白(Target protein)的野生型序列或结构与数据库中的序列或结构编码到嵌入载体中。

在这里插入图片描述

MAML 算法对 PLMs 进行元训练

此外,该研究使用了一种基于梯度的元学习方法——模型无关元学习 (MAML), 在构建的任务上进行元训练 PLMs。MAML 能够找到最优初始模型参数,即使对它们进行小幅更改也会在目标任务上产生显著改善。在每个迭代周期中,元训练过程包含两个级别的优化,并最终将 PLMs 转换为初始化的元学习器。

在内部优化中,该研究使用当前的元学习器 (meta-learner) 初始化形成临时基础学习器,然后通过采样任务的训练数据将其更新为任务特定模型。在外部优化中,该研究使用特定任务模型 (task-speciic model) 在该任务上的测试损失来优化元学习器。

为了避免由于训练数据太少而导致灾难性过拟合,FSFP 使用低秩自适应 (LoRA) 将可训练的秩分解矩阵注入到 PLMs 中, 其中它们的原始预训练参数被冻结,所有模型更新都被限制为小数量的可训练参数。

在这里插入图片描述

将元训练模型迁移到目标少样本学习任务中

在元训练后,该研究可以得到基于 LoRA 参数的初始化,并最终将元训练好的 PLMs 转移至目标小样本学习任务,即用有限标记数据来学习预测目标蛋白质的突变效应。与传统监督学习蛋白质突变预测的方法不同,FSFP 将其视为排序问题,并利用了 LTR 技术。

具体而言,FSFP 学习通过计算 ListMLE 损失来对突变适应度进行排名。在每次迭代中,该研究都对模型进行训练,使其对一个或多个采样数据子集的预测趋向于基本真值排列。这些训练方案被同时应用于使用目标训练数据的迁移学习阶段和使用辅助任务训练数据的元训练阶段的内部优化。

基于 87 个高通量突变数据集 ProteinGym 的基准测试

为了构建元学习所需的训练任务, 该方法首先检索现有的标记突变数据集(labeled mutant datasets),从目前最大的 DMS 数据集公共集合 ProteinGym中检索出前两个与目标蛋白最接近的蛋白质的突变数据集,并使用基于MSA的 GEMME 打伪标签方法对目标蛋白质的突变信息进行评分,以构建第三个任务的数据集。这些数据集可能有助于预测对目标蛋白的变异效应,这些任务的标记数据随机分为训练数据和测试数据。

为了评估模型性能, 该研究选择蛋白质突变数据集 (ProteinGym) 作为基准测试数据集。数据集共包含来自 87 个 DMS 测序实验的大约 150 万个错义变体。由于 ESM-1v 的最大输入长度为 1,024 ,该研究将氨基酸数量超过 1,024 个的蛋白质截断,并确保它们在相应数据集中的大多数突变发生于生成区间内。

紧接着,该研究随机选择 20 个单点突变作为初始训练集,然后再添加 20 个单点突变将训练集大小扩大到 40,并以此类推构建了 60、80和 100 的训练集。经过 5 次随机的数据拆分过程,该研究即可在一定训练规模的不同划分上实现模型性能的平均化。

FSFP 成功应用于三大基础模型,在小样本学习任务中具有显著优势

理论上,FSFP 可以应用于任何基于梯度下降优化的蛋白质语言模型中。为了验证其通用性, 该研究选择了 3 个代表性的 PLMs——ESM-1v、ESM-2 和 SaPro-t 作为基础模型进行训练,且都选择 650M 版本进行评估。

在这里插入图片描述

单位点和多位点突变体的总体表现

在平均性能方面, 通过 FSFP 训练的 PLMs 在所有训练数据规模上始终优于其他基线。其中,SaProt (FSFP) 表现最佳,ESM-1v (FSFP) 和 ESM-2 (FSFP) 则表现相当。此外,在 ProteinGym 的大多数数据集上,FSFP 训练的 PLMs 取得了最佳的 Spearman 相关性。与零样本预测相比,FSFP 在仅使用 20 个训练示例的情况下,通过提高 PLMs 在单突变体上的 Spearman 相关性的性能,使单突变体的性能提高了近 0.1,当涉及到多突变体时,这种差距变得更大。随着训练数据集的增长,这些改进不断增加,这与该研究的消融实验结果一致。

在所有训练样本下,使用 FSFP 的模型相对于 GEMME 和其增强版的岭回归都取得了显著改善。这表明 FSFP 不仅将 GEMME 中的多序列比对知识传授给 PLM,还通过多任务学习,成功地将其与来自目标训练数据的监督信息相结合。这再次证实了 FSFP 在小样本学习任务中的优势。

外推性能评估,FSFP 训练 PLMs 的 Spearman 相关性评估更优

在这里插入图片描述

单位点和多位点突变体的外推性能

研究人员从每个原始测试集中选择所有单点突变体,其突变位点与训练示例不同,从而得到了一个与训练示例不同的单点突变体测试集。然后,研究人员选择个体突变与训练数据中的突变没有重叠的多点突变体,从而得到另一个具有挑战性的测试集。在这种设置下,研究发现基础模型的零样本性能明显地随着训练集大小的变化而变化。

对于不同位置的单点突变,即使有 100 个训练示例,通过岭回归增强的模型表现也不会比基础模型更好。对于多点突变,当训练规模小于 60 时,岭回归方法无法有效提高 GEMME 和 ESM-2 的性能。相比之下,使用 FSFP 训练的 PLMs 在各种训练规模下,与所有基础模型相比的 Spearman 相关性得分都更高。此外,在大多数数据集上表现最佳的模型都是经过 FSFP 训练的模型。

4 种蛋白质的综合比较,FSFP 在小数据集训练收益更大

在这里插入图片描述

4 种蛋白质的 Spearman 相关性比较

为了进一步证明 FSFP 的适用性和泛化性, 该研究还展示了 4 种蛋白质:the envelope protein Env from HIV, the human α-synuclein, protein G (GB1), the human TAR DNA-binding protein 43 (TDP-43),在不同方法之间的比较结果。在这几个案例中,一个或多个无监督模型表现不佳。

值得注意的是,对于 TDP-43 来说,所有零样本预测的 spearman 相关性都接近于零。除 GB1 外,大多数通过岭回归增强的模型,在更大的训练数据集上也没有显著的性能提高。相反,利用 FSFP 在小数据集上进行训练时,预训练模型可以获得相当大的收益。

使用 FSFP 设计 Phi29 DNA 聚合酶,阳性率提升 25%

在这里插入图片描述

使用 FSFP 的 Phi29 工程

该研究还在一个具体的蛋白质 Phi29 改造案例中,进行了湿实验验证。 基于一组有限的湿实验数据,该研究用 FSFP 对 ESM-1v 进行训练,用其寻找新的单位点突变体,并进行实验验证。对比 FSFP 训练前后 ESM-1v 的前 20 个预测结果,平均 Tm 值提高了 1 ℃ 以上,阳性率 (positive rate) 提高了 25%。

具体来说,ESM-1v (FSFP) 发现的最佳突变体 (即 Tm 值最高的突变体) 也被 ESM-1v (zero-shot) 推荐。然而,在 ESM-1v (FSFP) 预测的阳性突变体中,有 9 个并没有出现在训练数据中,这表明 FSFP 可以使 PLMs 识别出更多的蛋白质变异体。这些结果肯定了 FSFP 在加速蛋白质工程设计与测试迭代循环中的潜力, 从而有助于开发具有增强功能特征的蛋白质。

AI for Bioengineering 典型代表,强强联合屹立时代前沿

在 AI 与科学研究紧密结合的今天,我们正站在一个历史性的机遇面前。洪亮教授认为,尽管中国生物制药行业已具备强大实力,但在国际产业链中的利润比例仍有提升空间。通过 AI,我们有机会实现「换道超车」,直接利用人工智能的力量,推动行业发展。正是基于这一理念,洪亮教授携手谈攀研究员,在 AI for Bioengineering 领域展开了无尽探索。

谈攀博士主攻分子生物物理、人工智能功能蛋白质设计以及药物分子设计等方向, 在 Nature Communications、PRL、Journal of Cheminformatics、PCCP 等期刊上发表 15 篇 SCI 论文。开发了多种人工智能辅助蛋白质设计改造算法。融合洪亮教授的专业技术与谈攀博士的 AI 算法,双方的合作研究屡获战果。

多年来,双方专注于通用人工智能在蛋白质工程领域的创新研究,成功研发了 pro 系列蛋白质工程通用人工智能。与 ChatGPT 理解人类语言的方式类似,pro 系列通过大模型理解自然界蛋白质的氨基酸排列方式,设计出性能优越的蛋白质产品。其中, 在产业化应用方面也有了两大里程碑产品:

极端耐碱单域抗体: 与金赛药业联合开发的全球首个大模型设计的蛋白质产品,实现了 5,000 升工业化生产,为生物大分子纯化提供了全新的解决方案。

糖基转移酶: 与瀚海新酶合作,开发用于生产胰腺炎筛查核心物料 eps-g7 的酶,打破了国外长期垄断,大幅降低了成本。

这两个案例标志着全球第一款和第二款大模型设计并成功放大生产进入产业化阶段的蛋白质产品。基于在 AI 蛋白质设计领域的深厚积累,洪亮教授于 2021 年创立了上海天鹜科技有限公司。在短短三年内,该公司不仅完成了多个蛋白质设计项目,还获得了数千万元的 Pre-A 轮融资,投资方包括耀途资本、金沙江资本等知名机构。

目前,公司服务已覆盖创新药、体外诊断、合成生物学等多个领域,并积极寻求与更多科研院所和企业的合作,致力于在蛋白质工程领域树立全国乃至全球的标杆。

在蛋白质工程这条竞争激烈的赛道上,洪亮教授的愿景是明确的:不仅要成为国内领军者,更要成为世界范围内的领跑者。 在未来的科研征程中,洪亮教授及其团队正致力于拓展与全球科研机构和企业的深度合作,不断探索蛋白质设计的无限可能,力求在这一领域实现技术突破和应用创新,在国内树立标杆,在国际展现卓越。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3226223.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

MSI打包后门成安装包

目录 浏览器下载地址 启动>next 选择后门所在路径,和生成安装包后存放路径 next>Hidden 配置变量 Look up随便找个伪装,然后点击一下Creat New ​注册表Registry导入 ​点击否,不购买专业版 ​安装包生成成功​编辑 浏览器下…

【昇思25天学习打卡营打卡指南-第二十二天】GAN图像生成

GAN图像生成 模型简介 生成式对抗网络(Generative Adversarial Networks,GAN)是一种生成式机器学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。 最初,GAN由Ian J. Goodfellow于2014年发明,并在论文Generative Adve…

交叉熵损失函数的使用目的(很肤浅的理解)

第一种使用方法 import torch from torch import nn # Example of target with class indices loss nn.CrossEntropyLoss() input torch.randn(3, 5, requires_gradTrue) target torch.empty(3, dtypetorch.long).random_(5) output loss(input, target) output.backward(…

[Python自动化办公]--从网页登录网易邮箱进行邮件搜索并下载邮件附件

[Python自动化办公]–从网页登录网易邮箱进行邮件搜索并下载邮件附件 使用说明 ​ 本文使用Python的selenium库进行操作邮箱登录、固定名称搜索邮件并下载附件,Python版本:3.9.16, selenium版本:4.19.0,EdgeBrowser版本:126.0.2…

无线网的ip地址固定吗

在数字化日益普及的今天,无线网络已成为我们生活与工作中不可或缺的一部分。然而,对于许多非专业用户来说,无线网络背后的技术细节仍然充满了神秘感。其中,一个常见的问题是:无线网的IP地址是固定的吗?本文…

使用“nvm use 版本号“命令无效

使用"nvm use 版本号"命令无效 为什么无效?解决 为什么无效? 解决 将这个nodejs文件夹删除,然后在运行nvm use 版本号,则 node生效.

QT开发积累——qt中的注释和多行注释的几种方式,函数方法注释生成

目录 引出qt中的注释和多行注释方法的注释生成 总结日积月累,开发集锦方法参数加const和不加const的区别方法加static和不加static的区别Qt遍历list提高效率显示函数的调用使用&与不使用&qt方法的参数中使用&与不使用&除法的一个坑 项目创建相关新建…

window下载安装clang

执行clang报错: c:/>clang test.cclang: warning: unable to find a Visual Studio installation; try running Clang from a developer command prompt [-Wmsvc-not-found] clang: error: unable to execute command: program not executable clang: error: li…

数据隐私: 什么是数据隐私以及如何保护数据安全?

什么是数据隐私? 数据隐私(或信息隐私)是数据保护的一个领域。它指的是个人可以决定何时、如何以及在多大程度上与他人分享或交换他们的个人数据。 换句话说,数据隐私围绕着用户的个人数据如何被收集、存储、管理和与第三方共享…

Win-ARM联盟的端侧AI技术分析

Win-ARM联盟,端侧AI大幕将起 微软震撼发布全球首款AI定制Windows PC——Copilot PC,搭载全新NPU与重塑的Windows 11系统,纳德拉盛赞其为史上最快、最强、最智能的Windows PC。该设备算力需求高达40TOPS,支持语音翻译、实时绘画、文…

NesT : 嵌套层次Transformer

探讨了在不重叠的图像块上嵌套基本局部变换的思想,并以分层的方式对它们进行聚合。发现块聚合功能在实现跨块非局部信息通信中起着至关重要的作用。 这个观察结果引导我们设计一个简化的体系结构,它需要在原始视觉转换器上进行少量的代码更改。所提出的明智选择的设计有三个好…

【Spring Boot 教程:从入门到精通】掌握 Spring Boot 开发技巧与窍门(一)-java语法(1)

一些Java基本语法的基本介绍,语法更新结束会紧跟项目实战,后续会持续在该专栏进行更新!!! 目录 前言 一、基本概念 1.JDK、JRE、JVM的关系: 2.JDK版本选择 3.Java代码的编译运行流程 4.JSE、JEE、J…

SolidWorks滚花螺栓制作-cnblog

目标 规划基准图形 确定尺寸,单位mm 我 对固定好的图形进行旋转 倒角 设置螺纹 注意改变深度为15mm 收尾位置补全 滚花 建立基准面 制作多边形 添加穿透 扫描切除 圆周阵列 成品完成

[AI 快手 LivePortrait] 引领高效肖像动画新时代

快手推出了 LivePortrait,具有拼接和重定向控制的高效肖像动画。 快速开始 下载代码,准备环境 git clone https://github.com/KwaiVGI/LivePortrait cd LivePortrait# create env using conda conda create -n LivePortrait python3.9.18 conda activ…

Data-Juicer:阿里巴巴荣誉出品的大模型数据清洗框架

Diffusion Models专栏文章汇总:入门与实战 前言:如何优雅地进行大规模数据清洗是一门艺术,特别对于大模型,数据的质量是决定模型成功最关键的因素之一。阿里巴巴最近开源了一项专门针对大语言模型和视频生成大模型的数据清洗框架,值得关注! 目录 主要特点 数据处理 分…

移动校园(9):uniapp照片上传,以及从nodejs服务器获取照片

后端: 安装中间件multer,刚好对应前端提交数据 npm install --save multer Multer详解(Node.js中间件)-CSDN博客 一直这样 又看了二个小时,搜遍全网,改了又改,各种测试,终于让我发现了问题&a…

什么是数据同步服务RSYNC?

大家好呀!这里是码农后端。今天来介绍一下数据同步服务RSYNC,作为Linux/Unix系统中远程或本地复制同步(复制)文件和目录最常用的命令,相比于scp命令,其具有增量备份、数据同步时保持文件的原有属性等优点。…

制作电子名片的小程序系统源码 快速生成电子名片

在当今数字化时代,传统的纸质名片已逐渐被智能电子名片所取代。电子名片小程序作为一种基于微信生态的创新名片交换方式,凭借其便捷性、高效性和环保性,成为了众多商务人士的首选。小编分享一个制作电子名片的小程序系统源码,无忧…

GitHub 站点打不开

遇到的问题 您是否遇到过GitHub网站打不开的情况,正如下图所示: 解决方案 以下是一些常见的解决方案: 1. 检查网络连接 确保你的设备已连接到互联网。尝试访问其他网站,确保不是你的网络问题。 C:\Vinca>ping github.…

Groovy vs Kotlin 在Gradle配置文件中的差异与选择

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…