用于抗体序列理解的生成基础模型

用于抗体序列理解的生成基础模型 A generative foundation model for antibody sequence understanding

页面:14,作者/机构:ProGen

简介:这份报告介绍了名为“FabCon”的深度生成模型,该模型旨在理解和生成抗体序列。FabCon 基于因果语言建模 (CLM),通过 Transformer 架构学习抗体序列中的复杂模式,并能有效捕捉长距离依赖关系。FabCon 在抗体特异性结合预测任务中优于其他模型,例如预测抗体与 HER2 蛋白或 SARS-CoV-2 病毒的结合。此外,FabCon 在生成高质量、多样化且具有良好可开发性的抗体序列方面表现出色,使其成为抗体发现过程中的有力工具。

报告重点

FabCon 模型采用 Transformer 架构学习抗体序列中的语法和语义关系,并能有效捕捉长距离依赖,提高了预测准确性。
FabCon 支持 Few-shot prediction,在少量标记数据下即可进行预测,例如预测抗体是否与 HER2 蛋白或 SARS-CoV-2 病毒结合。
在抗体特异性结合预测任务中,FabCon 的性能优于其他模型,尤其在大规模数据集上表现突出,例如在 HER2 和 SARS-CoV-2 结合预测任务上,FabCon 均表现出优于其他模型的性能。
FabCon 能够生成高质量、多样化的抗体序列,这些序列在计算上具有良好的可扩展性,且与真实抗体具有相似的特性,例如,生成的抗体序列在 TAP metrics 和 CDRH3 氨基酸序列长度分布上与人类 PBMCs 和治疗性抗体较为相似。
研究人员进行了一系列消融实验,探究不同因素对 FabCon 模型性能的影响,例如训练数据的大小和模型的超参数,为模型的优化提供了重要参考。

参考图示

sample

下载链接

扫描二维码关注微信,回复报告或者 baogao ,即可获取密码
THE END