
农业大数据学报 ›› 2025, Vol. 7 ›› Issue (4): 485-495.doi: 10.19788/j.issn.2096-6369.000136
欧阳峥峥1,2(
), 马毓聪2,*(
), 寇远涛1,3,*(
), 鲜国建1, 王辉4,5, 赵群1
收稿日期:2025-10-14
修回日期:2025-11-09
出版日期:2025-12-26
发布日期:2025-12-26
通讯作者:
马毓聪,Email:mayc@clas.ac.cn;作者简介:欧阳峥峥,Email:oyzz@clas.ac.cn。
基金资助:
OUYANG ZhengZheng1,2(
), MA YuCong2,*(
), KOU YuanTao1,3,*(
), XIAN GuoJian1, WANG Hui4,5, ZHAO Qun1
Received:2025-10-14
Revised:2025-11-09
Published:2025-12-26
Online:2025-12-26
摘要:
AlphaFold系列模型在结构生物学领域的革命性突破常被归因于算法创新,但其背后更为根本的科学数据策略演进却鲜有系统性剖析。本文从科学数据的核心视角出发,系统解构AlphaFold 1至3代的迭代突破机制,聚焦数据内在属性优化、表征范式革新、数据-模型协同适配三大关键层面,论证模型每一次性能跃升的本质均是数据-模型协同进化的结果。研究揭示:AlphaFold的演进是其数据策略从被动沿用、主动构建到生成赋能的历程。基于此,本文提炼出三大核心规律:表征范式的跃迁是突破的核心驱动,数据-模型的协同演进是成熟的关键标志,而数据内在属性的丰富度则决定了AI学习范式的上限。这些规律为AI for Science(AI4S)领域带来四大关键启示:数据工作需从被动准备转向主动设计;研发应从“模型/数据中心”转向以“契合度”为中心;数据体系构建应靶向提升核心属性而非盲目多模态聚合;业界亟待构建一套衡量数据“科学效能”的全新理论与评估框架,为AI驱动的科学发现提供理论支撑与路径参考。
欧阳峥峥, 马毓聪, 寇远涛, 鲜国建, 王辉, 赵群. 科学数据视角下AlphaFold的迭代突破与数据策略启示[J]. 农业大数据学报, 2025, 7(4): 485-495.
OUYANG ZhengZheng, MA YuCong, KOU YuanTao, XIAN GuoJian, WANG Hui, ZHAO Qun. Unveiling AlphaFold’s Iterative Breakthroughs: Data Strategy Insights from a Scientific Perspective[J]. Journal of Agricultural Big Data, 2025, 7(4): 485-495.
表1
AlphaFold 1至3代核心特征对比"
| 维度 | AlphaFold 1(2018)[ | AlphaFold 2(2020)[ | AlphaFold 3(2024)[ |
|---|---|---|---|
| 研发背景与核心目标 | 针对传统自由建模(Free Modeling,FM)方法精度有限的问题,验证深度学习在蛋白质结构预测领域的可行性[ | 聚焦AlphaFold 1对长链蛋白、稀有折叠预测的局限,旨在从根本上解决单体蛋白质的高精度结构预测问题,推动AI技术向科研应用落地。 | 突破AlphaFold 2仅能预测单链蛋白的边界,将目标拓展至生物分子相互作用体系,实现蛋白质-核酸、蛋白质-小分子等复合物的精准预测。 |
| 关键成果 | 1. 在CASP13竞赛中,在模板基建模(Template-based Modeling,TBM)的部分目标上实现90 GDT以上的原子级精度,且FM域平均性能显著超越传统方法,实现该领域首次突破; 2. 同时验证MSA与深度学习结合的核心技术路线可行性,但其FM域无模板预测成功率仅56%。 | 1. CASP14竞赛中90%目标蛋白主链预测精度媲美实验解析(平均GDT 92.4分)[ 2. 支持2180残基长链蛋白(如T1044)完整预测,无需分块; 3. 催生AlphaFold DB,截至2022年收录超2亿条蛋白质结构[ | 1. CASP15蛋白质-核酸复合物盲测中95%目标达到实验精度,蛋白质-配体结合预测精度相比AlphaFold 2有大幅提升,在PoseBusters等关键基准测试上表现尤为突出; 2. 实现修饰残基(糖基化、磷酸化)与预测不同功能状态下的构象。 |
| 核心技术局限 | 1. 严重依赖MSA数据质量,对无同源序列蛋白预测精度显著下降; 2. 采用静态距离矩阵表征,长程相互作用(>22Å)预测误差大; 3. 无法端到端输出完整结构,长链蛋白需分块处理。 | 1. 仅支持单链蛋白质预测,无法处理蛋白质复合物、核酸-蛋白质互作体系[ 2. 无法解析蛋白质动态构象变化(如变构效应); 3. 元数据未完全遵循FAIR原则,跨平台复现效率受限。 | 1. 对MSA缺失率>50%的极端场景(如全新化学空间小分子)预测鲁棒性不足; 2. 仅能预测单一静态结构,无法捕捉分子动态过程,且在预测小分子时无法保证正确的手性[ 3. 跨数据库(PDB、UniProt)数据标准化不统一,多模态数据融合效率低。 |
| 代表性应用场景 | 基础研究领域的蛋白质结构初步预测,为后续AI模型提供技术验证样本[ | 结构生物学常规研究(如未知单体蛋白结构解析)、AlphaFold DB支撑的跨物种蛋白功能注释。 | 药物研发(靶点-配体结合模式解析)、生物分子互作机制研究(如病毒-宿主蛋白复合物解析)。 |
表2
AlphaFold迭代突破的核心数据分析维度"
| 核心维度 | 核心内涵 | 关键子维度 | AlphaFold中的典型例证 |
|---|---|---|---|
| 数据内在属性 | 聚焦数据作为人工智能系统输入的基础特性,直接构成模型性能的理论潜力约束,即模型性能无法超越数据基础属性所支撑的上限。 | 质量与可靠性 | AlphaFold 2的自蒸馏技术[ |
| 规模与覆盖度 | AlphaFold 2整合元基因组数据库[ | ||
| 信息完备性 | AlphaFold 3整合多模态数据:将数据从单一蛋白质拓展至包含核酸、配体、离子等的复合物,信息更完整。 | ||
| 数据表征范式 | 聚焦数据向人工智能模型可解释语义的映射与编码逻辑,其决定了数据蕴含的结构与功能信息向模型的传递效率及价值激活的有效性。 | 信息维度与抽象层次 | AlphaFold 1→AlphaFold 2的革新:从静态二维距离矩阵(信息降维)跃迁至动态三维交互图(高维抽象)。 |
| 物理本质贴合度 | AlphaFold 2/AlphaFold 3的图表征:直接建模残基间的空间关系与相互作用,比AlphaFold 1的矩阵表征更贴近蛋白质折叠的物理本质。 | ||
| 数据端主动调控 | 聚焦为适配特定模型架构与任务需求,通过突破原始数据的固有局限,决定了数据价值的可释放上限与模型性能的实际达成度。 | 数据预处理与标准化 | AlphaFold 2的MSA去冗余策略:通过Neff等指标过滤,提升输入信噪比。AlphaFold 3的跨库元数据标准化:尝试遵循FAIR原则,提升多模态数据融合效率。 |
| 领域知识嵌入 | AlphaFold 2的FAPE(Frame-Aligned Point Error)损失函数:将“刚体变换不变性”这一物理约束,通过训练目标函数的形式显式嵌入。AlphaFold 3的生成过程引导:将AMBER力场等物理化学规则,作为扩散模型生成过程的外部约束和引导。 |
表3
AlphaFold三代迭代的数据策略演进特征"
| 核心维度 | 关键子维度 | AlphaFold 1 (2018) 被动沿用范式 (单链结构的统计学习解析) | AlphaFold 2 (2020) 主动构建范式 (分子几何的物理建模) | AlphaFold 3 (2024) 生成赋能范式 (互作体系的生成式探索) |
|---|---|---|---|---|
| 数据内在属性 | 质量与可靠性 | 被动依赖:基于PDB既有标注质量。 | 主动创造:通过自蒸馏生成高质量伪标签。 | 功能导向的验证:引入PoseBusters等功能性基准。 |
| 规模与覆盖度 | 基础存量拓展:依赖核心蛋白质数据库。 | 序列空间穷举:战略性整合元基因组数据。 | 多模态全景:跨域整合异构生物分子。 | |
| 信息完备性 | 孤立的静态结构: 仅包含单体静态信息。 | 上下文缺失的静态结构:仍为单体,互作局限性凸显。 | 功能性的互作网络: 整合复合物与功能状态信息。 | |
| 数据表征范式 | 信息维度与抽象层次 | 统计分布表征: 对残基距离的离散化概率建模。 | 确定性几何表征:对三维空间刚体框架的显示建模。 | 生成式概率表征:对原子坐标点云的概率分布学习。 |
| 物理本质贴合度 | 信息降维: 三维物理问题的二维压缩。 | 三维几何约束:基于刚体不变性的几何拓扑建模。 | 无偏见的原子生成:从最基本物理单元出发的生成式建模。 | |
| 数据端主动调控 | 数据预处理与标准化 | 固定流水线: 依赖标准化的外部工具链。 | 自适应优化:引入复杂的内部MSA去冗余策略。 | FAIR数据生态:遵循FAIR原则的多模态数据治理与整合。 |
| 领域知识嵌入 | 隐式统计关联: 知识被动包含于MSA中。 | 显式几何约束:以“刚体变换不变性”作为训练硬约束。 | 动态物理引导:多尺度物理知识对生成过程的软引导。 |
附表(中英文缩略语表)"
| 中文全称 | 英文全称/缩写 | 解释说明 |
|---|---|---|
| 多序列比对 | Multiple sequence alignment, MSA | 多重序列比对是对三个以上生物序列(这里指蛋白质)进行生物学比对的方法。 |
| 自由建模 | Free modeling, FM | 不依赖同源模板,直接通过序列信息和物理化学规律进行结构预测。 |
| 模板基建模 | Template-based modeling, TBM | 通过比对已知同源结构进行建模。 |
| 数据质量评估 | Data quality assessment, DQA | 对数据的核心特征进行检验、量化与判定的过程,核心是判断数据是否符合使用场景的需求。 |
| 表征学习 | Representation learning, RL | 通过自动学习数据的高效表示形式来提升机器学习效果。 |
| 静态二维距离分布 | Distogram | 蛋白质结构预测中用于表示残基间距离关系的概率分布模型,通过将连续距离离散化为有限区间,捕捉空间约束关系。 |
| 深度残差卷积网络 | ResNet | 一种通过引入残差连接解决深层网络训练难题的卷积神经网络架构。 |
| 自蒸馏技术 | Self-distillation, SD | 是知识蒸馏的一种特殊形式,指模型通过自我学习提升性能的技术,无需依赖外部教师模型。 |
| 框架对齐点误差 | Frame-aligned point error, FAPE | 一种损失函数,通过局部刚体变换对齐后量化预测与真实原子坐标的差异,具有全局旋转和平移不变性。 |
| 卷积神经网络 | Convolutional neural network, CNN | 是一种前馈神经网络,广泛应用于图像识别和视觉任务,是深度学习中的核心模型之一。 |
| 关联性学习 | Associative learning, AL | 一种通过神经元间的联系增强或减弱实现的学习过程,其核心是通过重复刺激使神经元之间的突触连接强度发生变化。 |
| 生成式学习 | Generative learning, GL | 是机器学习领域的一种方法,通过训练数据规律生成符合数据分布的新实例。 |
| 翻译后修饰 | Post-translational modifications, PTMs | 指蛋白质在合成完成后,通过共价添加化学基团或蛋白质间的化学交互作用改变其结构和功能的过程。 |
| 扩散生成模型 | Diffusion model | 是一种基于概率统计和非平衡热力学原理的生成式人工智能模型,通过模拟数据逐步添加噪声的过程实现样本生成。其核心包括前向扩散(向数据添加噪声)和逆向生成(从噪声中恢复原始数据)两个阶段。 |
| FAIR原则 | FAIR | 科学数据治理的核心原则,分别指数据可通过元数据发现(Findability)、开放可访问(Accessibility)、跨系统互操作(Interoperability)、可重复利用(Reusability)。 |
| 大规模综合序列数据库 | Big fantastic database, BFD | 大型蛋白质序列数据库,收录数十亿级原始序列,经聚类去冗余后供生物序列分析使用。 |
| 宏基因组数据库 | MGnify | 宏基因组领域专用数据库,整合微生物组序列数据、组装结果及功能注释信息。 |
| [1] | BAI X C, MCMULLAN G, SCHERES S H. How cryo-EM is revolutionizing structural biology. Trends in Biochemical Sciences, 2015, 40(1):49-57. |
| [2] | RCSB PDB. 2024 RCSB PDB Advisory Committee Meeting,2024[R]. https://cdn.rcsb.org/rcsb-pdb/general_information/about_pdb/rcsbpdbac24-presentations.pdf. |
| [3] | LYUMKIS D. Challenges and opportunities in cryo-EM single- particle analysis. Journal of Biological Chemistry, 2019, 294(13): 5181-5197. |
| [4] | GAO T, DAMBORSKY J, JANIN Y L, et al. Deciphering enzyme mechanisms with engineered ancestors and substrate analogues. Chemical Catalysis and Chemistry, 2023, 15(19):e202300745. |
| [5] | NAKANE T, KOTECHA A, SENTE A, et al. Single-particle cryo-EM at atomic resolution. Nature, 2020, 587(7832):152-156. |
| [6] | HO C M, LI X R, MASON L, et al. Bottom-up structural proteomics: cryoEM of protein complexes enriched from the cellular milieu. Nature Methods, 2020, 17:79-85. |
| [7] | SANJYOT V S, DEEPTARUP B, ARTHUR Z, et al. AlphaCross-XL: A seamless tool for automated and proteome-scale mapping of crosslinked peptides onto three-dimensional protein structures. Molecular&Cellular Proteomics, 2025, 24(17):101057. |
| [8] | SENIOR A W, EVANS R, JUMPER J, et al. Improved protein structure prediction using potentials from deep learning. Nature, 2020, 577(7792):706-710. |
| [9] | JUMPER J, EVANS R, PRITZEL A, et al. Highly accurate protein structure prediction with AlphaFold. Nature, 2021, 596(7873): 583-589. |
| [10] | VARADI M, ANYANGO S, DESHPANDE M, et al. AlphaFold DB: A comprehensive database of protein structures predicted using AlphaFold. Nucleic Acids Research, 2022, 50(D1):D439-D444. |
| [11] | ABRAMSON J, EVANS R, PRITZEL A, et al. AlphaFold 3: High- accuracy structure prediction for complex molecular systems. Nature, 2024, 625(7996):479-488. |
| [12] | BOUATTA N, SORGER P K. AI-driven structural biology: from predictions to paradigm shifts. Nature Reviews Molecular Cell Biology, 2022, 23(12):745-759. |
| [13] | 孙坦, 张智雄, 周力虹, 等. 人工智能驱动的第五科研范式(AI4S)变革与观察. 农业图书情报学报, 2023, 35(10):4-32. |
| SUN T, ZHANG Z X, ZHOU L H, et al. The transformation and observations of AI for science(AI4S) driven by artificial intelligence. Journal of Library and Information Science in Agriculture, 2023, 35(10):4-32. | |
| [14] | 中国科学技术信息研究所. AI for Science创新图谱, 2025[R]. |
| Institute of Scientific and Technical Information of China. AI for Science Innovation Map, 2025[R]. | |
| [15] | YANG Z Y, ZENG X X, ZHAO Y, et al. AlphaFold2 and its applications in the fields of biology and medicine. Signal Transduction and Targeted Therapy, 2023, 8(1):115. |
| [16] | GUO F, GUAN R C, LI Y H, et al. Foundation models in bioinformatics. National Science Review, 2025, 12(4):nwaf028. |
| [17] | FAN Z G, YANG Y D, XU M Y, et al. EC-Conf: A Ultra-fast diffusion model for molecular conformation generation with equivariant consistency. Journal of Cheminformatics, 2024, 16(1):107. |
| [18] | XU M, YU L, SONG Y, et al. Geodiff: A geometric diffusion model for molecular conformation generation[EB/OL].[2022-03-06]. https://arxiv.org/abs/2203.02923. |
| [19] | BAEK M, DIMAIO F, ANISHCHENKO I, et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science, 2021, 373(6557):871-876. |
| [20] | ROSIGNOLI S, PACELLI M, MANGANIELLO F, et al. An outlook on structural biology after Alpha Fold: tools, limits and perspectives. FEBS Open Bio, 2025, 15(2):202-222. |
| [21] | KRISHNA R, WANG J, AHERN W, et al. Generalized biomolecular modeling and design with RoseTTAFold All-Atom. Science, 2024, 384(6693):eadl2528. |
| [22] | KRYSHTAFOVYCH A, SCHWEDE T, TOPF M, et al. Critical assessment of methods of protein structure prediction (CASP)-round XIII. Proteins, 2019, 87(12):1011-1120. |
| [23] | KRYSHTAFOVYCH A, SCHWEDE T, TOPF M, et al. Critical assessment of methods of protein structure prediction (CASP)—Round XIV. Proteins: Structure, Function, and Bioinformatics, 2021, 89(12): 1607-1617. |
| [24] | ABRAMSON J, ADLER J, DUNGER J, et al. Accurate structure prediction of biomolecular interactions with AlphaFold3. Nature, 2024, 630:493-500. |
| [25] | MCMASTER B, THORPE C, OGG G, et al. Can AlphaFold’s breakthrough in protein structure help decode the fundamental principles of adaptive cellular immunity?. Nature Method, 2024, 21:766-776. |
| [26] | JUMPER J, EVANS R, PRITZEL A, et al. Applying and improving AlphaFold at CASP14. Proteins: Structure, Function, and Bioinformatics, 2021, 89:1711-1721. |
| [27] | VARADI M, BERTONI D, MAGANA P, et al. AlphaFold protein structure database in 2024: providing structure coverage for over 214 million protein sequences. Nucleic Acids Research, 2024,52(D1): D368-D375. |
| [28] | LAURENTS D V. AlphaFold 2 and NMR spectroscopy: partners to understand protein structure, dynamics and function. Frontiers in Molecular Biosciences, 2022, 17(9):906437. |
| [29] | FANG Z, RAN H, ZHANG Y, et al. AlphaFold 3: an unprecedent opportunity for fundamental research and drug development. Precision Clinical Medicine, 2025, 8(3): pbaf015. |
| [30] | GOWTHAMAN R, PARK M, YIN R, et al. AlphaFold and docking approaches for antibody-antigen and other targets: insights from CAPRI rounds 47-55. Proteins: Structure, Function, and Bioinformatics, 2025, 0:1-6. DOI: 10.1002/prot.26801. |
| [31] | DAMA International. DAMA-DMBOK: Data management body of knowledge (2nd ed.),2017[R]. Technics Publications. |
| [32] | LECUN Y, BENGIO Y, HINTON G. Deep learning. Nature, 2015, 521(7553):436-444. |
| [33] | AI Business. ScaleUp AI 2022:Google brain’s Andrew Ng says data-centric approach ups AI success[EB/OL].[2022-04-06]. https://aibusiness.com/companies/scaleup-ai-2022-google-brain-s-andrew-ng-says-data-centric-approach-ups-ai-success. |
| [34] | BERTOLINE L M F, LIMA A N, KRIEGER, J E, et al. Before and after AlphaFold2: An overview of protein structure prediction. Frontiers in bioinformatics, 2023, 3, 1120370. |
| [35] | NIAZI S K, MARIAM Z, PARACHA R Z. Limitations of protein structure prediction algorithms in therapeutic protein development. BioMedInformatics, 2024, 4:98-112. |
| [36] | YUAN Q M, CHEN S, RAO J H, et al. AlphaFold2-aware protein- DNA binding site prediction using graph transformer. Briefings in Bioinformatics, 2022, 23(2):bbab564. |
| [37] | REMMERT M, BIEGERT A, HAUSER A, et al. HHblits: lightning- fast iterative protein sequence searching by HMM-HMM alignment. Nature Methods, 2012, 9(2): 173-175. |
| [1] | 李佳乐, 林佳, 贺子康, 王健, 张建华, 周国民. 农业科学数据在线分析挖掘平台设计与应用[J]. 农业大数据学报, 2025, 7(2): 183-192. |
| [2] | 贺郝钰, 侯春梅, 孙力炜, 迟秀丽, 叶喜艳. 多学科通用型开放科学数据共享平台对比研究——以Zenodo和ScienceDB为例[J]. 农业大数据学报, 2025, 7(2): 193-200. |
| [3] | 陈晓静, 赵晓燕, 贺子康, 林佳, 李佳乐, 申家炜, 樊景超, 闫燊, 王健, 张建华, 周国民. 农业科学数据本体网络系统研发[J]. 农业大数据学报, 2025, 7(2): 201-212. |
| [4] | 杜娇艳, 张红玉, 李安定, 曹洋, 蔡国俊. 贵州喀斯特地区先锋树种火棘叶片功能性状数据集[J]. 农业大数据学报, 2025, 7(2): 246-245. |
| [5] | 申其辉. 数据要素化视角下新时期国家科学数据汇交回顾与建议[J]. 农业大数据学报, 2024, 6(3): 363-372. |
| [6] | 王悦悦, 陈祖刚, 武新乾. 我国科学数据中心评价的知识图谱分析[J]. 农业大数据学报, 2024, 6(3): 373-379. |
| [7] | 张乃静, 纪平, 肖云丹. 林草科学数据安全管理与防护[J]. 农业大数据学报, 2024, 6(3): 392-399. |
| [8] | 王健, 周国民, 廖方宇, 许哲平, 张建华, 刘婷婷. 基于规则的科学数据安全治理框架:理解数据“保护-利用”失衡及挑战的新工具[J]. 农业大数据学报, 2024, 6(3): 295-306. |
| [9] | 王健, 周国民, 张建华, 许哲平, 刘婷婷. 科学数据分类分级保护探索:框架与模式[J]. 农业大数据学报, 2024, 6(3): 307-324. |
| [10] | 廖方宇, 李婧, 龙春, 杨帆, 袁梓萌. 开放科学背景下科学数据开放共享安全挑战及我国对策思考[J]. 农业大数据学报, 2024, 6(2): 146-155. |
| [11] | 魏鑫, 孔丽华, 汪洋. 我国科学数据出境管理对策研究[J]. 农业大数据学报, 2024, 6(2): 156-160. |
| [12] | 李宜展, 董璐, 王东瑶, 张鸿, 王志强, 魏韧, 李泽霞. 国际科技组织与国际科技合作计划中的科学数据安全治理[J]. 农业大数据学报, 2024, 6(2): 161-169. |
| [13] | 王卷乐, 李凯, 段博文, 苏娜. 地学领域科学数据处理与分析软件自主性分析[J]. 农业大数据学报, 2024, 6(2): 230-240. |
| [14] | 许琦, 胡晓彦, 邹自明, 佟继周. 空间环境科学数据安全分级概念框架研究[J]. 农业大数据学报, 2024, 6(2): 259-268. |
| [15] | 王佳荣, 周彩秋, 苑新阳, 朱一鸣, 孙千然, 颜田, 陈刚, 齐法制. 国家高能物理科学数据安全保障体系[J]. 农业大数据学报, 2024, 6(2): 269-277. |
|
||