• • 下一篇
欧阳峥峥1,2,马毓聪2*,寇远涛1,3*,鲜国建1,王辉4,5,赵群1
OUYANG ZhengZheng1,2,MA YuCong2*,KOU YuanTao1,3*, XIAN GuoJian1, WANG Hui4,5, ZHAO Qun1
1. Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China; 2. National Science Library (Chengdu), Chinese Academy of Sciences, Chengdu 610299, China; 3. Key Laboratory of Knowledge Mining and Knowledge Services in Agricultural Converging Publishing, Beijing 100081, China;4. National Science Library, Chinese Academy of Sciences, Beijing 100190, China; 5. Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
摘要:
AlphaFold系列模型在结构生物学领域的革命性突破常被归因于算法创新,但其背后更为根本的科学数据策略演进却鲜有系统性剖析。本文从科学数据的核心视角出发,系统解构AlphaFold 1至3代的迭代突破机制,聚焦数据内在属性优化、表征范式革新、数据-模型协同适配三大关键层面,论证模型每一次性能跃升的本质均是数据-模型协同进化的结果。研究揭示:AlphaFold的演进是其数据策略从被动沿用、主动构建到生成赋能的历程。基于此,本文提炼出三大核心规律:表征范式的跃迁是突破的核心驱动,数据-模型的协同演进是成熟的关键标志,而数据内在属性的丰富度则决定了AI学习范式的上限。这些规律为AI for Science(AI4S)领域带来四大关键启示:数据工作需从被动准备转向主动设计;研发应从“模型/数据中心”转向以“契合度”为中心;数据体系构建应靶向提升核心属性而非盲目多模态聚合;业界亟待构建一套衡量数据“科学效能”的全新理论与评估框架,为AI驱动的科学发现提供理论支撑与路径参考。