农业大数据学报 ›› 2026, Vol. 8 ›› Issue (1): 128-134.doi: 10.19788/j.issn.2096-6369.100064
张丹丹1,2(
), 赵瑞雪1,2,*(
), 宼远涛1,2,*(
), 鲜国建1,3, 刘建国1,2
ZHANG DanDan1,2(
), ZHAO RuiXue1,2,*(
), KOU YuanTao1,2,*(
), XIAN GuoJian1,3, LIU JianGuo1,2
摘要:
在作物育种科学研究中,蛋白质通过相互作用所形成的蛋白质复合体往往结合下游基因的启动子来调控基因转录,在生命体中发挥重要的生物学功能。因此,蛋白复合体的潜在发现有助于揭示蛋白质-蛋白质相互作用网络结构、挖掘下游调控基因,更好地阐明性状的分子调控机制,是助力优质、高产、多抗新品种培育的关键。然而,现有蛋白互作关系预测方法缺少多维度数据深层次语义关联,仅限于单一影响因素的考量,难以发现作物蛋白复合体结构。本研究基于数据的可靠性、实用性、易用性等原则,选取PlaPPISite数据库与Uniprot数据库作为数据获取来源,采用映射知识抽取方式实现蛋白相关数据集的关联融合。最终,形成了拟南芥互作蛋白知识图谱数据集,并以.csv格式存储为结构化数据。该数据集包含11个实体数据集和11个实体语义关系数据集。为了验证该数据集的有效性,本研究采用Neo4j图数据库进行数据集存储。最终,形成了涵盖约68 713个节点和109 496条语义关系的拟南芥互作蛋白知识图谱,可有效支撑以蛋白为中心实体的层级知识关联检索与发现。拟南芥互作蛋白知识图谱数据集可以为蛋白复合体发现提供关键的语义模型和重要的数据基础。相关科研和生产单位可基于本数据集构建拟南芥互作蛋白知识库,为作物育种知识发现服务平台的构建提供关键的知识资源底座。
数据摘要:
| 项目 | 描述 |
|---|---|
| 数据集名称 | 拟南芥互作蛋白知识图谱数据集 |
| 所属学科 | 农学其他学科 |
| 研究主题 | 作物;拟南芥互作蛋白知识图谱;数据挖掘 |
| 数据地理空间覆盖 | 全球 |
| 数据类型与技术格式 | .csv |
| 数据库(集)组成 | 本数据集为文本数据,共包含11个实体数据集与11个语义关系数据集,以.csv格式存储。实体数据集涵盖基因、蛋白、性状、信号通路、基因符号、蛋白家族、结构域、亚细胞定位、细胞组分、分子功能、生物学过程共计11个实体数据集,数据内容包含实体名称以及根据实体特征提取的共性高频数据属性。语义关系数据集涵盖有关、互作、相对应、一致、参与、表达于、有……蛋白结构域、属于、行使功能、参与共计10个语义关系数据集,数据内容包含实体-关系-实体三元组。 |
| 数据量 | 17.32 MB |
| 主要数据指标 | 转录组名称、功能描述、物理位置、物种等 |
| 数据可用性 | CSTR:17058.11.sciencedb.agriculture.00253; DOI:10.57760/sciencedb.agriculture.00253; |
| 经费支持 | 中央级公益性科研院所基本科研业务费专项(JBYW-AII-2025-20)。 |