当期目录

    2024年 第6卷 第3期 刊出日期:2024-09-26
    “面向高质量共享的科学数据安全”专刊(下)
    基于规则的科学数据安全治理框架:理解数据“保护-利用”失衡及挑战的新工具
    王健, 周国民, 廖方宇, 许哲平, 张建华, 刘婷婷
    2024, 6(3):  295-306.  DOI: 10.19788/j.issn.2096-6369.000068
    摘要 ( 89 )   HTML ( 8)   PDF (1686KB) ( 50 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    随着全球数据安全法律法规愈发关注隐私保护,以及数据主权、科技竞争和地缘政治等新型治理因素的影响,科学数据的“保护”要求不断提高。这种趋势在一定程度上抑制了数据采集、处理、传输和分析等“利用”功能,并对既有科学数据的“保护-利用”平衡产生了负面影响。目前,这种失衡趋势表现为法律合规负担过重以及公共科学数据可用性逐渐减弱等治理挑战,现有研究和实践缺乏必要的分析工具来全面、系统地理解并应对这些挑战。为填补这一空白,论文提出了一个基于规则的科学数据安全治理框架,旨在从法律法规、伦理规范和机构政策等安全治理规则的角度系统分析“保护-利用”失衡及相关挑战。该框架整合了主要的科学数据安全治理规则类型,并结合“岛桥模型”、“法律-伦理”均衡和“适度落实”原则等三项分析工具,构建了治理规则与“保护-利用”平衡之间的传导路径。通过这一框架,论文解释并初步验证了其在理解科学数据合规责任过重和公共科学数据可用性弱化两大挑战中的应用价值。在全球科学数据安全法规日趋严苛的背景下,本文提出的基于规则的分析视角及相关工具,丰富了科学数据安全治理的理论基础,并为学术界、数据管理者和政策制定者提供了应对当前挑战的有效工具和政策沟通的理论支撑。这一框架为未来在数据安全治理中的应用和扩展提供了重要参考,也为保障科学数据的可持续利用提供了关键指导。

    科学数据分类分级保护探索:框架与模式
    王健, 周国民, 张建华, 许哲平, 刘婷婷
    2024, 6(3):  307-324.  DOI: 10.19788/j.issn.2096-6369.000069
    摘要 ( 83 )   HTML ( 6)   PDF (1992KB) ( 39 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    近年来,随着数据安全监管的日益收紧,科学数据管理面临越来越严峻的“安全合规”挑战,数据分类分级保护逐渐成为学术界、数据管理实践者和监管机构共同关注的议题。然而,现有的研究和实践大多局限于对数据合规的解释与反应性应对,缺乏对科学数据分类分级保护的系统性和理论性讨论。这种认知不足限制了科学数据安全管理领域理论框架和实用模型的发展。为形成对科学数据分类分级保护的系统性理解,本研究基于对现有实践的广泛调查,提炼出科学数据的六项关键安全特征:多重规制、伦理强规制、学科领域差异性、“规模-风险”帕累托分布、公益性和动态敏感性,以此六项特征为基础,构建了科学数据安全分类和分级框架,并提出了全面、平衡与精简三种保护模式。研究提出了“数据合规-合规成本-数据收益”三角平衡观点,合理解释了三者之间的权衡关系。文中还详细讨论了数据安全分类与安全分级的区别及其相互作用,澄清了科学数据安全分类的复杂性。该研究提出的针对科学数据分类分级保护的理论框架为分析科学数据安全管理中的复杂问题提供了框架性工具,可为相关研究提供有价值的参考,有助于推动科学数据安全保护实践。

    生命组学大数据安全管理实践
    王彦青, 陈婷婷, 张思思, 朱军伟, 陈焕新, 肖景发, 宋述慧, 章张, 赵文明, 鲍一明
    2024, 6(3):  325-332.  DOI: 10.19788/j.issn.2096-6369.000053
    摘要 ( 61 )   HTML ( 4)   PDF (539KB) ( 28 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    生命组学大数据是国家重要基础性、战略性资源,对支撑生命科学基础研究和应用创新、推动生物经济创新发展、维护国家安全具有重要意义。随着数据规模的不断增长,生命组学大数据的安全管理问题逐渐凸显。国家基因组科学数据中心(National Genomics Data Center, NGDC)面向我国人口健康和社会可持续发展的重大战略需求,建立了生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,形成了一系列数据安全管理的制度和措施。本文聚焦于生命组学大数据全生命周期的安全管理问题,探讨生命组学大数据安全管理框架,全面分析在数据汇交、存储、管理、共享全生命周期中涉及的安全管理内容,并总结了NGDC在生命组学大数据安全管理方面的成效。最后,本文展望了生命组学大数据安全管理的发展方向,包括完善数据分级分类制度、提升数据分级安全管理技术和加强数据异地灾备建设,以期实现生命组学大数据的安全管理与可持续发展。

    基于云链融合的农业大数据安全治理模型研究
    岳瑞君, 何亮, 汤敏睿, 严威, 刘胜全, 杨婉霞, 孙卫红, 黄永峰
    2024, 6(3):  333-350.  DOI: 10.19788/j.issn.2096-6369.000039
    摘要 ( 86 )   HTML ( 10)   PDF (5325KB) ( 60 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    当前我国农业生产模式从传统向智慧农业转型,针对各农业组织自身数据规模不断扩大,数据共享出现“数据孤岛”难以大规模汇聚农业数据指导精准农事决策等问题,本研究基于云链融合和分布式农业场景下数据安全治理相关技术解决所述问题,并探索其实际应用效果。在分布式农业场景下,以IPFS、区块链和云计算为基础,设计可部署在智能合约的农业大数据治理算法,构建多方农业数据汇聚模型以及完整、安全、可追溯的数据保护模型和典型场景应用模型。以新疆昌吉华兴农场及其附属农业组织农业生产为例,进一步构建云链融合农业大数据平台。对比本文所设计的基于云链融合的农业大数据治理模型和两种传统模型的性能,实验表明,本模型综合性能相比于传统模型更优。

    面向共享的数据存储平台安全体系建设——科学数据银行的建设实践
    姜璐璐, 王鹏尧, 李宗闻, 李成赞, 廖方宇, 周园春
    2024, 6(3):  351-362.  DOI: 10.19788/j.issn.2096-6369.000030
    摘要 ( 52 )   HTML ( 6)   PDF (2312KB) ( 30 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    开放科学数据是开放科学中的必要组成部分,平衡科学数据的开放共享与安全防护是开放数据实践中面临的重要问题。科学数据存储库作为数据共享主要的承载平台,在确保开放共享中的数据安全等关键问题上,发挥着重要作用。本研究通过ScienceDB的具体业务场景分析,构建了面向通用型数据存储库科学数据银行的数据安全治理体系框架。该框架在信息系统安全等级保护基本要求(三级)的基础上,重点在安全组织制度、资源安全管理、环境安全管理三个维度展开了设计和建设。研究总结了科学数据银行安全体系建设成效,从顶层布局到建设实践层面,对数据存储库的安全建设提出建设建议。

    数据要素化视角下新时期国家科学数据汇交回顾与建议
    申其辉
    2024, 6(3):  363-372.  DOI: 10.19788/j.issn.2096-6369.000032
    摘要 ( 47 )   HTML ( 2)   PDF (414KB) ( 26 )  
    参考文献 | 相关文章 | 计量指标

    国家科学数据是新时期新质生产力发展的核心要素。促进科学数据要素化发展,有利于提升我国产业链供应链韧性和安全水平,是推进高水平科技自立自强的内在要求和有力抓手。“十三五”国家重点研发计划67个专项6000多个重点项目实施已有一个完整周期的实践,国家科学数据在体量和价值上具有要素化的必要性和充分性。本文结合新时代国家重点研发计划科学数据实践,从制度机制、专家队伍、经费预算和激励机制等方面,分析国家数据汇交的事前事中事后各环节对数据要素化的影响,并围绕提升我国产业链供应链韧性和安全水平,从科学数据要素强链补链延链提链角度,探索如何通过科技计划政策机制促进数据要素化并提出政策建议。

    我国科学数据中心评价的知识图谱分析
    王悦悦, 陈祖刚, 武新乾
    2024, 6(3):  373-379.  DOI: 10.19788/j.issn.2096-6369.000004
    摘要 ( 64 )   HTML ( 7)   PDF (1367KB) ( 19 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在大数据时代背景下,科学数据中心的蓬勃发展使其绩效评价逐渐成为研究热点。通过对国内近十年科学数据中心评价相关成果的系统梳理,为我国科学数据中心评价模型的深化研究提供理论依据和参考。运用科学知识图谱法,借助CiteSpace软件对2013-2023年期间CNKI的科学数据中心评价研究相关文献进行关键词共现分析。研究发现:研究演进上看,2015-2019年为高峰期,文献数量呈现爆发式增长;研究热点上看,可归纳为评价对象、评价领域、评价指标体系、绩效评估模式。经过对各个主题的深入分析,发现科学数据中心评价已经有一定程度的研究成果积累,然而,对于我国的科学数据中心体系而言,现有的评价体系在可比性和通用性方面存在一定的不足,这对科学数据中心的协调统一发展形成了阻碍。

    智慧农业领域大数据安全问题探索
    吴云坤, 杨莹, 李豪, 熊健, 陈湘灵
    2024, 6(3):  380-391.  DOI: 10.19788/j.issn.2096-6369.000029
    摘要 ( 98 )   HTML ( 13)   PDF (1031KB) ( 38 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    在当前信息化高速发展的背景下,智慧农业作为农业发展的必然趋势,其中农业大数据是实现智慧农业的重要支撑。尽管农业大数据带来了巨大的产业动能,但也伴随诸多的数据安全问题,有效处理农业大数据技术与数据安全的关系显得至关重要。首先综合分析当前各种观点重新定义了农业大数据,然后通过案例详述了其在农业供应链各环节中的促进作用,接着深入剖析了农业大数据的泛在性、社会性、交叉性等专有特征。最后,基于安全三项基本要素(机密性、完整性和可用性)以及农业大数据的专有特征,从数据采集、数据传输、数据存储等大数据生命周期的七个阶段出发,构建了智慧农业场景下的大数据安全风险框架。从大数据存在的共性问题引出农业领域下基于专有特征的特性问题,并结合实际智慧农业场景,提出了有针对性的安全解决策略。本文将对未来研究智慧农业领域中数据安全问题的解决方案提供新思路,旨在促进智慧农业更快更安全发展。

    林草科学数据安全管理与防护
    张乃静, 纪平, 肖云丹
    2024, 6(3):  392-399.  DOI: 10.19788/j.issn.2096-6369.000033
    摘要 ( 42 )   HTML ( 3)   PDF (1323KB) ( 32 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    随着科技的飞速进步,林草学科领域的研究日益倚重于大数据和尖端信息技术。这一趋势也带来了大量敏感且至关重要的科学数据,从而凸显了数据安全管理的重要性。本文首先概述了林草科学数据管理体系的五大核心组成部分:安全制度保障体系、安全组织保障体系、安全技术保障体系、安全运维保障体系和安全基础设施保障体系。这些体系共同构成了林草科学数据管理的坚实基础。其次进一步探究了基于分类分级的林草科学数据管理方案,并重点强调了数据安全防护体系的重要性。对不同类别的数据设定不同的管理级别,不仅可以促进数据的有序流通,还能确保数据在共享过程中的安全性和可靠性。这种精细化的管理方式,旨在保护数据安全的同时,实现数据的最大价值。最后详细列举了林草科学数据安全的防护措施,为林草科学数据的稳定增长与共享提供了坚实保障。

    数据驱动的农业深度学习方法计量分析
    李佳乐, 张建华, 王健, 周国民
    2024, 6(3):  400-411.  DOI: 10.19788/j.issn.2096-6369.000023
    摘要 ( 87 )   HTML ( 7)   PDF (1590KB) ( 44 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    随着人工智能、计算机视觉、深度学习等科学技术在农业领域的发展与应用,数据驱动的农业深度学习模型成为农业科学的新型研究范式,农业数据集是深度学习模型训练的基础,高质量、大规模、多样性的数据集能够有效提升模型性能,从而助力深度学习在智慧农业领域的应用。为帮助相关领域研究者更好地了解数据对于深度学习的驱动力,充分发挥深度学习在农业领域的应用,本文通过计量分析的方法,总结农业数据集的类型、规模、来源等基本特质,根据深度学习方法将其划分为目标检测、图像分割、图像识别等4个类别,根据应用领域将其划分为视觉导航、特征识别、无损检测等7个类别。结果显示,数据集类型以图像数据为主,图像的数据量主要集中在50—1 500张范围内,由于农业数据采集的特殊性,数据集大部分由个人构建,部分来自公开数据集,主要利用数据集开展特征识别。在未来,随着模型的规模越来越大,对于数据集的要求也不断升级,因此需要持续构建大规模、分布均衡、标注准确的数据集。本文通过强调数据对深度学习模型的驱动力及重要性,为数据推动深度学习农业应用提供理论依据。

    农业垂直领域大语言模型构建流程和技术展望
    张宇芹, 朱景全, 董薇, 李富忠, 郭雷风
    2024, 6(3):  412-423.  DOI: 10.19788/j.issn.2096-6369.000052
    摘要 ( 142 )   HTML ( 26)   PDF (1315KB) ( 172 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    随着互联网的普及,农业知识和信息的获取变得更加便捷,但信息大多固定且通用,无法针对具体情况提供定制化的解决方案。在此背景下,大语言模型(Large Language Models,LLMs)作为一种高效的人工智能工具,逐渐在农业领域中获得关注和应用。目前,LLMs技术在农业领域大模型的相关综述中只是简单描述,并没有系统地介绍LLMs构建流程。本文重点介绍了农业垂直领域大语言模型构建流程,包括数据采集和预处理、选择适当的LLMs基模型、微调训练、检索增强生成 (Retrieval Augmented Generation,RAG)技术、评估过程。以及介绍了LangChain框架在农业问答系统中的构建。最后,总结出当前构建农业垂直领域大语言模型的一些挑战,包括数据安全挑战、模型遗忘挑战和模型幻觉挑战,以及提出了未来农业垂直领域大语言的发展方向,包括多模态数据融合、强时效数据更新、多语言知识表达和微调成本优化,以进一步提高农业生产的智能化和现代化水平。

    人-信息-物理系统(HCPS)在图书馆中的应用
    刘迅芳, 丁若虹
    2024, 6(3):  424-432.  DOI: 10.19788/j.issn.2096-6369.000016
    摘要 ( 43 )   HTML ( 2)   PDF (865KB) ( 47 )  
    数据和表 | 参考文献 | 相关文章 | 计量指标

    图书馆由人、信息系统和物理系统(HCPS)组成。研究HCPS的内涵及各组成部分的关系,可为图书馆的发展指明方向。通过对早期图书馆、现代图书馆和智慧图书馆的特征分析,将HCPS理论引入图书馆中,并基于HCPS视角探讨了图书馆的演变过程,分析了不同阶段图书馆HCPS的特点与作用,提出了智慧图书馆HCPS的研究框架和重点研究内容,剖析了推动图书馆发展的赋能技术,进行了智慧图书馆HCPS的实践应用与讨论。信息系统的引入及发展助力了图书馆的演变,建立智慧图书馆HCPS的重点是开展信息系统模型的建立与仿真方法研究。初次探索HCPS在图书馆中的应用,提出的概念和研究框架仍处于探索阶段,后续需要广泛地跨学科合作与交流,不断充实和细化图书馆HCPS的研究内容、方法和技术。