通过信息技术提高农业生产的效率、优化农业生产中的问题对我国农业发展至关重要。目前,信息技术的发展产生了海量数据,这些数据大多以碎片化、非结构化的形式分布在网络上。尤其在农业领域,使用传统搜索引擎进行信息检索难以高效准确地获取其中有价值的农业信息,往往需要消耗大量的时间和精力从海量无组织的数据中进行二次收集和整理。针对上述问题,本文通过网络爬虫技术挖掘公开的农业网站中的数据,经过自动化或半自动化数据清洗、去噪等过程,将非结构化的数据重新组合成结构化的数据,最终以知识图谱的方式进行存储。所构建的农业知识图谱数据集包括粮食作物、经济作物、水果、蔬菜等11个农业大类、共计8 481个小类的条目数据,每个小类条目对应一种农业生物或药物。具体包括粮食作物461种、经济作物2 208种、水果1 294种、蔬菜257种、食用菌118种、花木1 161种、水产142种、农药113种、农作物病虫害1 605种、兽药519种、中草药603种。根据该数据集构建的农业知识图谱三元组达到90 508条,规模较大、覆盖品类较为广泛,能够为农业知识问答、推荐系统等人机交互友好的智能应用研发提供基础数据支撑;同时,在生成式大模型中融入农业领域知识图谱,有助于在垂直领域上实现更为高效、精准的信息检索和智能决策。
数据摘要:
项目 | 描述 |
数据库(集)名称 | 农业知识图谱构建数据集 |
所属学科 | 计算机科学与技术(520);农学其他学科(210.99) |
研究主题 | 农业知识图谱;数据挖掘;人工智能 |
数据时间范围 | 2020年-2023年 |
数据地理空间覆盖 | 中国 |
数据类型与技术格式 | *.JSON |
数据库(集)组成 | 农业知识图谱数据包括粮食作物、经济作物、水果、蔬菜等11个农业大类、共计8481个小类的条目数据,具体包括粮食作物461种、经济作物2208种、水果1294种、蔬菜257种、食用菌118种、花木1161种、水产142种、农药113种、农作物病虫害1605种、兽药519种、中草药603种。每个大类的数据以JSON格式的文件分别保存。 |
数据量 | 14.6 MB |
主要数据指标 | 作物类别;三元组数量 |
数据可用性 | CSTR:17058.11.sciencedb.agriculture.00016 DOI:10.57760/sciencedb.agriculture.00016 https://doi.org/10.57760/sciencedb.agriculture.00016 |
经费支持 | 国家自然科学基金项目(32071901,32271981);国家基础学科公共科学数据中心课题(NBSDC-DB-20) |