1引言
種質(zhì)資源具有豐富的遺傳多樣性,如豐產(chǎn)性、廣適性、抗病蟲性、抗逆性等[1],大量的數(shù)據(jù)支撐育種研發(fā)和農(nóng)業(yè)科技創(chuàng)新,有效提高生物資源利用率并推動現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)發(fā)展2。作物審定品種作為一類種質(zhì)資源,是根據(jù)品種區(qū)域試驗(yàn)結(jié)果和小面積生產(chǎn)表現(xiàn),經(jīng)由國家或省級農(nóng)作物品種審定委員會審查評定的具有推廣價值的新育成或引進(jìn)品種,在保障農(nóng)作物生產(chǎn)穩(wěn)定性、提高產(chǎn)量和質(zhì)量等方面具有實(shí)際價值。我國生物種業(yè)現(xiàn)已邁入以人工智能驅(qū)動的智能育種時代,迫切需要將現(xiàn)代信息技術(shù)與種業(yè)數(shù)據(jù)資源相結(jié)合,更充分地挖掘和發(fā)揮其數(shù)據(jù)價值。
作為人工智能和語義網(wǎng)絡(luò)的重要分支技術(shù),知識圖譜可將多種物理概念以及它們之間的關(guān)系以圖形形式展現(xiàn),是一種數(shù)據(jù)結(jié)構(gòu),更是一種知識的表達(dá)和存儲方式,為研究復(fù)雜問題提供切實(shí)的、有價值的參考[3]。知識圖譜相關(guān)技術(shù)在國內(nèi)外研究中廣受關(guān)注,特別是醫(yī)藥衛(wèi)生[4-5]、圖書情報[6-7]、企業(yè)治理[8等領(lǐng)域,基于“實(shí)體一關(guān)系一實(shí)體”三元組[9]及其相關(guān)屬性值對,將數(shù)據(jù)資源建構(gòu)成網(wǎng)狀的知識結(jié)構(gòu),實(shí)現(xiàn)自動問答、信息推薦、數(shù)據(jù)預(yù)測等知識服務(wù)。而農(nóng)業(yè)領(lǐng)域的知識圖譜研究,目前較為側(cè)重作物栽培[10-11]、水肥管理[12-13]、病蟲害防治[14-16]等重點(diǎn)問題,主要涉及農(nóng)業(yè)本體構(gòu)建、知識抽取、知識融合、知識推理[3,17]等關(guān)鍵技術(shù),針對農(nóng)業(yè)產(chǎn)業(yè)全鏈條如:育種、生產(chǎn)、銷售、流通、溯源等環(huán)節(jié)的知識服務(wù)還需不斷拓展和挖掘。本研究針對育種環(huán)節(jié),收集整理廣東省主要農(nóng)作物審定品種數(shù)據(jù)并結(jié)合知識圖譜技術(shù)進(jìn)行數(shù)據(jù)挖掘。
2 數(shù)據(jù)采集與處理方法
2.1 數(shù)據(jù)采集
數(shù)據(jù)源的選擇將會影響數(shù)據(jù)的整體質(zhì)量和后續(xù)分析應(yīng)用的效果。本研究充分考慮數(shù)據(jù)的可靠性、實(shí)用性、連續(xù)性、更新頻率等因素,選擇廣東省農(nóng)業(yè)農(nóng)村廳官方網(wǎng)站(https://dara.gd.gov.cn/)作為數(shù)據(jù)獲取渠道,選用廣東省農(nóng)作物品種審定委員會每年審議通過的\"廣東省農(nóng)作物審定品種信息\"作為研究主體,采集2016—2023年共計8年的水稻、玉米、大豆三類農(nóng)作物的品種遺傳譜系、特征特性等作為基礎(chǔ)數(shù)據(jù),并進(jìn)行后續(xù)加工和處理。
2.2 數(shù)據(jù)預(yù)處理
本研究所采集的基礎(chǔ)數(shù)據(jù)均為以.docx格式存儲的非結(jié)構(gòu)化數(shù)據(jù),包含大量、大段文本,文本中又包含不同類型的字符。為便于提取節(jié)點(diǎn)、屬性和關(guān)系,構(gòu)建強(qiáng)關(guān)聯(lián)性的知識,提升圖譜構(gòu)建的效率和精準(zhǔn)度,需要通過數(shù)據(jù)預(yù)處理整理為結(jié)構(gòu)化數(shù)據(jù),解決數(shù)據(jù)不完整或不統(tǒng)一的問題,預(yù)處理流程如圖1所示。
首先進(jìn)行數(shù)據(jù)清洗,基于正則表達(dá)式去除標(biāo)點(diǎn)符號、特殊字符等噪聲,移除重復(fù)性數(shù)據(jù)。其次進(jìn)行屬性提取,基于基礎(chǔ)數(shù)據(jù)中各審定品種的特征特性和產(chǎn)量表現(xiàn),選擇共性高頻字段用作基本屬性。
最后進(jìn)行數(shù)據(jù)合并,合并2016—2023年的審定品種數(shù)據(jù),規(guī)范化存儲抗性、感性、種植地區(qū)等屬性,均值化處理天數(shù)、長度、重量等屬性,復(fù)雜數(shù)值統(tǒng)一保存為小數(shù)點(diǎn)后2位,部分缺失值以0代替。最終整理形成Excel文件。
2.3數(shù)據(jù)存儲
JSON是一種輕量級的數(shù)據(jù)交換格式,以文本形式存儲和傳輸數(shù)據(jù),具有結(jié)構(gòu)簡單、易被人類編寫和閱讀、幾乎可被所有編程語言解析和使用等特點(diǎn)。本研究利用Python的pandas庫,讀取并遍歷Excel文件中的每一行數(shù)據(jù),構(gòu)建JSON數(shù)據(jù)對象(即每個審定品種)并向其中添加鍵值對(即該品種的基本屬性),以此形式存儲為結(jié)構(gòu)化數(shù)據(jù)。最終將.xlsx轉(zhuǎn)化為.json格式,以便后續(xù)研究中快速構(gòu)建出多個“實(shí)體一關(guān)系一實(shí)體”三元組。
3 數(shù)據(jù)內(nèi)容
本數(shù)據(jù)集共收集和整理 2016—2023 年廣東省水稻、玉米、大豆三類主要農(nóng)作物審定品種數(shù)據(jù)823條。如表1所示,每類農(nóng)作物根據(jù)其特征特性和產(chǎn)量表現(xiàn)提取了共性高頻的屬性數(shù)據(jù),并按年份順序存儲。
本數(shù)據(jù)集為文本數(shù)據(jù),包含.xlsx和.json兩種存儲格式。.xlsx格式下保存了三類農(nóng)作物審定品種的全部屬性數(shù)據(jù),包括遺傳譜系、栽培技術(shù)要點(diǎn)、審定意見、形態(tài)特征、性能數(shù)據(jù)、產(chǎn)量表現(xiàn)、適種地區(qū)等,水稻審定品種數(shù)據(jù)示例如圖2所示。.json格式下根據(jù)農(nóng)作物類別保存了三份文件,分別為693條水稻、124條玉米、6條大豆審定品種數(shù)據(jù)。如圖3所示,以玉米審定品種數(shù)據(jù)為例,每個品種保存為一個對象,每個對象的所有屬性以鍵值對的形式存儲,即“審定編號、育種者/選育單位、年份、品種類型”等屬性名稱作為鍵,“粵審玉20230017、廣東省農(nóng)業(yè)科學(xué)院作物研究所、2023、甜玉米”等具體屬性內(nèi)容作為值。
4質(zhì)量控制與技術(shù)驗(yàn)證
本研究的基礎(chǔ)數(shù)據(jù)由廣東省農(nóng)作物品種審定委員會審議通過并公開發(fā)布,保證了數(shù)據(jù)的真實(shí)性和可靠性;采集了近8年的數(shù)據(jù)信息,格式與內(nèi)容規(guī)范,保證了數(shù)據(jù)的連續(xù)性和完整性。數(shù)據(jù)預(yù)處理環(huán)節(jié),通過數(shù)據(jù)清洗、規(guī)范化處理、人工檢查矯正等方式,按照統(tǒng)一格式排版形成Exce1文件,保證了數(shù)據(jù)的準(zhǔn)確性和一致性。數(shù)據(jù)存儲環(huán)節(jié),采用JSON格式存儲為結(jié)構(gòu)化數(shù)據(jù),該格式下的數(shù)據(jù)具有解析速度快、兼容性強(qiáng)等特點(diǎn),便于知識圖譜構(gòu)建過程中提取所需實(shí)體和關(guān)系。
為驗(yàn)證該數(shù)據(jù)集的有效性,本研究利用Py2Neo框架和Python的Pandas庫,將二維數(shù)據(jù)表轉(zhuǎn)換為Neo4j圖形數(shù)據(jù)模型。首先定義一個起始節(jié)點(diǎn)和一個結(jié)束節(jié)點(diǎn),其次建立節(jié)點(diǎn)間關(guān)系,并通過屬性值來查找其他節(jié)點(diǎn),最后共抽取出5288條知識圖譜三元組,用以構(gòu)建廣東省主要農(nóng)作物審定品種知識圖譜,圖譜部分內(nèi)容示例如圖4所示。
5數(shù)據(jù)價值與使用建議
種質(zhì)資源又稱遺傳資源,是育種研發(fā)的關(guān)鍵原材料,更是農(nóng)業(yè)發(fā)展的重要基石。審定品種作為一類種質(zhì)資源,經(jīng)過嚴(yán)格的科學(xué)研究和試驗(yàn)改良,并通過國家或省級農(nóng)作物品種審定委員會審定后予以推廣,具備良好的遺傳穩(wěn)定性和適應(yīng)性,對于提高農(nóng)業(yè)生產(chǎn)效率和農(nóng)產(chǎn)品質(zhì)量至關(guān)重要。本數(shù)據(jù)集通過整理合并廣東省2016—2023年農(nóng)作物審定品種數(shù)據(jù),提取關(guān)鍵特征用作屬性值,數(shù)據(jù)應(yīng)用價值主要體現(xiàn)為:
建立專家知識庫。相關(guān)科研和生產(chǎn)單位可基于本數(shù)據(jù)集建立農(nóng)作物審定品種專家知識庫,并通過本研究提及的公開渠道下載基礎(chǔ)數(shù)據(jù)、擴(kuò)充數(shù)據(jù)庫,利用知識圖譜的查詢和推理能力,實(shí)現(xiàn)審定品種信息快速檢索、輔助育種關(guān)鍵問題科學(xué)決策。
服務(wù)智慧農(nóng)業(yè)?;诒緮?shù)據(jù)集支撐,研究人員可使用知識圖譜技術(shù)將育種、種植、病蟲害防治、生產(chǎn)、銷售、流通、溯源等全產(chǎn)業(yè)鏈各環(huán)節(jié)數(shù)據(jù)進(jìn)行知識抽取和融合[3],構(gòu)建面向具體農(nóng)業(yè)任務(wù)的智能問答系統(tǒng)、生產(chǎn)管理決策應(yīng)用、信息資源推薦系統(tǒng)等[17]。
在使用本數(shù)據(jù)集與其他不同來源的數(shù)據(jù)進(jìn)行知識融合的過程中,需要關(guān)注農(nóng)業(yè)實(shí)體名稱不一致或數(shù)據(jù)類型不同等異構(gòu)問題,通過實(shí)體對齊、語義融合、信息合并等方法消歧。
6 數(shù)據(jù)可用性
開放訪問,遵從CCBY-NC-ND4.0協(xié)議。
https://cstr.cn/17058.11.sciencedb.agriculture.00117;
https://doi.org/10.57760/sciencedb.agriculture.00117。
數(shù)據(jù)作者分工職責(zé)
高卓君,數(shù)據(jù)分析、質(zhì)量控制及論文撰寫。
張丹丹,組織實(shí)施與綜合管理,論文指導(dǎo)。
陳榮宇,數(shù)據(jù)收集整理、質(zhì)量控制。
倫理聲明
作者聲明,當(dāng)前數(shù)據(jù)不涉及倫理聲明相關(guān)的內(nèi)容。
利益沖突聲明
作者聲明,全部作者均無會影響研究公正性的財務(wù)利益沖突或個人利益沖突。
參考文獻(xiàn)
[1]王曉鳴,邱麗娟,景蕊蓮,等.作物種質(zhì)資源表型性狀鑒定評價:現(xiàn)狀 與趨勢.植物遺傳資源學(xué)報,2022,23(1):12-20.
[2] 劉旭,李立會,黎裕,等.作物種質(zhì)資源研究回顧與發(fā)展趨勢.農(nóng)學(xué)學(xué)報, 2018,8(1):1-6.
[3]穆維松,劉天琪,苗子激,等.知識圖譜技術(shù)及其在農(nóng)業(yè)領(lǐng)域應(yīng)用研究 進(jìn)展.農(nóng)業(yè)工程學(xué)報,2023,39(16):1-12
[4]王潤周,張新生.基于混合動態(tài)掩碼與多策略融合的醫(yī)療知識圖譜 問答.計算機(jī)科學(xué)與探索,2024,18(10):2770-2786.
[5]王楚童,李明達(dá),孫孟軒,等.融合大規(guī)模醫(yī)學(xué)事實(shí)的跨語言雙層知識 圖譜.軟件學(xué)報,2025,36(3):1240-1253.
[6]李保金,李葉,劉穎.基于科學(xué)知識圖譜的圖書情報領(lǐng)域?qū)W術(shù)熱點(diǎn)分 析.遼寧工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2024,26(2):37-42.
[7]SONG H,LI Y,WANG Y. Visualization and Analysis of Global Agricultural E-Commerce Research Based on Knowledge Graph. International Conference on Communications, Information System and Computer Engineering,Haikou(CN),2019.DOI:10.1109/CISCE.2019.00112.
[8]李澤中,齊晨旭,戎佳.多源知識融合的企業(yè)知識服務(wù)模型構(gòu)建研究. 情報科學(xué),2022,40(12):56-62.
[9]SINGHAL A. Introducing the Knowledge Graph: things,not strings [EB/OL].(2012-5-16) [2024-08-09].htps:/googleblog.blogspot.com/ 2012/05/introducing-knowledge-graph-things-not.html.
[10] 沈利言.面向水稻栽培方案的實(shí)體關(guān)系抽取與知識圖譜構(gòu)建方法研 究.南京:南京農(nóng)業(yè)大學(xué),2019.
[11] 許多,魯旺平,許瑞清,等.基于農(nóng)業(yè)時空多模態(tài)知識圖譜的水稻精準(zhǔn) 施肥決策方法.華中農(nóng)業(yè)大學(xué)學(xué)報,2023,42(3):281-292.
[12] 戈為溪,周俊,袁立存,等.基于知識圖譜與案例推理的水稻精準(zhǔn)施肥 推薦模型.農(nóng)業(yè)工程學(xué)報,2023,39(2):126-133.
[13]GE W, ZHOU J, ZHENG P,et al.A recommendation model of rice fertilization using knowledge graphand case-based reasoning. Computers and Electronics in Agriculture,2024,219:108751.https:// doi.org/10.1016/j.compag.2024.108751.
[14] LIU X, BAI X,WANG L,et al. Review and trend analysis of knowledge graphs for crop pest and diseases.IEEE Access,2019, 7:62251-62264. DOI:10.1109/ACCESS.2019.2915987.
[15]李貫峰,李衛(wèi)軍.一個基于枸杞病蟲害領(lǐng)域本體的語義檢索模型.計 算機(jī)技術(shù)與發(fā)展,2017,27(9):48-52.
[16] ZHOU J,LI J,WANG C,etal.Crop disease identification and interpretation method based on multimodal deep learning. Computers and Electronics in Agriculture,2021,189(3):106408.
[17]唐聞濤,胡澤林.農(nóng)業(yè)知識圖譜研究綜述.計算機(jī)工程與應(yīng)用,2024, 60(2):63-76.
引用格式:高卓君,張丹丹,陳榮宇.2016—2023年廣東省主要農(nóng)作物審定品種知識圖譜構(gòu)建數(shù)據(jù)集[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報,2025.7(2):261-268.DOI:10.19788/j.issn.2096-6369.100042.
Abstract:This studyiscariedout incombinationwiththedataofcropsapproved varieties inGuangdongProvinceandrelated technologiesofknowledge map.Seedindustryisthe initiallinkofagriculturalidustrialchainandanimportantpillartoensure national food securityandeconomic development.Asan important innovativeresource in this link,approved varieties are popularizedafter stricttestingandobjective evaluation, which efectivelyrealizes the protection and utilization of germplasm resourcesandpromotes thehigh-qualitydevelopmentofseedindustry.Withtheadvancementofagricultural informatization,the amountof agriculturaldata has increased dramaticall,and modern information technologies such as big dataandarticial intellgence have playeda prominentrole inimprovingagricultural production eficiencyandoptimizing resource alocation.As animportantbranchtechnologyofartificial intellgenceandsemanticnetwork,knowledge mapping hasbeen widelyusedin variou fields,whiletheresearchofknowledgemapping inagriculturalfieldfocusesonkeyissuessuchascropcultivation,Water andfertilizermanagement,pestcontrolandsoonBasedontheeliability,racticabilitycontinuityandotherfactorsofdata,this studycollected the eight-year crop varietydata of Guangdong Province from 2016 to 2023asbasic databy obtaining the informationpubliclyreleasedbytheGuangdong Provincial Departmentof AgricultureandRuralAfairs.Thedata was stored in. docformatandcontaineda lotof charactersandcharacters.Inorder to facilitatemachineidentificationand subsequent knowledge mapconstruction,this studyremoved theinfluenceof noisebydatacleaning,and extractedcommonatributes according tothecharacterstisandyieldperformanceofarieties.Finally,823germplasmresouresdataofthreecropsapproved varieties byrice,coandsoybean were sortedand merged,andstoredasstructured data in.xlsxand.sonformats.Inoderto verifythe validityofthe datathe knowledge mapof main cropsapproved varieties in Guangdong Province was successfully constructed byusing the graphic database: Neo4j.Relevant scientific research and production units can establish an expert knowledgebaseofopsapprovedvrietiesbasedonthisdataset,andbuildintellgentsrvicessuchasintellgentquestionand answer,management decisionand informationrecommendation for specific agricultural tasks through database expansionand multi-source data fusion.
Keywords: crops; approved varieties; characteristics; knowledge map; germplasm resources Data summary: