亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        作物性狀調控基因知識圖譜數據集

        2025-07-19 00:00:00張丹丹趙瑞雪寇遠濤鮮國建
        農業(yè)大數據學報 2025年2期
        關鍵詞:學科知識實體性狀

        1 引言

        種業(yè)作為保障國家糧食安全和重要農產品有效供給的基石,培育多種優(yōu)異性狀聚合的作物新品種一直是育種學家所努力的方向。然而,調控不同性狀的基因之間常常存在此消彼長的權衡效應,使得這些優(yōu)異性狀難以兼得。因此,挖掘同時調控抗旱、抗病等多個優(yōu)異性狀的多效基因將有效助力于作物育種科學研究。隨著信息技術在作物育種領域中的加快應用,新技術帶來的數據激增以及作物育種對知識發(fā)現服務的新需求,驅動著作物性狀調控基因知識的發(fā)現由假設驅動的被動探索轉向數據驅動的主動知識發(fā)現。越來越多的作物育種研究工作是基于現有育種科學數據的重新分析、組織、關聯、解析與利用,通過關聯融合多維度的科學數據以提高知識獲取效率以及觸發(fā)學科知識的發(fā)現。

        在作物性狀調控基因知識發(fā)現研究中,擬南芥植物因其生命力強且生育周期短等優(yōu)勢特征,被作為植物研究中的典型模式植物。其大多數基因與其他復雜的作物基因具有很高的同源性,因此常被用來為其他的作物功能基因研究提供高質量的基因功能注釋,以指導作物的育種科學研究。隨著作物育種科學研究的不斷深入,多維度作物育種科學數據爆炸式增長,也涌現出了一系列支撐作物育種科學研究的領域科學數據庫。包括水稻基因組變異及功能注釋數據庫RiceVarMap(RiceVariationMap)[1]、玉米基因組和遺傳分析數據庫MaizeGDB(MaizeGeneticsandGenomicsDatabase)[2]、小麥基因組數據庫 IWGSC (International Wheat Genome SequencingConsortium)[3]、基因組注釋數據庫Phytozome[4]、蛋白質序列和功能分析數據庫UniProt(UniversalProtein)[5]以及通路注釋數據庫KEGG(KyotoEncyclopediaofGenesand Genomes)[等。這些領域科學數據庫為解析作物性狀分子調控機制提供了良好的數據基石,但其多是從單一維度對作物性狀進行分子調控機制的注釋解析,缺少跨物種多維度科學數據的關聯融合,為作物性狀調控基因知識發(fā)現帶來了挑戰(zhàn)。因此,構建跨物種多維度作物育種科學數據關聯融合的數據集,可實現已有學科知識的遷移復用與科學數據價值的最大化發(fā)揮,被證明是實現學科知識發(fā)現的重要基礎[7-8]。

        本研究面向作物育種知識發(fā)現的現實需求,采用多路徑知識抽取的方式對多源異構的科學數據進行關聯融合。最終,形成了涵蓋水稻、玉米、小麥與擬南芥跨物種關聯融合的性狀調控基因知識圖譜數據集。該數據集為作物育種知識發(fā)現提供了重要的知識資源底座??蔀樽魑镉N知識發(fā)現提供新的研究思路,是支撐作物性狀調控基因知識發(fā)現的重要基石。

        2 數據采集與處理方法

        2.1 數據采集

        數據獲取來源的選擇對于數據集的整體質量與后續(xù)分析應用效果是至關重要的。本研究面向作物性狀調控基因知識發(fā)現的需求,基于基因和性狀間知識層級結構所涵蓋的科學數據維度廣泛且關聯關系復雜等特征,不僅有基因符號、細胞組分等基因水平的科學數據,還有亞細胞定位、結構域等蛋白水平的科學數據以及信號通路、代謝通路等富集通路水平的科學數據[。首先,對作物育種領域科學數據庫中所涵蓋的科學數據類型和內容權威性等方面進行調研對比分析,并結合領域專家咨詢的方式選取了以下合適的數據源。選取了PubMed文獻數據庫與其他八個領域科學數據庫作為數據來源,包括Phytozome(4個物種的基因組信息)、Ensembl(European MolecularBiologyLaboratory'sEuropeanBioinformatics Institute)plants(4個物種的基因組信息)、UniProt(UniversalProtein)(4個物種的蛋白注釋信息)、水稻數據庫RGAP(RiceGenomeAnnotationProject)、STRING(4個物種的蛋白互作信息)、Pfam(protein familyanalysis andmodeling)(4個物種的蛋白質家族信息)、KEGG(Kyoto Encyclopedia ofGenesand Genomes)(4個物種的通路注釋信息)和GO(GeneOntology)(4個物種的通路注釋信息)。采集水稻、玉米、小麥與擬南芥的多維度科學數據作為基礎數據。

        2.2 多路徑知識抽取

        基于所采集到的結構化、半結構化與非結構化的基礎數據,本研究采用多路徑知識抽取的方式進行相關科學數據的抽取。面向結構化數據的知識抽取,本研究主要是利用pandas工具對結構化數據進行了格式轉換和數據清洗,并進一步采用映射的方式以獲取到滿足存儲格式的規(guī)則數據。面向半結構化數據的知識抽取,本研究主要利用了生物學領域中序列相似度計算工具BLAST對FASTA格式的蛋白序列數據進行蛋白同源關系的知識獲?。淮送?,采用ETL流程化工具

        Kettle對XML格式的半結構化數據進行數據解析,并基于規(guī)則進行相關學科知識的抽取。面向非結構數據的知識抽取,本研究主要利用了大語言模型對獲取到的文本摘要數據進行知識抽取,為了確保知識抽取的準確性,后期采用人工校驗的方式獲取得到三元組。最終,整理形成CSV文件]。

        2.3數據存儲

        基于領域知識圖譜的應用服務需求,其數據的存儲管理也尤為重要,是查詢、檢索、推理等各類學科知識發(fā)現應用的關鍵支撐環(huán)節(jié)。Neo4j作為一種高性能的圖數據庫,具有靈活的數據模型、強大的查詢能力以及支持可視化界面等特點,為知識圖譜的存儲與管理提供了有效的解決方案。本研究選取了基于屬性圖數據模型的Neo4j圖數據庫作為作物性狀調控基因知識圖譜數據集存儲管理和應用支撐的工具,采用實體節(jié)點、實體數據屬性和實體間對象屬性的數據結構對關聯融合后的數據集進行可視化的展示。

        3 數據內容

        表1實體數據集內容釋義樣例

        本數據集共收集和整理水稻、玉米、小麥、擬南芥跨物種關聯融合的實體數據集13個與語義關系數據集14個。實體數據集涵蓋基因水平、蛋白水平、富集通路水平與性狀水平四種科學數據類型維度共計13種實體類型,內容包含實體的名稱以及實體的數據屬性等,選取以下幾種核心實體進行舉例說明(表1)。并從基因水平、蛋白水平、富集通路水平與性狀水平分別選取基因、蛋白、生物學過程、性狀實體為例進行實體數據集內容展示(表2一表5)。語義關系數據

        Table1 An example of an entity dataset content definition"

        表3蛋白實體數據集內容

        表2基因實體數據集內容Table3 Protein entity datasetcontent
        表4生物學過程實體數據集內容Table 4Biological process entity dataset content

        集作為支撐后續(xù)學科知識發(fā)現的關鍵,也是構建領域知識圖譜的核心數據集。語義關系數據集共包含14個數據集,內容包含實體-語義關系-實體三元組,選取以下核心語義關系進行舉例說明(表6),以蛋白-定位-亞細胞定位位置為例進行語義關系數據集內容展示(表7)。

        表5性狀實體數據集內容

        Table5 Trait entity datasetcontent
        表6語義關系數據集內容釋義樣例
        表7“蛋白-定位-亞細胞定位位置”語義關系數據集內容Table 7Contents of the semantic relationship dataset of protein-localization-subcellular localization

        4質量控制與技術驗證

        本研究從權威的PubMed文獻數據庫與八個領域科學數據庫獲取得到基礎數據,保證了數據的真實性和可靠性;數據預處理環(huán)節(jié),通過數據清洗、知識抽取、規(guī)范化處理、人工校驗等方式,按照統(tǒng)一格式排版形成CSV文件,保證了數據的準確性和一致性。數據存儲環(huán)節(jié),采用CSV格式存儲為結構化數據,該格式下的數據具有解析速度快、兼容性強等特點,便于構建知識圖譜。為了驗證該數據集的有效性,本研究采用Neo4j圖數據庫對該數據集進行存儲。最終,形成了涵蓋125591個節(jié)點和547591條語義關系的作物性狀調控基因知識圖譜,可有效支撐跨物種基因層級知識的關聯檢索。如圖是以擬南芥基因AT1G49540為例的層級知識關聯檢索示意圖(圖1)。

        圖1基因AT1G49540的層級知識關聯檢索Fig.1Hierarchical knowledge association retrieval of gene ATIG49540

        5數據價值與使用建議

        種業(yè)作為保障國家糧食安全和重要農產品有效供給的基石,培育多種優(yōu)異性狀聚合的作物新品種一直是育種學家所努力的方向。性狀主要受控于關鍵功能基因,挖掘同時調控抗旱、抗病等多個優(yōu)異性狀的多效基因,明晰功能基因的分子調控機制將有效助力于作物育種科學研究。本數據集通過整合主糧作物水稻、玉米、小麥以及模式植物擬南芥的跨物種多維度的作物育種數據,建立起了跨物種基因與性狀間的關聯關系,實現了已有作物育種學科知識的遷移復用與作物育種科學數據價值的最大化發(fā)揮,為作物性狀調控基因知識發(fā)現提供了重要的知識資源底座。數據應用價值主要體現為:

        (1)基于本數據集所構建的作物性狀調控基因知識圖譜,實現了跨物種間性狀調控基因的關聯發(fā)現,提高了跨物種學科知識的獲取效率,支撐了多維度科學數據尋證分析的功能基因發(fā)現結果[10]。由此可見,基于本數據集,可實現跨物種多維度科學數據的關聯檢索以及以基因為中心的層級學科知識快速關聯發(fā)現,為作物育種科學問題的解決提供科學的決策。

        (2)基于本數據集所構建的知識圖譜驅動的基因調控性狀預測模型,實現了作物優(yōu)異多效基因的挖掘與推薦,有效助力了作物育種學科知識發(fā)現[11]。由此可見,基于本數據集,科研人員可利用知識圖譜技術將跨物種多維度的科學數據進行關聯融合,構建面向作物性狀調控基因知識發(fā)現的智能問答系統(tǒng)、作物育種決策應用等。

        使用建議:

        在使用本數據集與其他不同來源的數據進行知識融合的過程中,需要關注實體名稱不統(tǒng)一或數據類型異構等問題,可通過實體消歧與語義融合等方法實現對齊??苫诒緮祿瘶嫿ㄗ魑镉N知識庫,并通過本研究提及的公開數據庫下載基礎數據、不斷擴充知識庫,為作物育種學科知識發(fā)現提供關鍵的知識資源底座。后續(xù)研究工作中將不斷優(yōu)化與完善本數據集的廣度和深度,使之更好地發(fā)揮數據的價值。

        6 數據可用性

        開放訪問,遵從CCBY-NC-ND4.0協(xié)議。

        https://cstr.cn/17058.11.sciencedb.agriculture.00175;

        https://doi.org/10.57760/sciencedb.agriculture.00175。

        數據作者分工職責

        張丹丹,數據分析、質量控制及論文撰寫。

        趙瑞雪,組織實施與綜合管理,論文指導??苓h濤,組織實施與綜合管理,論文指導。

        鮮國建,數據收集整理、質量控制。

        倫理聲明

        作者聲明,當前數據不涉及倫理聲明相關的內容。

        利益沖突聲明

        作者聲明,全部作者均無會影響研究公正性的財務利益沖突或個人利益沖突。

        參考文獻

        [1] ZHAO H,LI J,YANGL,et al.An inferred functional impact map of genetic variantsin rice.Molecular Plant,2021,14(9):1584-1599.DOI: 10.1016/j.molp.2021.06.025.

        [2] PORTWOODJL,WOODHOUSE MR,CANNONEK,etal. MaizeGDB 2ol8:the maize multi-genome genetics and genomics database.Nucleic Acids Research, 2018,47(D1):D1l46-D1154. DOI:10.1093/nar/gky1046.

        [3] APPELSR,EVERSOLEK,FEUILLETC,etal.Shiftingthelimitsin wheat research and breeding using a fully annotated reference genome. Science,2018,361(6403):eaar7191.DOI:10.1126/science.aar7191.

        [4] GOODSTEIN D M, SHU S,HOWSON R, et al.Phytozome:a comparative platform for green plant genomics. Nucleic Acids Research,2012,40:D1178-86.DOI:10.1093/nar/gkr944.

        [5] CONSORTIUM T U. The Universal Protein Resource (UniProt). Nucleic Acids Research,2007,35:193-197. DOI: 10.1093/nar/ gkl929.

        [6] CHENL,ZHANGYH,WANGSP,etal.Predictionand analysisof essential genes using the enrichments of gene ontology and KEGG pathways.PLoS ONE,2017,12(9): e0184129.DOI:10.1371/journal. pone.0184129.

        [7]LANY,HE S,LIUK,etal.Path-based knowledge reasoningwith textual semantic information for medical knowledge graph completion. BMC Medical Informatics and Decision Making,2021,21(Suppl 9): 335.DO1: 10.1186/s12911-021-0162-7.

        [8] YANG R,YE Q,CHENG C,et al.Decision-making system for the diagnosis of syndrome based on traditional Chinese medicine knowledge graph.Evidence-based complementary and alternative medicine,eCAM2022,8693937.DOI:10.1155/2022/8693937.

        [9]張丹丹.基于知識圖譜的作物性狀調控基因知識發(fā)現研究.北京: 中國農業(yè)科學院,2024.

        [10]張丹丹,趙瑞雪,鮮國建,等.融合跨物種科學數據的性狀調控基因 本體模型構建及應用.生物技術通報,2024,40(2):313-324.

        [11] ZHANGD,ZHAO R,XIAN G, et al.A new model construction based on the knowledge graph for mining elite polyphenotype genes in crops. Frontiers in Plant Science,2024,20(15):1361716.

        引用格式:張丹丹趙瑞遠濤鮮國建作物性狀調控基因知識圖譜數據集[J]農業(yè)大數據學報,225,7(2):20-226.DOI:0.1978/jisn.66369100051.

        CITATION:ZHANGDnDan,ZHAOuiXue,KOUYuaTao,XIAuoia.CopraitRegulating-genesKowledgeGraphDatasets[J]alf Agricultural BigData,2025,7(2):220-226.DOI:10.19788/j.issn.2096-6369.100051.

        Abstract:Asthecornerstoneofensuring national foodsecurityandtheefectivesuplyofimportantagriculturalproducts,thseed industryhasalwaysbeenthedirectionofbreders'efortstocultivatenewcropvareties withtheaggregationofavarietyof excelentraitshrefore,theexcavationofpleiotropicgenes thatregulatemutipleexcelnt ritssuchasdroughtesistaceand diseaseresistance willeetielyontrbutetotesientificsearhofopbeding.Atpresent,withteeleratedapationof informationtechnologyinthefieldofcropbreding,themuti-dimensionalscientificdatarelatedtocropbredinghasncreased exponentiallesesem-structurdandstructuredsietiicdataaedistributedinientificdatabassindierentfels,adere isalackofcrossspeciesandmulti-dimesionalsientificdatacorelationandfusiondatasets,ichndersthemigrationadrese ofexistingcropbreedingknowledgeand maximizesthevalueofcropbreedingscientificdatawhich bringschallenges tothe discoveryofcroptraitregulationgene knowledge.Basedonthereliability,practicability,andeaseofuseof thedata,PubMed literature database,Phytozome,Ensembl plants,UniProt,RGAP,STRING,Pfam,KEGGandGO wereselectedasthedata acquisitionsources,andtheentitiesandrelationshipsofscientificdataindierentdata formatswereextractedbymulti-path knowledge extractionItis mainlyorented tothemapping knowledge extractionofstructureddata;For XMLsemi-structureddata knowledge extraction basedonKetledataanalysisisadopted.ForFASTAsemi-structureddata,knowledge extractionbasedon BLASTmodelisopted.ForTextustructureddataowedge extractiobasedonlargeanguage modelsisdopted.Ontebasis of the aboveentityandrelationshipextraction,theassociationandintegrationofmult-sourecopbeding knowledgewerefurther realiedbasedontheentitymappingandspeciicatributeassciation.Finall,aknowledgegraphdatasetofcroptraitregulatory genes Wasformed,whichwasstoredasstructureddatain.csvfomat.Tedatasetconsistsof13entityatasetsand14santic relationshipdatasets.Inordertoverifythevalidityofthedataset,theNeo4jgraphdatabasewasusedfordatasetstorage.Finallya knowledge graphofroptraitregulatorygenescovering30onodesand550oosemanticelationshipswasformed,whchcould effectivelysupprt theassociationretrievalofcross-speciesgene knowledge.Theknowledgegraph datasetofcroptraitregulatory genes has providedakeysemantic modelandanimportantdatabasisforthediscoveryofcropbreeding knowledgesuchas excellnt pleiotropicgene discovery,crossspecies gene function predictionand pathwaygene network potential discovery.Based onthis dataset,relevant scientificresearchand production unitscanconstruct a knowledge baseofcroptrait regulatory genes,which provides a key knowledge resource base for the construction ofa crop breeding knowledge discovery service platform.

        Ceywords: crops; knowledge graph; crop breeding knowledge discovery; elite polyphenotype genes

        猜你喜歡
        學科知識實體性狀
        高校圖書館學科化知識服務模式研究
        參花(上)(2023年2期)2023-03-06 03:54:09
        品讀
        寶鐸草的性狀及顯微鑒定研究
        前海自貿區(qū):金融服務實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        學校德育要植根于學科知識的意蘊之中
        中國德育(2017年17期)2017-09-15 22:00:23
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        9種常用中藥材的性狀真?zhèn)舞b別
        兩會進行時:緊扣實體經濟“釘釘子”
        振興實體經濟地方如何“釘釘子”
        基于本體的學科知識門戶語義服務機制研究
        亚洲中国精品精华液| 久久无码高潮喷水抽搐| 色窝窝在线无码中文| 国产自精品在线| 国产亚洲综合另类色专区 | 国产精品多人p群无码| 国产第一页屁屁影院| 亚洲国产成人资源在线桃色| 国产一区二区三区护士| 午夜精品久久久久久久99老熟妇 | 国内自拍愉拍免费观看| 中文字幕丰满乱子无码视频| 欧美性福利| 日韩十八禁在线观看视频| 青青草 视频在线观看| 国产女人高潮视频在线观看| 欧美成人www免费全部网站| 骚货人妻视频中文字幕| 狠狠色噜噜狠狠狠狠97首创麻豆| 午夜成人无码福利免费视频| 亚洲国产成人精品激情资源9| 一区二区三区亚洲免费| 欧美性猛交xxxx免费看蜜桃 | 无码一区久久久久久久绯色AV| 人妻有码中文字幕在线| 国产成人综合精品一区二区| 国产熟女内射oooo| 成人三级在线| 日本成人在线不卡一区二区三区 | 国产不卡一区二区三区免费视| 亚洲视频一区二区久久久| 蜜桃一区二区三区视频网址| 日本人与黑人做爰视频网站| 大地资源网更新免费播放视频| 亚洲国产精品亚洲高清| 国产日本精品一二三四区| 97成人碰碰久久人人超级碰oo| 在线免费欧美| 国产女人精品一区二区三区| 97日日碰人人模人人澡| 欧美黑人性色黄在线视频|