亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        水利綜合知識圖譜構(gòu)建研究

        2021-09-09 02:39:06趙紅莉蔣云鐘毛文山
        水利學(xué)報(bào) 2021年8期
        關(guān)鍵詞:水網(wǎng)圖譜實(shí)體

        段 浩,韓 昆,趙紅莉,蔣云鐘,李 豪,毛文山

        (中國水利水電科學(xué)研究院,北京 100038)

        1 研究背景

        知識圖譜(Knowledge Graph)是一種通用語義知識形式化描述框架[1],Google 公司于2012年首次提出這一概念,用于提高信息資源的搜索能力。這項(xiàng)技術(shù)主要是利用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系,為人們提供了一種高效地組織、管理和分析海量數(shù)據(jù)的方法[2],從而更加便捷地獲取知識。

        隨著社會服務(wù)智能化需求的提升,知識圖譜技術(shù)正得到快速發(fā)展,按知識圖譜的構(gòu)建過程又可分為知識抽取、知識融合、知識應(yīng)用等內(nèi)容。知識抽取是從海量數(shù)據(jù)中獲取有效信息的過程,包括對實(shí)體、關(guān)系及屬性的抽取,其中實(shí)體抽取的方法主要包括基于規(guī)則[3]、機(jī)器學(xué)習(xí)和面向海量數(shù)據(jù)的抽?。魂P(guān)系的抽取包括基于模板、監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的抽取方法[4]等;知識融合主要是對從多源數(shù)據(jù)抽取的知識進(jìn)行處理,可包括實(shí)體的融合及跨域圖譜的融合[5-6]等。

        與此同時(shí),面向特定領(lǐng)域的知識圖譜應(yīng)用逐步發(fā)展,被用來組織、分析和挖掘領(lǐng)域內(nèi)的知識。起初,學(xué)者們多使用通用知識圖譜技術(shù)進(jìn)行專業(yè)文獻(xiàn)的計(jì)量學(xué)分析[7-9],以獲得相關(guān)專業(yè)知識結(jié)構(gòu)框架及研究脈絡(luò),分析研究熱點(diǎn)及未來發(fā)展方向。隨后多個(gè)專業(yè)領(lǐng)域開展了專業(yè)知識圖譜構(gòu)建技術(shù)與應(yīng)用的研究,如余建明等[10]、劉津等[11]和李智星等[12]運(yùn)用知識圖譜技術(shù)研究了電力領(lǐng)域?qū)I(yè)術(shù)語關(guān)系以及電網(wǎng)企業(yè)運(yùn)營指標(biāo)關(guān)系,提出了電力行業(yè)的面向智能調(diào)控領(lǐng)域知識圖譜構(gòu)建方法;吳雪峰等[13]構(gòu)建了煤礦巷道支護(hù)領(lǐng)域知識圖譜,為巷道的智能化管理提供支撐;車金立等[14]則將知識圖譜技術(shù)引入到軍事裝備領(lǐng)域,支撐實(shí)現(xiàn)該領(lǐng)域的知識問答;沈柳等[1]、奧德瑪?shù)龋?5]以及孫鄭煜等[16]在醫(yī)藥領(lǐng)域進(jìn)行了知識圖譜技術(shù)應(yīng)用的嘗試;昝紅英等[17]通過構(gòu)建中文醫(yī)學(xué)知識圖譜研究了機(jī)器標(biāo)注準(zhǔn)確率較低的問題。這些研究進(jìn)一步顯示出知識圖譜在支撐行業(yè)智能化管理方面的優(yōu)越性,推動了知識圖譜在各個(gè)行業(yè)的快速發(fā)展。

        水利知識涵蓋范圍廣,涉及河流、湖泊、水庫等多種管理對象,同時(shí)包括水旱災(zāi)害防御、水資源管理、水土保持等多種業(yè)務(wù),知識的來源既有結(jié)構(gòu)化數(shù)據(jù)如水利業(yè)務(wù)數(shù)據(jù),也有半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)如水利學(xué)科知識文本、互聯(lián)網(wǎng)數(shù)據(jù)等?;谶@些多源數(shù)據(jù),眾多學(xué)者[18-20]從不同專業(yè)角度開發(fā)了信息服務(wù)平臺,進(jìn)行水利數(shù)據(jù)的組織管理和信息服務(wù)。2019年12月水利部發(fā)布了最新版的全國水利一張圖[21],力圖實(shí)現(xiàn)水利信息資源的業(yè)內(nèi)整合共享、水利業(yè)務(wù)協(xié)同和智能應(yīng)用。學(xué)者們也對知識圖譜在水利領(lǐng)域的應(yīng)用進(jìn)行了探索,并將其引入專業(yè)文獻(xiàn)的計(jì)量學(xué)分析,如陳思源等[22]、金菊良等[23]研究了我國水資源專業(yè)知識的知識圖譜分析;毛文山等[7]分析了水生態(tài)水環(huán)境專業(yè)知識的圖譜構(gòu)建;李致慶等[9]則利用知識圖譜技術(shù)研究了我國節(jié)水灌溉技術(shù)的發(fā)展;劉曉君等[24]對再生水問題的發(fā)展態(tài)勢與研究熱點(diǎn)進(jìn)行了分析。同時(shí),學(xué)者們也在嘗試使用知識圖譜技術(shù)整合水利信息資源[2,25],以期實(shí)現(xiàn)智能數(shù)據(jù)檢索,構(gòu)建智能問答系統(tǒng);王新龍等[26]則通過研究知識圖譜的智能關(guān)聯(lián)技術(shù),準(zhǔn)確鎖定排污企業(yè),完成水污染的精確溯源。

        上述水利領(lǐng)域的知識應(yīng)用研究,針對部分?jǐn)?shù)據(jù)源、在部分領(lǐng)域已得到較好的應(yīng)用,但還難以實(shí)現(xiàn)對整個(gè)水利行業(yè)知識的有效組織。水利領(lǐng)域的知識既包括科學(xué)研究中形成的認(rèn)知類知識(如水循環(huán)理論、方法等),同時(shí)還包括行業(yè)建設(shè)管理中的事實(shí)類知識(如客觀存在的河流、湖泊、工程等),單純對認(rèn)知類知識進(jìn)行提煉和總結(jié),或僅對結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)進(jìn)行分析,難以形成對水利綜合知識的認(rèn)知。此外,多源異構(gòu)水利數(shù)據(jù)間的融合仍存在技術(shù)瓶頸,客觀上也制約著水利知識的整合。為實(shí)現(xiàn)水利知識的有效組織,提供全面、高效的水利知識服務(wù),本文在前人研究的基礎(chǔ)上,分析整合各類水利業(yè)務(wù)數(shù)據(jù)與學(xué)科知識數(shù)據(jù),通過多源異構(gòu)水利數(shù)據(jù)的融合,實(shí)現(xiàn)不同類型水利知識的關(guān)聯(lián),構(gòu)建面向水利綜合的知識圖譜,為支撐水資源智能化管理和提供水利知識服務(wù)奠定基礎(chǔ)。

        2 水利知識體系描述

        2.1 水利知識組成 知識是人類從各個(gè)途徑中獲得的經(jīng)過提升總結(jié)與凝練的對世界的系統(tǒng)認(rèn)識。世界經(jīng)合組織(OECD)在《以知識為基礎(chǔ)的經(jīng)濟(jì)》(1996)報(bào)告中將知識分為4 大類:(a)知道是什么(Know-what),主要是敘述事實(shí)方面的知識;(b)知道為什么(Know-why),主要是自然原理和規(guī)律方面的知識;(c)知道怎么做(Know- how),主要是指對某些事物的技能和能力;(d)知道是何人(Know-who),涉及誰知道和誰知道如何做某些事的知識。按照知識描述的內(nèi)容是否是客觀存在的實(shí)體對象,可以將知識歸為兩類:事實(shí)類知識和認(rèn)知類知識,事實(shí)類知識回答是什么、是誰,認(rèn)知類知識回答為什么、怎么做。

        水利綜合知識體系應(yīng)包括事實(shí)類知識和認(rèn)知類知識(表1)。水利事實(shí)類知識包括各類涉水對象及其屬性與關(guān)系,具有實(shí)體性、顯性和動態(tài)性等特征,其描述的對象可分為自然對象、工程對象和社會對象三類。其中,自然對象包括水利研究的河流、湖泊、流域等天然實(shí)體;工程對象包括人類建造的各類水利水電工程,如大壩、水庫、水電站等;社會對象包括水利管理機(jī)構(gòu)、研究機(jī)構(gòu)、取用排水的機(jī)構(gòu)及相關(guān)自然人等。水利認(rèn)知類知識包括水利領(lǐng)域的概念、原理、規(guī)律、方法等,也可稱之為水利學(xué)科知識,具有抽象性、普適性、被認(rèn)同等特征,通常以各類文獻(xiàn)為載體,用文字和符號來表達(dá)。認(rèn)知類知識主要以水利領(lǐng)域主題詞表及其不同分類領(lǐng)域?yàn)榛A(chǔ),通過水利各學(xué)科領(lǐng)域具有上下位關(guān)系的主題詞來形成對水利綜合知識的描述框架。

        表1 水利知識部分概念和屬性

        2.2 水利知識關(guān)系描述 基于上述水利知識分類,我們對不同水利對象進(jìn)行細(xì)化描述,定義水利知識關(guān)系的描述體系(見圖1),主要包括基于事實(shí)類知識構(gòu)建的水網(wǎng)圖譜和以水利學(xué)科知識為基礎(chǔ)的學(xué)科圖譜兩部分。在水網(wǎng)圖譜中,自然對象間的關(guān)系包括水系與流域的隸屬關(guān)系,不同級別水系的層級關(guān)系,湖泊與流域的隸屬關(guān)系等。工程對象與自然對象的關(guān)系包括水利工程與流域的隸屬關(guān)系、與河流的空間位置關(guān)系。社會對象之間的關(guān)系包括人與機(jī)構(gòu)的任職關(guān)系,機(jī)構(gòu)對區(qū)域的管轄關(guān)系等;在三類水網(wǎng)對象的關(guān)系方面,包含自然對象、工程對象與地區(qū)的位置關(guān)系,機(jī)構(gòu)與自然對象和工程對象間的管理關(guān)系;人與自然對象和工程對象間的研究關(guān)系等。

        圖1 水利綜合知識圖譜描述體系

        在水利學(xué)科圖譜中,包括概念詞條的上下位關(guān)系和以原理、規(guī)律、方法等表述的概念關(guān)聯(lián)關(guān)系。概念詞條關(guān)系是按照主題詞的上下位關(guān)系進(jìn)行組織建立的水利學(xué)科分類、細(xì)分研究領(lǐng)域、具體概念詞條的層級關(guān)系。如水利學(xué)科可分為水文學(xué)、水資源學(xué)、水力學(xué)、水工建筑物等不同研究方向;而水資源學(xué)按照具體的研究內(nèi)容又可分為水資源規(guī)劃、水資源配置、水資源調(diào)度等研究領(lǐng)域;對于各細(xì)分領(lǐng)域的具體詞條,再按照上下位關(guān)系進(jìn)行組織,如地表水資源作為上位詞,其下位詞包括河流水資源、湖泊水資源、融雪水資源等。各概念之間還可以通過水利學(xué)科的原理、規(guī)律和方法發(fā)生關(guān)聯(lián),如水量平衡原理包含對降水、入滲、產(chǎn)流、蒸發(fā)等多種水循環(huán)要素的分析,當(dāng)其中某一種要素?zé)o觀測數(shù)據(jù)時(shí),可根據(jù)該原理進(jìn)行推求;各要素間也可以通過規(guī)律、方法發(fā)生關(guān)聯(lián),如根據(jù)地區(qū)人口、產(chǎn)值與地區(qū)用水量相關(guān)的規(guī)律,可將人口、產(chǎn)值與用水量等概念聯(lián)系起來。

        在涉水對象與水利學(xué)科知識之間存在事實(shí)類和認(rèn)知類知識的關(guān)聯(lián)。基于學(xué)科知識的領(lǐng)域分類,可以建立涉水對象的所屬學(xué)科領(lǐng)域關(guān)系,如對于工程對象中大壩的實(shí)例(如“三峽大壩”),可以與水資源管理領(lǐng)域中的詞條“壩”建立關(guān)聯(lián),基于此方法可構(gòu)建涉水對象與學(xué)科知識間的對應(yīng)關(guān)系。同時(shí)為實(shí)現(xiàn)水利綜合知識的構(gòu)建,還需解決多源異構(gòu)水利數(shù)據(jù)間的融合問題,主要包括水利實(shí)體的融合、屬性的融合及重名實(shí)體的消歧等。如多種數(shù)據(jù)同時(shí)描述了某個(gè)流域的水資源量信息,需通過屬性融合來判斷各數(shù)據(jù)來源的可信度,得到該流域合理的、可信度最高的水資源量數(shù)據(jù)。通過對多源異構(gòu)水利數(shù)據(jù)的融合,使水網(wǎng)圖譜和學(xué)科圖譜有機(jī)融合,從而構(gòu)建出水利綜合知識圖譜。

        3 水利知識圖譜構(gòu)建

        3.1 水利綜合知識圖譜構(gòu)建框架 知識圖譜可分為面向全領(lǐng)域的通用圖譜(如WorldNet、FreeBase等)及面向各學(xué)科領(lǐng)域的垂直圖譜(或行業(yè)圖譜)兩類。面向水利學(xué)科領(lǐng)域的知識圖譜應(yīng)屬于垂直知識圖譜,具有較強(qiáng)的領(lǐng)域特色,在數(shù)據(jù)采集上同時(shí)融合結(jié)構(gòu)化的行業(yè)監(jiān)測數(shù)據(jù)和非結(jié)構(gòu)化、半結(jié)構(gòu)化的百科數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等。本文基于水利專業(yè)知識定義各類水利對象與學(xué)科知識間的關(guān)系體系(圖1),以結(jié)構(gòu)化的高質(zhì)量水利行業(yè)數(shù)據(jù)為基礎(chǔ)抽取水利實(shí)體對象,并在此基礎(chǔ)上從數(shù)據(jù)層、技術(shù)層和應(yīng)用層等角度提出水利綜合知識圖譜構(gòu)建方案(圖2),主要內(nèi)容包括:

        圖2 水利專業(yè)知識圖譜構(gòu)建方案

        (1)數(shù)據(jù)層:對源數(shù)據(jù)進(jìn)行采集和分類處理,包括結(jié)構(gòu)化的水利行業(yè)關(guān)系型數(shù)據(jù)庫導(dǎo)出數(shù)據(jù)、半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)、非結(jié)構(gòu)化的文本數(shù)據(jù)等,作為水利實(shí)體和關(guān)系抽取的數(shù)據(jù)基礎(chǔ)。

        (2)技術(shù)層:通過自然言語處理、機(jī)器學(xué)習(xí)等技術(shù)從文本數(shù)據(jù)或圖像數(shù)據(jù)中抽取相關(guān)實(shí)體,并將抽取的實(shí)體按照自然對象、工程對象和社會對象的維度進(jìn)行劃分,通過預(yù)定義的水網(wǎng)實(shí)體關(guān)系模型,抽取不同實(shí)體間的關(guān)系;基于水利學(xué)科分類及詞條概念間的關(guān)系進(jìn)行百科圖譜的構(gòu)建;在此基礎(chǔ)上進(jìn)行多源實(shí)體及跨域圖譜的融合,包括本體對齊、以多源實(shí)體為基礎(chǔ)的語義關(guān)聯(lián)及屬性合并、水利知識模型的綜合等內(nèi)容;最終將圖譜表示成結(jié)構(gòu)化形式并使用圖數(shù)據(jù)庫存儲,本研究采用圖數(shù)據(jù)庫中應(yīng)用較為普及的Neo4j數(shù)據(jù)庫[27],數(shù)據(jù)的存儲包含節(jié)點(diǎn)和關(guān)系兩種基本類型,節(jié)點(diǎn)通過定義的關(guān)系連接,形成關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)。

        (3)應(yīng)用層:基于構(gòu)建的知識圖譜首先可提供可視化展示與關(guān)聯(lián)查詢等應(yīng)用,考慮到在水利綜合知識圖譜展示中存在大量的知識維度,本研究依據(jù)力導(dǎo)向圖原理,基于圖數(shù)據(jù)庫和D3.js(Data-Driv?en Document)技術(shù)實(shí)現(xiàn)水利知識圖譜的可視化展示,提高圖譜的展示效率,同時(shí)也便于對不同水利對象進(jìn)行聚類;此外,隨著水利實(shí)體的擴(kuò)充和實(shí)體關(guān)系的豐富,還可提供基于圖譜的知識問答、水利事件的成因溯源等知識應(yīng)用。

        3.2 水利綜合知識圖譜關(guān)鍵技術(shù)

        (1)水利實(shí)體識別。在知識圖譜中,獨(dú)立存在的事物(對象或概念)被稱為實(shí)體,并由“實(shí)體-關(guān)系-實(shí)體”三元組的形式構(gòu)成知識圖譜的基本單元。對于結(jié)構(gòu)化的水利實(shí)體,可基于數(shù)據(jù)表將關(guān)系型數(shù)據(jù)直接轉(zhuǎn)換為三元組。在對非結(jié)構(gòu)化文本進(jìn)行水利實(shí)體識別時(shí),需要將實(shí)體識別轉(zhuǎn)化為序列標(biāo)注問題進(jìn)行研究。因此選擇雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Shot-Term Memory Neural Network,BiLSTM)與條件隨機(jī)場(Condi?tional Random Fields,CRF)相結(jié)合的方法來識別水利實(shí)體(圖3),并在分詞處理時(shí)選擇基于字詞向量相結(jié)合的方法。BiLSTM 模型具有強(qiáng)大的非線性擬合及序列建模能力,能夠捕捉較長的上下文信息。CRF 是常用于標(biāo)注問題的統(tǒng)計(jì)學(xué)習(xí)模型,尤其在數(shù)據(jù)規(guī)模較小時(shí)具備較好的識別效果。將BiLSTM與CRF結(jié)合用于命名實(shí)體識別,可充分綜合各自的優(yōu)點(diǎn),利用BiLSTM模型挖掘文本中的特征信息,再將結(jié)果輸入CRF模型進(jìn)行序列標(biāo)注。該方法由Lample等[28]提出,并在多種測試數(shù)據(jù)集上取得了比統(tǒng)計(jì)模型更優(yōu)的效果[29]。

        圖3 水利實(shí)體識別模型示意

        本研究中,水利實(shí)體的識別語料主要是非結(jié)構(gòu)化的水網(wǎng)對象描述信息。首先基于語料樣本制定了標(biāo)注集,對樣本序列中每個(gè)元素按照水利特征定義標(biāo)簽,并基于此對預(yù)處理后的非結(jié)構(gòu)化的水利文本進(jìn)行標(biāo)注,確定文本中詞的邊界,為實(shí)體識別確定分類特征。然后利用BiLSTM模型進(jìn)行訓(xùn)練,通過保存整句的前后文信息來提取句子特征,將文本中前后向的隱藏態(tài)結(jié)果進(jìn)行結(jié)合。最后將BiL?STM的模型輸出傳遞給CRF作為輸入,形成BiLSTM-CRF結(jié)構(gòu),利用上下文信息進(jìn)行序列標(biāo)注。在模型訓(xùn)練中使用了基于字詞向量結(jié)合的方法,使用自動獲取的詞典來匹配句子,對輸入字符序列和所有潛在詞匯進(jìn)行編碼。

        (2)水利實(shí)體關(guān)系抽取。關(guān)系抽取的目標(biāo)是從非結(jié)構(gòu)化的文本數(shù)據(jù)中,提取出實(shí)體之間的關(guān)系,本研究采用基于模式匹配和共現(xiàn)網(wǎng)絡(luò)分析相結(jié)合的方法對水利實(shí)體間的關(guān)系進(jìn)行抽取。

        模式匹配法是運(yùn)用語言學(xué)知識,根據(jù)水利實(shí)體特征構(gòu)建基于語詞、詞性或語義的實(shí)體關(guān)系模式,再將水利實(shí)體文本與模式進(jìn)行匹配的關(guān)系抽取方法。在抽取過程中,首先根據(jù)水利語料樣本構(gòu)建實(shí)體間關(guān)系的表達(dá)方式,如為了表達(dá)河流與地區(qū)間的“流經(jīng)”關(guān)系,可構(gòu)建出[河流名稱]流經(jīng)[地區(qū)名稱]的關(guān)系模式;在利用預(yù)處理后的其他文本進(jìn)行實(shí)體關(guān)系抽取時(shí),可基于該模式匹配“黃河流經(jīng)河南省”并從中抽取出自然對象“黃河”與社會對象“河南省”之間的流經(jīng)關(guān)系。水利實(shí)體間的關(guān)系模板示例如圖4所示。

        圖4 水利實(shí)體關(guān)系模板

        基于共現(xiàn)網(wǎng)絡(luò)分析的方法,是通過構(gòu)建共現(xiàn)矩陣來確定實(shí)體間的關(guān)系,其基本假定是關(guān)系緊密的實(shí)體會在文本的多個(gè)片段中同時(shí)出現(xiàn)。首先基于統(tǒng)計(jì)的方法抽取各水利實(shí)體在文本中出現(xiàn)的次數(shù),然后分析不同實(shí)體在文本中共現(xiàn)的比例,當(dāng)兩個(gè)實(shí)體共同出現(xiàn)的比例大于某個(gè)閾值時(shí),認(rèn)為這兩個(gè)實(shí)體間存在某種關(guān)系。實(shí)體間的關(guān)系可基于實(shí)體的類型進(jìn)行定義,如河流和地區(qū)之間是流經(jīng)的關(guān)系,機(jī)構(gòu)與河流之間的管轄的關(guān)系等(圖5)。

        圖5 水利實(shí)體的關(guān)系共現(xiàn)矩陣示意

        在本研究中,采用共現(xiàn)網(wǎng)絡(luò)分析方法與模式匹配方法聯(lián)合提取實(shí)體間的關(guān)系。首先基于共現(xiàn)網(wǎng)絡(luò)分析法統(tǒng)計(jì)水利文本中多個(gè)實(shí)體共現(xiàn)的頻率,并通過實(shí)驗(yàn)來給定頻率的閾值。然后采用模式匹配法,對共現(xiàn)網(wǎng)絡(luò)的分析結(jié)果添加關(guān)系,包括流經(jīng)地區(qū)、管理機(jī)構(gòu)、所在河流等。

        (3)多源水利知識融合。

        ①水利實(shí)體融合。水利知識的融合主要是將不同數(shù)據(jù)源對同一實(shí)體或概念的描述統(tǒng)一起來,使異構(gòu)的圖譜相互溝通[29],可分為實(shí)體的融合、數(shù)據(jù)屬性的融合、重名實(shí)體的消歧等多個(gè)層面。實(shí)體的融合,是針對不同數(shù)據(jù)源對同一實(shí)體缺乏統(tǒng)一標(biāo)識的問題,通過融合來構(gòu)建不同數(shù)據(jù)源中實(shí)體的語義關(guān)聯(lián)。屬性的融合是解決不同數(shù)據(jù)源中同一實(shí)體屬性的一致性問題。重名實(shí)體的消歧,是對水利對象中具有同名異意、異名同意、同名多源等特征的實(shí)體(如地名、水庫名等)的融合,主要基于實(shí)體結(jié)構(gòu)和實(shí)體的屬性特征進(jìn)行匹配。在處理水利實(shí)體的消歧時(shí),將所有數(shù)據(jù)節(jié)點(diǎn)投影到一個(gè)全局的統(tǒng)一表征空間,針對每個(gè)候選集合分別構(gòu)造一個(gè)局部表征函數(shù),以此來度量兩個(gè)實(shí)體節(jié)點(diǎn)之間的相似度。然后基于相似度對節(jié)點(diǎn)進(jìn)行聚類,并根據(jù)聚類結(jié)果對候選集合進(jìn)行拆分,從而得到最終的數(shù)據(jù)融合結(jié)果。

        以實(shí)體的融合為例,如從百科詞條中抽取到“水利部黃河水利委員會”實(shí)體,從行業(yè)數(shù)據(jù)庫導(dǎo)入的機(jī)構(gòu)數(shù)據(jù)含有“黃委會”實(shí)體,這兩個(gè)實(shí)體名稱是對同一實(shí)體的描述,但因數(shù)據(jù)來源不同,需要對二者進(jìn)行融合。首先通過編輯距離指標(biāo)來計(jì)算兩個(gè)字符串的相似度,然后根據(jù)兩個(gè)實(shí)體的屬性信息分析相關(guān)屬性的相似度,最后基于兩個(gè)實(shí)體的圖譜關(guān)系(如上下級機(jī)構(gòu)關(guān)系)計(jì)算圖譜結(jié)構(gòu)相似度。通過對上述三種相似度進(jìn)行綜合分析,若大于設(shè)定閾值,則將兩個(gè)實(shí)體進(jìn)行融合。

        ②圖譜跨域融合,即對水網(wǎng)圖譜與水利學(xué)科圖譜進(jìn)行融合,包括水利原理或規(guī)律與水網(wǎng)實(shí)體的融合、概念詞條與水網(wǎng)實(shí)體之間的知識融合等。技術(shù)上先采用實(shí)體對齊技術(shù)匹配實(shí)體字符的局部特征,然后再使用全局特征匹配兩個(gè)圖譜中的相關(guān)實(shí)體。在學(xué)者融合方面主要是對新增學(xué)者與庫中已有專家的匹配與更新,通過學(xué)者的屬性信息判斷是否與庫中專家重復(fù),對重復(fù)學(xué)者解決屬性的一致性問題。在主題詞與水網(wǎng)實(shí)體的融合方面,通過建立主題詞與水網(wǎng)實(shí)體的聯(lián)系來實(shí)現(xiàn),如構(gòu)建“學(xué)科領(lǐng)域—研究人員—任職機(jī)構(gòu)—研究對象”等關(guān)系,實(shí)現(xiàn)學(xué)科主題詞與水網(wǎng)對象中具體的人、機(jī)構(gòu)、河流等對象的關(guān)聯(lián)。

        以水網(wǎng)對象“黃河”與百科詞條“水土保持”的跨域融合為例進(jìn)行說明。在進(jìn)行跨域融合時(shí),首先基于平臺收錄的數(shù)據(jù)查找二者的共現(xiàn)關(guān)系,包括在論文、專家研究領(lǐng)域的描述等文本中的共現(xiàn);然后根據(jù)二者的共現(xiàn)情況進(jìn)行融合,若存在共現(xiàn)關(guān)系,且共現(xiàn)的載體(如論文)是已建圖譜中的實(shí)體,則將二者通過共現(xiàn)的中間實(shí)體建立關(guān)聯(lián);若共現(xiàn)的載體不在已有的圖譜中,則根據(jù)共現(xiàn)網(wǎng)絡(luò)分析的方法來確定是否建立二者的關(guān)系。

        以上基于多源數(shù)據(jù)進(jìn)行的水利知識融合,需對從異構(gòu)數(shù)據(jù)中抽取的知識圖譜元數(shù)據(jù)進(jìn)行語義集成。在本研究中,語義集成采用了基于貝葉斯決策理論提出的最小風(fēng)險(xiǎn)映射模型(Risk Minimization based Ontology Mapping,RiMOM)[30],將決策行為定義為兩類本體(包括概念、關(guān)系、實(shí)例等)中不同元素的所有可能映射,分析水利本體間映射的風(fēng)險(xiǎn)最小決策行為,其主要流程包括候選映射選擇、多策略的映射發(fā)現(xiàn)、多策略合并以及映射發(fā)現(xiàn)機(jī)制,映射發(fā)現(xiàn)過程迭代運(yùn)行直到不能再發(fā)現(xiàn)新的映射為止,最終得到兩類本體中元素間的映射關(guān)系。

        4 圖譜構(gòu)建實(shí)例及應(yīng)用

        4.1 圖譜抽取成果 以全國河流水系編碼數(shù)據(jù)、行政區(qū)劃數(shù)據(jù)、重要水利工程管理數(shù)據(jù)等關(guān)系型數(shù)據(jù)庫為基礎(chǔ),基于本文方案構(gòu)建水利綜合知識圖譜。并基于水利百科、論文及新聞數(shù)據(jù)對圖譜的實(shí)體及關(guān)系數(shù)據(jù)進(jìn)行補(bǔ)充。抽取的實(shí)體類型包括流域、水系、河流、湖泊、水電站、水庫、大壩、機(jī)構(gòu)、人員、文獻(xiàn)、水利術(shù)語等,構(gòu)建的實(shí)體關(guān)系包括水系-河流(所在水系)、河流-行政區(qū)域(所在地區(qū))、文獻(xiàn)-水利術(shù)語(研究領(lǐng)域)等,累計(jì)抽取水利實(shí)體超過136萬個(gè)(表2),構(gòu)建實(shí)體關(guān)系超過300萬條(表3)。因不同實(shí)體對象的粒度不同,基于實(shí)體抽取的關(guān)系與實(shí)體的數(shù)量上存在一定差異。

        表2 水利專業(yè)知識圖譜實(shí)體統(tǒng)計(jì)

        表3 水利專業(yè)知識圖譜關(guān)系統(tǒng)計(jì)

        關(guān)于實(shí)體識別準(zhǔn)確性的評價(jià),采用F值來評估圖譜構(gòu)建中對實(shí)體標(biāo)注成果的一致性[31],其計(jì)算表達(dá)式為:

        式中:P為準(zhǔn)確率,是識別正確實(shí)體數(shù)與識別實(shí)體數(shù)之比;R為召回率,定義為識別正確實(shí)體數(shù)與總實(shí)體數(shù)之比。F值越大,表明標(biāo)注的一致性越好。

        按照知識圖譜構(gòu)建中語料分割的常用方法[32],將實(shí)體識別語料按8∶1∶1的比例生成訓(xùn)練集、驗(yàn)證集和測試集,對9類實(shí)體數(shù)據(jù)進(jìn)行了標(biāo)注測試,各類實(shí)體F值的統(tǒng)計(jì)結(jié)果如表4所示。測試結(jié)果表明,抽取的水利實(shí)體對象的標(biāo)注準(zhǔn)確率均在80%以上,可以認(rèn)為語料的一致性是可信賴的[33],實(shí)體識別的結(jié)果具有較高準(zhǔn)確性。

        表4 各類實(shí)體類型標(biāo)注準(zhǔn)確率

        4.2 水網(wǎng)圖譜結(jié)果展示 由于水網(wǎng)對象數(shù)量較多,本文以北京地區(qū)的各類水利水網(wǎng)對象進(jìn)行圖譜的展示(圖6)。北京市地處海河流域,海河流域同時(shí)又流經(jīng)天津、河北等省市,由此關(guān)聯(lián)了流域與行政區(qū)兩類實(shí)體;北京地區(qū)有北海、團(tuán)城湖等湖泊類對象,還有潮白河、懷河等河流對象,由此將行政區(qū)與湖泊、河流對象相關(guān)聯(lián);這些河流和湖泊,在海河流域中又分屬于不同的水系,如北海屬于海河流域的北三河水系,這樣就構(gòu)建了水利自然對象間不同層級的相關(guān)關(guān)系;其他數(shù)據(jù)同理。通過圖譜形式的檢索和查詢,可實(shí)現(xiàn)基于對象關(guān)聯(lián)關(guān)系的信息檢索和推薦[2]。與常見的區(qū)域水系圖相比,圖譜的表現(xiàn)形式能更簡潔地展現(xiàn)水網(wǎng)對象間的關(guān)聯(lián),便于從宏觀層面把握水利對象的總體特征,同時(shí)能支持特定對象間關(guān)系的快速檢索和查詢。

        圖6 北京地區(qū)水網(wǎng)關(guān)系圖譜示例

        4.3 水利專業(yè)知識圖譜應(yīng)用

        4.3.1 不同水利實(shí)體間關(guān)系查詢 查詢兩個(gè)實(shí)體之間的關(guān)系時(shí),系統(tǒng)會自動在知識圖譜中查找實(shí)體關(guān)聯(lián)路徑,并將路徑中相關(guān)的實(shí)體及關(guān)系信息進(jìn)行可視化展示。如本例查詢葛洲壩水庫與長江的關(guān)系,查詢結(jié)果顯示可通過建立“葛洲壩水庫(工程對象)—長江干流水系—水利部長江流域委員會(社會對象)—長江(自然對象)”的關(guān)系脈絡(luò),實(shí)現(xiàn)不同水利對象間的數(shù)據(jù)關(guān)聯(lián)。其中既包括了葛洲壩水庫與長江的關(guān)系,還同步展示了該水庫所屬水系包括的其他下級支流以及相關(guān)的管理機(jī)構(gòu)。

        圖7 查詢水網(wǎng)實(shí)體間相關(guān)關(guān)系

        4.3.2 水網(wǎng)對象與學(xué)科知識間關(guān)系查詢 水利學(xué)科圖譜與水網(wǎng)圖譜間的關(guān)系查詢,可以水利文獻(xiàn)為媒介建立關(guān)系。如水資源專業(yè)可分為水資源調(diào)度、水資源配置等若干個(gè)研究方向,每個(gè)研究方向有相應(yīng)的水利核心主題詞。本研究建設(shè)了涵蓋水利主要研究領(lǐng)域的行業(yè)主題詞表,在對某個(gè)主題詞進(jìn)行檢索后,可以同步查詢與該詞條相關(guān)的其他詞條間的層級關(guān)系,形成對該領(lǐng)域知識體系的有效組織。基于主題詞搜索相關(guān)的水利文獻(xiàn),可以構(gòu)建“水利主題詞(學(xué)科知識)—文獻(xiàn)—作者(水利研究人員)—機(jī)構(gòu)(水利管理/科研機(jī)構(gòu))”的關(guān)系。圖8展示了在學(xué)科圖譜中查找關(guān)鍵詞“水資源”,關(guān)聯(lián)出“地下水資源”這一細(xì)分領(lǐng)域,該領(lǐng)域中發(fā)表的論文包括“《商丘市地下水資源現(xiàn)狀與對策》”,由該論文又關(guān)聯(lián)出作者是“倪昆”,該作者任職于“河南省國土資源科學(xué)研究院”,由此實(shí)現(xiàn)了水網(wǎng)圖譜與學(xué)科圖譜間的關(guān)聯(lián)。

        圖8 查詢水網(wǎng)對象與學(xué)科知識對象間的關(guān)系

        在水利學(xué)科的原理、規(guī)律和方法與水網(wǎng)對象的關(guān)聯(lián)上,基于對水利實(shí)體及屬性數(shù)據(jù)的采集和分析,后續(xù)可實(shí)現(xiàn)基于水利學(xué)科原理的知識推理。例如在系統(tǒng)收錄了“海河流域”這一天然對象并賦以了“多年平均降水量”和“多年平均徑流量”屬性后,當(dāng)用戶檢索“海河流域多年平均蒸發(fā)量是多少”時(shí),可以基于水文學(xué)的水量平衡原理定義流域多年蒸發(fā)量的獲取規(guī)則,利用降水量減去徑流量,即可得到流域多年的平均蒸發(fā)量,并將結(jié)果反饋給用戶,由此實(shí)現(xiàn)基于水量平衡原理與水網(wǎng)對象的關(guān)聯(lián)。

        5 結(jié)論與展望

        知識圖譜作為人工智能與計(jì)算機(jī)發(fā)展的產(chǎn)物,是知識可視化和知識挖掘與發(fā)現(xiàn)的重要手段。在水利管理中,隨著信息化水平的不斷提高,將多源異構(gòu)數(shù)據(jù)進(jìn)行融合與關(guān)聯(lián),形成知識挖掘與發(fā)現(xiàn)的能力,對實(shí)現(xiàn)水利行業(yè)的智能化管理有著重要意義。本文基于對水利知識組成及關(guān)系的梳理與分析,提出了水利綜合知識體系的描述方法;設(shè)計(jì)了水利綜合知識圖譜構(gòu)建的概念框架;以水利行業(yè)關(guān)系型數(shù)據(jù)庫、互聯(lián)網(wǎng)數(shù)據(jù)與百科知識等為數(shù)據(jù)源,提出了水利綜合知識圖譜構(gòu)建的關(guān)鍵技術(shù)體系;研發(fā)了針對非結(jié)構(gòu)化文本的水利實(shí)體識別和關(guān)系抽取、多源水利實(shí)體的融合等關(guān)鍵技術(shù),基于本文提出的框架和技術(shù)進(jìn)行了水利綜合知識圖譜建設(shè)實(shí)踐,形成了具有一定數(shù)據(jù)規(guī)模的知識圖譜,可提供水利知識的跨域查詢與檢索服務(wù)。

        本文以建立水利物理世界中的事實(shí)類知識與認(rèn)知類的水利學(xué)科知識統(tǒng)一的綜合性關(guān)聯(lián)知識圖譜為整體思路,重點(diǎn)實(shí)現(xiàn)了水利綜合知識圖譜實(shí)體屬性和關(guān)系的建模、抽取,實(shí)現(xiàn)了部分知識的融合。但在知識融合、挖掘與衍生上,還有很多值得探索的問題。在未來工作中,還需要進(jìn)一步完善知識抽取的算法,擴(kuò)大知識圖譜的覆蓋范圍;研發(fā)知識融合、知識發(fā)現(xiàn)的新技術(shù),融合水利相關(guān)的專業(yè)模型等,打造以知識圖譜為核心的水利行業(yè)知識引擎;在此基礎(chǔ)上進(jìn)一步將知識圖譜與水利行業(yè)的數(shù)據(jù)治理相融合,開展面向圖像、視頻、傳感器等智能終端的知識工程探索,擴(kuò)展多模態(tài)的知識圖譜表示,基于事實(shí)類與認(rèn)知類知識與水利大數(shù)據(jù)的融合開展水資源智能化監(jiān)測、分析、預(yù)警和調(diào)控等具體的應(yīng)用產(chǎn)品建設(shè),提高水利智能化管理水平。

        猜你喜歡
        水網(wǎng)圖譜實(shí)體
        水利部:到2035 年基本形成國家水網(wǎng)總體格局
        水網(wǎng)藻生長及鈾對其生長影響的模型構(gòu)建
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        ●山西加快推進(jìn)縣域小水網(wǎng)配套建設(shè)
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        山西省大水網(wǎng)工程建設(shè)如火如荼
        山西水利(2017年1期)2017-03-07 08:50:31
        极品美女高潮喷白浆视频| 免费a级毛片高清在钱| 国产成人无码18禁午夜福利p| 精品国产乱码久久久软件下载| 色噜噜狠狠色综合中文字幕| 91九色精品日韩内射无| 不卡日韩av在线播放| 疯狂撞击丝袜人妻| 亚洲国产美女在线观看| 中文字幕被公侵犯的丰满人妻| 国产剧情一区二区三区在线| 人人爽久久涩噜噜噜丁香| 五月天综合网站| 国产成人高清精品亚洲一区| 极品尤物人妻堕落沉沦| 日本道精品一区二区三区| 亚洲电影中文字幕| 中文字幕文字幕一区二区 | 亚洲国产不卡av一区二区三区| 久久精品亚洲精品国产区| 国产无夜激无码av毛片| 99久久精品国产一区二区蜜芽| 久久精品女人天堂AV一个| 一区二区三区在线视频观看| 国产精品久久久久久久妇| 婷婷九月丁香| 日韩精品免费观看在线| 人妻体内射精一区二区三区| 97久久精品人人做人人爽| 亚洲欧洲日产国码无码av野外| 日本一二三四区在线观看| 亚洲中文字幕久久无码精品| 国产精品一区二区在线观看完整版 | 亚洲国产一区二区三区亚瑟| 扒开双腿操女人逼的免费视频| 日韩一区在线精品视频| 国产黄在线观看免费观看不卡| 日韩精品一区二区三区四区| 亚洲中文字幕乱码一二三| 女人被弄到高潮的免费视频| 婷婷亚洲国产成人精品性色|