覃煬揚,郭 俊,劉 懿,舒海潤
(華中科技大學 土木與水利工程學院,湖北 武漢430074)
隨著社會經(jīng)濟的發(fā)展,水資源、水環(huán)境、水生態(tài)等問題日益突出。國家“十四五”規(guī)劃中,明確提出要推進智慧水利體系構(gòu)建[1],加強水資源保護與利用,加大水污染防治力度,推進流域綜合治理,提高防洪排澇能力,保障水安全。為實現(xiàn)這一目標,數(shù)字孿生流域作為一種新型的基礎(chǔ)設(shè)施和流域管理方式應(yīng)運而生。數(shù)字孿生流域是以物理流域為單元、時空數(shù)據(jù)為底座、數(shù)學模型為核心、水利知識為驅(qū)動,對物理流域全要素和水利治理管理活動全過程的數(shù)字化映射與智能化模擬,可實現(xiàn)與物理流域同步仿真運行、虛實交互與迭代優(yōu)化[2]。數(shù)字孿生流域通過構(gòu)建物理流域與數(shù)字流域的關(guān)聯(lián),實現(xiàn)對流域資源、環(huán)境、生態(tài)等方面的監(jiān)測、分析與優(yōu)化配置。
數(shù)字孿生流域建設(shè)技術(shù)大綱中,包含了數(shù)字孿生平臺與信息化基礎(chǔ)設(shè)施。數(shù)字孿生平臺中,知識平臺集成信息來自數(shù)據(jù)底板的相關(guān)數(shù)據(jù)和模型平臺的計算分析結(jié)果,這些信息經(jīng)過水利知識引擎的處理后,形成知識圖譜(Knowledge Graph,KG),用來支撐水利業(yè)務(wù)的應(yīng)用[3]。知識圖譜作為一種新興的知識表示和管理技術(shù),能夠有效地組織、整合和挖掘領(lǐng)域知識,支持構(gòu)建數(shù)字孿生流域的知識平臺,為數(shù)字孿生流域提供決策支持。
以圖譜形式呈現(xiàn)的可用知識庫內(nèi)容即為知識圖譜,知識圖譜近年來備受關(guān)注,并產(chǎn)生了大量的研究,大多數(shù)研究都集中在知識圖譜的生成及其內(nèi)部信息的消費[4-6]。知識圖譜的發(fā)展經(jīng)歷了3個階段:在第一階段,知識表征被提升到Web標準的水平。在第二階段核心關(guān)注點轉(zhuǎn)向數(shù)據(jù)管理、鏈接數(shù)據(jù)及其應(yīng)用。在第三階段,焦點轉(zhuǎn)向?qū)嶋H應(yīng)用(包括語義解析[7-8]、信息抽取[9]、推薦系統(tǒng)[10]、問答系統(tǒng)[11-12]等)。馮鈞等[12]總結(jié)了領(lǐng)域知識圖譜的研究現(xiàn)狀,并指出了水利領(lǐng)域知識圖譜的研究方向。知識圖譜的研究總結(jié)工作基本涉及知識抽取、知識存儲、知識融合、知識推理、知識表示,水利領(lǐng)域也是在此基礎(chǔ)上進行細化研究與應(yīng)用展示。本文在現(xiàn)有體系基礎(chǔ)上,探索性提出一種以流域拓撲圖的形式構(gòu)建與應(yīng)用的知識圖譜,以更好地梳理流域相關(guān)的知識脈絡(luò),為相關(guān)防洪等工作提供更好的支撐。
知識圖譜大體上分為自頂向下和自底向上兩種構(gòu)建方式,圖1為自底向上的技術(shù)路線圖,揭示了一個迭代更新的知識圖譜構(gòu)建過程。一輪迭代主要分為知識抽取、知識融合和知識加工3個階段。知識抽取也是信息抽取,首先對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進行抽取,然后從各數(shù)據(jù)源中進行實體、屬性和關(guān)系的抽取,形成本體化的知識表達。從知識抽取、數(shù)據(jù)庫、知識庫獲取新知識后,需要對知識進行整合,比如同一個實體在多條知識中有不同表示、同一個稱謂關(guān)聯(lián)著多個實體等,因此需要進行知識融合,消除歧義與矛盾。融合過的知識,經(jīng)過本體抽取、質(zhì)量復(fù)核(需要人工參與評估、甄選)后,可用的部分被補充到知識庫中,保證知識庫的質(zhì)量維護和更新,知識庫中的內(nèi)容也需定期檢查、推理并重新評估。
圖1 知識圖譜構(gòu)建路線Fig.1 Knowledge graph construction route
為實現(xiàn)數(shù)字孿生流域的智能管理,需要構(gòu)建一套知識圖譜體系架構(gòu),涵蓋知識表示、知識抽取、知識融合和知識推理等關(guān)鍵技術(shù)環(huán)節(jié)。
知識表示是知識圖譜的基礎(chǔ),需要構(gòu)建一套適用于水利領(lǐng)域的實體、屬性和關(guān)系表示方法。首先,通過咨詢領(lǐng)域?qū)<液筒樵兾墨I資料,梳理水利領(lǐng)域的基礎(chǔ)本體和業(yè)務(wù)本體,包括江河湖泊、水利工程、水資源管理等實體以及它們之間的關(guān)系。其次,采用資源描述框架(Resource Description Framework,RDF)和網(wǎng)絡(luò)本體語言(Web Ontology Language,OWL),對實體、屬性和關(guān)系進行結(jié)構(gòu)化的描述,構(gòu)建水利領(lǐng)域的知識表示體系。將知識圖譜看成是由互相連接的實體和屬性構(gòu)成的網(wǎng)絡(luò),則每一條知識表示為一個三元組,即由主體(Subject)、謂語(Predicate)及賓語(Object)三部分構(gòu)成。圖2是RDF三元組以RDF/XML文檔形式進行存儲的數(shù)據(jù)格式。
圖2 RDF三元組格式Fig.2 RDF triple format
知識抽取是從原始的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化知識的過程,涵蓋了自然語言處理、機器學習等技術(shù)在其中的應(yīng)用,圖3展示了各種原始數(shù)據(jù)的一般分類。在數(shù)字孿生流域建設(shè)中,數(shù)據(jù)來源主要包括文本、圖像、視頻等多模態(tài)數(shù)據(jù),利用自然語言處理、機器學習和深度學習等技術(shù),對文本、表格和圖像等多源異構(gòu)數(shù)據(jù)進行有效提取與處理。例如,可以通過命名實體識別、關(guān)系抽取等技術(shù),從文本中提取水資源、水環(huán)境等相關(guān)實體及其屬性和關(guān)系;通過圖像識別和分割技術(shù),從遙感影像中提取水體、地表覆蓋等空間信息。通過實體識別、關(guān)系抽取和屬性抽取等技術(shù),從數(shù)據(jù)中構(gòu)建實體-關(guān)系三元組,形成水利領(lǐng)域知識圖譜的信息基礎(chǔ)。
圖3 原始數(shù)據(jù)類型Fig.3 Original data type
知識融合包含實體對齊、關(guān)系對齊與知識補全方法。由于多源數(shù)據(jù)的異構(gòu)性和不一致性,需要采用知識融合技術(shù)對知識進行整合。實體對齊是將描述同一現(xiàn)實世界對象的不同實體進行關(guān)聯(lián)的過程,可以通過基于特征的相似度計算和基于規(guī)則的方法進行實現(xiàn);關(guān)系對齊是指將不同來源的相同關(guān)系進行關(guān)聯(lián),可以通過關(guān)系匹配和鏈接技術(shù)實現(xiàn);知識補全是指通過挖掘已有知識圖譜中的潛在規(guī)律,補全缺失的實體屬性或關(guān)系,可以通過基于規(guī)則推理、矩陣分解、表示學習、遷移學習和協(xié)同過濾等方法進行。知識融合的過程需要充分考慮不同數(shù)據(jù)源的可信度、時效性和一致性等問題,以保證融合后知識的質(zhì)量。
知識推理是一種通過已有知識推導出新的知識或尚未標注收錄知識的過程,可以幫助挖掘?qū)嶓w之間的潛在關(guān)系,化簡解決復(fù)雜問題。知識推理主要有基于描述邏輯的推理引擎和基于規(guī)則的推理方法?;诿枋鲞壿嫷耐评硪嬷饕帽倔w語言中的概念、屬性和關(guān)系等描述邏輯元素,實現(xiàn)對知識圖譜的推理和驗證;基于規(guī)則的推理方法則通過編寫領(lǐng)域?qū)<业慕?jīng)驗規(guī)則,利用事實和規(guī)則進行推理,得出結(jié)論。通過知識推理,可以發(fā)現(xiàn)隱含的知識,輔助決策者更好地理解流域管理問題,提高決策效率。
需求分析是了解和挖掘流域管理問題的核心目標和關(guān)鍵舉措,為知識圖譜的應(yīng)用提供指導。通過與領(lǐng)域?qū)<覝贤ā⒖嘉墨I資料分析和政策法規(guī)查詢,充分考慮流域管理的多目標性、多尺度性和多時空性等特點,確保知識圖譜的實用性和針對性,明確數(shù)字孿生流域管理的需求,如水資源優(yōu)化配置、水環(huán)境監(jiān)測與保護、防洪排澇與災(zāi)害防治等。
知識圖譜可以幫助用戶快速準確地查找到所需信息?;谡Z義的檢索方法可以實現(xiàn)對實體、屬性和關(guān)系等知識元素的精確查找,支持復(fù)雜查詢條件的組合。通過構(gòu)建水利領(lǐng)域的本體模型,將關(guān)鍵詞映射到知識圖譜中的實體和關(guān)系,以實現(xiàn)基于語義的檢索。同時,引入自然語言處理等技術(shù),進一步提高檢索的易用性;引入應(yīng)用推薦系統(tǒng),為用戶提供個性化推薦,提高檢索效率。
知識分析是對知識圖譜中的數(shù)據(jù)進行挖掘和分析的過程,以發(fā)現(xiàn)潛在的規(guī)律和關(guān)系?;谥R圖譜的數(shù)據(jù)挖掘方法包括關(guān)聯(lián)規(guī)則挖掘、聚類分析、分類預(yù)測等。例如,通過關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)水資源與水環(huán)境、水利工程之間的關(guān)聯(lián)關(guān)系;通過聚類分析可以對流域內(nèi)的水資源、水環(huán)境等相關(guān)要素指標進行分區(qū)劃分;通過分類預(yù)測可以預(yù)測水資源、水環(huán)境相關(guān)要素指標的未來變化趨勢。這些分析方法可以為流域管理決策提供數(shù)據(jù)支持。
基于知識圖譜的決策支持系統(tǒng)可以為流域管理決策者提供有針對性的建議。通過知識推理和知識分析的結(jié)果,為決策者提供清晰的信息脈絡(luò)和可視化展示,幫助他們更好地理解問題,專注于制定合適的決策。同時,可以結(jié)合專家經(jīng)驗和歷史案例,為決策者提供更具參考價值的建議。
知識圖譜的存儲需要解決大規(guī)模、高并發(fā)、多模態(tài)數(shù)據(jù)的存儲問題。圖數(shù)據(jù)庫作為一種專門用于存儲圖結(jié)構(gòu)數(shù)據(jù)的數(shù)據(jù)庫,具有良好的擴展性、高效性和易用性等特點,適合作為知識圖譜的存儲方式。在數(shù)字孿生流域建設(shè)過程中使用知識圖譜存儲,可以選擇Neo4j,JanusGraph的圖數(shù)據(jù)庫作為存儲系統(tǒng)。圖4是結(jié)合Neo4j的圖數(shù)據(jù)庫構(gòu)建示例。
圖4 結(jié)合Neo4j的圖數(shù)據(jù)庫應(yīng)用示例Fig.4 Graph database application example with Neo4j integration
知識圖譜的管理需要解決數(shù)據(jù)的處理、計算和分析等問題?;诜植际接嬎愕闹R圖譜管理方法可以充分利用計算資源,實現(xiàn)大規(guī)模知識圖譜的高效處理,如Hadoop,Spark,Flink等分布式計算框架進行計算管理。
知識圖譜的訪問需要提供統(tǒng)一的接口,以方便外部應(yīng)用的調(diào)用?;赪eb服務(wù)的知識圖譜訪問方法可以實現(xiàn)跨平臺、跨語言的數(shù)據(jù)訪問,提高知識圖譜的互操作性。在數(shù)字孿生流域領(lǐng)域,可以構(gòu)建如RESTful API的知識圖譜訪問服務(wù),實現(xiàn)對知識圖譜的查詢、修改和刪除等操作。
知識圖譜的維護需要解決數(shù)據(jù)的更新、修訂和版本管理等問題。基于版本控制的知識圖譜維護方法可以追蹤知識圖譜的修改歷史,保證數(shù)據(jù)的一致性和完整性。在數(shù)字孿生流域建設(shè)過程中,可以借鑒Git版本控制系統(tǒng)的思想,實現(xiàn)對知識圖譜的版本管理。
平臺硬件結(jié)構(gòu)方面,采用B/S架構(gòu),服務(wù)和數(shù)據(jù)庫部署在遠端服務(wù)器,通過Web前端頁面進行UI訪問或通過API進行服務(wù)調(diào)用[13]。平臺軟件設(shè)計方面,分為以下3層:① 表示層?;赪eb前端GoJS(JavaScript和TypeScript庫)進行設(shè)計,旨在構(gòu)建交互式圖形界面,提升用戶平臺操作體驗,直觀形象展現(xiàn)內(nèi)容。② 業(yè)務(wù)層。包括讀取水利對象信息并進行拓撲圖的繪制、查詢對象屬性和關(guān)聯(lián)信息、修改編輯等功能和提供拓展的應(yīng)用接口等。③ 數(shù)據(jù)層。存儲水利對象的屬性數(shù)據(jù)和關(guān)系結(jié)構(gòu)數(shù)據(jù),并保證數(shù)據(jù)質(zhì)量、查詢效率以及拓展性能。
白龍江位于甘肅省舟曲縣的西北部尕瓦山處流入舟曲縣境,徑流先往南方向,而后流經(jīng)曲瓦鎮(zhèn),之后轉(zhuǎn)向東南,經(jīng)巴藏鎮(zhèn)、立節(jié)鎮(zhèn)、憨班鎮(zhèn)、峰迭鎮(zhèn)、江盤鎮(zhèn)和舟曲縣城關(guān)鎮(zhèn)后,經(jīng)南峪鎮(zhèn)、大川鄉(xiāng)流入宕昌縣。圖5為平臺應(yīng)用中的流域拓撲圖模塊,以拓撲圖的形式對白龍江干流舟曲縣河段進行了知識脈絡(luò)展示。拓撲圖分為節(jié)點和鏈接,分別代表著流域中水利對象和相關(guān)關(guān)系的映射,從白龍江上游流域為一個節(jié)點起,以水流上下游關(guān)系和匯流關(guān)系作為鏈接線,連接起代古寺水電站到石門坪水電站之間的所有水利對象(各水電站)、防洪保護對象(各村莊城鎮(zhèn))、各小支流流域和相關(guān)河道關(guān)鍵斷面等,其中的每一個節(jié)點與每一條鏈接都存儲相關(guān)的索引,與數(shù)據(jù)層的對應(yīng)數(shù)據(jù)進行綁定(比如地理位置,行政區(qū)劃,對象屬性等),可以通過點擊進行數(shù)據(jù)查詢、切換顯示內(nèi)容、信息編輯等操作。該拓撲圖的可拓展性強,能與知識圖譜動態(tài)對應(yīng),也能對節(jié)點、連線及其屬性進行自定義。
通過知識拓撲圖,能快速掌握白龍江干流舟曲縣河段流域內(nèi)的空間聯(lián)系和水力水文聯(lián)系,更好地實行防洪措施、水資源調(diào)配和水利工程調(diào)度。
本文介紹了數(shù)字孿生流域的概念和知識圖譜的相關(guān)研究與構(gòu)建方法,以甘肅省白龍江干流舟曲縣河段流域為例,在上游代古寺水電站到下游石門坪水電站的78 km沿河區(qū)間內(nèi),對其中的多個水電站、河道關(guān)鍵斷面、劃分子流域、防洪保護對象(城集鎮(zhèn))等進行抽象概化。以拓撲圖中節(jié)點和鏈接分別代表對象(主、賓)和關(guān)系(謂)的形式,對這些水利對象及其之間的關(guān)聯(lián)關(guān)系(如上下游關(guān)系、匯流關(guān)系、所屬關(guān)系等)進行了知識提取和梳理,映射成可視化、交互式的流域知識拓撲圖。
流域知識拓撲圖探索了知識圖譜在數(shù)字孿生流域的應(yīng)用新形式,其以河流為脈絡(luò),將物理流域概化映射到數(shù)字平臺上,直觀地展示流域內(nèi)的各類水利對象和相關(guān)的空間、水力、管理、行政等聯(lián)系,并且能對綁定的屬性等數(shù)據(jù)進行查詢、修改,具有部署靈活、方便用戶訪問等優(yōu)勢,可在水資源管理、防洪、數(shù)字沙盤等方面提供支持。
數(shù)字孿生流域建設(shè)的新興性,以及它在結(jié)合知識圖譜應(yīng)用方面所展現(xiàn)出的創(chuàng)新價值,揭示了未來的研發(fā)方向應(yīng)進一步拓寬并面臨著多方面的挑戰(zhàn)。為推動數(shù)字孿生流域和知識圖譜技術(shù)深度融合與持續(xù)發(fā)展,提出以下幾點展望。
(1) 提升數(shù)據(jù)規(guī)模與質(zhì)量。數(shù)字孿生流域未來將涉及大量不同類型的數(shù)據(jù),并且面臨數(shù)據(jù)異構(gòu)、不一致和不完整等問題。隨著數(shù)據(jù)的不斷積累和領(lǐng)域知識的更新,知識圖譜需要不斷地進行動態(tài)維護和優(yōu)化。如何實現(xiàn)知識圖譜的自動化構(gòu)建與更新,確保其時效性和可靠性,以適應(yīng)流域管理的實時性需求,是亟待解決的問題。
(2) 進行跨學科領(lǐng)域的知識融合與交流。數(shù)字孿生流域涉及水文學、氣象學、地理信息科學等多個學科領(lǐng)域。如何在知識圖譜中實現(xiàn)跨領(lǐng)域知識的融合以及促進不同領(lǐng)域?qū)<抑g的交流與合作,是知識平臺建設(shè)中需要克服的難題。
(3) 數(shù)據(jù)安全與保護。如何在知識庫構(gòu)建與應(yīng)用中平衡數(shù)據(jù)共享與數(shù)據(jù)保護的需求,以及如何確保知識圖譜中的數(shù)據(jù)和知識的合規(guī)性和倫理性,是在實際應(yīng)用過程中需要關(guān)注的問題。