摘要:在水文新技術研究與應用中,知識圖譜為水文站非結構化數(shù)據(jù)集成、分析及應用等提供了框架,具有較大的應用價值。以國家基本水文站——寸灘水文站為例,綜合運用自然語言處理及人工智能模型,探究水文站知識圖譜構建全過程。水文命名實體識別采用ALBERT+BiLSTM+CRF組合模型,關系識別采用ALBERT+BiGRU+ATTENTION組合模型和模式匹配結合方式,以關系型數(shù)據(jù)庫中寸灘水文站信息為補充,通過模型抽取與人工輔助相結合的方式,構建完成寸灘水文站的三元組信息并存儲到Neo4j圖數(shù)據(jù)庫中,得到寸灘水文站可視化知識圖譜。結果表明:寸灘站可視化知識圖譜使實體上下位關系、屬性及其約束等更加清晰,相關知識的查詢更加便利。
關鍵詞:知識圖譜; 命名實體識別; 關系識別; Neo4j; 寸灘水文站
中圖法分類號:TP391
文獻標志碼:A
DOI:10.15974/j.cnki.slsdkb.2024.12.023
文章編號:1006-0081(2024)12-0143-06
0 引 言
隨著經(jīng)濟社會的快速發(fā)展,萬物互聯(lián)的時代已經(jīng)到來,人們不再局限于關注數(shù)據(jù)附帶的自身信息,更在于信息之間的關系。因此,以知識表示和語義理解為基礎的知識推理、智能問答和輔助決策等智能化知識服務成為當前人工智能的熱點。同時,非結構化數(shù)據(jù)的噴涌,使自然語言處理應用之路更加寬廣,其中,以知識圖譜、深度學習等為代表的技術發(fā)展和應用融合,進一步驅動自然語言處理領域的快速發(fā)展與迭代升級。目前,知識圖譜已廣泛應用于搜索引擎、知識百科、醫(yī)療決策、社交活動等領域。
智慧水利是水利高質量發(fā)展的顯著標志,智慧水利建設是推進新階段水利高質量發(fā)展的六條實施路徑之一[1]。水文是水利的基礎,是國民經(jīng)濟和社會發(fā)展的基礎性公益事業(yè),推動傳統(tǒng)水文轉型升級和高質量發(fā)展,需要人工智能技術的引用和創(chuàng)新。水文站是水文行業(yè)的基礎,水文站知識圖譜可整合資源,建立聯(lián)系,為水文異構數(shù)據(jù)源的數(shù)據(jù)集成、分析和應用提供思路,助推水文知識理解和應用,使之更好地服務于水旱災害防御工作,支撐經(jīng)濟社會發(fā)展。
目前,關于知識圖譜的研究較多,相關的知識圖譜綜述系統(tǒng)講解了知識圖譜概念和技術[2-3]。知識圖譜可分為通用性和領域性,把知識圖譜應用到水文行業(yè)屬于領域性知識圖譜構建[4]。知識圖譜在水文領域尤其水文站中的應用不多,以前多使用傳統(tǒng)共現(xiàn)分析文獻計量可視化分析方法[5]等,而關于水利信息抽取相關研究最近開始受到關注,顧乾暉等[6]基于BERT-CRF與對抗訓練對水利命名實體進行識別,趙慧子等[7]基于BERT-Base-Chinese、百度LAC自然語言處理工具、模式識別融合的策略對水文模型相關論文進行命名實體識別,取得了一定成果。知識圖譜主要依靠信息抽取技術。從自然語言處理領域來看,信息抽取相關技術主要包括:基于規(guī)則和模板的方法,該方法需要人工編寫規(guī)則和模板來實現(xiàn)信息抽??;基于傳統(tǒng)機器學習的方法,如隱馬爾可夫模型HMM(Hidden Markov Model)、條件隨機場CRF(Conditional Random Field)等;基于較為流行的深度學習方法,如長短期記憶網(wǎng)絡LSTM(Long Short-Term Memory)、門控循環(huán)單元網(wǎng)絡GRU(Gated Recurrent Unit)等。較多學者把這些方法進行
組合,雖然組合模型較單模型復雜,但能夠發(fā)揮各自獨有優(yōu)勢,取得更好的信息抽取效果。段浩等[8]在構建水利綜合知識圖譜中,采用BiLSTM+CRF進行實體識別,水利關系識別中采用模式匹配和共現(xiàn)網(wǎng)絡分析結合的方法,實體對象抽取準確率在80%以上。韓娜等[9]使用ALBERT+BiLSTM+CRF模型進行事件抽取,在DuEE中文數(shù)據(jù)集驗證中對比同類型模型取得較好準確率和F1值。黃忠祥等[10]使用ALBERT+BiGRU+ATTENTION模型進行多標簽文本分類研究,在百度中文數(shù)據(jù)集驗證中對比同類型模型取得較好準確率,達到99.68%。
水文站知識圖譜構建主要包括信息抽取、知識融合和知識存儲等。本文在實體識別和關系識別等抽取中分別采用這兩種算法,以寸灘水文站知識圖譜構建為示例,信息抽取中命名實體識別采用ALBERT+BiLSTM+CRF組合模型,關系識別采用ALBERT+BiGRU+ATTENTION組合模型和模式匹配結合方式,以關系型數(shù)據(jù)庫為補充,構建完成三元組信息并存儲到Neo4j圖數(shù)據(jù)庫中。
1 研究區(qū)域概況
長江是中國第一大河,干流全長僅次于尼羅河與亞馬孫河,居世界第三位。長江上游流域地域廣闊,支流眾多,線長面廣,自然地理條件復雜,水文特性各異。長江上游流域洪水主要由暴雨形成,而水文站是長江上游雨水情監(jiān)測預報“三道防線”的重要一環(huán)。寸灘水文站是國家基本水文站和中央報汛站,測驗項目多、要求高,防汛測報地位極其重要,是長江、嘉陵江匯合后的水情控制站以及重慶主城區(qū)防汛和三峽入庫控制站。
2 知識圖譜構建
知識圖譜[2-3,11]的概念由谷歌公司在2012年提出,并宣布以知識圖譜為基礎,構建下一代智能語義搜索引擎。通過從網(wǎng)頁中抽取實體和屬性,構建實體之間的關系,形成網(wǎng)狀知識庫,進而能夠更好利用相關知識實現(xiàn)知識分析和語義推理,使信息檢索進入知識圖譜的時代。因此,知識圖譜是語義網(wǎng)絡知識庫,通過存儲和組織信息實體與實體之間的關系,實現(xiàn)復雜有益的知識網(wǎng)。知識圖譜的基礎數(shù)據(jù)就是三元組(實體,關系,實體),把三元組以有向圖的形式表示出來,就形成了可視化的知識圖譜。水文站知識圖譜就是把知識圖譜的概念應用到水文領域,實現(xiàn)水文領域三元組抽取、融合、存儲等管理,構建水文站語義網(wǎng)絡知識庫,實現(xiàn)對水文站水文知識的組織、管理和理解。
知識圖譜主要依靠自然語言處理和機器學習的相關技術進行構建,主要包括信息抽取、知識融合和知識存儲等。
2.1 信息抽取
知識圖譜構建的關鍵是從非結構化數(shù)據(jù)中獲取三元組,因此第一步就是信息抽取,信息抽取是從非結構化數(shù)據(jù)中抽取到結構化信息的過程。信息抽取或稱三元組抽取采用Pipeline管道模型,即先抽取出實體,再抽取其中的相關關系,兩個抽取過程相互獨立。
本文是從文本中抽取三元組,即從文本中抽取其中可能存在的實體和其中的關系。信息抽取主要包括命名實體識別和關系識別。
2.1.1 命名實體識別
命名實體識別是從文本語料庫中自動識別出文本中的命名實體,命名實體識別的質量直接關系后續(xù)知識獲取的質量,是自然語言處理實用化的關鍵一步[2]。命名實體識別的關鍵在于從文本語句中識別實體的邊界和類型,如機構、時間、地點、人名、數(shù)字、測驗項目、測量儀器或其他水文專業(yè)術語等。
命名實體識別采用現(xiàn)在較為流行的ALBERT+BiLSTM+CRF組合模型,采用ALBERT進行文本特征提取,采用BiLSTM+CRF進行序列標注,見圖1。文本標注中實體分為主體和客體,分別用SUBJ和OBJ表示,詞標注采用BIO方式進行標簽標注(B表示開始,I表示中間,O表示不屬于任何實體)。命名實體識別可以簡單理解成分類問題,找到每個字正確的標注標簽。
(1) ALBERT模型。ALBERT是預訓練模型,是在BERT(bidirectional encoder representations from transformers)[12-13]模型基礎上進行的改進。BERT模型是谷歌公司在2018年發(fā)布的預訓練通用語言處理模型。BERT模型使用雙向Transformer編碼器,基于上下文表示詞向量的方法解決多義詞區(qū)分問題。但BERT存在訓練耗時和對內存等算力有限制等問題,谷歌公司在BERT基礎上提出ALBERT(A Lite BERT)模型。ALBERT在BERT基礎上主要做了3個方面改進,采用了嵌入?yún)?shù)因式分解和跨層參數(shù)共享策略減少參數(shù),采用SOP改進句間連貫預測。
(2) BiLSTM+CRF模型。BiLSTM(Bidirectional LSTM)[14]是雙向長短期記憶網(wǎng)絡,屬于改進后的循環(huán)神經(jīng)網(wǎng)絡,雙向可以將前向和后向向量組合成句子特征。BiLSTM可以預測每個字屬于每個標注標簽的概率,通過softmax激活函數(shù)選出其中概率最大標注標簽作為該字的預測結果,但是BiLSTM沒有考慮標注標簽與標簽之間的關聯(lián)性,具有一定的局限性。CRF[15]條件隨機場模型是由輸入序列對輸出序列預測的條件概率分布模型。CRF通過轉移矩陣和Viterbi算法來解決標簽之間的關聯(lián)性問題,在BiLSTM輸出層后添加一個CRF層就較好解決了標注標簽分類預測問題。CRF帶來的實際約束條件包括句子的開頭可能是B或者O,不是I;實體的開頭應該是B而不是I等。這種組合模型更加具有魯棒性,在命名實體識別中有較好的效果。
2.1.2 關系識別
文本語料通過命名實體識別之后,是一系列離散的實體名稱,較難看出其中實體的關系[2]。要想進行語義知識的了解,就必須進行關系識別。關系識別也叫關系抽取,就是從文檔中抽取關系事實,因此關系本身就是知識的重要部分。關系有時不像命名實體那樣容易識別,可能隱藏在文本中,尤其是需要上下文聯(lián)動的。通過關系識別,實體之間建立了聯(lián)系,才能夠構建有向圖,進而構建網(wǎng)狀結構形成知識關系。關系識別是信息抽取中關鍵一步,本文提到的三元組統(tǒng)一形式(實體,關系,實體)包括(實體,關系,實體)和(實體,屬性,屬性值)等類型。例如,《lt;站史站志gt;寸灘水文站》中“寸灘水文站設立于1939年2月”應該抽取出“寸灘水文站”和“1939年2月”兩個實體,關系是“成立日期”,三元組即(寸灘水文站,成立日期,1939年2月)。
關系識別采用現(xiàn)在較為流行的ALBERT+BiGRU+ATTENTION組合模型。關系識別也可以簡單理解成分類問題,根據(jù)命名實體識別抽取到的兩個實體和實體所在的句子,判斷實體之間的關系。ALBERT功能同上。
(1) BiGRU模型。BiGRU(Bidirectional GRU)是雙向門控循環(huán)神經(jīng)網(wǎng)絡,也屬于改進后的循環(huán)神經(jīng)網(wǎng)絡。BiGRU中門控機制同時考慮上下文信息,更好理解句子中的依賴關系和捕捉長期依賴性。GRU在LSTM基礎上簡化了門控單元結構,把LSTM網(wǎng)絡的輸入門、輸出門、遺忘門簡化為更新門和權重門,相對LSTM參數(shù)更少而收斂速度也更快,也避免循環(huán)神經(jīng)網(wǎng)絡存在的梯度爆炸或消失問題。
(2) ATTENTION機制。BiGRU網(wǎng)絡輸出層如果直接連接FC全連接層,會造成特征浪費。為解決這個問題,模型在BiGRU網(wǎng)絡和FC全連接層之間引入ATTENTION 機制。ATTENTION機制[15]又叫注意力機制,是為了模仿人類關注信息時候,聚焦關鍵細節(jié),忽略非關鍵必要細節(jié)的過程,以提高效率。ATTENTION機制是一個Encoder到Decoder的主要框架,主要分為3步:相似度計算得權值,權值歸一化得權重,最后加權求和。ATTENTION機制可提高局部重要信息的捕捉能力,以及組合模型的準確率和效率。
2.2 知識融合
知識融合是將不同數(shù)據(jù)源的數(shù)據(jù)在統(tǒng)一框架下進行信息的加工和整合,避免信息冗余。知識融合主要是兩種:不同實體的融合和不同數(shù)據(jù)源的融合。
(1) 不同實體的融合。本文不同實體的融合主要指的是同指消解問題:同一個識別出來的實體含義是相同的,知識圖譜中需要合成一個進行理解和展示,如“寸灘水文站”和“寸灘站”,“長江上游水文水資源勘測局”和“上游局”,“降水”與“雨量”等。
(2) 不同數(shù)據(jù)源的融合。雖然知識圖譜構建的難點在非結構化數(shù)據(jù)上,但是知識圖譜也是需要融合多種數(shù)據(jù)源的,其中一個方便且質量高的重要數(shù)據(jù)來源是關系型數(shù)據(jù)庫。水文單位建立有重要核心數(shù)據(jù)庫,融入關系型數(shù)據(jù)庫結構化數(shù)據(jù)將提高水文站知識圖譜構建質量。
2.3 知識存儲
Neo4j是較為知名的圖數(shù)據(jù)庫,屬于非關系型數(shù)據(jù)庫[16-17]。圖數(shù)據(jù)庫屬于NoSQL,是以圖的形式對數(shù)據(jù)建模和存儲的數(shù)據(jù)庫,主要是節(jié)點和邊兩種重要元素,可應用于知識圖譜的構建。本文采用的Neo4j是應用廣泛的開源圖數(shù)據(jù)庫,遵循數(shù)據(jù)庫ACID規(guī)則,具有較高的數(shù)據(jù)可靠性和安全性,提供了強大的Cypher查詢語言,還可通過內置的瀏覽器Web應用程序進行圖形數(shù)據(jù)創(chuàng)建、查詢、刪除等。
3 水文站知識圖譜構建實踐
水文站知識圖譜的構建是把通用性知識圖譜的技術應用到水文領域中。從圖2中可以看出,水文站知識圖譜數(shù)據(jù)主要來自非結構化文本和已建的關系型數(shù)據(jù)庫,數(shù)據(jù)處理主體是對非結構化文本進行整理、清洗去噪、分句、去掉停用詞等處理,構建水文站文本語料庫。水文站知識圖譜經(jīng)過命名實體識別、關系識別、知識融合、知識存儲等操作流程,并采用可視化手段進行水文站知識圖譜的展示。
命名實體識別在ALBERT+BiLSTM+CRF組合模型基礎上,需要考慮水文未登錄詞處理,以處理《lt;站史站志gt;寸灘水文站》為例,該文出現(xiàn)較多水文專有名詞,如“單樣含沙量、懸移質輸沙率、懸移質顆粒分析、卵石推移質、沙質推移質、河床質”等詞,還包括一些單位名稱等,若不進行未登錄詞處理,這些詞有可能不會作為一個實體詞組識別出來,進而會影響知識圖譜實體的正確識別。
水文站相關水文關系識別是知識圖譜構建的關鍵,也是自然語言處理領域的難點。為更好地進行水文關系抽取,在ALBERT+BiGRU+ATTENTION組合模型基礎上,利用模式匹配方式進行水文關系抽取,模式匹配更多依靠積累的句式結構,如“寸灘水文站測驗方式為駐測”,句式結構為(A測驗方式為B),抽取出水文實體為“寸灘水文站”和“駐測”,水文特有關系為“測驗方式”,三元組為(寸灘水文站,測驗方式,駐測)。
本文程序實驗采用python語言,通過命名實體識別和關系識別等得到三元組后,融合關系型數(shù)據(jù)庫存儲信息,形成三元組EXCEL表,再通過程序讀取EXCEL表中每行三元組信息存儲到Neo4j圖數(shù)據(jù)庫中,以寸灘水文站知識圖譜的構建為示例。通過網(wǎng)站搜索“寸灘水文站”,檢索到相關網(wǎng)頁文章12篇并保存為文本,其中,《lt;站史站志gt;寸灘水文站》一文是相關性最高和最有價值的一篇。命名實體識別采用ALBERT+BiLSTM+CRF組合模型,關系識別采用ALBERT+BiGRU+ATTENTION組合模型和模式匹配結合的方式,經(jīng)過知識融合得到知識圖譜三元組并存儲到Neo4j圖數(shù)據(jù)庫中。
本文采用的三元組抽取模型是基于語言與智能技術競賽的中文信息,抽取數(shù)據(jù)集作為基礎語料庫進行訓練,主要來自百度百科和百度信息流等文本。在此基礎上進行以下數(shù)據(jù)處理:① 做好水文未登錄詞處理、水文實體融合等有助于水文命名的實體抽取工作;② 添加水文特有關系(主要是測驗項目、測驗設備、測驗方式)等關系標注工作,非結構化文本關系抽取包括成立日期、位置、職責、上級單位、歷史洪水、測驗項目、測驗設備、測驗方式等;③ 結合SL 323-2011《實時雨水情數(shù)據(jù)庫表結構與標識符》中測站基本屬性表(ST_STBPRP_B)和河道站防洪指標表(ST_RVFCCH_B),對寸灘水文站的信息進行了補充,其中,關系型數(shù)據(jù)庫補充采用字段名作為屬性,表中數(shù)據(jù)作為屬性值,如寸灘水文站站號(STCD)為60105400,三元組為(寸灘水文站,站號,60105400)。
在實際抽取過程中發(fā)現(xiàn),水文領域信息抽取效果還有進步的空間,主要是關系類型設置較多,抽取復雜度較大,抽取算法有改進空間,而且水文特有關系標注量還不夠,特有實體之間的關系沒能較好抽取出來。為構建完整的知識圖譜,需人工輔助修改和補充。圖3為寸灘水文站知識圖譜,Neo4j圖數(shù)據(jù)庫共存儲39個實體節(jié)點,39個相互關系。從圖3可以看出寸灘水文站的基本情況,實現(xiàn)了對寸灘水文站的知識管理,并使實體上下位關系、屬性及其約束等更加清晰,相關知識的查詢更加便利。例如,要了解寸灘水文站與上游局之間的關系,通過知識圖譜中(寸灘水文站,上級單位,江北分局)和(江北分局,上級單位,上游局)兩個三元組可知,上游局是寸灘水文站的上級單位;要了解寸灘水文站雨量采用的雨量計種類,通過知識圖譜中測驗項目和測驗設備可知,寸灘水文站采用的是翻斗式自記雨量計。雖然寸灘水文站知識圖譜看起來比較簡單,但為后續(xù)寸灘水文站的自動化知識推理及檢索提供了基礎規(guī)則庫和知識庫,而且通過積少成多,可逐步擴大水文站知識圖譜范圍,使庫內知識更豐富,為長江上游水文數(shù)字孿生建設提供知識圖譜基礎[18-20]。
4 結 語
本文對水文站知識圖譜構建進行了探究,對信息抽取、知識融合和知識存儲等知識圖譜構建過程進行了分析,并以國家基本水文站——寸灘水文站為例,初步構建了寸灘水文站的知識圖譜,未來可通過多類水利基礎設施(包括測站與測站、測站與電站水庫等)之間相關關系,構建更大的數(shù)字孿生流域知識圖譜,為后續(xù)知識推理、問答聊天、輔助決策等應用提供強勁動力,以達到知識圖譜組織、管理和理解信息的要求。
本文采用的Pipeline管道模型中,實體和關系先后獨立抽取,兩個過程存在誤差傳遞問題,后續(xù)研究可嘗試Joint模型,模型聯(lián)合學習兩個任務,減少誤差傳遞可能帶來的風險。知識圖譜實體抽取融合方面還需要進一步研究,例如寸灘水文站位置包括“重慶市江北區(qū)寸灘街道三家灘”“4號線寸灘站”“長江和嘉陵江匯合口長江干流重慶段”,如何自動合成完整位置,還需要繼續(xù)自然語言處理研究。
知識圖譜帶來的技術難題和應用思考具有極大的挑戰(zhàn)性,可通過整理專用水文語料庫,包括水文文獻、水文項目報告等資料,并組織水文語料庫的人工標注,方便模型進行訓練、測試和比對各模型效果。
參考文獻:
[1] 蔣云鐘,冶運濤,趙紅莉,等.智慧水利解析[J].水利學報,2021,52(11):1355-1368.
[2] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述[J].計算機研究與發(fā)展,2016,53(3):582-600.
[3] 張吉祥,張祥森,武長旭,等.知識圖譜構建技術綜述[J].計算機工程,2022,48(3):23-37.
[4] 馮鈞,杭婷婷,陳菊,等.領域知識圖譜研究進展及其在水利領域的應用[J].河海大學學報(自然科學版),2021,49(1) :26-34.
[5] 金菊良,陳鵬飛,陳夢璐,等.水文水資源學家陳守煜先生學術研究的知識圖譜分析[J].水利學報,2019,50(10):1282-1290.
[6] 顧乾暉,徐力晨,涂振宇,等.基于BERT-CRF與對抗訓練的水利領域命名實體識別[J].南昌工程學院學報,2022,41(3):29-34.
[7] 趙慧子,周逸凡,段浩,等.水文模型知識學習的命名實體識別方法研究[J].中國水利水電科學研究院學報(中英文),2023,21(6):574-585.
[8] 段浩,韓昆,趙紅莉,等.水利綜合知識圖譜構建研究[J].水利學報,2021,52(8):948-958.
[9] 韓娜,張昊洋.基于ALBERT+BiLSTM+CRF的事件抽取模型[J].黑龍江科技大學學報,2022(3):412-416.
[10] 黃忠祥,李明.BiGRU結合注意力機制的文本分類研究[J].北京聯(lián)合大學學報,2021,35(3):47-52.
[11] 王昊奮,漆桂林,陳華鈞.知識圖譜:方法,實踐與應用[M].北京:電子工業(yè)出版社,2019.
[12] LAN Z,CHEN M,GOODMAN S,et al.ALBERT:A Lite BERT for Self-supervised Learning of Language Representations[C]∥International Conference on Learning Representations.Addis Ababa:dblp,2020.
[13] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[C]∥Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Minneapolis:ACL,2019.
[14] HUANG Z,XU W,YU K.Bidirectional LSTM-CRF models for sequence tagging[J].Computer Science,2015.
[15] ZHOU P,SHI W,TIAN J,et al.Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification[C]∥Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.Berlin:ACL,2016.
[16] WEBBER J.A programmatic introduction to Neo4j[C]∥Proceedings of the 3rd Annual Conference on Systems,Programming,and Applications:Software for Humanity.Tucson:SPLASH,2012.
[17] 王余藍.圖形數(shù)據(jù)庫Neo4j與關系據(jù)庫的比較研究[J].現(xiàn)代電子技術,2012,35(20):78-79.
[18] 覃煬揚,郭俊,劉懿,等.數(shù)字孿生流域知識圖譜構建及其應用[J].水利水電快報,2023,44(11) :115-120.
[19] 徐健,趙保成,魏思奇,等.數(shù)字孿生流域可視化技術研究與實踐[J].水利水電快報,2023,44(8):127-130.
[20] 馮鈞,朱躍龍,王云峰,等.面向數(shù)字孿生流域的知識平臺構建關鍵技術[J].人民長江,2023,54(3):229-235.
Research on construction of knowledge graph for hydrological stations
Abstract:
In the research and application of new hydrological technologies,the knowledge graph offers a framework for integrating,analyzing,and applying unstructured data in hydrological stations,and has a significant application value.Taking the Cuntan Hydrological Station,a national basic hydrological station as an example,we comprehensively employed natural language processing and artificial intelligence models to explore the whole process of constructing the knowledge graph for the hydrological station.For hydrological naming entity recognition,the combined model of ALBERT + BiLSTM + CRF was adopted,and for relationship recognition,the combined model of ALBERT + BiGRU + ATTENTION and the pattern matching method were used,supplemented by the information of Cuntan Hydrological Station in the relational database.Through the combination of model extraction and manual assistance,the triple information of Cuntan Hydrological Station was constructed and stored in the Neo4j graph database to obtain a visual knowledge graph.The results demonstrated that the visual knowledge graph of Cuntan Hydrological Station made the relationships,attributes,and constraints among entities clearer and facilitated the querying of related knowledge.
Key words:
knowledge graph; naming entity recognition; relationship recognition; Neo4j; Cuntan Hydrological Station