亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

長江流域取水許可知識圖譜問答系統(tǒng)

2024-07-04 00:00:00曾德晶張軍曹衛(wèi)華管黨根許婧黎育朋

人民長江 2024年6期

關鍵詞：許可圖譜實體

收稿日期：2023-09-20；接受日期：2024-01-26

基金項目：湖北省自然科學基金創(chuàng)新群體項目（2020CFA031）

作者簡介：曾德晶，男，工程師，碩士，研究方向為水資源優(yōu)化配置、水利信息化。E-mail：dejingzeng@niccwrc.cn

Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.

文章編號：1001-4179（2024） 06-0234-06

引用本文：曾德晶，張軍，曹衛(wèi)華，等.長江流域取水許可知識圖譜問答系統(tǒng)

［J］.人民長江，2024，55（6）：234-239.

摘要：隨著水資源取水許可領域管理要求的不斷提高，傳統(tǒng)水資源取水許可信息管理系統(tǒng)難以滿足復雜的信息檢索需求，制約了水資源精細化管理水平的提升。為了打破系統(tǒng)間信息孤島，提升取水許可信息檢索效率，建立了長江流域取水許可知識圖譜，基于大規(guī)模預訓練語言模型提出了包含實體提及識別、實體鏈接、關系匹配等功能的知識圖譜問答流水線方法，結合取水許可領域數(shù)據(jù)特點采用BM25算法進行候選實體排序，構建了長江流域取水許可知識圖譜問答系統(tǒng)，并基于BS架構開發(fā)了Web客戶端。實驗表明：該系統(tǒng)在測試集上達到了90.37%的準確率，可支撐長江流域取水許可領域檢索需求。

關" 鍵" 詞：取水許可；知識圖譜；預訓練語言模型；問答系統(tǒng)；水資源；長江流域

中圖法分類號： TV213.4；TP391.1

文獻標志碼： A

DOI：10.16232/j.cnki.1001-4179.2024.06.032

0" 引言

隨著社會經(jīng)濟發(fā)展，各行業(yè)對水資源需求不斷增長，為加強水資源管理和保護，國家出臺了《取水許可和水資源費征收管理條例》規(guī)范取水行為。為提升水資源調(diào)配與管理信息化水平，各級水行政主管部門圍繞取水許可證管理、取水量監(jiān)測預警、最小下泄流量和生態(tài)流量監(jiān)管等業(yè)務建立了不同的信息管理系統(tǒng)。在水資源日常管理中，信息檢索是一個高頻需求，但由于業(yè)務系統(tǒng)眾多，管理人員在檢索信息時需要在不同業(yè)務系統(tǒng)間來回切換，且查詢內(nèi)容受業(yè)務系統(tǒng)的信息展示形式限制，信息檢索效率較低。

知識圖譜通過“實體-關系-實體”的三元組形式存儲知識，實現(xiàn)了實體間關系網(wǎng)的構建，采用圖檢索算法，破解了傳統(tǒng)關系型數(shù)據(jù)庫查詢時大量自連接操作導致的性能瓶頸。知識圖譜在水利行業(yè)已經(jīng)取得了諸多應用，黃艷等［1］利用知識圖譜將文字性的調(diào)度規(guī)程數(shù)字化、邏輯化，便于防洪調(diào)度模型調(diào)用；王晨雨等［2］將知識圖譜應用到全國取用水平臺，提出了一套統(tǒng)一的取用水管理數(shù)據(jù)庫表結構標準，構建了取用水管控一張圖；劉雪梅等［3］構建了水利工程應急方案知識圖譜，為應急搶險方案智能生成提供支撐；馮鈞等［4］提出一種基于知識圖譜的數(shù)字孿生流域知識體系架構，通過構建水利管理對象關系圖譜形成流域全景式耦合網(wǎng)絡。目前，利用知識圖譜將水利行業(yè)大量難以結構化的知識結構化［5］以驅(qū)動業(yè)務模型的應用已經(jīng)取得了長足的發(fā)展。但由于構建專業(yè)領域知識圖譜需要大量業(yè)務數(shù)據(jù)，知識圖譜應用需要與自然語言處理技術深度融合，涉及大量交叉學科知識，目前水利行業(yè)尚無系統(tǒng)深入研究。如何進一步提升知識圖譜構建及應用效率，充分發(fā)揮其在數(shù)據(jù)結構化、數(shù)據(jù)檢索方面的優(yōu)勢，解決水資源取水許可領域數(shù)據(jù)匯集、統(tǒng)一搜索問題，仍有待進一步探索。

為此，本文通過構建長江流域取水許可知識圖譜，將分散在各個業(yè)務系統(tǒng)中的數(shù)據(jù)統(tǒng)一匯集到圖數(shù)據(jù)庫中，采用少量水資源領域語料對百度預訓練語言模型ERNIE進行微調(diào)，將微調(diào)后的模型用于實體提及識別及候選答案排序，結合BM25算法進行實體鏈接，建立一套水資源取水許可領域知識圖譜問答流水線方法，通過問答系統(tǒng)實現(xiàn)取水許可信息“統(tǒng)一搜索，統(tǒng)一展示”，提升取水許可管理效率。在水利行業(yè)“數(shù)字孿生流域”建設大背景下，流域取水許可知識圖譜作為數(shù)字孿生平臺數(shù)據(jù)底板的重要組成部分，可為數(shù)據(jù)匯集、數(shù)據(jù)治理、數(shù)據(jù)挖掘等業(yè)務提供支撐。

1" 知識圖譜問答理論

2012年，谷歌在語義網(wǎng)和本體論的基礎上，提出了知識圖譜（Knowledge Graph，KG）的概念，其通過節(jié)點與有向邊的形式對互聯(lián)網(wǎng)中復雜的數(shù)據(jù)進行統(tǒng)一表征，在數(shù)據(jù)挖掘、分析、問答系統(tǒng)等領域得到了廣泛應用。知識圖譜根據(jù)其覆蓋范圍可分為開放領域知識圖譜與垂直領域知識圖譜。在開放領域，著名的英文知識圖譜項目有麻省理工學院發(fā)起的ConceptNet［6］、基于維基百科發(fā)展而來的DBpedia［7］、谷歌的Freebase［8］、德國馬普研究所研制的YAGO［9］等；知名中文知識圖譜項目有復旦大學的CN-DBpedia［10］、中國中文信息學會語言與知識計算專業(yè)委員會發(fā)起的OpenKG［11］、搜狗“知立方”等。在垂直領域，知名知識圖譜項目有如NCBI建立的疾病基因知識圖譜CinVar［12］、IMDB構建的電影領域知識圖譜［13］、中國中醫(yī)科學院構建的中醫(yī)藥領域知識圖譜［14］等。

知識圖譜問答（Knowledge Based Question Answering，KBQA）是以知識圖譜為數(shù)據(jù)源，通過識別問題中的實體與關系，查詢知識圖譜返回精確答案的一類問答系統(tǒng)。知識圖譜問答系統(tǒng)需要識別提問中的實體與關系，將其鏈接到知識圖譜上檢索答案，曹明宇等［15］構建了原發(fā)性肝癌知識圖譜，采用TFIDF與Word2Vec詞向量匹配問題模板，根據(jù)模板語義與實體檢索圖譜；杜澤宇等［16］采用CRF識別實體，結合模板匹配生成SPARQL查詢語句檢索的方式構建電商領域知識圖譜問答系統(tǒng)，但基于模板匹配的方法其檢索準確率受模板數(shù)量與種類限制，難以囊括繁雜的提問方式。2017年，谷歌機器翻譯團隊借鑒圖像處理領域的注意力機制構建了transformer模型［17］，在機器翻譯任務中取得了很好的效果。隨后谷歌基于transformer結構提出了著名的預訓練語言模型BERT（Bidirectional Encoder Representation from Transformers）［18］，在多項NLP下游任務中取得了state-of-the-art結果，標志著NLP進入大規(guī)模預訓練語言模型時代。隨后，基于Bert的改進模型XLnet［19］、RoBERTa［20］、ERNIE［21］等相繼出現(xiàn)，不斷刷新NLP任務榜單。大規(guī)模預訓練語言模型通過大量語料的訓練已經(jīng)具備下游任務的許多知識，結合特定任務采用少量語料進行微調(diào)（fine-tuning）即可取得不錯的效果。隨著預訓練語言模型的快速發(fā)展，學者們嘗試將其引入知識圖譜問答領域，Zhang等［22］通過注意力機制來根據(jù)候選答案動態(tài)生成問題的向量表示；王鑫雷等［23］采用ERNIE進行中文知識圖譜問答系統(tǒng)實體提及識別及關系匹配。預訓練模型提高了知識圖譜問答系統(tǒng)結果匹配效率和準確率，但對于水資源取水許可領域提問及圖譜中存在大量同名、簡稱、縮寫的場景，由于語料匱乏，實體鏈接的精度仍無法滿足業(yè)務應用需求。如何根據(jù)取水許可領域數(shù)據(jù)特點，設計合適的知識圖譜schema，打造準確率高、可解釋性強的專業(yè)知識圖譜問答系統(tǒng)，是通過知識圖譜解決取水許可領域信息檢索問題的關鍵。

2" 長江流域取水許可知識圖譜問答系統(tǒng)

2.1" 長江流域取水許可知識圖譜構建

長江流域覆蓋19個省、市、自治區(qū)，現(xiàn)保有取水許可證約10萬個，水資源取水許可領域知識圖譜涉及實體眾多，關系復雜，數(shù)據(jù)量龐大，且對數(shù)據(jù)準確率要求較高。本文采用自上而下的方式進行長江流域取水許可領域知識圖譜構建，囊括取水許可證、取水許可項目、取水權人、取水口、監(jiān)測點等實體，通過ETL工具，將各個系統(tǒng)的數(shù)據(jù)進行清洗、實體對齊后導入Neo4j圖數(shù)據(jù)庫進行存儲，知識圖譜schema如圖1所示。

2.2" 知識圖譜問答系統(tǒng)模型與方法

長江流域取水許可領域知識圖譜問答系統(tǒng)主要由實體提及識別、實體鏈接、候選答案排序3個模塊構成。系統(tǒng)結構如圖2所示。

實體提及識別與候選答案排序采用百度自主研發(fā)的ERNIE 1.0預訓練語言模型，ERNIE 是百度基于BERT改進的預訓練模型，ERNIE與BERT網(wǎng)絡結構和預訓練任務基本一致，均是基于多層transformer結構采用完形填空和上下句判斷任務進行預訓練。區(qū)別在于，BERT在預訓練階段是基于字粒度進行mask，ERNIE將mask粒度擴展到詞/實體粒度，如針對“三

峽大壩位于湖北宜昌?！边@句話，BERT的mask方式為“［m］峽大壩位于湖北宜昌。”，ERNIE的mask方式為“［m］［m］大壩位于湖北宜昌?！?，因此ERNIE可以更多地學習到句子中mask信息里蘊含的知識，增強了模型的語義表示能力。

2.2.1" 實體提及識別

實體提及識別屬于NLP中的命名體識別任務，在問答系統(tǒng)中即基于預訓練模型提取提問中的實體，如針對提問“城南水廠年取水量？”，需要模型提取出“城南水廠”這個實體。在構建微調(diào)語料時，首先對提問采用BIO（B表示實體開頭、I表示實體中間詞、O表示無關字）標注法進行序列標注，“城南水廠年取水量”對應的標注下標為“BIIIOOOO”。訓練時，將下標轉(zhuǎn)化為對應的字典id，與提問拼接后通過ernie tokenizer轉(zhuǎn)化為輸入句子的向量表示（Token Embeddings）、區(qū)分不同句子的向量（Segment Embeddings）和標識詞位置信息的向量（Position Ebeddings），構建ERNIE的輸入張量。輸入首先通過多層雙向交互式transformer結構組成的ERNIE網(wǎng)絡，學習句子中的標注信息，然后依次通過relu激活函數(shù)、dropout層和線性分類層前向傳播，最后通過字典轉(zhuǎn)化后即可得到預測標注結果。實體提及識別模型結構如圖3所示。

2.2.2" 候選實體鏈接

實體鏈接的作用是將識別出的實體指向知識圖譜中實體，通常需要無歧義的指向知識庫中的唯一實體，但水資源取水許可領域存在大量同名、簡稱、縮寫以及加上區(qū)劃前綴的實體，如“白沙洲、琴斷口水廠”既是取水許可證的名稱又是取水許可項目的名稱；“赤壁市三國酒業(yè)有限公司取水項目”“三國酒業(yè)有限公司取水項目”和“三國酒業(yè)取水項目”為同一取水許可證實體，直接通過名稱難以準確鏈接到水資源取水許可領域知識圖譜。

為了克服實體別名問題，通常采用構建同義詞表或通過網(wǎng)絡檢索引入外部信息進行實體消歧義［24-25］，將各種不規(guī)則實體映射到規(guī)則實體上。構建同義詞表需要大量完整的實體別名數(shù)據(jù)，長江流域水資源取水許可領域涉及省市眾多，語言習慣差異較大，難以構建準確的同義詞表，且由于數(shù)據(jù)安全等原因，無法通過互聯(lián)網(wǎng)檢索獲取別名實體。本文根據(jù)實體語義，結合圖譜信息，通過BM25文本匹配算法結合圖譜查詢篩選候選實體。BM25算法通過將文本query分詞為q1，q2，…，qn，將qi與待匹配文本Q的相似度累加之后計算query與Q的相似度：S（Q，query）=niwir（qi，Q）（1）

式中：S表示query與Q的相似度；r（qi，Q）表示qi與Q的相似度；wi表示qi在Q中的權重。

本文采用TF-IDF算法計算wi：wi=lnN+0.5ni+0.5（2）

式中：N表示候選實體總的詞數(shù)；ni表示qi出現(xiàn)的頻次。

r（qi，Q）=fi（k1+1）fi+K·fqi（k2+1）fqi+k2（3）

式中：fi表示qi在Q中出現(xiàn)的頻率；fqi表示qi在query中出現(xiàn)的頻率；k1，k2為調(diào)節(jié)因子，K為候選實體長度考慮因子。

K=k1·1－b+b·ldl—d（4）

式中：b為調(diào)節(jié)因子；ld表示候選實體長度；l—d為候選實體平均長度。

在進行實體鏈接時，首先將識別出的實體通過分詞工具進行分詞，如“赤壁市三國酒業(yè)有限公司取水項目”分為“赤壁市”“三國”“酒業(yè)”“有限公司”“取水”“項目”，忽略“有限公司”“取水”“項目”等取水許可領域常見高頻詞，以“赤壁市”“三國”“酒業(yè)”為關鍵詞，通過Neo4j圖數(shù)據(jù)庫查詢語言Cypher查詢圖譜獲取候選實體。通過BM25算法計算識別出的實體與候選實體的相似度并進行排序，保留相似度較大的實體作為實體鏈接的候選實體。

2.2.3" 關系匹配

關系匹配是將候選實體、關系headi，relationi與提問中實體、關系headq，relationq進行匹配，篩選答案三元組heada，relationa，taila的過程。本文將關系匹配問題轉(zhuǎn)化為文本相似度計算問題，基于ERNIE構建候選實體、關系與提問的相似度匹配模型，將相似度最高的候選實體、關系對應的尾實體作為答案返回。

在提問中往往會含有如“我想知道”“是什么”“呢”“？”等為了保持語句通順的停用詞，其包含語義信息較少，但會影響模型的訓練速度與準確率，本文將提問中的停用詞過濾掉，構建待匹配問句queryA，將候選實體與關系拼接組成待匹配關系queryk，則答案answer為

answer=tailk where Score（queryA，queryk）=maxScore（queryA，queryi）i=1，2，…，n（5）

式中：tailk為相似度最高的候選實體、關系對應的尾實體；Score表示模型［CLS］輸出的相似度。

在圖譜中同一頭實體的同一關系對應的尾實體可能會有多個，此時上式中的k不是單個值，而是一個數(shù)組，即k=k1，k2，…，kt，t∈n，此時需要把k對應的尾實體組合起來作為問題的答案。

如針對問題“我想知道三國酒業(yè)有限公司取水項目的年取水量？”，識別并鏈接到知識圖譜中的取水許可證實體“赤壁市三國酒業(yè)有限公司取水項目”，該實體具有“位于”“發(fā)證日期”“發(fā)證機關”“發(fā)證時間”“年取水量”等關系，分別計算去掉停用詞的問句“三國酒業(yè)有限公司取水項目的年取水量”，和鏈接實體與關系組成的待匹配問句“赤壁市三國酒業(yè)有限公司取水項目位于”“赤壁市三國酒業(yè)有限公司取水項目發(fā)證日期”等的文本相似度，取相似度最高的匹配關系“年取水量”對應尾實體為問題的答案。

文本相似度匹配模型如圖4所示。

2.3" 實驗與結果分析

為驗證本文所提方法的有效性，將數(shù)據(jù)集分為實體提及識別微調(diào)數(shù)據(jù)集、文本相似度計算微調(diào)數(shù)據(jù)集、問答系統(tǒng)測試數(shù)據(jù)集。其中實體提及識別和文本相似度ERNIE模型采用NLPCC2018比賽公開數(shù)據(jù)集加入少量取水許可領域自建數(shù)據(jù)集進行微調(diào)，并采用BERT模型與ERNIE模型進行對比，結果如表1和圖5～6所示。

由圖表可知，對比實體提及識別和文本相似度模塊分別采用Bert和Ernie模型微調(diào)時的F1值變化趨勢，在模型微調(diào)初始階段，Ernie F1值稍高于Bert，微調(diào)訓練后Ernie 和Bert模型針對兩類任務均具有較好的表現(xiàn)，F(xiàn)1值差距在0.5%之內(nèi)，針對微調(diào)訓練語料較少場景，使用Bert模型會有更好的表現(xiàn)。

為驗證問答系統(tǒng)在實際應用場景下的回答準確率，本文從各個業(yè)務系統(tǒng)的查詢模塊日志中獲取用戶查詢的取水權人、取水許可項目、取水許可證等實體對象，去重后人工構造口語化查詢語句810條，實驗準確率為90.37%。

基于本文提出的流水線方法，開發(fā)了基于BS架構的Web問答系統(tǒng)客戶端，在搜索欄輸入查詢問題，可直接返回準確答案。搜索界面如圖7所示。

3" 結論

本文建立了長江流域取水許可知識圖譜，提出了一套適用于取水許可領域的知識圖譜問答流水線方法，并基于ERNIE預訓練模型構建了基于長江流域取水許可領域問答模型，通過對ERNIE和BERT兩種主流預訓練模型的對比，得出以下結論：（1）基于預訓練模型的實體提及識別、實體鏈接、文本相似度流水線方法知識圖譜問答模型具有較高的準確率，可滿足水資源取水許可管理業(yè)務日常檢索需求。

（2）針對水資源取水領域的實體提及識別和文本相似度任務，ERNIE與BERT精度差距較小，在微調(diào)語料較少的中文任務中可優(yōu)先采用ERNIE模型。

本文提出的流水線方法仍較為復雜，隨著以Chat-gpt為代表的生成式大語言模型的發(fā)展，以知識圖譜作為數(shù)據(jù)支撐，采用大語言模型進行端到端的問答模型將簡化問答系統(tǒng)構建流程，并進一步提高復雜問題的回答準確率，應用方向從知識檢索擴展到方案推薦、智慧決策等，可為知識圖譜問答模型帶來新的變革。

參考文獻：［1］" 黃艷，張振東，李琪，等.智慧長江建設關鍵技術難點與解決方案的思考與探索［J］.水利學報，2023，54（10）：1141-1150.

［2］" 王晨雨，劉慶濤，沈紅霞.知識圖譜技術在全國取用水平臺的應用［J］.水利信息化，2023（4）：7-13，27.

［3］" 劉雪梅，盧漢康，李海瑞，等.知識驅(qū)動的水利工程應急方案智能生成方法：以南水北調(diào)中線工程為例［J］.水利學報，2023，54（6）：666-676.

［4］" 馮鈞，朱躍龍，王云峰，等.面向數(shù)字孿生流域的知識平臺構建關鍵技術［J］.人民長江，2023，54（3）：229-235.

［5］" 覃煬揚，郭俊，劉懿，等.數(shù)字孿生流域知識圖譜構建及其應用［J］.水利水電快報，2023，44（11）：115-120.

［6］" SPEER R，HAVASI C.Representing general relational knowledge in conceptNet 5［C］∥International Conference on Language Resources and Evaluation，2012：3679-3686.

［7］" AUER S，BIZER C，KOBILAROV G，et al.Dbpedia：a nucleus for a web of open data［C］∥International Semantic Web Conference.Berlin，Heidelberg：Springer Berlin Heidelberg，2007：722-735.

［8］" BOLLACKER K，EVANS C，PARITOSH P，et al.Freebase：a collaboratively created graph database for structuring human knowledge［C］∥Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data，2008：1247-1250.

［9］" SUCHANEK F M，KASNECI G，WEIKUM G.Yago：a large ontology from wikipedia and wordnet［J］.Journal of Web Semantics，2008，6（3）：203-217.

［10］XU B，LIANG J，XIE C，et al.CN-DBpedia2：an extraction and verification framework for enriching Chinese encyclopedia knowledge base［J］.Data Intelligence，2019，1（3）：271-288.

［11］CHEN H，HU N，QI G，et al.Openkg chain：a blockchain infrastructure for open knowledge graphs［J］.Data Intelligence，2021，3（2）：205-227.

［12］MOY F J，HARAKI K，MOBILIO D，et al.MS/NMR：a structure-based approach for discovering protein ligands and for drug design by coupling size exclusion chromatography，mass spectrometry，and nuclear magnetic resonance spectroscopy［J］.Analytical Chemistry，2001，73（3）：571-581.

［13］陸曉華，張宇，錢進.基于圖數(shù)據(jù)庫的電影知識圖譜應用研究［J］.現(xiàn)代計算機（專業(yè)版），2016（7）：76-83.

［14］賈李蓉，劉靜，于彤，等.中醫(yī)藥知識圖譜構建［J］.醫(yī)學信息學雜志，2015，36（8）：51-53，59.

［15］曹明宇，李青青，楊志豪，等.基于知識圖譜的原發(fā)性肝癌知識問答系統(tǒng)［J］.中文信息學報，2019，33（6）：88-93.

［16］杜澤宇，楊燕，賀樑.基于中文知識圖譜的電商領域問答系統(tǒng)［J］.計算機應用與軟件，2017，34（5）：153-159.

［17］VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need［C］∥Advances in Neural Information Processing Systems，2017：5998-6008.

［18］DEVLIN J，CHANG M W，LEE K，et al.Bert：pre-training of deep bidirectional transformers for language understanding［J］.arXiv Preprint arXiv，2018：1810.04805.

［19］YANG Z，DAI Z，YANG Y，et al.Xlnet：generalized autoregressive pretraining for language understanding［C］∥Advances in Neural Information Processing Systems，2019：5753-5763.

［20］LIU Y，OTT M，GOYAL N，et al.Roberta：a robustly optimized bert pretraining approach［J］.arXiv Preprint arXiv，2019：1907.11692.

［21］ZHANG Z，HAN X，LIU Z，et al.ERNIE：enhanced language representation with informative entities［J］.arXiv Preprint arXiv，2019：1905.07129.

［22］ZHANG Y，LIU K，HE S，et al.Question answering over knowledge base with neural attention combining global knowledge information［J］.arXiv Preprint arXiv，2016：1606.00979.

［23］王鑫雷，李帥馳，楊志豪，等.基于預訓練語言模型的中文知識圖譜問答系統(tǒng)［J］.山西大學學報（自然科學版），2020，43（4）：955-962.

［24］懷寶興，寶騰飛，祝恒書，等.一種基于概率主題模型的命名實體鏈接方法［J］.軟件學報，2014，25（9）：2076-2087.

［25］譚詠梅，楊雪.結合實體鏈接與實體聚類的命名實體消歧［J］.北京郵電大學學報，2014，37（5）：36-40.

（編輯：謝玲嫻）

Knowledge graph Q amp; A system of water intake permission based on pre-trained language model in Changjiang River Basin

ZENG Dejing1，2，3，ZHANG Jun1，2，3，CAO Weihua4，5，6，GUAN Danggen1，2，3，XU Jin1，2，3，LI Yupeng4，5，6

（1.Network and Information Center，Changjiang Water Resources Commission，Wuhan 430010，China;

2.Smart Yangtze River Innovation Team of Changjiang Water Resources Commission，Wuhan 430010，China;

3.Technology Innovation Center of Digital Enablement for River Basin Management，Changjiang Water Resources Commission，Wuhan 430010，China;

4.School of Automation，China University of Geosciences，Wuhan 430074，China;

5.Hubei Key Laboratory of Advanced Control and Intelligent Automation for Complex Systems，Wuhan 430074，China;

6.Engineering Research Center of Intelligent Technology for Geo-Exploration of Ministry of Education，Wuhan 430074，China）

Abstract：

With the continuous increase of management requirements in the field of water intake permission，the traditional information management system of water intake permission is difficult to meet the complex information retrieval needs，which restricts the improvement of meticulous management in water resources.A knowledge graph of water intake permission in the Changjiang River Basin is established to break the information silo between systems and improve the efficiency of information retrieval in water intake permission，and a knowledge graph Q amp; A including entity mention recognition，entity link，relational matching and other functions is proposed based on a large-scale pre-trained language model.According to the characteristics of data in water intake permission domain，BM25 algorithm is used to sort candidate entities to construct a knowledge base question answering system in the Changjiang River Basin，and a Web client is developed based on BS framework.The experiment shows that the system achieves an accuracy rate of 90.37% on the test set，which can support the retrieval needs in the field of water intake permission in the Changjiang River Basin.

Key words：

water intake permission; knowledge graph; pre-trained language model; question answering system; water resources; Changjiang River Basin