何 靜
(中核匯能有限公司,北京 100071)
在核電企業(yè)中,生產(chǎn)過(guò)程所產(chǎn)生的技術(shù)文檔是核電管理工作的核心,也是核電廠安全穩(wěn)定運(yùn)行的基礎(chǔ)。但是,核電企業(yè)中現(xiàn)有的文檔組織管理方式單一,在數(shù)據(jù)層面很少對(duì)核電文檔中蘊(yùn)含的知識(shí)進(jìn)行挖掘與深化,而在應(yīng)用層面往往只支持傳統(tǒng)全文檢索式的查詢,文檔利用效率較低,文檔管理工作總體對(duì)核電業(yè)務(wù)活動(dòng)的支撐力度還有待提升。因此,向下通過(guò)一系列信息抽取、知識(shí)融合等技術(shù)手段實(shí)現(xiàn)文檔的圖譜化組織與構(gòu)建,形成核電文檔知識(shí)庫(kù),向上通過(guò)自然語(yǔ)言處理、深度學(xué)習(xí)、自動(dòng)推理等技術(shù),構(gòu)建基于知識(shí)庫(kù)的智能應(yīng)用平臺(tái),提供包括智能問(wèn)答、主動(dòng)推送、自動(dòng)提醒等知識(shí)服務(wù),提升文檔利用效率,進(jìn)而幫助企業(yè)進(jìn)行知識(shí)整合、人員培訓(xùn)、輔助決策等,已經(jīng)成為當(dāng)前核電企業(yè)亟待研究的問(wèn)題。
知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),本質(zhì)上是一種能夠表示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò),用于以符號(hào)形式描述物理世界中的概念及其相互聯(lián)系[1]。知識(shí)圖譜的數(shù)據(jù)是以三元組的方式進(jìn)行組織,基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性——值對(duì),實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)[2]。
相對(duì)于本體、傳統(tǒng)的語(yǔ)義網(wǎng)絡(luò)而言,知識(shí)圖譜本質(zhì)上是一種能夠表示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò),更強(qiáng)調(diào)對(duì)實(shí)體描述的覆蓋,其語(yǔ)義關(guān)系也更加復(fù)雜、全面[3]。因此,知識(shí)圖譜本質(zhì)上可以看作是對(duì)人腦理解智能的一種模擬,當(dāng)人們想到一個(gè)實(shí)體/概念時(shí),腦海中將建立起與該實(shí)體/概念相關(guān)聯(lián)的一系列知識(shí),而這種過(guò)程實(shí)質(zhì)上就是知識(shí)圖譜的構(gòu)建過(guò)程[4-5]。圖1 給出了知識(shí)圖譜的整體架構(gòu)。
圖1 知識(shí)圖譜整體架構(gòu)
在核電企業(yè)中,工程建設(shè)和運(yùn)行維修過(guò)程所產(chǎn)生的技術(shù)文檔是核電運(yùn)維人員利用的重要資源,也是核電廠安全、合規(guī)、穩(wěn)定運(yùn)行的基礎(chǔ)。對(duì)技術(shù)文檔中知識(shí)的掌握程度直接決定了一名核電工作人員是否具備承當(dāng)相應(yīng)任務(wù)的資格。但核電企業(yè)中現(xiàn)有的文檔組織管理方式單一,在數(shù)據(jù)層面很少對(duì)核電文檔中蘊(yùn)含的知識(shí)進(jìn)行挖掘與深化,而在應(yīng)用層面往往只支持傳統(tǒng)全文檢索式的查詢,文檔利用效率較低,文檔管理工作總體對(duì)核電業(yè)務(wù)活動(dòng)的支撐力度還有待提升。
當(dāng)前,公司文檔工作所涉及的文檔管理對(duì)象已經(jīng)具有較高的數(shù)字化水平,但其數(shù)據(jù)化與知識(shí)化的程度還有所欠缺。核電企業(yè)在生產(chǎn)運(yùn)行過(guò)程中形成的大量結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化版式文檔及非結(jié)構(gòu)化數(shù)據(jù)沒(méi)有形成知識(shí)三元組數(shù)據(jù),難以實(shí)現(xiàn)高效化知識(shí)抽取,無(wú)法為核電技術(shù)文檔知識(shí)化利用提供基礎(chǔ)。
當(dāng)前,公司內(nèi)部知識(shí)以離散的文本化存儲(chǔ),未形成連續(xù)集中的圖譜化存儲(chǔ)。同時(shí),自然語(yǔ)言處理中的實(shí)體識(shí)別、關(guān)系抽取等應(yīng)用技術(shù)的缺失,難以識(shí)別和發(fā)現(xiàn)文本中新的屬性和關(guān)系、與已有的知識(shí)建立關(guān)聯(lián),未能形成靈活、高效、可擴(kuò)展的核電文檔專屬領(lǐng)域下的知識(shí)挖掘技術(shù)體系,難以支撐不同場(chǎng)景下知識(shí)利用的需求。
公司傳統(tǒng)的文檔業(yè)務(wù)服務(wù)缺乏及時(shí)性與精準(zhǔn)性。當(dāng)前的文檔應(yīng)用平臺(tái)難以識(shí)別文檔利用人員的自然語(yǔ)言問(wèn)句、解析出用戶的查詢意圖、記錄用戶檢索行為,無(wú)法實(shí)現(xiàn)查詢推薦及主動(dòng)推送等智能服務(wù),導(dǎo)致文檔管理部門對(duì)企業(yè)業(yè)務(wù)活動(dòng)的支撐力度不足。
核電站從建設(shè)到生產(chǎn)中產(chǎn)生的文檔數(shù)量眾多,文檔管理信息化程度較高。按雙機(jī)組計(jì)算,預(yù)計(jì)在機(jī)組商運(yùn)前將形成約250萬(wàn)份電子文件。典型的核電技術(shù)文檔主要包括運(yùn)行規(guī)程、維修規(guī)程、運(yùn)行技術(shù)規(guī)格書、操縱員試題、操作單、報(bào)警卡、事故規(guī)程等。這類文件有著較為固定的文檔結(jié)構(gòu),一般以word和pdf形式存在,以表格和條目型文字為主。針對(duì)此類文件,典型的應(yīng)用模式如下。
(1)智能問(wèn)答。通過(guò)建立核電技術(shù)文件的知識(shí)圖譜作為底層數(shù)據(jù)資源建立智能化的交互式問(wèn)答應(yīng)用,支持用戶以自然語(yǔ)言問(wèn)句的形式跟智能平臺(tái)進(jìn)行對(duì)話交互,系統(tǒng)自動(dòng)將自然語(yǔ)言問(wèn)句轉(zhuǎn)換成圖譜上的查詢語(yǔ)句并從知識(shí)圖譜中找到答案,然后以自然語(yǔ)言形式進(jìn)行輸出并返回給用戶,在給出答案的同時(shí)還能給出相應(yīng)的依據(jù),幫助技術(shù)人員學(xué)習(xí)鞏固,輔助運(yùn)行決策。
(2)智能搜索。根據(jù)用戶的檢索記錄和交互行為,動(dòng)態(tài)生成和改進(jìn)用戶畫像,實(shí)現(xiàn)更具有針對(duì)性的查詢推薦服務(wù)。將用戶提交的歷史查詢作為上下文信息,通過(guò)對(duì)其歷史查詢進(jìn)行建模,通過(guò)用戶興趣自動(dòng)識(shí)別、內(nèi)容的語(yǔ)義理解、智能信息化過(guò)濾,推送與之相關(guān)的候選查詢內(nèi)容。與傳統(tǒng)搜索引擎需要用戶自主尋找符合需要的答案不同,智能搜索免去了用戶選擇環(huán)節(jié),以自然語(yǔ)言搜索的形式給出答案,而不是網(wǎng)頁(yè)鏈接。伴隨著答案的同時(shí)提供可視化的邏輯圖譜及參考鏈接。
(3)系統(tǒng)畫像。核電技術(shù)知識(shí)圖譜的內(nèi)容核心是系統(tǒng)邏輯和設(shè)備本身。以核電站的各類系統(tǒng)、子系統(tǒng)、設(shè)備、部件等具體業(yè)務(wù)對(duì)象為核心建立知識(shí)圖譜,提供豐富的多維鏈接和數(shù)據(jù)集成,方便用戶建立設(shè)備或系統(tǒng)的整體視野,提供更為直觀便捷的系統(tǒng)或設(shè)備利用渠道。
針對(duì)非結(jié)構(gòu)化的word文件,尚不存在通過(guò)通用的工具對(duì)文檔進(jìn)行解析的方法。一般的解決思路是將word文檔中各類型的元素提取出來(lái),并分類保存,形成一個(gè)ZIP壓縮文件,壓縮文件的主體內(nèi)容是XML(可擴(kuò)展標(biāo)記語(yǔ)言)文件,以XML嵌套HTML(超文本標(biāo)記語(yǔ)言),這種方式的好處是可以通過(guò)HTML形式將數(shù)據(jù)渲染在PC上。采用正則表達(dá)式和規(guī)則匹配結(jié)構(gòu)化word內(nèi)容,結(jié)構(gòu)化后的數(shù)據(jù)以目錄視圖展現(xiàn),除支持段落編輯外,還支持按標(biāo)題編輯,也支持使用富文本編輯框。結(jié)構(gòu)化后的程序元素直接存入關(guān)系型數(shù)據(jù)庫(kù),滿足程序元素的深度利用,以及查詢統(tǒng)計(jì)分析等后續(xù)應(yīng)用。
命名實(shí)體識(shí)別(NER)是自然語(yǔ)言處理(NLP)領(lǐng)域的重要基礎(chǔ)任務(wù),也是知識(shí)圖譜構(gòu)建中不能避免的環(huán)節(jié),它的效果好壞直接影響到后面問(wèn)答體系的構(gòu)建和圖譜的準(zhǔn)確性,是非結(jié)構(gòu)化文件轉(zhuǎn)向結(jié)構(gòu)化的基礎(chǔ)工作。通常需要通過(guò)數(shù)據(jù)預(yù)處理對(duì)公開的或者私有的數(shù)據(jù)語(yǔ)料進(jìn)行處理并通過(guò)序列計(jì)算得到抽取的命名實(shí)體,這個(gè)實(shí)體與能夠通過(guò)業(yè)務(wù)規(guī)則明確的實(shí)體信息進(jìn)行融合更新,形成的實(shí)體庫(kù)可以提供給知識(shí)圖譜、實(shí)體分類等進(jìn)行應(yīng)用[6]。目前主流的NER技術(shù)均基于文本詞向量表示后疊加神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)提取特征。
信息抽取即從自然語(yǔ)言文本中,抽取出特定的事件或事實(shí)信息,幫助我們將海量?jī)?nèi)容自動(dòng)分類、提取和重構(gòu)。 這些信息通常包括實(shí)體(entity)、關(guān)系(relation)、事件(event)。信息抽取是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。抽取系統(tǒng)的輸入信息是原始文本,輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來(lái),然后以統(tǒng)一的形式集成在一起。這就是信息抽取的主要任務(wù)。信息以統(tǒng)一的形式集成在一起的好處是方便檢查和比較。信息抽取涉及的關(guān)鍵技術(shù)包括實(shí)體抽取、關(guān)系抽取和屬性抽取。
關(guān)系抽取是從非結(jié)構(gòu)化文本中識(shí)別出實(shí)體之間的語(yǔ)義關(guān)系并形成關(guān)系網(wǎng)絡(luò)的過(guò)程,目標(biāo)是建立起三元組。相比一般的實(shí)體關(guān)系抽取,核電技術(shù)文檔語(yǔ)料庫(kù)的建設(shè)復(fù)雜,不僅需要大量的人力和物力投入,而且對(duì)參與人員的專業(yè)背景要求高,如果采用類似brat的標(biāo)注工具通過(guò)人工標(biāo)注數(shù)據(jù)盡管能將部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù),但是依賴手工提取特征的方法提取關(guān)系會(huì)帶來(lái)較大的工作量,總體投入資源是無(wú)法接受的。因此,有必要選擇采用深度學(xué)習(xí)方法進(jìn)行關(guān)系的抽取。目前,已有的基于深度學(xué)習(xí)的關(guān)系抽取方法主要包括流水線(Pipelined Method) 方法和聯(lián)合抽取方法[7]兩大類。流水線方法將識(shí)別實(shí)體和關(guān)系抽取作為兩個(gè)分離的過(guò)程進(jìn)行處理,兩者不會(huì)相互影響;但關(guān)系抽取在實(shí)體抽取結(jié)果的基礎(chǔ)上進(jìn)行,因此關(guān)系抽取的結(jié)果也依賴于實(shí)體抽取的結(jié)果。聯(lián)合抽取方法將實(shí)體抽取和關(guān)系抽取相結(jié)合,輸入一個(gè)句子,通過(guò)實(shí)體識(shí)別和關(guān)系抽取聯(lián)合模型,直接得到有關(guān)系的實(shí)體三元組。這種方法可以克服上面流水線方法的缺點(diǎn)。
知識(shí)融合就是在不同的數(shù)據(jù)集中找出同一個(gè)實(shí)體的描述記錄,目的是對(duì)不同數(shù)據(jù)源中的信息進(jìn)行整合,消除概念的歧義,剔除冗余和錯(cuò)誤概念,從而確保知識(shí)的質(zhì)量。知識(shí)融合主要包括兩個(gè)部分:實(shí)體鏈接和知識(shí)合并。在知識(shí)融合環(huán)境主要關(guān)注的是實(shí)體對(duì)齊,將具有相同含義的實(shí)體進(jìn)行等價(jià)處理,確保兩個(gè)具有相同語(yǔ)義的實(shí)體在不同的圖譜結(jié)構(gòu)中只出現(xiàn)一次。例如“乏燃料水池冷卻系統(tǒng)”與“2FAK”實(shí)際表示的是相同的電站系統(tǒng)。通過(guò)知識(shí)融合進(jìn)行實(shí)體的融合和消歧,能夠有效提升知識(shí)利用的效果。常用的知識(shí)融合方法包括快速相似度計(jì)算、基于規(guī)則等方法。
知識(shí)存儲(chǔ)的目標(biāo)是實(shí)現(xiàn)從上述過(guò)程中形成的知識(shí)的存儲(chǔ)以及實(shí)現(xiàn)在面向上層知識(shí)圖譜數(shù)據(jù)查詢、推理、計(jì)算等利用過(guò)程的高速存取。圖數(shù)據(jù)庫(kù)管理系統(tǒng)和RDF存儲(chǔ)系統(tǒng)使用圖數(shù)據(jù)模型,可直接用于知識(shí)圖譜的存儲(chǔ)。選擇知識(shí)存儲(chǔ)方式,需要根據(jù)具體的數(shù)據(jù)規(guī)模及應(yīng)用場(chǎng)景選擇合適的存儲(chǔ)方式。一般從是否支持?jǐn)?shù)據(jù)分布存儲(chǔ)、是否有開源產(chǎn)品、知識(shí)建模管理能力、查詢語(yǔ)言表達(dá)豐富性、支持的數(shù)據(jù)規(guī)模等維度對(duì)知識(shí)圖譜存儲(chǔ)的性能進(jìn)行評(píng)價(jià)。
圖譜構(gòu)建完成后,應(yīng)提供兩方面的API(應(yīng)用程序編程接口)服務(wù),一是針對(duì)圖數(shù)據(jù)庫(kù)本身的,包括查詢接口、新增接口、修改接口。查詢接口用于圖數(shù)據(jù)庫(kù)的檢索。檢索的參數(shù)包括實(shí)體、屬性和邊。根據(jù)實(shí)體名稱檢索時(shí),如不指定深度,則將默認(rèn)返回該實(shí)體及其屬性和深度為1的關(guān)聯(lián)實(shí)體及其屬性。根據(jù)實(shí)體屬性檢索時(shí),將返回符合該屬性的所有實(shí)體及其屬性。根據(jù)邊檢索時(shí),將返回符合的邊以及邊兩端的實(shí)體及其屬性。新增接口主要用于實(shí)體的新增、實(shí)體屬性的新增和實(shí)體與實(shí)體之間的邊的新增。其中,新增實(shí)體時(shí)可以指定該實(shí)體的屬性。修改接口主要用于實(shí)體的名稱修改、實(shí)體屬性的修改和實(shí)體與實(shí)體間邊的修改。二是針對(duì)問(wèn)答功能,提供初始化問(wèn)答接口、問(wèn)答接口、問(wèn)答記錄接口。初始化問(wèn)答接口用于發(fā)起問(wèn)答,接口的入?yún)橛脩鬒D。調(diào)用該接口后系統(tǒng)會(huì)生成一個(gè)本輪對(duì)話的ID,隨后的問(wèn)答調(diào)用都需要傳入該ID。問(wèn)答接口的請(qǐng)求內(nèi)容是用戶想要提出的問(wèn)題,接口的響應(yīng)是系統(tǒng)得到的問(wèn)題的答案,同時(shí)支持自定義是否返回系統(tǒng)在查找答案的過(guò)程中出現(xiàn)的引用和實(shí)體關(guān)系。引用的內(nèi)容包含依據(jù)文件、段落和章節(jié)具體內(nèi)容。實(shí)體關(guān)系的內(nèi)容包括實(shí)體列表和關(guān)系列表。問(wèn)答記錄接口可以根據(jù)用戶指定的查詢參數(shù)查詢問(wèn)答的記錄,記錄中包含問(wèn)題、答案及可選的引用和實(shí)體關(guān)系。系統(tǒng)給出問(wèn)題的答案后需要用戶對(duì)此次的回答做評(píng)價(jià)或反饋。
在核電技術(shù)知識(shí)圖譜建立完成后,支持各類技術(shù)問(wèn)題的解答,例如問(wèn)題“1號(hào)發(fā)電機(jī)的容量有多大?”,系統(tǒng)反饋“1111MVA”,并同時(shí)返回“答案來(lái)源:SOP-1-MKA00-001”。
基于上述構(gòu)建過(guò)程,形成核電技術(shù)知識(shí)圖譜,實(shí)現(xiàn)核電技術(shù)知識(shí)的語(yǔ)義檢索、知識(shí)庫(kù)管理等功能。支持智能搜索,可檢索的技術(shù)文件包括文本、表格、圖片、標(biāo)簽內(nèi)容、長(zhǎng)文本檢索等,實(shí)現(xiàn)了支持邊搜索邊推薦,支持語(yǔ)義搜索、結(jié)構(gòu)化查詢、圖譜問(wèn)答等多種方式的查詢功能,支持根據(jù)用戶的反饋動(dòng)態(tài)調(diào)整搜索結(jié)果。實(shí)現(xiàn)智能提示、相關(guān)文檔推薦。根據(jù)使用人員的自然語(yǔ)言問(wèn)句,分析出用戶的查詢意圖,再根據(jù)查詢意圖從知識(shí)庫(kù)中精準(zhǔn)定位,將自然語(yǔ)言形式的答案抽取出來(lái)推送給用戶,同時(shí)給出知識(shí)來(lái)源與依據(jù),再利用技術(shù)平臺(tái)記錄用戶檢索行為,參照用戶畫像及用戶行為分析等方式進(jìn)行核電文檔的主動(dòng)推送、智能推薦。
知識(shí)圖譜能夠?qū)崿F(xiàn)核電文檔檢索效率與利用水平的提升,能夠?yàn)楣こ探ㄔO(shè)和生產(chǎn)運(yùn)營(yíng)人員提供自動(dòng)問(wèn)答、查詢推薦、主動(dòng)推送等知識(shí)服務(wù),充分發(fā)揮文檔管理對(duì)企業(yè)業(yè)務(wù)活動(dòng)的支撐作用,提高企業(yè)內(nèi)部的知識(shí)利用效率。
隨著信息化與數(shù)字化建設(shè)的展開與NLP技術(shù)的進(jìn)步,知識(shí)圖譜不再局限于網(wǎng)絡(luò)百科式的搜索,其衍生出了大數(shù)據(jù)知識(shí)圖譜與行業(yè)知識(shí)圖譜等多種產(chǎn)品類型,產(chǎn)品專業(yè)化與場(chǎng)景化的趨勢(shì)日漸明顯。比如核電企業(yè)中,檢修與缺陷排查耗時(shí)費(fèi)力,未來(lái)可以將設(shè)備知識(shí)、檢修知識(shí)、處室職能等多個(gè)維度的知識(shí)關(guān)聯(lián)起來(lái),從多維度去分析問(wèn)題,建立快速響應(yīng)機(jī)制。在設(shè)備發(fā)生故障時(shí),知識(shí)圖譜可以快速找到解決方案。