劉梓權(quán), 王慧芳
(浙江大學電氣工程學院, 浙江省杭州市 310027)
在電力設(shè)備的日常巡檢和試驗中,積累了大量關(guān)于設(shè)備缺陷情況的缺陷記錄文本[1-2],而在缺陷的分級、消缺等處理工作完成后,相應(yīng)的缺陷記錄和處理記錄往往閑置于系統(tǒng)中。另一方面,由于缺陷情況復雜多變,目前很多缺陷處理工作依賴于處理人員的知識與經(jīng)驗[3-4]。如果可以通過一條缺陷記錄檢索具有相同缺陷情況的歷史缺陷記錄,就可以借鑒前人的經(jīng)驗,參考以往的處理方法對該條缺陷記錄的缺陷情況進行相應(yīng)處理,這在實際缺陷管理中,尤其是對于知識和經(jīng)驗相對不足的處理人員有著重要的指導意義。然而,電力設(shè)備缺陷記錄的復雜性給缺陷記錄的準確檢索造成了很大困難。雖然有相關(guān)的電力規(guī)范以表格形式對可能發(fā)生缺陷的部件和對應(yīng)現(xiàn)象等進行了總結(jié)[5],但缺陷情況復雜多樣,規(guī)范中的表格難以進行全面歸納。即使規(guī)范中存在相應(yīng)的缺陷情況,也常常由于巡檢人員的經(jīng)驗局限,而出現(xiàn)沒有嚴格按照規(guī)范中的方式進行記錄的現(xiàn)象,因此造成了缺陷記錄的復雜性。另外,缺陷記錄是以自然語言的形式進行描述,這進一步增加了計算機對缺陷記錄的理解難度。
文本的檢索效果依賴于文本的語義分析和表示方法的有效性。對于電力設(shè)備缺陷文本,類似于文獻[5],文獻[6-7]通過人工經(jīng)驗確定語義框架,通過框架的填充對文本進行表示,但語義框架的二維表形式缺乏靈活性,難以適應(yīng)復雜的電力設(shè)備缺陷情況[8],且框架的定義依賴于人工經(jīng)驗,難以全面考慮缺陷記錄多樣化的表達方式。為避免人工經(jīng)驗的局限,文獻[9-12]采用機器學習算法,借助計算機自動挖掘缺陷記錄中詞級別的規(guī)律,從而基于詞的統(tǒng)計特征對文本進行表示。然而,機器學習方法所選取的特征基本上局限于關(guān)鍵詞的出現(xiàn)與否[9-10],或者詞的出現(xiàn)頻率[11-12],這些統(tǒng)計特征雖有一定的規(guī)律性,但對句中關(guān)鍵詞的內(nèi)在邏輯缺乏充分考慮,可解釋性不足,容易局限于缺陷記錄的字面特征。
缺陷文本基于設(shè)備缺陷實際情況進行記錄,文本信息之間有明確的邏輯關(guān)系。因此,本文利用知識圖譜的圖結(jié)構(gòu)對文本信息及其之間的關(guān)系進行表示,突破語義框架二維表結(jié)構(gòu)的局限,在充分考慮缺陷文本信息內(nèi)在邏輯的基礎(chǔ)上,再利用自然語言處理、機器學習等技術(shù),從缺陷語料中自動提取構(gòu)建知識圖譜所需的信息,從而實現(xiàn)知識圖譜的自動構(gòu)建,并在此基礎(chǔ)上提出了缺陷記錄的自動檢索方法。
知識圖譜本質(zhì)上是一個知識庫,是一個將實體和屬性通過關(guān)系進行聯(lián)結(jié)和組織的知識網(wǎng)絡(luò)[13]。構(gòu)成知識圖譜的基本單元是“實體—關(guān)系—實體”或“實體—關(guān)系—屬性”三元組。將知識圖譜表示為圖的形式時,實體和屬性以節(jié)點形式存在,關(guān)系以連接兩節(jié)點的有向邊形式存在。這些三元組通過共有的實體或?qū)傩赃M行結(jié)合,形成了具有網(wǎng)狀結(jié)構(gòu)的知識圖譜。
知識圖譜分為開放域和封閉域兩類[13]。開放域知識圖譜不限定知識領(lǐng)域,要求知識覆蓋較廣,主要用于搜索引擎。開放域知識圖譜會存在實體歧義、關(guān)系難以窮舉、專業(yè)性不強、噪聲大等問題,因此應(yīng)用深度受到局限。封閉域知識圖譜一般是行業(yè)知識圖譜,只能應(yīng)用于特定行業(yè),其知識專業(yè)性較強,噪聲較小,實體、屬性和關(guān)系也可根據(jù)需求進行限定和窮舉,因此應(yīng)用可以比較深入,更具有針對性。
知識圖譜構(gòu)建的一般過程主要分為3步,即知識抽取、知識融合、知識加工[14]。
知識抽取主要是抽取出非(半)結(jié)構(gòu)化數(shù)據(jù)包含的實體、屬性和關(guān)系,作為構(gòu)成知識圖譜的基本元素。知識融合先對抽取出的實體進行實體消歧和共指消解:實體消歧是對可能存在多種含義的實體名稱(如“蘋果”可能指水果,也可能指公司名稱)進行區(qū)分;共指消解是將具有相同含義和指代的名詞和代詞在知識圖譜中進行合并。然后對實體、屬性和關(guān)系進行整合并加入現(xiàn)有結(jié)構(gòu)化數(shù)據(jù),初步形成知識圖譜。知識加工是一個動態(tài)過程,在知識圖譜不斷應(yīng)用的過程中,評估其數(shù)據(jù)質(zhì)量和應(yīng)用效果,并結(jié)合知識的發(fā)展與豐富,對知識圖譜進行更新與修正。
電力設(shè)備缺陷記錄通常以單個句子的形式存在,一般都以自然語言記錄缺陷的設(shè)備部件、現(xiàn)象、程度等內(nèi)容。由于電力設(shè)備缺陷記錄有其自身特點,本文在構(gòu)建電力設(shè)備缺陷知識圖譜時,在知識圖譜構(gòu)建一般過程的基礎(chǔ)上進行以下修改。
1)在電力設(shè)備缺陷中,缺陷現(xiàn)象作為缺陷部件的屬性,本身還具有缺陷程度等屬性,故除抽取實體間及實體與屬性的關(guān)系外,還要抽取屬性間關(guān)系。
2)電力設(shè)備缺陷知識圖譜屬于封閉域知識圖譜,實體詞義僅限于電力領(lǐng)域,且電力行業(yè)有明確的術(shù)語規(guī)范,實體歧義問題基本不存在,省去實體消歧步驟。
3)在共指消解時,屬性也會出現(xiàn)同義詞現(xiàn)象,也要進行共指消解。另外,封閉域數(shù)據(jù)量相對較小,應(yīng)先對實體/屬性進行共指消解,再抽取關(guān)系,使同一個實體/屬性對能獲得更多的關(guān)系訓練樣本。
4)文獻[5]以表格形式歸納了部分三元組,可作為訓練樣本用于關(guān)系抽取,以充分利用結(jié)構(gòu)化數(shù)據(jù)。
5)關(guān)系抽取完成后,需要對關(guān)系進行篩選處理,避免關(guān)系出現(xiàn)冗余,影響知識圖譜的后續(xù)應(yīng)用。
6)數(shù)據(jù)整合步驟將實體、屬性及關(guān)系形成的三元組,連同文獻[5]包含的三元組進行整理與合并,形成圖結(jié)構(gòu)的電力設(shè)備缺陷知識圖譜。
上述修改后的知識圖譜構(gòu)建過程如圖1所示。除了數(shù)據(jù)整合方法與一般知識圖譜基本一致,其余步驟都需進行針對性設(shè)計,以下將進行重點闡述。
圖1 電力設(shè)備缺陷知識圖譜的構(gòu)建過程Fig.1 Construction process of defect knowledge graph for power equipment
實體/屬性抽取的主要任務(wù)是抽取電力設(shè)備缺陷記錄語料中表示實體/屬性的詞,并進行詞性標注。由于實體和屬性可以窮舉,可直接采用電力專業(yè)詞典對其進行匹配和抽取[7],具體步驟如下。
1)分詞。首先對電力設(shè)備缺陷記錄語料進行分詞。分詞基于常用詞詞典和隱馬爾可夫模型(HMM),并導入電力專業(yè)詞典輔助進行分詞,以提高準確率。
2)詞抽取。將分詞后的語料中的詞逐一在電力專業(yè)詞典中進行檢索,若能檢索到匹配項,則抽取該詞表示的實體/屬性作為知識圖譜的實體/屬性。
3)詞性標注。利用常用詞詞典與電力專業(yè)詞典中詞的詞性對語料中所有詞進行詞性標注[15],并將所有詞分為5類:①描述電力設(shè)備及部件的名詞,表示實體,詞性為“En”(前綴E表示Entity);②描述缺陷現(xiàn)象的動詞,表示屬性,詞性為“Pv”(前綴P表示Property);③描述缺陷程度的副詞,表示屬性,詞性為“Pad”;④描述缺陷程度的量詞,表示屬性,詞性為“Pq”;⑤未在詞抽取步驟被抽取出來的詞,不表示實體或?qū)傩?,詞性按原詞典標注。
電力設(shè)備缺陷記錄文本中基本不包含代詞,因此共指消解不需要考慮代詞,其主要任務(wù)是查找出所有表示實體/屬性的詞當中的同義詞,步驟如下。
1)按詞性分類。兩個同義詞的詞性一定相同,因此可以將所有表示實體/屬性的詞按照4種詞性劃分為4個集合,分別對每個集合進行同義詞識別。
2)向量化。為刻畫表示實體/屬性的詞間的語義相似度,采用word2vec方法對缺陷記錄語料進行訓練[16],將詞向量維度選為100維[17],得到語料中所有詞對應(yīng)的詞向量,再通過計算詞向量之間的余弦相似度,判斷表示實體/屬性的詞間的相似程度。
3)篩選詞對。對詞進行向量化時,在句中位置鄰近的詞(鄰近詞對),如“主變本體儲油柜銹蝕”中的“儲油柜”與“銹蝕”,或者上下文相似的詞(同位詞對),如“主變本體儲油柜銹蝕”中的“儲油柜”與“主變本體油枕銹蝕”中的“油枕”,都有較高的余弦相似度[18]。顯然,同位詞對才是所要尋找的同義詞,而同位詞對的兩個詞基本不可能出現(xiàn)在同一條缺陷記錄中。因此,可刪除在同一條缺陷記錄中出現(xiàn)過的詞對,從而剔除鄰近詞對,篩選出同位詞對。
4)形成同義詞表。將含有相同詞的同位詞對合并為一個同義詞集,從而形成若干個同義詞集,并在每個集合中選擇一個詞,作為集合內(nèi)所有詞的標準化名稱,最后以同義詞表的形式來表示同義詞集。
關(guān)系抽取主要任務(wù)是識別各實體/屬性間是否存在關(guān)系及相應(yīng)關(guān)系類型。電力設(shè)備缺陷知識圖譜可以結(jié)合實體/屬性的詞性對關(guān)系進行限定,如表1所示。
表1 實體/屬性間的關(guān)系類型Table 1 Relation types of entities/properties
由此,關(guān)系抽取任務(wù)轉(zhuǎn)化為分類問題,訓練集由文獻[5]提供。由于訓練樣本較少,監(jiān)督訓練方法分類效果不佳,故采用半監(jiān)督協(xié)同訓練方法進行分類。
關(guān)系分類前,先形成待分類的詞對,即在所有表示實體/屬性的詞的兩兩組合中,篩選出屬于表1中4種詞性組合的詞對,然后對每個詞對進行關(guān)系分類。具體的關(guān)系分類流程及相關(guān)說明見附錄A。
關(guān)系篩選處理主要對冗余的包含關(guān)系進行刪除。由于巡檢人員往往不會嚴格按照規(guī)范逐級記錄缺陷部位,如“主變冷卻器系統(tǒng)風扇故障”可能被記為“主變風扇故障”,因此,“主變”與“風扇”雖然不是直接包含關(guān)系,但在關(guān)系抽取時,也很有可能被識別為具有包含關(guān)系,從而出現(xiàn)如圖2所示的結(jié)構(gòu)。
可見,“主變”與“風扇”間的包含關(guān)系可通過知識推理進行識別。如果表示出所有間接包含關(guān)系,將大大提高知識圖譜的復雜性。因此統(tǒng)一刪除間接包含關(guān)系,具體方法是:檢測每個具有包含關(guān)系的實體對中兩個實體間是否存在另一條路徑連通兩者,若存在則刪去兩者間的包含關(guān)系。如“主變”和“風扇”間還存在另一條路徑“主變—冷卻器系統(tǒng)—風扇”,故刪去“主變”和“風扇”間表示包含關(guān)系的邊。
圖2 包含關(guān)系的實例Fig.2 An example of inclusion relations
電力設(shè)備缺陷記錄檢索的任務(wù)就是在缺陷記錄集中,找出與給定的一條缺陷記錄所描述的缺陷情況(包括發(fā)生缺陷的設(shè)備類型和部位、缺陷的現(xiàn)象、缺陷程度和量化單位)都一致的所有記錄。具體實現(xiàn)時,可以將給定的缺陷記錄與缺陷記錄集的記錄逐條匹配,并輸出所有匹配成功的缺陷記錄。
從知識圖譜的角度看,兩條缺陷記錄描述的缺陷情況一致,等價于這兩條缺陷記錄在知識圖譜中對應(yīng)的實體路徑和屬性節(jié)點所連成的完整樹完全一致。因此檢查兩條缺陷記錄是否匹配,只需要找出每條缺陷記錄對應(yīng)的完整樹,再對兩完整樹進行比對即可。
2.5節(jié)已提及,巡檢人員往往不會嚴格按照規(guī)范逐級記錄缺陷部位,因此尋找缺陷記錄對應(yīng)的完整樹時,需通過缺陷記錄已有信息推理出缺少的實體,以構(gòu)成完整的實體路徑。若缺少關(guān)鍵缺陷部位信息,則可能無法明確定位到缺陷主體,如缺陷記錄“主變呼吸器硅膠變色”,“呼吸器”可能是主變本體的呼吸器或有載開關(guān)的呼吸器,此時該記錄沒有唯一對應(yīng)的完整樹,應(yīng)給出錯誤提示1,表示關(guān)鍵信息缺失;如果多記了缺陷信息,如“主變本體有載呼吸器硅膠變色”,同樣難以確定“呼吸器”位于本體還是有載開關(guān),應(yīng)給出錯誤提示2,表示關(guān)鍵信息矛盾。
以圖3所示的知識圖譜結(jié)構(gòu)為例說明檢索過程,節(jié)點a至i對應(yīng)En詞性的實體,節(jié)點j和k對應(yīng)Pv詞性的屬性,節(jié)點l對應(yīng)Pad詞性的屬性,節(jié)點m對應(yīng)Pq詞性的屬性。尋找某條缺陷記錄的完整樹時,先對其進行分詞和詞性標注,再對照同義詞表將缺陷記錄中所有詞規(guī)范化為標準名稱。假設(shè)規(guī)范化后缺陷記錄包含節(jié)點b,c,d,i,j,m和l代表的實體/屬性,則在知識圖譜中標記對應(yīng)節(jié)點,如黃色節(jié)點所示。然后按圖4流程確定缺陷記錄的完整實體路徑。
圖3 知識圖譜結(jié)構(gòu)示例Fig.3 Example of knowledge graph structure
圖4 查找完整實體路徑的流程Fig.4 Searching flow chart for full entity path
對應(yīng)圖3的結(jié)構(gòu),將按照以下步驟進行。
1)輸入與被標記的Pv節(jié)點j匹配的En節(jié)點i,并設(shè)其為節(jié)點N。
2)令有序集合S為空集。
3)用深度優(yōu)先搜索方法搜索N向上的一條未搜索過的路徑,則從N出發(fā)將搜索邊1→2→3,相應(yīng)經(jīng)過的節(jié)點依次為i→f→e→g,故形成的有序集合R為{i,f,e,g},但R中未包含所有被標記的實體節(jié)點。
4)繼續(xù)搜索新路徑,將退回上一分支點e,從節(jié)點e開始搜索邊4→5,可得到新路徑的R為{i,f,e,b,a},R中同樣未包含所有被標記的實體節(jié)點。
5)繼續(xù)搜索新路徑,將退回上一分支點f,從節(jié)點f開始搜索邊6→7→8→5,可得到新路徑的R為{i,f,d,c,b,a},R中包含了所有被標記的實體節(jié)點,且S為空集,故令S=R。
6)繼續(xù)搜索,已無新路徑,此時S不為空集,故輸出完整實體路徑中的節(jié)點有序集合S。
如果節(jié)點c和d未被標記,表明根據(jù)缺陷記錄無法判斷節(jié)點f代表的實體來源于節(jié)點d還是e代表的實體,此時步驟4中S將變?yōu)榉强占?,從而在步驟5中輸出錯誤提示1;如果節(jié)點e被標記,則會對節(jié)點f代表的實體來源造成混淆,相應(yīng)地會在搜索完所有新路徑后S仍為空集,從而輸出錯誤提示2。
最后,將完整實體路徑的S中所有節(jié)點與被標記屬性節(jié)點連接即可形成完整樹,如圖3中缺陷記錄完整樹包含的節(jié)點為{a,b,c,d,f,i,j,l,m}。
為研究基于知識圖譜的電力設(shè)備缺陷記錄檢索方法的效果,以變壓器缺陷記錄為例進行實驗。選取某電網(wǎng)公司3 000條變壓器缺陷記錄并隨機均分為3份:第1份中所有正確記錄作為訓練集,第2份作為待檢索的語料庫,第3份作為測試集。構(gòu)建變壓器缺陷知識圖譜時,使用訓練集的所有記錄作為非結(jié)構(gòu)化數(shù)據(jù)來源,并且在第1個知識圖譜模型“KG1”中不加入結(jié)構(gòu)化數(shù)據(jù)信息,而在第2個知識圖譜模型“KG2”中加入文獻[5]包含的結(jié)構(gòu)化數(shù)據(jù)信息。完成知識圖譜構(gòu)建后,將測試集的記錄逐條作為輸入記錄,檢索語料庫中與其匹配的所有記錄。
另外,采用基于機器學習的潛在語義索引(LSI)和潛在狄利克雷分布(LDA)模型作為對照,進行缺陷記錄檢索。模型基于Python的gensim工具包實現(xiàn)。
評價缺陷記錄檢索效果時采用準確率、召回率、F1值三個指標[19],分別反映檢索的精確程度、全面程度和兩者的綜合效果。
用訓練集中正確的缺陷記錄自動構(gòu)建知識圖譜,并加入文獻[5]包含的結(jié)構(gòu)化數(shù)據(jù)信息,構(gòu)成了包含490個節(jié)點和614條邊的變壓器缺陷知識圖譜,其局部如附錄B圖B1所示。然后對構(gòu)建過程的關(guān)鍵步驟,即實體/屬性抽取、共指消解和關(guān)系抽取進行分析。
實體/屬性抽取時,只要電力專業(yè)詞典中表示實體/屬性的詞在缺陷語料中出現(xiàn),就可以被抽取出來,抽取過程本身不存在準確率的問題。為直觀說明實驗中基于電力專業(yè)詞典的實體/屬性抽取過程,將抽取過程的一個典型實例展示于附錄B圖B2。
共指消解步驟中,對所有表示實體/屬性的詞兩兩構(gòu)成的詞對,進行是否同義詞的判別,可得:
(1)
統(tǒng)計得到共指消解準確率為94.8%,其錯誤情況主要是無法識別出現(xiàn)頻率很低的詞的同義詞現(xiàn)象,如“呼吸器”和“吸潮器”(“吸潮器”詞頻很低);或者將上下文情況很相似的近義詞誤識別為同義詞,如“變色”和“飽和”(都用于描述硅膠現(xiàn)象)。
2.4節(jié)提到,關(guān)系抽取實質(zhì)是關(guān)系分類問題,故有
關(guān)系抽取準確率=
(2)
統(tǒng)計得到關(guān)系抽取的準確率為92.2%,其錯誤原因主要是某些詞對在電力設(shè)備缺陷記錄語料中對應(yīng)的實例較少,以及半監(jiān)督協(xié)同訓練采用的機器學習模型本身具有一定的不確定性。
需要說明的是,上述準確率是基于1 000條訓練記錄訓練后的統(tǒng)計結(jié)果。隨著訓練記錄數(shù)量的增加,詞頻過低、實例過少等問題將進一步改善,從而使知識圖譜構(gòu)建的準確性更高。另外,知識圖譜構(gòu)建完成后,在檢索時無需重復構(gòu)建過程,只進行圖搜索即可。
采用LSI,LDA和知識圖譜模型分別檢索測試集1 000條缺陷記錄在語料庫中的匹配記錄,并將1 000條測試記錄的混淆矩陣取平均(將所有混淆矩陣相加后除以1 000),得到附錄B表B1所示結(jié)果,再進行統(tǒng)計后得到表2所示的結(jié)果。
表2 各種模型的檢索結(jié)果統(tǒng)計Table 2 Retrieval result statistics of different models
由表2可見,知識圖譜模型相對于LSI和LDA模型,在準確率、召回率和F1值上都有明顯的優(yōu)勢,且加入結(jié)構(gòu)化數(shù)據(jù)信息能進一步提升檢索效果。從原理上看,知識圖譜的優(yōu)勢是可以準確地識別關(guān)鍵信息、匹配同義詞和進行知識推理,而不局限于字面上的相似度,并充分結(jié)合了電力領(lǐng)域的知識,具有很強的針對性,這也是傳統(tǒng)語義分析方法難以實現(xiàn)的。為了更直觀地反映知識圖譜的上述優(yōu)勢,以表3中兩組缺陷記錄的匹配為例進行說明。
采用LSI,LDA和知識圖譜模型分別判斷每一組的兩條缺陷記錄是否匹配,結(jié)果如表4所示。
對于A1和A2,雖然兩條記錄只相差一個詞,但這個差別決定了兩條記錄描述的是不同的兩個瓦斯繼電器上的缺陷,顯然兩條記錄不匹配。由于兩條記錄在字面上很相似,通過LSI和LDA模型難以進行區(qū)分,但知識圖譜模型可以將兩條記錄定位到不同的完整樹,從而判斷其不匹配,如附錄B圖B3、圖B4所示。
表3 兩組缺陷記錄實例Table 3 Two groups of defect record examples
表4 各種模型對表3中兩組記錄匹配關(guān)系的判斷結(jié)果Table 4 Judgment of different models to matching relation of two groups of records in Table 3
對于B1和B2,兩條缺陷記錄沒有相同的詞,但實際描述的是同一部件的相同缺陷現(xiàn)象。由于兩條記錄文本在字面上相差較大,通過LSI和LDA模型難以識別出其匹配關(guān)系。而知識圖譜模型除了可以識別“在線濾油裝置”與“濾油機”、“報警”與“告警”這兩對同義詞外,還可以通過節(jié)點的連接推理出兩條缺陷記錄對應(yīng)同一完整樹,如附錄B圖B5、圖B6所示。
為了從理論技術(shù)層面對上述現(xiàn)象進行說明,通過編輯距離(LD)刻畫兩條缺陷記錄間的字面差別度[20],LD越大則字面差別度越大,從而研究LD對檢索效果的影響。采用LSI和KG2模型檢索一條測試記錄在待檢索語料庫中的匹配記錄時,首先將語料庫的所有記錄按照與該條測試記錄的LD劃分為10個子集(LD=0的記錄舍去,LD≥10的記錄統(tǒng)一為一個子集),然后分別在10個子集中進行檢索,得到10個混淆矩陣。按照這一方法檢索1 000條測試記錄后得到10×1 000個矩陣,再將每種LD下的1 000個矩陣取平均,最終形成10個平均矩陣,并通過平均矩陣統(tǒng)計10種LD下的準確率和召回率,如圖5、圖6中的折線圖所示。由于不同LD下的模型準確率(召回率)對模型總體準確率(召回率)的影響程度與該LD下模型準確率(召回率)計算的基數(shù)有關(guān)(如模型準確率計算的基數(shù)為“被模型判別為匹配記錄的數(shù)目”),基數(shù)越大則影響程度越高,故將每種LD下的指標計算基數(shù)展示于圖5、圖6中的柱形圖。
圖5 不同LD下的準確率及計算基數(shù)Fig.5 Precision rates and calculation bases under different LDs
圖6 不同LD下的召回率及計算基數(shù)Fig.6 Recall rates and calculation bases under different LDs
由圖5可見,總體上LD越小,LSI模型準確率越低,即越傾向于將非匹配記錄識別為匹配記錄(類似于表4中A組情況),且其計算基數(shù)隨LD減小而增大,進一步降低了模型的總體準確率;由圖6可見,LD越大,LSI模型召回率越低,即越傾向于將匹配記錄識別為非匹配記錄(類似于表4中B組情況),但其計算基數(shù)總體上隨LD增大而減小,一定程度上減弱了對模型總體召回率的影響。
相比而言,KG2檢索效果受LD的影響明顯要小。LD影響KG2檢索效果的原因主要是KG2本身構(gòu)建過程中共指消解和關(guān)系抽取步驟有可能存在錯誤。對于匹配記錄,LD越大,意味著需要正確識別的同義詞或關(guān)系越多,故受到共指消解和關(guān)系抽取中錯誤影響的概率也更大,從而召回率降低;對于非匹配記錄,LD越小,意味著一旦有少量區(qū)分兩條記錄的信息點識別有誤(如非同義詞被識別為同義詞),模型就會出現(xiàn)誤判別,影響準確率。
本文在電力設(shè)備缺陷記錄檢索中引入了知識圖譜技術(shù),提出了基于知識圖譜技術(shù)的缺陷記錄檢索方法,詳細闡述了電力設(shè)備缺陷知識圖譜的構(gòu)建過程和缺陷記錄檢索過程中基于知識圖譜的圖搜索方法,并通過算例證明了知識圖譜模型在檢索效果上的顯著優(yōu)越性,從而可通過現(xiàn)有缺陷的記錄,檢索相似的歷史缺陷記錄及對應(yīng)的分級、消缺等記錄,為現(xiàn)有缺陷的處理提供有效指導。
如果能夠利用句法分析等自然語言處理技術(shù),在共指消解和關(guān)系抽取步驟中提取更多的語義特征,將有利于提高這兩個關(guān)鍵步驟的準確性和知識圖譜構(gòu)建的精確性和完整性,從而進一步提升缺陷記錄檢索的效果,這也是后續(xù)研究的重要方向。