張小韜,季小龍
(1. 南瑞集團有限公司(國網(wǎng)電力科學研究院有限公司),南京 211106;2.北京科東電力控制系統(tǒng)有限責任公司,北京 100192)
隨著新型電力系統(tǒng)的建設,電網(wǎng)運行特性和運行方式也將發(fā)生變化,電網(wǎng)調控業(yè)務越來越復雜,調控人員工作強度也越來越大,這對調控業(yè)務的自動化、智能化提出了更高的要求[1-3]。電力調度文本中含有大量調度人員處置業(yè)務的經(jīng)驗、方法和規(guī)定,現(xiàn)行調控方式主要以人工經(jīng)驗分析為主,在處置電網(wǎng)業(yè)務過程中,調度人員沒有時間查閱復雜繁多的文本,導致電力調度文本利用率低、應用效果差。因此,通過電子化電力調度文本使其能夠在線進行檢索,有助于提高電力調度文本的利用率和調度業(yè)務處置的智能化水平。
近年來,人工智能和自然語言處理技術得到高速發(fā)展,并且在金融、醫(yī)療、教育等領域取得了顯著成果,知識圖譜和文本相似技術作為其重要的技術手段,被廣泛應用到各個領域[4-6],在電力調控領域也得到了應用和發(fā)展。知識圖譜本質上是一種語義網(wǎng)絡[7-8],通過實體和實體間關系表征物理世界事物之間的聯(lián)系,以“實體-關系-實體”三元組的形式將各知識單元鏈接起來。文本相似度算法可以定量描述不同的自然語言文本間的相似度,是實現(xiàn)自然語言文本檢索和知識融合的有效手段。文獻[9]基于注意力的雙向長短期記憶網(wǎng)絡和條件隨機場建立調度規(guī)程文本知識抽取模型,為構建電網(wǎng)調控知識庫提供知識要素。文獻[10]基于深度學習網(wǎng)絡識別電力設備檢修文本中設備、故障現(xiàn)象等實體,為設備檢修提供知識要素。文獻[11]基于混合神經(jīng)網(wǎng)絡建立電力調度文本事件抽取模型,實現(xiàn)故障處置預案的實體和實體關系的解析,可以為故障智能處置提供知識要素。文獻[12]基于正則表達式和文本卷積神經(jīng)網(wǎng)絡實現(xiàn)了故障處置預案實體識別和操作事件語義理解,為故障處置預案在線推送提供了基礎。綜上所述,目前對電力調度文本的研究多集中在電力實體識別方面,難以對大規(guī)模的形式復雜的電力調度文本進行建模。目前調度員亟需從大規(guī)模電力調度文本中快速和準確地獲取關鍵信息,但缺乏對大規(guī)模電力調度文本精細化檢索方面的研究。
針對現(xiàn)行電力調度文本利用率低和應用效果差的問題,提出基于自然語言理解的電力調度文本語義檢索方法。根據(jù)電力調度文本特點和應用方式,基于正則表達式對電力調度文本進行解析,提取出檢索關鍵信息以及對應的解釋文本內容。將顆?;碾娏φ{度文本信息以“實體-關系-實體”三元組形式鏈接形成電力調度文本知識圖譜,即電力調度文本語義知識庫?;谖谋鞠嗨贫燃夹g計算待檢索調度信息與電力調度文本知識圖譜中實體信息的相似距離,將相似距離最近的實體信息作為檢索內容,并通過多個區(qū)域電網(wǎng)調控中心電力調度文本驗證算法的有效性。
20世紀50年代,正則表達式作為一個簡單計算模型被提出,隨后Thompson等人將其匹配功能引入計算機主流應用。正則表達式由一系列ASCII字符構成,并包含一部分元字符,如點號(.)、星號(*)和垂直符號(|)等,這些元字符增強了正則表達式豐富的表現(xiàn)能力。正則表達式是用于描述一組字符串特征的模式,用來匹配特定的字符串。通過元字符+普通字符進行模式描述,實現(xiàn)對文本的模糊匹配。這種工具適合處理自然語言文本,使用簡單方便,效果顯著。
電力調度文本是對調度員處置業(yè)務方法、規(guī)定、經(jīng)驗等信息的總結和提煉。文本結構較為規(guī)范,一般以各級標題和各級標題所對應的內容的形式呈現(xiàn),適合用正則表達式定義電力調度文本結構匹配模式,實現(xiàn)對電力調度文本關鍵標題和對應的內容的解析,一般調度文本的關鍵信息均存在調度文本各章節(jié)的標題中。在定義正則表達式匹配模式過程中,根據(jù)電力調度文本標記數(shù)據(jù)編號和格式的特點,將標題分為一級標題、二級標題、三級標題和四級標題等,依據(jù)各級標題的特點定義正則表達式匹配模式。通過文本結構解析表達式可以得到電力調度文本各級標題以及各級標題對應的解釋內容,從而得到電力調度文本關鍵信息與其對應的解釋內容。在對電力調度文本檢索時,使用待檢索問題模糊匹配各級標題中的關鍵信息,將匹配程度最高的關鍵信息對應的解釋內容作為最佳檢索內容推薦給調度員以供參考。
知識圖譜是一種語義知識網(wǎng)絡,可以通過“實體-關系-實體”三元組的形式描述客觀事物的內在聯(lián)系,實體和屬性用節(jié)點表示,關系用有向邊表示。知識圖譜因其在知識推理方面的優(yōu)勢,被應用于智能搜索、對話問答等領域。鑒于知識圖譜這種知識表示形式和能力,可以將電力調度文本解析為顆?;瘜嶓w知識,形成電力調度文本知識圖譜,為調度文本檢索提供語義知識庫。
根據(jù)應用需求,文中對電力調度文本知識圖譜進行概念建模,指導知識圖譜構建整個過程和建模思想。將電力調度文本信息分為五類,即運行常備規(guī)程、保電規(guī)程、穩(wěn)控管理規(guī)程、專業(yè)管理規(guī)程和事故應急規(guī)程。將這五類信息作為知識圖譜的概念實體,每種概念實體包含各自對應的電力調度文本,如運行常備規(guī)程包括:調度運行規(guī)程、調度運行細則、作業(yè)指導書等。每個規(guī)程包含各章節(jié)關鍵信息、關鍵信息解釋內容等實體,同時包含規(guī)程標識、來源、編制日期、作者、原始HTML文件等屬性信息。根據(jù)上述原理和機制可以將電力調度文本信息建立為電力調度文本知識圖譜,即電力調度文本語義知識庫。
電力調度文本知識圖譜采用自底向上的知識圖譜構建方法,經(jīng)歷知識來源、知識抽取、知識融合、知識存儲、知識平臺、知識應用等步驟,構建方案如圖1所示。
圖1 電力調度文本知識圖譜構建方案
首先,收集電力調度文本和電網(wǎng)模型數(shù)據(jù),然后對電力文本信息進行清洗和預處理,基于正則表達式識別電力調度文本信息中檢索關鍵信息和其對應的解釋內容,形成“實體-關系-實體”三元組知識結構,通過實體融合后,將其存儲到數(shù)據(jù)庫中,建立電力調度文本知識圖譜,支撐電力調度文本信息的語義識別和語義檢索,具體步驟如下:
1)收集調控中心各系統(tǒng)中電力調度文本信息以及電網(wǎng)模型數(shù)據(jù)。采用文本填補、歸一化、標準化等方法對調度文本進行預處理和清洗。
2)識別電力調度文本實體信息。通過正則表達式解析電力調度文本信息結構,得到電力調度文本關鍵信息及與其對應的解釋內容。同時根據(jù)調度經(jīng)驗和規(guī)則構建電力調度專業(yè)術語庫,對解析后的電力調度文本關鍵信息中專業(yè)詞匯進行泛化,得到關鍵信息的泛化表述,提高電力調度文本信息與待檢索調度文本關鍵信息的匹配程度。
3)融合電力調度文本信息實體知識。采用規(guī)則匹配、相似度計算和人工修正等方法對電力調度文本信息中含義相同表述不同的顆?;R進行融合。
4)存儲電力調度文本信息顆粒化知識。將融合后的電力調度文本信息依據(jù)“實體-關系-實體”三元組形式存儲到MongDB數(shù)據(jù)庫中,構建出電力調度文本知識圖譜。
根據(jù)上述步驟構建電力調度文本知識圖譜,所建知識圖譜為待檢索電力調度文本信息提供語義檢索知識庫,所建部分電力調度文本知識圖譜如圖2所示。
圖2 部分電力調度文本知識圖譜
文本相似度計算可以采用統(tǒng)計學、機器學習、深度學習等方法計算不同的自然語言文本間的相似度,考慮到調度員在檢索關鍵信息時,所表達的問題描述與真實的問題描述間存在差異,因此可以采用文本相似度計算方法,計算待檢索問題在一定范圍內的語義表達,從而提升電力調度文本語義檢索準確率。電力調度文本語義檢索采用文本相似度算法計算待檢索信息與電力調度文本知識圖譜中關鍵實體的相似度,通過相似度值對待檢索信息進行語義識別,將匹配到相似度最高的關鍵實體對應信息答案推薦出來。采用詞頻-逆文件頻率(term frequency-inverse document frequency,TF-IDF)方法生成電力調度文本特征詞的詞向量,再利用余弦相似度計算各特征詞間相似度。向量余弦值計算表達式如下:
(1)
式中:Xi表示檢索信息的特征向量;Yi表示電力調度文本知識圖譜中電力調度文本信息的特征向量。
通過式(1)可以定量描述待檢索調度專業(yè)語言文本與電力調度文本知識圖譜實體信息之間的相似度,通過判別相似度值與設定閾值間關系,檢索出知識圖譜相關內容,將相似度值大于閾值所對應的電力調度文本知識圖譜信息作為檢索內容。
獲取某區(qū)域電網(wǎng)調控中心的電力調度文本作為研究對象,基于正則表達式識別53篇電力調度文本中關鍵檢索信息與其對應的檢索內容,生成大量的電力調度文本知識,依據(jù)其內在聯(lián)系以“實體-關系-實體”的知識組合方式構建電力調度文本知識圖譜,其中包含運行常備規(guī)程、保電規(guī)程、穩(wěn)控管理規(guī)程、專業(yè)管理規(guī)程和事故應急規(guī)程五類知識。
采用規(guī)則和TF-IDF+規(guī)則的檢索方法驗證對電力調度文本的檢索效果,并對兩種算法的檢索準確率進行統(tǒng)計,見表1。
表1 電力調度文本檢索效果對比
其中基于規(guī)則的檢索方法是指根據(jù)電力調度文本特點定義的專業(yè)術語匹配模式,待檢索問題中含有匹配模式關鍵詞將會檢索出應對的內容?;赥F-IDF+規(guī)則的檢索方法是指通過計算待檢索問題詞向量與知識圖譜內容的相似度,檢索出對應的內容,對于語義理解不準確的,可以通過適當?shù)囊?guī)則進行提升。
通過對表1數(shù)據(jù)分析,電力調度文本五類知識的查準率均在80%以上,其中事故應急類知識查準率在90%以上,檢索效果要遠優(yōu)于基于規(guī)則的檢索方法,檢索過程耗時小于1 s,具有較高的檢索準確率和檢索效率,適合實際工程應用。
目前文中所提的電力調度文本檢索方法已經(jīng)在調控知識庫產品中應用,可以部署在智能調度控制系統(tǒng)、調控云系統(tǒng)以及正在建設的新一代調度技術支持系統(tǒng)中,同時也封裝了電力調度文本智能檢索服務,供其他系統(tǒng)應用訪問,大幅度提升了電力調度文本關鍵信息的檢索準確率和檢索效率,同時提升了海量電力調度文本的在線管理能力,為調度運行知識傳承和共享提供了技術支撐。
為了提升電力調度文本的在線應用效果和輔助決策能力,提出了基于自然語言處理的電力調度文本檢索方法?;谡齽t表達式識別出電力調度文本中關鍵信息與其對應的解釋內容,采用知識圖譜構建方法建立了電力調度文本知識圖譜?;赥F-IDF方法生成電力調度文本特征詞的詞向量,通過計算待檢索信息特征向量與電力調度文本知識圖譜實體特征向量間的相似度值,實現(xiàn)了電力調度文本信息的檢索。通過某電力調控中心文本數(shù)據(jù)的驗證,文中所提電力調度文本檢索方法具有較高的檢索效率和準確率,工程實用價值較高。