薛曉茹,徐道磊,路宇,唐軼軒
(國網(wǎng)安徽省電力有限公司信息通信分公司,安徽合肥 230000)
隨著電力企業(yè)數(shù)字化轉(zhuǎn)型的推進,當前電力公司已普遍依靠移動網(wǎng)絡(luò)系統(tǒng)提供智能客服功能,并由智能機器人進行客戶疑問解答。但智能機器人存在復(fù)雜專業(yè)問題難以識別、無法幫助客戶進行業(yè)務(wù)辦理、與客戶在線實時互動能力不足等問題,從而影響了客戶線上辦理業(yè)務(wù)的體驗及電力公司線上業(yè)務(wù)的進一步拓展。目前,系統(tǒng)后臺所使用智能客服機器人的服務(wù)能力有限,且知識更新仍需軟件提供商現(xiàn)場維護,費時費力。因此,亟需建設(shè)實時、互動化與智能化的線上服務(wù)渠道[1-6]。
隨著人工智能技術(shù)(Artificial Intelligence,AI)的發(fā)展,傳統(tǒng)的離散、非結(jié)構(gòu)化知識體系已逐步被高組織性的語義網(wǎng)絡(luò)所取代。建立電力營銷領(lǐng)域的知識圖譜(Knowledge Graph),是將復(fù)雜多源的專業(yè)業(yè)務(wù)知識結(jié)構(gòu)化的過程,也是高效查找復(fù)雜關(guān)聯(lián)信息、提升電力數(shù)據(jù)分析效率及整體服務(wù)效能的關(guān)鍵路徑[7-11]。基于知識圖譜可隨時完成新營銷業(yè)務(wù)流程的學習和嵌入,從而不斷推進“互聯(lián)網(wǎng)+”營銷服務(wù)的深入。該文在電力營銷知識圖譜的基礎(chǔ)上,對數(shù)據(jù)分析的方法展開了研究,并介紹了傳統(tǒng)知識圖譜的構(gòu)建與表示方法。同時還基于神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)對知識圖譜的分布式表示方法進行了改進,進而提升了傳統(tǒng)方法在復(fù)雜電力營銷語義下映射的準確性。
知識圖譜是一種由節(jié)點、邊組成的大規(guī)模語義網(wǎng)絡(luò),且其邊表征了節(jié)點間的語義關(guān)聯(lián)[12-14]。知識的獲取、融合、計算與推理是知識圖譜中的關(guān)鍵技術(shù)。而這些技術(shù)的實現(xiàn)基礎(chǔ)則是知識圖譜的分布式表示,其對于圖譜的構(gòu)建、管理效率均具有決定性的影響[15]。通過分布式表示,可將節(jié)點、關(guān)系間的詞向量映射至低維空間,并高效存儲知識圖譜的結(jié)構(gòu)及語義特性。
對于電力營銷系統(tǒng),基于原有基礎(chǔ)數(shù)據(jù)構(gòu)建知識圖譜的過程如圖1 所示。
圖1 電力營銷服務(wù)知識圖譜構(gòu)建
在圖中流程的基礎(chǔ)上,為實現(xiàn)電力營銷知識圖譜的構(gòu)建,需研究圖譜的分布式表示技術(shù)。在計算機中知識圖譜的基本存儲單元是三元組,其可表示為:
其中,h為頭實體,t為尾實體,r則為h到t的約束關(guān)系。E、R、S分別為知識圖譜網(wǎng)絡(luò)的實體、關(guān)系與三元組集合。根據(jù)如圖2 所示的基于翻譯的知識圖譜分布式表示方法TransE(Translating Embedding),在h和t之間經(jīng)過關(guān)系r可達到距離最近,即:
圖2 TransE方法示意圖
記f為度量h、t實體間的分數(shù)函數(shù):
其中,Ln為范數(shù)。通過優(yōu)化得到基于式(3)的鉸鏈損失(Hinge Loss)準則Ψ為:
根據(jù)h、r、t三者映射空間的不同,在TransE 的基礎(chǔ)上又發(fā)展出TransD、TransH 等系列算法。這類基于翻譯思想的Trans 系列分布式表示方法,憑借其參數(shù)少、訓(xùn)練高效的優(yōu)勢均取得了良好的應(yīng)用效果。但此類方法更適用于一對一的線性約束,而對大規(guī)模知識圖譜下的復(fù)雜三元組關(guān)系無法準確表述。
為表述知識圖譜的多約束特性,考慮到實體、關(guān)系之間并無本質(zhì)差異,文中從三元組的交互特性出發(fā)[16],設(shè)計了如圖3 所示的三分支并行神經(jīng)網(wǎng)絡(luò)(Three Branch Parallel Neural Network,TBPNN)。該網(wǎng)絡(luò)內(nèi)的分支結(jié)構(gòu)相似,且每個分支均由交互層、非線性層及輸出層組成。
圖3 TBPNN網(wǎng)絡(luò)結(jié)構(gòu)
記W為網(wǎng)絡(luò)的傳播權(quán)重矩陣,b為神經(jīng)元傳播的偏置項,則網(wǎng)絡(luò)在交互層、非線性層、輸出層的傳播函數(shù)分別可表示為:
TBPNN 網(wǎng)絡(luò)在訓(xùn)練時,采用誤差反向傳播(Back Propagation,BP)算法。由于三分支網(wǎng)絡(luò)的輸入對于正樣本具有相似度,而對負樣本的相似度則較低。因此,傳統(tǒng)網(wǎng)絡(luò)的損失函數(shù)會在正負樣本間震蕩。為了克服該影響,引入了比例Sigmoid 函數(shù),則有:
其中,α為動態(tài)調(diào)整因子,其可調(diào)節(jié)Sigmoid 函數(shù)的取值范圍。根據(jù)式(9),能夠得到鉸鏈損失函數(shù)為:
其中,γ是正負樣本間隔,且為S(T′)的負樣本集。由隨機抽取的實體或關(guān)系h′、r′、t′對原有三元組的實體或關(guān)系進行替換得到:
經(jīng)測算,機組90%THA、75%THA和50%THA負荷工況鍋爐給水溫度分別提高6 ℃、12.1 ℃和18.1 ℃;汽輪機熱耗下降5、13和44 kJ/kWh;鍋爐排煙溫度升高1.5、3和5 ℃,鍋爐效率下降0.05%、0.15%和0.25%。汽輪機回熱系統(tǒng)優(yōu)化后,各負荷工況鍋爐脫硝裝置入口煙氣溫度提升至310 ℃以上,有利于部分負荷工況脫硝系統(tǒng)的安全運行[16],確保SCR脫硝裝置在全負荷范圍內(nèi)處于催化劑的高效區(qū)運行。
為保證式(10)的函數(shù)在梯度下降過程中是平滑的,該文使用FLOYD 算法對其進行平滑近似,則有:
在訓(xùn)練過程中,式(12)的漸進上界如下:
實體和關(guān)系之間通過上文中的算法訓(xùn)練完成分布式表示,并得到低維嵌入向量。為評估該向量是否能準確表征知識圖譜的結(jié)構(gòu)和語義特性,文中通過鏈接預(yù)測(Link Prediction)和三元組分類(Triple Classification)進行判別。
1)鏈接預(yù)測
鏈接預(yù)測模擬了知識圖譜的知識推理過程,即通過(h,r,t)中的兩個元素預(yù)測第三個元素。具體可表示為:
以h的預(yù)測為例,首先,將h替換為E中的所有實體,構(gòu)造與E規(guī)模相同的候選集。然后,使用上文所述的函數(shù)進行評價,進而可得到h所對應(yīng)的三元組在該候選集中的排名。同時,t的預(yù)測也與此一致。記候選集的規(guī)模為N,則使用以下兩個指標對鏈接預(yù)測結(jié)果進行評估,則有:
其中,rank(i)表示被預(yù)測的三元組在所有生成候選集中的排名,n表示rank(i)<10 的個數(shù)。根據(jù)二者的定義,MeanRank 越大,Hit@10 越小,且表示鏈接預(yù)測的效果也越優(yōu)。
2)三元組分類
該分類實驗用于模擬給定的三元組是否符合知識圖譜的語義約束,從而避免知識圖譜的錯誤擴增。在實驗前需提前設(shè)定閾值δ,用于區(qū)分正確與錯誤的三元組。當傳播函數(shù)的輸出值大于δ時,將該樣本評判為正確三元組,并記正確樣本的個數(shù)為T;而當輸出值小于δ時,則將該樣本評判為錯誤組,且記錯誤樣本的個數(shù)為F。使用分類精度P作為評價指標,則有:
由于在已構(gòu)建的電力營銷知識圖譜中僅包含正樣本三元組,因此為了開展實驗,需要人工構(gòu)造一定比例的負樣本三元組。文中通過將正樣本三元組中的實體隨機替換為其他實體的方式,來構(gòu)造等量的負樣本三元組。構(gòu)建完成后,所使用的知識圖譜相關(guān)統(tǒng)計信息如表1 所示。
表1 知識圖譜統(tǒng)計信息
仿真實驗所使用的計算機軟硬件環(huán)境,如表2 所示。而實驗中的TBPNN網(wǎng)絡(luò)的相關(guān)參數(shù),如表3所示。
表2 算法仿真軟硬件環(huán)境
根據(jù)TBPNN 的網(wǎng)絡(luò)結(jié)構(gòu),交互層、非線性層的數(shù)量決定著模型訓(xùn)練過程中的參數(shù)個數(shù),并會影響模型的泛化性能。因此,需結(jié)合電力營銷數(shù)據(jù)庫的規(guī)模,合理設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)。
對于交互層而言,若網(wǎng)絡(luò)需要取消該層,則僅需將其權(quán)重傳遞矩陣參數(shù)設(shè)置為0 即可;而針對非線性層,使用與第一個交互層相同結(jié)構(gòu)的非線性層便可進行擴增。此外,為了評估模型的性能,該文還使用了經(jīng)典的TransE、TransH 及TransD 作為對照組。鏈接預(yù)測的實驗結(jié)果,如表4 所示。
表4 鏈接預(yù)測實驗結(jié)果
表4 中,TBPNN_i表示該網(wǎng)絡(luò)具有i個非線性層,no_inter 表示無交互層。由表可知,在無交互層時,算法的MeanRank 和Hit@10 與Trans 系列算法結(jié)果較為接近。而當引入交互層后,算法的性能指標有了顯著改善。此外分支網(wǎng)絡(luò)非線性層數(shù)的增加會造成模型中的參數(shù)增長,并導(dǎo)致模型訓(xùn)練出現(xiàn)過擬合現(xiàn)象。根據(jù)表4 的測試結(jié)果可知,選取單層非線性層結(jié)構(gòu)具有最優(yōu)的預(yù)測效果。此外,相較于TransE 算法,該文算法在MeanRank 上降低了39.9%,而在Hit@10 指標上則提升了41.5%。
在進行三元組分類時,根據(jù)電力營銷數(shù)據(jù)庫的組成,將三元組按照映射關(guān)系進行分類。當一個頭實體對應(yīng)兩個及以上實體時,則將其記作一對多實體。各種映射關(guān)系在數(shù)據(jù)集中的占比如表5 所示。
表5 三元組映射關(guān)系分類占比
不同算法的三元組分類實驗精度對比結(jié)果,如表6 所示。
表6 三元組分類實驗精度統(tǒng)計
從表中可看出,在無交互層時,模型在一對多、多對多關(guān)系分類上的精度明顯下降。結(jié)合表4 中的實驗結(jié)果可以證明,交互層主要作用于三元組中不通過元素間復(fù)雜關(guān)系的映射。此外,從TBPNN_i的不同實驗結(jié)果看,隨著實體與關(guān)系間的映射關(guān)系逐漸復(fù)雜,多參數(shù)構(gòu)成的多非線性層TBPNN 網(wǎng)絡(luò)的性能與單網(wǎng)絡(luò)的分類性能也在不斷接近。由此說明,對于較為復(fù)雜的元素關(guān)系分布式表示,可通過增加非線性層的數(shù)量來提升網(wǎng)絡(luò)擬合能力。整體來看,所提TBPNN 算法相較于Trans 系列方法在三元組的分類精度上具有明顯的提升。同時與TransE 算法相比,該文算法在對一對一關(guān)系、一對多關(guān)系、多對多關(guān)系的三元組分類上,精度分別提升了3.3%、39.0%、54.7%。
在電力營銷系統(tǒng)的知識圖譜中,該文針對傳統(tǒng)分布式表示在復(fù)雜圖譜下多語義實體間約束力不足的問題進行了改進,提出了一種三分支并行神經(jīng)網(wǎng)絡(luò)算法。仿真分析結(jié)果表明,所提出的TBPNN 方法較TransE 等算法在知識圖譜的分布式表示效果上具有較大的提升。隨著未來電力營銷知識圖譜的迭代,該文算法將有效提升電力營銷系統(tǒng)的數(shù)據(jù)分析效率與智能化水平。