王峰 高強(qiáng) 代作松 曹國強(qiáng)
(1.南京南瑞信息通信科技有限公司 江蘇南京 210000;2.國網(wǎng)遼寧省電力有限公司信息通信分公司遼寧沈陽 110000)
為適應(yīng)大數(shù)據(jù)與“互聯(lián)網(wǎng)+”融合創(chuàng)新應(yīng)用的需求,國家電網(wǎng)公司于2015年初正式提出了“全球能源互聯(lián)網(wǎng)”的發(fā)展戰(zhàn)略,即以特高壓電網(wǎng)為骨干網(wǎng)架(通道)輸送清潔能源、建設(shè)全球互聯(lián)泛在的堅(jiān)強(qiáng)智能電網(wǎng)為目標(biāo),將應(yīng)用大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、移動互聯(lián)、智能穿戴、計(jì)算機(jī)視覺等技術(shù),增強(qiáng)輸變電設(shè)備狀態(tài)的智能感知與實(shí)時評價、設(shè)備精準(zhǔn)定位、故障自動預(yù)警等能力,優(yōu)化大電網(wǎng)分布部署與集中協(xié)調(diào)的控制模式。全球能源互聯(lián)網(wǎng)將運(yùn)用大數(shù)據(jù)技術(shù),對多元能源數(shù)據(jù)(如燃?xì)饩W(wǎng)數(shù)據(jù)、熱力網(wǎng)數(shù)據(jù)、發(fā)電廠數(shù)據(jù)、電網(wǎng)數(shù)據(jù)等)和經(jīng)濟(jì)、氣候等外部數(shù)據(jù)進(jìn)行快速、及時、準(zhǔn)確的分析,提升能源供應(yīng)的效率,實(shí)現(xiàn)互聯(lián)網(wǎng)與風(fēng)能、太陽能、地?zé)崮艿瓤稍偕茉吹娜诤吓c全球能源互享。
數(shù)字化發(fā)展是建設(shè)數(shù)字中國的重要戰(zhàn)略布局,數(shù)字化轉(zhuǎn)型過程中,信息化數(shù)據(jù)的真實(shí)性、信息化業(yè)務(wù)流程的可靠性、關(guān)鍵業(yè)務(wù)流轉(zhuǎn)的可溯源性一直是企業(yè)資源管理數(shù)字化的重要問題。特別是在電網(wǎng)企業(yè)在開展電力工程基建、線路設(shè)備運(yùn)檢等生產(chǎn)經(jīng)營活動中,數(shù)據(jù)誠信體系的構(gòu)建更是成為“后信息化時代”的重要課題。重要的核心業(yè)務(wù)數(shù)據(jù)的采集、固化、傳輸、封存到查驗(yàn)、鑒定等工作的公正性和權(quán)威性,直接決定了數(shù)據(jù)和業(yè)務(wù)的公信力[1],取證手段有限、證據(jù)效力不高及傳統(tǒng)司法鑒定服務(wù)不夠便捷等問題逐漸成為安全生產(chǎn)電子證據(jù)的重要研究難點(diǎn)。
本文實(shí)現(xiàn)的智能推送算法可以方便、安全地部署于國網(wǎng)的各類移動應(yīng)用中。第一,易于實(shí)現(xiàn)和維護(hù)。開發(fā)者可以借此方便地處理全部數(shù)據(jù),并且算法易于測試。第二,支持運(yùn)行時更新。新增一個評分項(xiàng)時,能即時更新得到新的推薦結(jié)果,高效率查詢響應(yīng),即快速地執(zhí)行查詢,雖然這一般需要占用更多的空間。第三,對初次訪問者要求低。對于初次的訪問者,其評分項(xiàng)一般在這種情況下也可以獲得較好的推薦結(jié)果。第四,合理的準(zhǔn)確性。與最準(zhǔn)確的推薦算法相比,此方法應(yīng)該是在合理的準(zhǔn)確范圍內(nèi)的,而且準(zhǔn)確性方面的微小增長不應(yīng)該犧牲算法的簡單性和擴(kuò)展性。
本文提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的協(xié)同推薦算法(見圖1),由于其較好的性能和可解釋性,最近已成為一種廣泛應(yīng)用的圖分析方法。推薦系統(tǒng)中的用戶—項(xiàng)目交互關(guān)系可以看作一個圖,即用戶和項(xiàng)目作為節(jié)點(diǎn),兩者之間的交互作為邊,同時還可以融入用戶的社交網(wǎng)絡(luò)、項(xiàng)目的屬性信息等。面對推薦中的用戶與項(xiàng)目為不同類型的節(jié)點(diǎn),可以應(yīng)用異質(zhì)信息網(wǎng)絡(luò);面對數(shù)據(jù)稀疏及長尾問題,可以引入鄰居采樣等技術(shù);面對圖的大規(guī)模問題,可以進(jìn)行采樣及子圖訓(xùn)練等優(yōu)化方式。
圖1 協(xié)同推薦算法
為了解決上述限制,本文提出了一種基于采樣的關(guān)系型圖神經(jīng)網(wǎng)絡(luò),該算法可以從知識圖中提取與推薦相關(guān)的信息。首先,本文根據(jù)它們的中間實(shí)體連接知識圖中的項(xiàng)目并創(chuàng)建新的關(guān)系,例如,在電網(wǎng)大數(shù)據(jù)中,相關(guān)的項(xiàng)目由同一個單位審批實(shí)施,那它們就可以標(biāo)記為關(guān)聯(lián)項(xiàng)目關(guān)系,構(gòu)建過程如圖2所示。通過這種方式,本文可以明確地揭示項(xiàng)目間的關(guān)系。同時,本文采用基于采樣的鄰居聚合來避免鄰居大小的指數(shù)增長,從而緩解過度平滑問題。
圖2 關(guān)系圖的建立
在基于知識圖譜的協(xié)同推薦算法中,大多數(shù)基于采樣的圖神經(jīng)網(wǎng)絡(luò)采用均為鄰居的均勻采樣,無法區(qū)分用戶的喜好及相關(guān)關(guān)系[2]?,F(xiàn)有的工作中,采樣的策略與優(yōu)化過程是分離的,這進(jìn)一步阻礙了“電力數(shù)據(jù)口袋書”業(yè)務(wù)中端到端、用戶到用戶的訓(xùn)練方式。
本文中提出了一種全新的訓(xùn)練模型,專利中涉及電力數(shù)據(jù)知識圖譜上的相關(guān)業(yè)務(wù),使用關(guān)系圖神經(jīng)網(wǎng)絡(luò)進(jìn)行推薦,疊加用戶喜好及用戶權(quán)限。對于給定的用戶登錄及相關(guān)電路數(shù)據(jù)業(yè)務(wù),如果可以確定它們是關(guān)聯(lián)關(guān)系或者關(guān)聯(lián)的節(jié)點(diǎn),本文首先就計(jì)算關(guān)聯(lián)項(xiàng)的相關(guān)性值。相關(guān)性分?jǐn)?shù)用于對top-K相關(guān)的鄰居項(xiàng)進(jìn)行采樣,因此,本文的模型可以根據(jù)關(guān)系和項(xiàng)目類型在連接的鄰居中區(qū)分推薦相關(guān)項(xiàng)目。本文還在采樣過程中采用了Gumbel-Softmax 重新參數(shù)化技巧,它從分類分布中近似采樣概率,從而使采樣過程可微,因此,采樣組件與訓(xùn)練目標(biāo)聯(lián)合優(yōu)化,從而享受端到端的時尚。本文根據(jù)關(guān)系和項(xiàng)目類型計(jì)算相關(guān)性分?jǐn)?shù)以進(jìn)行采樣,這可以導(dǎo)航模型以選擇推薦相關(guān)項(xiàng)目。
基于知識感知的“電力數(shù)據(jù)口袋書”項(xiàng)目的議題推薦的目標(biāo)是:在給定了電力數(shù)據(jù)業(yè)務(wù)中用戶的歷史交互數(shù)據(jù)及電力業(yè)務(wù)的知識圖譜的情況下,預(yù)測用戶u是否對新業(yè)務(wù)或者新項(xiàng)目p感興趣。具體的說,來自用戶U與電力業(yè)務(wù)或項(xiàng)目P的歷史交互表示為用戶—業(yè)務(wù)的二維圖關(guān)系GY={(u,yup,p)|u∈U,p∈P},其中,yup=1表示用戶u通過點(diǎn)擊、瀏覽等方式與電力業(yè)務(wù)p進(jìn)行了交互。知識圖譜由與電力業(yè)務(wù)或者項(xiàng)目的關(guān)聯(lián)屬性共同組成,如電力業(yè)務(wù)的主管單位、項(xiàng)目的類型是否為國網(wǎng)下?lián)堋⑹〉厥械南嚓P(guān)業(yè)務(wù)來源、業(yè)務(wù)的屬性(發(fā)、送、輸、變、配)。本文將知識圖譜統(tǒng)一為有向異構(gòu)圖GK={(l,r,t)|l,t∈E,r∈R}(如甘肅省公司,國網(wǎng)下?lián)芸萍柬?xiàng)目,二〇二〇年,第二批),其中,E和R表示實(shí)體和關(guān)系。因此,知識感知推薦任務(wù)可以形式化如下:
式中,yup是對用戶對項(xiàng)目p興趣的預(yù)測,Λ是權(quán)重為ω的學(xué)習(xí)預(yù)測函數(shù)。
節(jié)點(diǎn)度偏度限制了知識圖譜中具有稀缺連接的項(xiàng)目的可用鄰居項(xiàng)目池。本文提出了“協(xié)同交互”模式來建立更高階的項(xiàng)目—項(xiàng)目、業(yè)務(wù)—業(yè)務(wù)及實(shí)體—實(shí)體的關(guān)系,用以縮短相關(guān)項(xiàng)目之間的路徑距離。舉例說明,用戶可能對同一電力業(yè)務(wù)發(fā)布單位所撰寫的電力業(yè)務(wù)報告感興趣,本文可以從“電力數(shù)據(jù)口袋書”中設(shè)置的知識圖GK中提取協(xié)同交互模式,并使用一組新的關(guān)聯(lián)關(guān)系構(gòu)建一個業(yè)務(wù)—業(yè)務(wù)的協(xié)同交互無向圖GI,其定義如下:
式中,rn表示新的“I-r”關(guān)系。遵循這些關(guān)系的導(dǎo)航,本文連接具有協(xié)同交互模式的項(xiàng)目,并構(gòu)建項(xiàng)目—項(xiàng)目圖,這樣,本文可以直接連接高階鄰居,避免感受野的指數(shù)增長。本文將用戶—項(xiàng)目二部圖GY和項(xiàng)目—項(xiàng)目協(xié)同交互圖GI統(tǒng)一為一個單一的圖,稱為關(guān)系圖,因此,本文可以在后續(xù)任務(wù)中考慮用戶和物品之間的所有這些關(guān)系[3]。
在這里,本文介紹了提議的用于鄰居選擇的可微采樣,本文只從涉及的電力項(xiàng)目的角度來說明它,因?yàn)樗鼘τ脩魜碚f是相同的過程,協(xié)同交互關(guān)系與推薦的相關(guān)性因用戶而異。例如,相同類型的電力業(yè)務(wù)的影響比相同的項(xiàng)目負(fù)責(zé)人影響更大。此外,協(xié)同交互關(guān)系是不平衡的,因?yàn)椤半娏?shù)據(jù)口袋書”中相關(guān)項(xiàng)目負(fù)責(zé)人的業(yè)務(wù)到業(yè)務(wù)的對比就比同類別的要少得多,這會影響到電力數(shù)據(jù)業(yè)務(wù)協(xié)同推薦的有效性,即當(dāng)潛在鄰居池很大時,高度相關(guān)的鄰居會減少。為了降低這一影響,保留真正相關(guān)的信息,本文引入了從關(guān)系角度分配權(quán)重的關(guān)系感知采樣方法,如圖3所示。采樣過程中,首先為每個項(xiàng)目定義一個新的關(guān)系感知相關(guān)性分?jǐn)?shù)分布,然后從中采樣。項(xiàng)i在其相關(guān)鄰居Z(i)上的關(guān)系感知相關(guān)性得分分布定義如下:
圖3 相關(guān)鄰居節(jié)點(diǎn)的構(gòu)建
式中:m(pi,j=1|ωl,b)表示項(xiàng)目j與目標(biāo)項(xiàng)目i相關(guān)的合理性;ωl∈Rd和b∈R是可學(xué)習(xí)的權(quán)重和偏差;rij∈Rd和sj∈Rd分別是關(guān)系和鄰居項(xiàng)的嵌入,而d是嵌入的維度。相關(guān)性和鄰居項(xiàng)共同決定了它的鄰居相關(guān)概率,這就強(qiáng)調(diào)了在采樣的相關(guān)性計(jì)算中關(guān)系意識的必要性。本文對用戶應(yīng)用相同的相關(guān)性計(jì)算過程[4-5]。
給定計(jì)算出的相關(guān)性分布,本文因此只選擇最相關(guān)的top-K項(xiàng)目,也就是說,推薦性能高度取決于選擇程序的結(jié)果。為了使這個過程可區(qū)分并與優(yōu)化過程相結(jié)合,本文應(yīng)用了Gumbel-Softmax 重新參數(shù)化技巧。假定Gumbel噪聲g~Gumbel(0,1),本文可以使用以下等式繪制軟分類樣本:
式中:mi∈Rd由等式(3)中定義的所有鄰居j∈Z(i)的相關(guān)性分?jǐn)?shù)m(pi,j)組成;T是退火溫度。
前期的工作已經(jīng)證明,當(dāng)T趨0 時,yi近似于單熱編碼器。本文重復(fù)上述過程K次,并對近似的單熱編碼器求和。在每次推薦開始時,所選項(xiàng)目的mi中的相關(guān)性得分將設(shè)置為0,這樣,本文可以獲得一個K-hot向量,表示為后續(xù)學(xué)習(xí)過程選擇的top-K相關(guān)項(xiàng)目。
除了關(guān)系因素之外,本文還應(yīng)該在top-K鄰居消息傳播過程中考慮疊加用戶對電力數(shù)據(jù)業(yè)務(wù)的喜好[6]。由于用戶可能對各種關(guān)系有不同的偏好,本文在聚合中考慮了這些關(guān)系。聚合過程如圖4所示,推斷項(xiàng)目i的嵌入如下:
圖4 用戶聚合過程
式中,oij是從采樣過程中獲得的項(xiàng)目K-hot向量中的第j位置值,表示項(xiàng)目j是否被選為項(xiàng)目i的鄰居。su∈Rd是用戶的嵌入。對于用戶,本文在類似的過程中獲得推斷的用戶嵌入,但注意力是使用連接的項(xiàng)目嵌入計(jì)算的。
本文使用點(diǎn)積生成用戶u對項(xiàng)目i的偏好分?jǐn)?shù),分別具有推斷的用戶/項(xiàng)目嵌入和預(yù)測計(jì)算如下:
本文使用成對BPR 損失來優(yōu)化top-N推薦,其定義如下:
式中,Ψ是一組三元組,每個三元組由用戶u、一個交互項(xiàng)i和一個從用戶u從未與之交互的項(xiàng)中采樣的負(fù)項(xiàng)組成。
針對電力大數(shù)據(jù)業(yè)務(wù)中的查詢及使用,本文研發(fā)設(shè)計(jì)了基于采樣的關(guān)系型圖神經(jīng)網(wǎng)絡(luò)疊加喜好的多維度智能推薦算法,詳細(xì)討論了算法的設(shè)計(jì)流程、參數(shù)優(yōu)化,并給出了實(shí)例化的論證。與傳統(tǒng)的推薦算法相比,該算法推薦準(zhǔn)確度高,同時在大數(shù)據(jù)環(huán)境下較為現(xiàn)實(shí)。此外,由于疊加了用戶權(quán)限及喜好,相關(guān)算法能夠?qū)﹄娏π袠I(yè)的用戶數(shù)據(jù)進(jìn)行分析,并匹配出適合的目標(biāo)用戶,最終實(shí)現(xiàn)電力數(shù)據(jù)的高質(zhì)量推送。