唐崔巍 王瓊 徐海勇 黃巖
【摘要】? ? 基于運(yùn)營商5G套餐的精準(zhǔn)營銷場景,將用戶數(shù)據(jù)、產(chǎn)品數(shù)據(jù)、訪問行為數(shù)據(jù)等多源異構(gòu)數(shù)據(jù)進(jìn)行圖結(jié)構(gòu)轉(zhuǎn)化,文章采用InfoMap算法做圖數(shù)據(jù)節(jié)點(diǎn)聚類,使用圖卷積神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)圖數(shù)據(jù)深度計(jì)算挖掘,并在群簇節(jié)點(diǎn)間通過隨機(jī)刪邊技術(shù)進(jìn)行結(jié)構(gòu)優(yōu)化。結(jié)果顯示,基于InfoMap算法的圖卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)刪邊技術(shù)相結(jié)合的潛客挖掘模型的推薦準(zhǔn)確性具有明顯提升。在數(shù)字化轉(zhuǎn)型時(shí)期,該潛客挖掘算法為運(yùn)營商提供了精準(zhǔn)營銷、客戶管理等方面的新思路。
【關(guān)鍵詞】? ? 圖卷積神經(jīng)網(wǎng)絡(luò)? ? InfoMap? ? 隨機(jī)刪邊技術(shù)? ? 潛客挖掘
Research on the Application of Graph Convolution Network in the Telecom OperatorsPotential Customer Mining
TANG Cui-wei, WANG Qiong,XU Hai-yong, HUANG Yan,
(China Mobile Information Technology Co., Ltd., Beijing 100037,China)
Abstract: Based on the 5G package precision marketing scenario, this paper converted users, products and behaviors data into graph-structured data.This paper applied the InfoMap algorithm to cluster nodes of graph data, utilized graph convolution neural network technology to carry out deep computation and mining of graph data, performed random drop edge technology among cluster nodes of the graph data to achieve structural optimization. The results showed that this studys model which was based on InfoMap algorithm combining graph convolution neural network with random drop edge technology model improved the recommend accuracy significantly. In the digital transformation period, the potential customer mining algorithm provides operators with new ideas in precision marketing and customer management.
Keywords: graph convolution neural network; InfoMap; dropedge; potential customers mining
引言:
隨著 “5G+工業(yè)互聯(lián)網(wǎng)”的應(yīng)用場景迅速發(fā)展,企業(yè)數(shù)字化、智能化轉(zhuǎn)型正在加速形成,運(yùn)營商的業(yè)務(wù)更趨于互聯(lián)網(wǎng)化和個(gè)性化,深度把握市場需求,為客戶創(chuàng)造價(jià)值對(duì)運(yùn)營商來說至關(guān)重要。業(yè)務(wù)推薦主要是通過指標(biāo)分段或以存量標(biāo)簽為規(guī)則篩選目標(biāo)用戶,再將配置好的商品名稱、商品圖片、商品價(jià)格、優(yōu)惠方式以及商品鏈接進(jìn)行推送,然而這種推薦模式存在定位人群不精準(zhǔn),推送商品內(nèi)容與目標(biāo)人群不匹配等問題,對(duì)用戶信息數(shù)據(jù)的利用率仍待提升。因此,提升運(yùn)營商潛客挖掘的匹配度和準(zhǔn)確率愈發(fā)重要。本文基于運(yùn)營商線上用戶群體,將推薦引擎與5G套餐推薦場景相結(jié)合,采用GCN圖挖掘算法進(jìn)行5G套餐的用戶訂購行為和用戶特征挖掘分析,深度訓(xùn)練優(yōu)化5G套餐訂購潛客挖掘模型,挖掘與現(xiàn)有訂購5G套餐用戶的特征相似用戶,從而輸出更精準(zhǔn)有效的潛在客戶名單,實(shí)現(xiàn)用戶數(shù)據(jù)價(jià)值充分挖掘。
一、技術(shù)現(xiàn)狀分析
1.1傳統(tǒng)推薦算法分析
傳統(tǒng)潛客挖掘方法的基本原理是基于用戶與用戶,產(chǎn)品與產(chǎn)品,產(chǎn)品與用戶之間的關(guān)聯(lián)關(guān)系進(jìn)行推薦計(jì)算[1]。然而,傳統(tǒng)推薦算法存在諸多問題,如算法缺乏挖掘深度關(guān)聯(lián)信息的能力,推薦內(nèi)容與用戶所需內(nèi)容可能只是共有很多淺層聯(lián)系,如共有很多相同的關(guān)鍵字詞,但在語義表達(dá)中并不相關(guān),存在推薦結(jié)果形似而非神似的問題。此外,不論是人工為內(nèi)容添加標(biāo)簽,還是構(gòu)建領(lǐng)域本體或建立規(guī)則進(jìn)行推薦,都需要投入大量人工,訓(xùn)練過程耗時(shí)較長,并要求處理者具有一定的行業(yè)知識(shí)儲(chǔ)備。推薦結(jié)果的精準(zhǔn)度不僅取決于算法模型的精確性,還取決于人工工作的關(guān)聯(lián)性和準(zhǔn)確性。最后,傳統(tǒng)推薦算法對(duì)數(shù)據(jù)利用并不充分,導(dǎo)致推薦準(zhǔn)確率仍有較大提升空間。如何根據(jù)已有的用戶行為和信息,由推薦算法引擎精準(zhǔn)定位出待推薦的人群,準(zhǔn)確地進(jìn)行潛客挖掘和用戶偏好預(yù)測是一個(gè)重要的問題。
1.2圖神經(jīng)網(wǎng)絡(luò)推薦分析
圖數(shù)據(jù)在現(xiàn)實(shí)世界中廣泛存在,2009年Franco博士在其論文中定義了圖神經(jīng)網(wǎng)絡(luò)[2]的理論基礎(chǔ),相較于傳統(tǒng)推薦算法具有較高的精準(zhǔn)度和較快的計(jì)算速度。圖神經(jīng)網(wǎng)絡(luò)(GNN)也在相關(guān)的機(jī)器學(xué)習(xí)任務(wù)中取得了不錯(cuò)的效果,但簡單地將數(shù)據(jù)給模型、希望其擬合出來可以得到預(yù)期結(jié)果的一整套函數(shù)在某種程度上是不負(fù)責(zé)任的。除此之外,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)加深,圖神經(jīng)網(wǎng)絡(luò)存在過擬合和過平滑的問題,從而阻礙了深層圖神經(jīng)網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)的分類效果,影響最終的推薦模型性能。Bruna于2013年提出的圖卷積神經(jīng)網(wǎng)絡(luò)算法[3]是基于圖神經(jīng)網(wǎng)絡(luò)的算法升級(jí),在一定程度上緩解了過擬合和過平滑,但是圖卷積神經(jīng)網(wǎng)絡(luò)算法存在模型單一,缺乏實(shí)際生產(chǎn)的案例驗(yàn)證等問題。同時(shí),5G套餐精準(zhǔn)推薦業(yè)務(wù)具有極強(qiáng)的時(shí)效性和不確定性,這將直接影響潛客挖掘的精準(zhǔn)性。因此需要在圖卷積神經(jīng)網(wǎng)絡(luò)與其他算法相結(jié)合,來提升潛客挖掘算法模型的精度和效率。本文將針對(duì)5G套餐客戶線上推送場景,從圖卷積神經(jīng)網(wǎng)絡(luò)算法入手,結(jié)合其他模型優(yōu)化算法,從而更加深度精準(zhǔn)的挖掘訂購5G套餐的潛在客戶。
四、潛客挖掘算法實(shí)現(xiàn)
4.1 實(shí)驗(yàn)概述
我們根據(jù)獲取的運(yùn)營商數(shù)據(jù),設(shè)置了三個(gè)具有不同特征類型和不同圖大?。ㄓ脩魯?shù)量)的基準(zhǔn)圖數(shù)據(jù)集。分別將神經(jīng)網(wǎng)絡(luò)深度設(shè)置為2/4/8/32層,不同層數(shù)即代表不同的網(wǎng)絡(luò)深度,基于以上數(shù)據(jù)集對(duì)潛客挖掘模型進(jìn)行性能測試和結(jié)果比對(duì)。為了驗(yàn)證方法的有效性,文章在不同的基準(zhǔn)數(shù)據(jù)集上分別使用協(xié)同過濾算法、GNN、GCN、GCN + DropEdge、GCN + InfoMap + DropEdge五種模型進(jìn)行數(shù)據(jù)擬合訓(xùn)練。對(duì)若干產(chǎn)品的潛在購買用戶的進(jìn)行計(jì)算挖掘,計(jì)算已訂購某產(chǎn)品用戶的特征相似人群。將數(shù)據(jù)集內(nèi)前6個(gè)月的數(shù)據(jù)作為訓(xùn)練集,后2個(gè)月的數(shù)據(jù)作為測試集。使用不同方法挖掘出相同數(shù)量的用戶,計(jì)算挖掘出用戶中真實(shí)有訂購行為的人群占比,即模型推薦準(zhǔn)確率。
4.2 圖矩陣表示
圖數(shù)據(jù)中的每個(gè)結(jié)點(diǎn)無時(shí)無刻不因?yàn)橄噜徍透h(yuǎn)的點(diǎn)的影響而在改變著自己的狀態(tài)直到最終的平衡,關(guān)系越親近的鄰居影響越大,圖數(shù)據(jù)如圖2所示:
因此,我們應(yīng)用矩陣來度量節(jié)點(diǎn)和鄰居節(jié)點(diǎn)間的關(guān)系。將圖數(shù)據(jù)分別表示為度矩陣,鄰接矩陣和拉普拉斯矩陣,分別如圖3所示。其中度矩陣只有對(duì)角線上有值,為對(duì)應(yīng)節(jié)點(diǎn)的度,其余為0;鄰接矩陣只有在有邊連接的兩個(gè)節(jié)點(diǎn)之間為1,其余地方為0 ;拉普拉斯矩陣為度矩陣與鄰接矩陣之差。
4.3圖神經(jīng)網(wǎng)絡(luò)搭建
圖3展示了圖卷積神經(jīng)網(wǎng)絡(luò)的搭建過程,圖卷積的核心在于聚合鄰居結(jié)點(diǎn)的信息,卷積操作關(guān)心每個(gè)結(jié)點(diǎn)的隱藏狀態(tài)如何更新。輸入的數(shù)據(jù)是整張圖,在卷積層1中,對(duì)每個(gè)結(jié)點(diǎn)的鄰居都進(jìn)行一次卷積操作,并用卷積的結(jié)果更新該結(jié)點(diǎn);然后經(jīng)過激活函數(shù)如ReLU,然后再過一層卷積層與一層激活函數(shù);反復(fù)上述過程,直到層數(shù)達(dá)到預(yù)期深度。圖卷積神經(jīng)網(wǎng)絡(luò)會(huì)有一個(gè)局部輸出函數(shù),用于將結(jié)點(diǎn)的狀態(tài)(包括隱藏狀態(tài)與結(jié)點(diǎn)特征)轉(zhuǎn)換成任務(wù)相關(guān)的標(biāo)簽。最終在輸出層后添加一個(gè)SoftMax層,即可實(shí)現(xiàn)分類。
4.4圖節(jié)點(diǎn)聚合與隨機(jī)刪邊
圖神經(jīng)網(wǎng)絡(luò)上的卷積的過程存在一個(gè)缺陷:卷積操作針對(duì)的對(duì)象是整張圖,也就意味著要將所有結(jié)點(diǎn)放入內(nèi)存或顯存中,才能進(jìn)行卷積操作。但對(duì)實(shí)際場景中的大規(guī)模圖而言,整個(gè)圖上的卷積操作并不現(xiàn)實(shí)。
因此,我們?cè)趫D卷積神經(jīng)網(wǎng)絡(luò)中添加InfoMap算法對(duì)聚合鄰居節(jié)點(diǎn)的信息并結(jié)合隨機(jī)刪邊技術(shù),如圖4所示,在保留原有信息的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行整合,以提高計(jì)算效率和計(jì)算精準(zhǔn)度。
4.5算法實(shí)現(xiàn)
協(xié)同過濾算法:使用傳統(tǒng)的推薦算法協(xié)同過濾作為實(shí)驗(yàn)對(duì)照,根據(jù)用戶信息和用戶行為數(shù)據(jù)構(gòu)建用戶畫像,通過相似的用戶畫像和用戶行為,計(jì)算出已訂購5G產(chǎn)品的相似用戶。
GCN算法:
基于數(shù)據(jù)集進(jìn)行GCN模型運(yùn)算,計(jì)算圖結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)的向量特征,最終獲取已訂購5G產(chǎn)品的相似用戶。然而,隨著深度的增加,圖神經(jīng)網(wǎng)絡(luò)層間輸出差會(huì)逐漸趨近于0,這表明隱藏特征已經(jīng)收斂到某一駐點(diǎn),出現(xiàn)了過平滑的問題[15]。除此之外,當(dāng)圖網(wǎng)絡(luò)深度趨近一定數(shù)量級(jí)的層后會(huì)導(dǎo)致內(nèi)存不足,計(jì)算效率明顯下降。
GCN + DropEdge:
通過在GCN模型基礎(chǔ)上添加DropEdge處理,計(jì)算圖結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)的向量特征,并隨機(jī)將不相似的產(chǎn)品或不具有相似特征的用戶之間的關(guān)聯(lián)切斷,隨機(jī)截?cái)鄨D數(shù)據(jù)中節(jié)點(diǎn)的路徑,最終計(jì)算挖掘出已訂購5G產(chǎn)品的相似用戶。添加DropEdge處理后的GCN性能表現(xiàn)良好,當(dāng)層數(shù)增加時(shí),距離不會(huì)消失為零,表明一定程度消除了過擬合問題,GCN的推薦精度顯著提升。
并且,添加DropEdge處理后的GCN模型隨著網(wǎng)絡(luò)深度增加計(jì)算效率依然高效,這表明DropEdge具有通過使鄰接矩陣稀疏來節(jié)省內(nèi)存消耗的優(yōu)勢(shì)。
GCN + InfoMap + DropEdge:
基于InfoMap聚類后的群簇?cái)?shù)據(jù),進(jìn)行群簇間節(jié)點(diǎn)的隨機(jī)DropEdge,同樣保持隨機(jī)DropEdge帶來的優(yōu)勢(shì),可以顯著提高當(dāng)前GCN在節(jié)點(diǎn)分類上的性能。
首先,我們對(duì)基準(zhǔn)數(shù)據(jù)集進(jìn)行InfoMap聚類,將圖數(shù)據(jù)中的各個(gè)節(jié)點(diǎn)按照平均每步編碼長度最優(yōu)原則,劃分為若干個(gè)內(nèi)部節(jié)點(diǎn)彼此相似的特定群簇類別。設(shè)置不同類別之間的各個(gè)節(jié)點(diǎn)間關(guān)系為0,類別內(nèi)各個(gè)節(jié)點(diǎn)間關(guān)系為1的鄰接矩陣。
隨后,對(duì)進(jìn)行InfoMap聚類后的群簇?cái)?shù)據(jù)集進(jìn)行GCN計(jì)算同時(shí)添加群簇間的隨機(jī)刪邊處理,隨機(jī)截?cái)鄨D數(shù)據(jù)中群簇的路徑。GCN在每輪訓(xùn)練時(shí),在節(jié)點(diǎn)群簇間隨機(jī)去掉輸入的圖上的邊,即將鄰接矩陣中的非零元素置0,得到隨機(jī)刪邊后的鄰接矩陣,正則化后代替原來的鄰接矩陣。最終計(jì)算圖結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)的向量特征,獲取已訂購5G產(chǎn)品的相似用戶。
考慮到圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)深度敏感,本文分別測試了網(wǎng)絡(luò)深度為2/4/8/32層情況下模型的準(zhǔn)確率。由于不同的超參對(duì)不同深度的網(wǎng)絡(luò)影響不同,隨機(jī)測試了多組超參,最終選取了每個(gè)模型在不同基準(zhǔn)驗(yàn)證集上的最佳準(zhǔn)確性結(jié)果。其中,協(xié)同過濾算法不具備網(wǎng)絡(luò)深度計(jì)算,只基于各個(gè)數(shù)據(jù)集中包含的不同用戶數(shù)量實(shí)施計(jì)算。各模型的計(jì)算結(jié)果分類匯總?cè)缦拢?/p>
表2總結(jié)了4個(gè)模型基于測試集在不同網(wǎng)絡(luò)深度情況下的計(jì)算實(shí)驗(yàn)效果,結(jié)果表明,GCN + InfoMap + DropEdge模型對(duì)于潛客挖掘提升效果顯著。據(jù)觀察,在GCN模型中添加DropEdge處理可以提高所有情況下GCN模型的計(jì)算精度,而在此基礎(chǔ)上融合InfoMap算法可以進(jìn)一步提升模型精準(zhǔn)度。圖5更清楚地描述了添加DropEdge和InfoMap處理對(duì)于GCN的改進(jìn)情況,我們計(jì)算了單獨(dú)添加DropEdge和添加DropEdge + InfoMap在不同層數(shù)下對(duì)GCN主干的平均絕對(duì)改進(jìn)。
圖5顯示DropEdge為更深層次的架構(gòu)提供了明顯改進(jìn),而DropEdge + InfoMap的組合為深層架構(gòu)提供了進(jìn)一步優(yōu)化。相較于單獨(dú)使用GCN模型,對(duì)于有2層的模型,DropEdge + InfoMap + GCN獲得了平均1.1%的改進(jìn);而對(duì)于有32層的模型,它獲得了顯著的8.2%的提高。因此,應(yīng)用DropEdge + InfoMap可以大幅度提高GCN在節(jié)點(diǎn)分類方面的性能。
此外,單獨(dú)使用GCN的32層模型可能會(huì)出現(xiàn)內(nèi)存不足的問題,而添加了DropEdge + InfoMap的GCN模型則運(yùn)行良好,顯示了DropEdge + InfoMap通過使鄰接矩陣稀疏來節(jié)省內(nèi)存消耗的優(yōu)勢(shì)。
表3展示了本實(shí)驗(yàn)中在GCN模型中添加和未添加DropEdge和InfoMap的計(jì)算資源內(nèi)存占用情況。
五、結(jié)束語
文章將運(yùn)營商5G套餐數(shù)據(jù)進(jìn)行圖結(jié)構(gòu)改造,將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)化為圖數(shù)據(jù)。對(duì)輸入的圖數(shù)據(jù)節(jié)點(diǎn)進(jìn)行InfoMap聚類,更加有效地聚合圖數(shù)據(jù)節(jié)點(diǎn)挖掘隱藏信息,在圖卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上使用聚類結(jié)果進(jìn)行隨機(jī)刪邊處理,顯著提升了算法的潛客挖掘能力。
通過用戶特征挖掘和用戶訂購行為分析,不斷深度訓(xùn)練優(yōu)化5G套餐潛客挖掘模型,最終挖掘輸出1000萬個(gè)潛在5G套餐訂購用戶名單。將該潛在客戶名單作為App Push推送目標(biāo)用戶群,并引導(dǎo)用戶進(jìn)行5G套餐辦理,有效提升了5G套餐業(yè)務(wù)銷量。本文的潛客挖掘方法為電信運(yùn)營商用戶精細(xì)化運(yùn)營、產(chǎn)品精準(zhǔn)營銷提供了借鑒思路,將持續(xù)提升5G時(shí)代下算法的潛客挖掘和精準(zhǔn)營銷能力。
參? 考? 文? 獻(xiàn)
[1]高琪,辛樂.基于用戶偏好度模型和情感計(jì)算的產(chǎn)品推薦算法[C]//第 29 屆中國控制會(huì)議. 中國自動(dòng)化學(xué)會(huì), 2011: 2981-2986.
[2] Scarselli F, Gori M, Tsoi A C, et al. The graph neural network model[J]. IEEE transactions on neural networks, 2008, 20(1): 61-80.
[3] Bruna J, Zaremba W, Szlam A, et al. Spectral networks and locally connected networks on graphs[J]. arXiv preprint arXiv:1312.6203, 2013.
[4]吳國棟, 查志康, 涂立靜,等. 圖神經(jīng)網(wǎng)絡(luò)推薦研究進(jìn)展[J]. 智能系統(tǒng)學(xué)報(bào), 2020, v.15; No.81(01):20-30.
[5]王佳. 圖神經(jīng)網(wǎng)絡(luò)淺析[J]. 現(xiàn)代計(jì)算機(jī)(專業(yè)版), 2019, 000(023):58-62.
[6]徐冰冰,岑科廷,黃俊杰,等. 圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2020, 043(005):755-780.
[7]毛冰城. 面向腦網(wǎng)絡(luò)分類的圖卷積神經(jīng)網(wǎng)絡(luò)方法及其擴(kuò)展研究[D].南京航空航天大學(xué),2019.
[8] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv,2016:1609.02907,.
[9] Li G, Muller M, Thabet A, et al. Deepgcns: Can gcns go as deep as cnns?[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9267-9276.
[10]鄭小柏, 崔巖, 劉興林,等. 基于實(shí)體描述和關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)的實(shí)體分類研究[J]. 計(jì)算機(jī)科學(xué)與應(yīng)用, 2020, 10(7):8.
[11] Bohlin L, Edler D, Lancichinetti A, et al. Community detection and visualization of networks with the map equation framework[M]//Measuring scholarly impact. Springer, Cham, 2014: 3-34.
[12] Rosvall M, Bergstrom C T. Maps of Information Flow Reveal Community Structure in Complex Networks[J]. Proceedings of the National Academy of Sciences USA, 2008:1118--1123.
[13] Rong Y, Huang W, Xu T,et al. DropEdge: Towards Deep Graph Convolutional Networks on Node Classification[C].2020.1907.10903,
[14]雷小鋒, 陳皎, 毛善君,等. 基于隨機(jī)KNN圖的批量邊刪除聚類算法[J]. 軟件學(xué)報(bào), 2018, 029(012):3764-3785.
[15] Schlichtkrull M., Kipf T.N., Bloem P., van den Berg R., Titov I., Welling M. (2018) Modeling Relational Data with Graph Convolutional Networks. In: Gangemi A. et al. (eds) The Semantic Web. ESWC 2018. Lecture Notes in Computer Science, vol 10843. Springer, Cham. https://doi.org/10.1007/978-3-319-93417-4_38