摘" 要: 針對原始圖卷積神經網絡推送模型存在的冷啟動和過平滑問題,文中基于堆疊重構網絡和改進自編碼器網絡,提出一種針對用戶畫像的多信息推送模型。對于冷啟動問題,在圖卷積網絡的輸出部分,將用戶畫像中的評價信息嵌入到網絡中,之后通過注意力網絡層提取特征信息,并對模型進行堆疊,以提升用戶交互數(shù)據(jù)的質量。對于過平滑問題,增加網絡層數(shù)的同時,使用改進的自編碼器和度預測模塊對動態(tài)圖網絡進行局部訓練,從而提升算法的個性化推薦能力。在實驗測試中,相較基線最優(yōu)算法,所提算法的HR指標分別提升22.7%、12.2%,NDCG指標分別提升4.7%和6.5%。證明了該算法性能良好,能夠為用戶提供精確化的推送服務。
關鍵詞: 圖卷積神經網絡; 堆疊重構網絡; 用戶精準畫像; 自注意力模型; 度預測模塊; 推送算法
中圖分類號: TN911.73?34; TP391" " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)06?0175?05
Design of accurate customer profiling and push algorithm based on
multi?information fusion analysis
QI Guangpeng1, 2
(1. School of Physics and Electronic Engineering, Northeast Petroleum University, Daqing 163318, China;
2. Inspur Yunzhou Industrial Internet Co., Ltd., Jinan 250000, China)
Abstract: In allusion to the problems of cold start and oversmooth in the original graph convolutional neural network push model, a multi?information push model for user profiles is proposed based on stacked reconstruction network and improved autoencoder network. For the cold start problem, in the output part of the graph convolutional network, the evaluation information from the user profiles is embedded into the network, and then the feature information is extracted by means of the attention network layer, and the model is stacked to improve the quality of user interaction data. For the oversmooth problem, an improved autoencoder and degree prediction module are used to locally train the dynamic graph network while increasing the number of network layers, thereby enhancing the personalized recommendation ability of the algorithm. In experimental testing, in comparison with the baseline optimal algorithm, the HR index of the proposed algorithm was improved by 22.7% and 12.2%, respectively, and the NDCG index was improved by 4.7% and 6.5% respectively, proving that the algorithm has good performance and can provide users with precise push services.
Keywords: graph convolutional neural network; stacked reconstruction network; accurate user profiling; self attention model; degree prediction module; push algorithm
0" 引" 言
隨著移動互聯(lián)網的飛速發(fā)展,用戶在互聯(lián)網中獲取信息的行為也發(fā)生了改變。伴隨著網絡數(shù)據(jù)量的激增,推薦系統(tǒng)的出現(xiàn)給用戶和企業(yè)都帶來了巨大的收益[1?3]。對用戶而言,推薦系統(tǒng)可以根據(jù)自身的畫像標簽輔助用戶篩選出有價值的信息;對企業(yè)而言,推薦系統(tǒng)可以根據(jù)不同的用戶特征制定不同類型的營銷方案或推薦方案,有效吸引用戶,并為用戶帶來更佳的使用體驗。當前,推薦系統(tǒng)在社交、自媒體、購物等軟件平臺中應用極為廣泛。
推薦算法與人工智能算法的發(fā)展過程相輔相成。目前主流的推薦算法按照發(fā)展歷程可分為3類模型,分別是淺層網絡、神經網絡以及圖神經網絡。淺層網絡模型主要利用標簽匹配法,根據(jù)用戶屬性來匹配推薦內容,但是這種方法無法獲取到用戶特征與目標內容的深層次關聯(lián)信息。因此,基于深度學習的神經網絡模型應運而生。雖然這類模型可以提高算法的特征表達能力,但它也忽略了用戶的高階屬性信息。本文基于圖神經網絡和用戶畫像,提出了一種多信息融合的推薦算法。
1" 基于多信息融合分析的客戶精準畫像與推送算法設計
1.1" 圖卷積神經網絡
圖是一種典型的數(shù)據(jù)結構。在推薦系統(tǒng)中,用戶和信息是一種典型的交互模型,這類模型需要使用圖結構進行表達[4]。由于用戶屬性和內容信息是隨時間不停變化的,因此需要使用連續(xù)時間內的動態(tài)圖結構來表達交互關系。t時刻的連續(xù)時間動態(tài)圖結構如圖1所示。
圖1中:un表示用戶的信息節(jié)點;ij表示項目的信息節(jié)點;tk表示邊時間戳。
為求解動態(tài)圖目標,現(xiàn)有的技術方案通常采用圖神經網絡(Graph Neural Network, GNN)來進行實現(xiàn)。GNN主要是聚合中心信息節(jié)點的特征信息,并通過傳播層將全局和節(jié)點局部特征信息相結合,從而得到更加豐富的高階特征信息。為了提高計算效率,本文使用圖神經網絡中的圖卷積網絡(Graph Convolutional Network, GCN)[5?7]來進行具體的求解與計算。
首先基于傳統(tǒng)的卷積網絡,GCN從文本和圖像中獲取特征信息并將其引申到圖數(shù)據(jù)中;然后GCN再通過學習數(shù)據(jù)特征得到映射關系,并利用該映射關系學習下一個節(jié)點。GCN結構圖如圖2所示。
GCN由輸入層、隱藏層和輸出層組成。輸入層由圖節(jié)點特征和鄰居矩陣構成,對于某個動態(tài)圖而言,假定其特征維度為k,輸入節(jié)點構成的輸入矩陣為X,圖的相鄰矩陣為A。在隱藏層中,動態(tài)圖各節(jié)點的數(shù)據(jù)傳輸方式為:
式中:[A]為矩陣A和單位矩陣的和;[D]為矩陣A的度矩陣;H為每層輸出的特征向量;l為網絡層數(shù);W為權值矩陣。
當隱藏層運算完畢后,由輸出層輸出目標節(jié)點的特征向量。但在實際應用中,GCN仍存在以下問題。
1) 冷啟動問題。在推薦系統(tǒng)的初始化階段,或者是在動態(tài)圖網絡有新用戶加入時,由于歷史交互行為過少,會導致系統(tǒng)無法進行準確推薦。
2) 過平滑問題。隨著圖神經網絡訓練次數(shù)的增加,節(jié)點的特征信息會逐步趨于相似,這會導致推薦結果個性化特征較弱。
基于上述考慮,本文對GCN進行了改進。
1.2" 基于堆疊重構網絡的冷啟動問題改善算法
在推薦模型中,用戶對目標的主動評分可以看作是用戶對目標的主觀喜惡判斷,這對用戶下次的選擇行為有著較為明顯的指導性。為了改善冷啟動現(xiàn)象[8],本文將用戶的評價信息嵌入到GCN中,之后再通過自注意力(Self?Attention)網絡來提取特征信息,組成嵌入?自注意力模型(EAT)。EAT模型結構圖如圖3所示。
在圖3中,用戶需要將交互序列數(shù)據(jù)轉換為嵌入層,其交互關系如圖1所示。嵌入層將un、ij以及時間序列T進行嵌入,長度統(tǒng)一設定為m,則嵌入層公式如下:
嵌入層數(shù)據(jù)需要經過時間上下文模塊完成計算并輸出,本文主要使用門控循環(huán)單元(Gated Recurrent Unit, GRU)[9?10]模型來完成訓練過程。時間上下文模塊結構圖如圖4所示。
完成計算后,輸出時間評分信息CT和上下文評估信息CR。使用自注意力網絡對特征信息權重進行判斷,輸出結果為:
此外,還采用殘差網絡(Residual Network, ResNet)來獲取深層次特征,并對其進行歸一化,同時利用GELU損失函數(shù)來減少過擬合現(xiàn)象,以提升模型對非線性數(shù)據(jù)的訓練能力。輸出結果如下:
為了進一步增強模型的訓練準確性,對自注意力層進行重復堆疊,最終可得到輸出結果,如下:
1.3" 基于改進自編碼器的過平滑問題改善算法
增加網絡的層數(shù)是解決過平滑問題的主要手段,然而這也意味著算法對計算性能需求的提升。此次使用改進的自編碼器(Auto Encoder, AE)模塊對過平滑問題進行處理,模型的整體框架如圖5所示。
在圖5的模型結構中,為了降低堆疊網絡的復雜性,使用自編碼器作為特征編碼器,其結構如圖6所示。
自編碼器可通過調整輸入層、隱藏層、輸出層的神經元數(shù)量對數(shù)據(jù)進行降維操作[11?13],但這樣做的同時也可能會忽略節(jié)點的特征信息。因此,本文使用度預測模塊來增強節(jié)點結構信息的學習能力。度預測模塊結構如圖7所示。
在圖7中,設[H(L)e]參數(shù)是自編碼器節(jié)點,該參數(shù)是前饋網絡的輸入值。前饋網絡會將預測結果輸出,d是圖相鄰矩陣A的節(jié)點度,可由式(8)計算得到。
1.4" 算法模型的總體設計
本文算法模型如圖8所示。整個系統(tǒng)由用戶畫像提取、數(shù)據(jù)預處理和特征提取三大核心模塊構成模塊化協(xié)同工作機制。各模塊的具體技術實現(xiàn)如下。
1) 用戶畫像提取模塊基于多源異構數(shù)據(jù)融合技術構建了多維用戶表征體系。該模塊采用基于規(guī)則引擎的實時采集系統(tǒng),通過API網關整合用戶行為日志、社交關系圖譜和UGC內容,運用自然語言處理技術對原始數(shù)據(jù)進行語義解析。用戶畫像提取模塊分為屬性畫像、興趣畫像以及情感畫像共3個類別[14?15]。其中,屬性畫像涵蓋人口統(tǒng)計學特征、設備指紋等靜態(tài)維度,采用基于知識圖譜的實體鏈接技術進行結構化存儲;興趣畫像結合知識圖譜構建動態(tài)偏好向量;情感畫像對用戶輸入文本進行細粒度情感分析,捕捉隱式情感傾向。3類畫像通過特征交叉網絡進行聯(lián)合建模,最終形成稠密表征向量。
2) 數(shù)據(jù)預處理模塊針對動態(tài)圖網絡特性提出雙重優(yōu)化策略。首先,構建時空感知的圖結構處理器,用來提取動態(tài)圖網絡中的鄰居網絡;其次,引入自編碼網絡,通過對抗訓練策略解決梯度消失問題,進而改善算法的不平滑性能。
3) 特征提取模塊對GCN進行堆疊,同時將網絡訓練數(shù)據(jù)進行嵌入化,并使用自注意力網絡輸出最終結果,提升模型的特征提取能力。
2" 實驗分析
2.1" 實驗環(huán)境配置與數(shù)據(jù)集
為進一步評估所提模型的性能,實驗樣本數(shù)據(jù)選擇了公開數(shù)據(jù)集Amazon?Book和Movielens?1M。其中:Amazon?Book數(shù)據(jù)集是亞馬遜購物網站產品推薦數(shù)據(jù)集;Movielens?1M數(shù)據(jù)集是一個電影推薦數(shù)據(jù)集。數(shù)據(jù)集相關信息如表1所示。
在評估指標方面,使用推薦系統(tǒng)最為常見的HR@K和NDCG@K作為性能評價指標。其中:HR@K表征推薦準確性;NDCG@K表征排序相關性得分;K表示推薦項的數(shù)量。算法運行環(huán)境如表2所示。
2.2" 算法測試
為驗證算法性能,本文在相同環(huán)境下對不同模型進行實驗測試,實驗基于兩個數(shù)據(jù)集展開,分別進行10次實驗后取平均值。對比算法選擇了基于貝葉斯的傳統(tǒng)推薦算法(BPR)、融合淺層網絡和矩陣分解的推薦算法(NCF)、融合隱向量和矩陣分解的推薦算法(CBMF)、融合圖神經網絡的推薦算法(GCMC)以及GCN。實驗對比結果如表3和表4所示。
從測試結果可以看出,本文所提算法的性能良好,在對比算法中最優(yōu)。相較于兩組實驗中的基線最優(yōu)算法CBMF,在數(shù)據(jù)集Amazon?Book中,本文所提算法的HR指標分別提升了22.7%、12.2%,NDCG指標分別提升了4.7%和6.5%。通過對比實驗可以發(fā)現(xiàn),BPR算法在所有對比算法中的性能最差,這說明傳統(tǒng)算法使用的抽樣方法在應對多維、海量數(shù)據(jù)時性能較差;同時也可以看出,NCF、CBMF兩種算法的整體性能較優(yōu),表明矩陣分解以及神經網絡模型在稠密數(shù)據(jù)集中的表現(xiàn)良好,可以有效表征用戶興趣。
除了性能測試外,模型訓練收斂速度也是評估機器學習系統(tǒng)效率的重要指標。收斂速度直接影響開發(fā)迭代成本和資源消耗,尤其在處理大規(guī)模數(shù)據(jù)或復雜模型時更為關鍵。因此,本文還進行了收斂速度的對比算法實驗測試,具體結果如圖9所示。
根據(jù)圖9數(shù)據(jù)顯示:本文算法在訓練過程中展現(xiàn)出了顯著的準確率優(yōu)勢,從初始的55%穩(wěn)步提升至最終的93%,全程無波動且收斂速度最快,80次迭代后的訓練準確率即可達90%,明顯優(yōu)于其他對比算法;而NCF雖以92%的準確率接近本文算法,但后期增速放緩;GCMC在80次迭代后準確率從82%回落至78%,疑似出現(xiàn)了過擬合的現(xiàn)象。通過對比觀察實驗結果表明,本文所提算法在保證穩(wěn)定性的同時也實現(xiàn)了效率與精度的雙重提升。
綜合來看,本文所提算法可以根據(jù)用戶畫像推送更加精準的信息,表明了對算法改進的有效性,且算法推薦性能更高。
3" 結" 語
本文提出一種由用戶畫像提取、數(shù)據(jù)預處理和特征提取模塊組成的信息推送算法,用于解決原始圖卷積神經網絡模型中的冷啟動問題和過平滑問題。用戶畫像提取模塊采集用戶畫像并對其進行分類,通過數(shù)據(jù)預處理模塊和特征提取模塊改善了算法的平滑性能,提升了模型的特征提取能力。經過實驗測試表明,所提算法的性能指標良好,優(yōu)于多種現(xiàn)有主流算法,證明了本文進行的算法改進是有效、可行的。
參考文獻
[1] 孫紅,鹿梅珂.融合用戶行為序列預測的混合推薦算法[J].電子科技,2023,36(4):84?89.
[2] 劉張榕.信息智能推薦系統(tǒng)目標特征數(shù)據(jù)挖掘方法[J].信息技術,2022(3):162?165.
[3] 王大勇,李麗,孫時光.基于深度學習的推薦系統(tǒng)發(fā)展與領域應用研究進展[J].遼寧大學學報(自然科學版),2023,50(4):318?324.
[4] 富坤,郝玉涵,孫明磊,等.基于優(yōu)化圖結構自編碼器的網絡表示學習[J].計算機應用,2023,43(10):3054?3061.
[5] 李波,許云峰.一種基于圖卷積網絡的文本情感分類方法[J].長江信息通信,2024,37(2):4?6.
[6] 沈鑫科,李勇,陳建偉,等.融合協(xié)同知識圖譜和圖卷積網絡的推薦算法[J].計算機技術與發(fā)展,2024,34(1):150?157.
[7] 韓虎,范雅婷,徐學鋒.面向方面情感分析的多通道增強圖卷積網絡[J].電子與信息學報,2024,46(3):1022?1032.
[8] 李璐,張志軍,范鈺敏,等.面向冷啟動用戶的元學習與圖轉移學習序列推薦[J].山東大學學報(工學版),2024,54(2):69?79.
[9] 杜琰,孫弋.融合GRU和注意力機制的圖卷積關系抽取[J].計算機與數(shù)字工程,2023,51(11):2568?2572.
[10] 黃振峰,王浩洋.一種基于GRU的增量學習算法[J].廣西大學學報(自然科學版),2023,48(3):683?691.
[11] 白雪擎,王宏志,程超.基于自編碼器的網絡零日攻擊檢測[J].長春工業(yè)大學學報,2023,44(6):529?538.
[12] 張孚容,顧磊.基于圖偏差網絡的外部自編碼器時間序列異常檢測[J].計算機系統(tǒng)應用,2024,33(3):24?33.
[13] 張梓軒,齊子森,許華,等.基于自編碼器的陣列時變幅相誤差校正算法[J].西北工業(yè)大學學報,2023,41(6):1134?1145.
[14] 房志明,吳鑫卓,林原,等.基于用戶畫像的高校采購評審專家推薦算法[J].實驗技術與管理,2024,41(4):228?237.
[15] 賀前程,曹炳堯.面向用戶畫像的輕量化數(shù)據(jù)中臺研究[J].工業(yè)控制計算機,2023,36(11):137?139.
作者簡介:齊光鵬(1981—),男,陜西寶雞人,碩士研究生,教授級高級工程師,研究方向為電子信息工程。
收稿日期:2024?10?14" " " " " "修回日期:2024?11?28
基金項目:中華人民共和國科學技術部項目(2023YFF0905500)