摘要:隨著互聯(lián)網(wǎng)電商產(chǎn)業(yè)的發(fā)展,汽車產(chǎn)品推薦系統(tǒng)已經(jīng)成為汽車廠商重要的銷售與推廣工具之一。而推薦系統(tǒng)中的流行度偏差問題,影響了汽車推薦系統(tǒng)對用戶興趣的挖掘,從而影響推薦質(zhì)量。據(jù)此,利用因果干預(yù)方法來處理汽車產(chǎn)品推薦系統(tǒng)中的流行度偏差問題,將產(chǎn)品流行度作為混淆因子進(jìn)行干預(yù)處理,從而解決流行度偏差,提高推薦的準(zhǔn)確性,為汽車推薦系統(tǒng)未來的發(fā)展提供新思路。
關(guān)鍵詞:汽車;推薦系統(tǒng);因果干預(yù)
中圖分類號:U462.1 收稿日期:2024-07-15
DOI:10.19999/j.cnki.1004-0226.2024.10.022
1 前言
隨著互聯(lián)網(wǎng)的迅速發(fā)展,汽車制造商和配套產(chǎn)品公司認(rèn)識到傳統(tǒng)的服務(wù)已經(jīng)不能滿足用戶的需求,需要挖掘用戶的特點,提供更加個性化的推薦方式和內(nèi)容,這些工作需要推薦系統(tǒng)來完成[1]。推薦系統(tǒng)在各行各業(yè)中都發(fā)揮著重要的作用,無論是短視頻或者電商都在研究如何提高推薦系統(tǒng)的推薦質(zhì)量,而汽車行業(yè)的推薦系統(tǒng)也發(fā)揮著重要作用。推薦系統(tǒng)經(jīng)常面對流行度偏差問題,從數(shù)據(jù)角度看,流行度偏差導(dǎo)致汽車商品的交互展現(xiàn)出長尾分布的特點;從方法的角度看,這種偏差會造成系統(tǒng)推薦更熱門的項目商品,而這些熱門汽車產(chǎn)品不一定符合用戶的興趣,從而降低了推薦系統(tǒng)的準(zhǔn)確性和用戶的滿意度。
本文研究如何解決推薦系統(tǒng)中的流行度偏差問題,解決思路是用因果干預(yù)方法去解決流行度偏差,挖掘到更準(zhǔn)確的用戶興趣,并在新模型下進(jìn)行個性化推薦,最終達(dá)到提高推薦系統(tǒng)準(zhǔn)確性的目的。
2 個性化推薦系統(tǒng)
推薦系統(tǒng)是一種引用算法和數(shù)據(jù)分析的技術(shù),致力于向用戶提供個性化的建議和推薦內(nèi)容[2]。推薦系統(tǒng)根據(jù)算法的不同而有不同的實現(xiàn)原理,每種推薦系統(tǒng)采用不同的工作原理來滿足用戶需求。目前主要的算法和系統(tǒng)有協(xié)同過濾、基于內(nèi)容的推薦、混合推薦,以及基于流行度的推薦系統(tǒng)。協(xié)同過濾算法通過用戶行為和偏好之間的關(guān)系來生成推薦,而基于內(nèi)容的推薦則側(cè)重于物品的特征和用戶的偏好[3]?;旌贤扑]則運用了多種算法的優(yōu)越性,旨在進(jìn)行更合理的個性化推薦。
這些算法在不同領(lǐng)域都具有各自的優(yōu)點和缺點,在選擇時需要根據(jù)具體情況和場景進(jìn)行綜合考慮。了解如何評估推薦系統(tǒng)的性能也非常重要,評估常用指標(biāo)有精確度、召回率、F1分?jǐn)?shù)等,這些指標(biāo)可以幫助評估推薦系統(tǒng)的性能。使用A/B測試等技術(shù)來實驗和比較不同推薦算法也是評估推薦系統(tǒng)的重要手段,但是需要在真實推薦系統(tǒng)中做實驗,效果雖然更接近真實,但會影響用戶的體驗,所以本文利用因果干預(yù)方法來實現(xiàn)該實驗,在歷史數(shù)據(jù)上即可完成對流行度偏差的處理。
本文的汽車產(chǎn)品推薦系統(tǒng)中采用較流行的基于用戶協(xié)同過濾的推薦系統(tǒng)來實現(xiàn)?;谟脩舻膮f(xié)同過濾(User-based Collaborative Filtering)是推薦系統(tǒng)中常用的一種方法,其主要思想是通過分析用戶之間的相似性來進(jìn)行商品、服務(wù)或內(nèi)容的推薦,如圖1所示。
在圖1中,如果兩位車主的愛好相似,左邊的車主喜歡汽車產(chǎn)品A、C、D,而右邊的車主喜歡汽車產(chǎn)品A、C、D和H,那么基于用戶的協(xié)同過濾算法就會將汽車產(chǎn)品H推薦給左邊的車主。
3 流行度偏差對汽車產(chǎn)品推薦系統(tǒng)的影響
流行度偏差是因為汽車產(chǎn)品的流行度不同,影響了系統(tǒng)對用戶興趣的挖掘,從而降低了系統(tǒng)的推薦質(zhì)量。為了理解汽車產(chǎn)品流行度偏差如何影響推薦過程,首先采用因果圖來進(jìn)行定性分析,圖2表示傳統(tǒng)的汽車推薦系統(tǒng)中用戶愛好和汽車產(chǎn)品的匹配模式,依據(jù)此模式預(yù)測交互或購買的頻率。這里的用戶愛好和汽車產(chǎn)品是原因,而預(yù)測用戶是否與新的汽車產(chǎn)品交互或者購買的概率是結(jié)果。
圖2中的產(chǎn)品流行度可以通過如下公式計算:
[mti]=[Dti]∕[j∈IDti] (1)
其中,m為汽車產(chǎn)品i在t時刻的流行度;D為產(chǎn)品i在t時刻與用戶的交互次數(shù)。
計算產(chǎn)品流行度的思想為:某個產(chǎn)品的流行度為該產(chǎn)品在數(shù)據(jù)集上的交互次數(shù)與所有產(chǎn)品在數(shù)據(jù)集上交互次數(shù)和的比值[4]。
下文將分析產(chǎn)品的流行度偏差是如何影響推薦結(jié)果的。在因果圖(圖2)中,產(chǎn)品流行度有兩條路徑分別指向產(chǎn)品和交互概率。第一條路徑即產(chǎn)品流行度到交互概率,意味著受歡迎的汽車產(chǎn)品會直接影響用戶的交互購買概率,因為許多用戶具有從眾心理,因此傾向于跟隨大多數(shù)人消費流行商品。第二條路徑即產(chǎn)品流行度到汽車產(chǎn)品,這條路徑意味著產(chǎn)品流行度會影響該產(chǎn)品是否會出現(xiàn)在用戶的推薦頁面上,因為推薦系統(tǒng)會繼承數(shù)據(jù)偏見,更頻繁地展示給用戶熱度高的汽車產(chǎn)品。
因此這里的產(chǎn)品流行度有兩條路徑影響了系統(tǒng)的預(yù)測,這就放大了流行度對推薦結(jié)果的作用,在因果推理中被稱為混淆因子。作為混淆因子的產(chǎn)品流行度導(dǎo)致一些熱門的產(chǎn)品即使不符合用興趣也可能被推薦給用戶,從而降低了推薦系統(tǒng)的準(zhǔn)確性和用戶滿意度。
4 因果干預(yù)處理流行度偏差
為了消除產(chǎn)品流行度偏差帶來的不良影響,需要干預(yù)汽車產(chǎn)品不受產(chǎn)品流行度的影響,更好地完成與用戶的匹配。根據(jù)因果干預(yù)原理,可以利用do算子來實現(xiàn)這種干預(yù)。為了便于公式推理,用I代表汽車產(chǎn)品,U代表用戶興趣,Z代表汽車產(chǎn)品流行度,C代表預(yù)測的交互或購買概率。
傳統(tǒng)的推薦系統(tǒng)C的預(yù)測概率為[P(C|U,I)],其中包括混淆因子Z產(chǎn)生的不良影響,造成了產(chǎn)品流行度二次影響推薦結(jié)果,所以根據(jù)因果推理中的do算子,可以用[P(C|do(U,I))]來代替[P(C|U,I)]來計算交互概率[5],[P(C|do(U,I))]中do算子的意義就是對C的概率預(yù)測只考慮U和I的匹配,將其混淆因子Z剪枝掉,即保證產(chǎn)品流行度只有一條路徑影響推薦結(jié)果,如圖3所示。
圖3中,移除了產(chǎn)品流行度對汽車產(chǎn)品的影響,同時使用傳統(tǒng)推薦系統(tǒng)中的歷史數(shù)據(jù)來計算[P(C|do(U,I))]。為了便于公式推導(dǎo),將圖2的因果圖數(shù)據(jù)空間定義為G,而將干預(yù)的因果圖(圖3)的空間為[G'],那么利用do算子在兩個空間上的計算得到:
[P(C|do(U,I))(1)PG' (C|U,I)]
[(2)zPG' C|U,I,zPG'(z|U,I)]
[(3)zPG' C|U,I,zPG'(z)]
[4zP(C|U,I,z)P(z)] (2)
這里,[PG'(·)]為在[G']上的概率函數(shù),這一步是利用后門準(zhǔn)則,因為I<-Z->C,這里被[do(U,I)]阻斷Z到I的路徑所得。式(2)中的各步驟說明如下:a.步驟(1)是根據(jù)貝葉斯公式所得;b.步驟(2)因為在[G']上,已經(jīng)阻斷了Z到I,所以U和I已經(jīng)和Z獨立;c.步驟(3)中[P](C|[U],[I],z)=[PG'C|U,I,z]是因為阻斷Z到I后,兩個空間中{U,I,C}到C的關(guān)系是一樣的,[P](Z)=[PG'](Z),因為Z在兩個圖中有相同的前驅(qū)和后繼。
依據(jù)此公式,可以先估計[P](C|U,[I],Z),再利用公式估計[zP(C|U,I,z)P(z)]即可得到[P](C|[do(U,I])),從而解決了流行度偏差的問題,消除了流行度偏差帶來的不良影響,更好地挖掘出用戶的興趣,提高推薦系統(tǒng)的準(zhǔn)確性。
5 結(jié)語
本文深入分析了汽車產(chǎn)品推薦系統(tǒng)中的產(chǎn)品流行度偏差問題,并用當(dāng)下流行的因果推理來解決該偏差問題,將流行度偏差當(dāng)作混淆因子進(jìn)行處理,更準(zhǔn)確地獲取用戶的興趣,提高推薦系統(tǒng)的準(zhǔn)確性。同時,一定程度上緩解了個性化推薦系統(tǒng)中的長尾分布問題,讓各類產(chǎn)品得到了更公平的展示,有助于優(yōu)化汽車產(chǎn)品推薦系統(tǒng)的生態(tài),從而提供更完善的智能個性化推薦。本文在因果和推薦算法中的研究,可為汽車推薦系統(tǒng)未來的發(fā)展提供新的思路。
參考文獻(xiàn):
[1]范磊.基于大數(shù)據(jù)分析的汽車互聯(lián)網(wǎng)產(chǎn)品需求預(yù)測與個性化推薦研究[J].互聯(lián)網(wǎng)周刊,2023(24):62-64.
[2]王暉,張慧.個性化商品推薦系統(tǒng)的混合推薦算法研究[J].科技資訊,2023,21(22):248-252.
[3]岳添駿.基于LDA主題模型的協(xié)同過濾推薦算法[J].數(shù)字通信世界,2017(10):279+282.
[4]Zhang Yang,F(xiàn)eng Fuli,He Xiangnan.Causal Intervention for Leveraging Popularity Bias in Recommendation[C]//SIGIR’21,Virtual Event,Canada,2021.
[5]丁建立,何雨峰,王靜.基于因果干預(yù)的微服務(wù)系統(tǒng)故障根因分析方法[J].計算機(jī)應(yīng)用,2021(5):1-11.
作者簡介:
張宏,女,1986年生,工程師,研究方向為體系管理和零部件法規(guī)管理。