張沁哲
隨著互聯(lián)網(wǎng)不斷深入人們的日常生活,已經(jīng)成為生活中不可或缺甚至最重要的組成部分。但同時,信息量的井噴式增長,也給數(shù)據(jù)的處理帶來前所未有的困擾,尤其在電子商務推薦方面,商品的種類不斷被創(chuàng)新,商品的數(shù)量不斷增長,用戶的交易量以指數(shù)級的速度爆發(fā)式增加。當用戶面對如此之多的信息量時,難以尋找到自身需求并且滿意的商品,因此電子商務推薦系統(tǒng)便應運而生,同時高質(zhì)量高精準的推薦系統(tǒng)更是有助于用戶在海量商品中進行選擇,并且縮短了用戶購買商品所消耗的時間,同時提升用戶對電商網(wǎng)站的忠誠度以及體驗感,對于電商領域的商業(yè)利益最大化起到了至關重要的作用。
傳統(tǒng)協(xié)同過濾算法主要基于項目[1]和用戶[2]進行推薦,然而在對用戶重復購買商品方面存在推薦弊端,經(jīng)常存在錯誤推薦,并沒有合理地依據(jù)用戶近期的興趣愛好的變化進行相關的推薦。本文則對用戶已經(jīng)購買過的商品進行分析,通過用戶重復購買的記憶函數(shù),預測用戶對曾經(jīng)購買過商品的再次購買意圖進行判斷,并在不同的記憶概率執(zhí)行相應的推薦,以解決目前電子商務推薦系統(tǒng)存在的推薦不精確的問題。
傳統(tǒng)的基于用戶的協(xié)同過濾算法使用與目標用戶有關聯(lián)且行為以及交易記錄具有較高相似度的用戶群進行匹配,通過相似用戶群購買的商品進行分析,將相似用戶購買過且目標用戶未曾購買過的商品對目標用戶進行推薦。傳統(tǒng)的基于項目的協(xié)同過濾算法將目標用戶購買過的商品類目進行分析,分析出購買此類商品的用戶仍購買其他哪些商品,并將已購買此類商品的用戶群仍購買的商品對目標用戶進行推薦。與基于用戶和項目的推薦方式不同,基于模型的推薦算法則采用用戶對商品的評分和評價進行推薦,并利用搭建的模型對用戶未來可能購買的商品進行預測評分。當前基于模型的主要推薦算法有聚類模型[3]、概率模型[4]等。
傳統(tǒng)的協(xié)同過濾推薦在執(zhí)行相應的推薦時對于用戶的評分信息過于依賴,對于用戶重復購買商品的時間信息以及記憶留存則存在一定的忽略,因此分析并掌握用戶重復購買商品的記憶留存對推薦并預測用戶再次購買此類商品具有較高的價值。
用戶興趣和商品類別以及商品的屬性有著密不可分的關系,用戶對商品的喜好隨著年齡、職業(yè)、地區(qū)、時間等信息都不是固定不變的,尤其用戶在日常實際消費的過程是一個動態(tài)變化的過程,因此當用戶的記憶或遺忘融入推薦算法中將對推薦的精確性有很重要的影響。
鄭先榮等[5]借鑒心理學遺忘規(guī)律,提出了線性逐步遺忘協(xié)同過濾算法來解決協(xié)同過濾算法沒有考慮用戶興趣變化的問題,并且主要通過依據(jù)用戶的評價時間點信息,通過逐步減小沒想評分的權重進行推薦。邢曉春等[6]提出兩種改進度量,包括采用時間的數(shù)據(jù)權重和項目相似度的數(shù)據(jù)權重,并通過融合策略,提出匹配用戶興趣變化的協(xié)同過濾推薦算法。
德國心理學家艾賓浩斯(Ebbinghaus)對遺忘現(xiàn)象做了系統(tǒng)的研究,得出人對于事物的遺忘過程是非線性的,如圖1所示。
圖1 艾賓浩斯遺忘曲線
艾賓浩斯遺忘曲線,敘述了人對現(xiàn)實事件的記憶隨著時間的流逝逐漸降低的過程。可以將用戶對一類事物的興趣愛好看作記憶,并根據(jù)圖像得出用戶對一類事件的感興趣程度逐漸降低。
運用艾賓浩斯曲線的過程主要是在每一個時間點上,都存在對應的興趣的熱度,記為h。有學者將艾賓浩斯曲線總結為一個持續(xù)量的函數(shù),如式(1):
式中t為自變量,e為自然底數(shù),t、c為常數(shù),t0=0.00255,t0的值采用文獻[7]中通過實驗所得到的值。
用戶近期內(nèi)頻繁購買同一類型的商品受第一次購買的行為有很大影響。而且隨著時間的消磨,用戶的購買記憶同樣在一定程度上衰減,對用戶下一次購買商品的影響也不斷消減,因此對用戶重復購買時我們需要將重復購買的記憶考慮到推薦中。
尤其是在電商網(wǎng)購中存在數(shù)據(jù)丟失的現(xiàn)象,例如用戶第一次在網(wǎng)上購買零食后,用戶下一次也許會去另一家電商進行購買,也可能在線下的商場進行購買,因此對用戶重復購買記憶函數(shù)進行計算時我們需要考慮以上情況。
11月30日,由北京市商務局主辦,北京烹飪協(xié)會承辦,北京各兄弟協(xié)會、餓了么星選及有關新聞媒體協(xié)辦的為期3個月的第二屆中國京菜美食文化節(jié)活動落下帷幕。北京市區(qū)和郊區(qū)累計有100多個餐飲品牌、3000多家餐飲門店參加文化節(jié)。據(jù)不完全統(tǒng)計,有近兩億人次關注與參與,總消費收入達到61億元,占北京市同期餐飲總收入的21%,京菜引領作用明顯,中國京菜美食文化節(jié)的覆蓋范圍和傳播力顯著提升。
為此我們將預測目標用戶u在時間點t對y類商品的購買記憶函數(shù),如式(2)所示:
其中,Rm(y)是指目標用戶對曾經(jīng)已經(jīng)購買過的y類型商品之后仍有購買可能性的記憶程度,代表著目標用戶已購買后仍重復購買y類商品的概率,通過公式(3)對Rm(y)進行計算:
其中,M(y)代表用戶群中第一次購買y類商品的數(shù)量,Mt(y*)代表第一次購買y類商品后仍然再次購買y*(y*是指與y同類型的商品)類商品的用戶數(shù)。
Rm(u,t,y)代表用戶群對y類商品在不同間隔時間段內(nèi)的購買記憶函數(shù),并且使用指數(shù)函數(shù)對記憶函數(shù)存在的遺忘以及衰弱性進行估算,因此購買記憶函數(shù)為:
其中,Y代表時間點t到來的瞬間已經(jīng)執(zhí)行完購買記錄的集合,指數(shù)函數(shù)的概率參數(shù)值用Y表示。
因此通過式(2),我們可以得出用戶購買商品的記憶函數(shù)圖像,通過圖像可以得到不同重復購買時間點上用戶尚留存的記憶概率,同時可以通過y軸所對應的數(shù)據(jù)得到用戶對y類商品的最高留存記憶時間點對應的概率。最后通過歸一化來對所有的用戶重復購買記憶時間點所對應的概率進行計算,如式(5)所示:
其中,Dit代表用戶對y類商品不同時間點t所對應的購買記憶留存的概率,通過式(5),可以將購買記憶留存的概率值歸一化為介于(0,1)之間。
傳統(tǒng)的協(xié)同過濾算法主要基于用戶對于商品的評分進行推薦,本文則將用戶在已購買商品后,在不同時間點重復購買商品的記憶留存概率與傳統(tǒng)協(xié)同過濾算法進行融合,并在不同間隔時間執(zhí)行相應的推薦排序集,使得推薦更加精確。
步驟一:創(chuàng)建用戶和商品類別矩陣;
步驟二:采用Pearson[8]計算用戶之間的相似性sim(a,b):
其中,R為用戶a和b購買并評分的商品;-Ra、-Rb代表用戶a和b的交易記錄中的平均評分。
步驟三:選取前K個評分較高的用戶,并根據(jù)相似度和用戶購買商品評分,預測目標用戶對商品c的購買評分Pc。
通過式(7)得出評分前10作為商品推薦集P。
步驟四:通過計算用戶重復購買不同時間點所留存的記憶概率與推薦預測評分的相乘得出新的評分排序,并且得到最終的推薦集P*,如式(8):
本文實驗數(shù)據(jù)采用2014年阿里巴巴集團舉辦的“天池”大數(shù)據(jù)競賽所用的數(shù)據(jù),數(shù)據(jù)包括六個月內(nèi)851名用戶對9456件商品的購買以及評分記錄。本文使用用戶購買商品屬性、購買時間和對商品的評分進行實驗并分析。前四個月的數(shù)據(jù)作為訓練集,后兩個月的數(shù)據(jù)作為測試集進行預測并對照傳統(tǒng)的協(xié)同過濾推薦算法。
如表1,通過將用戶重復購買記憶函數(shù)與傳統(tǒng)的基于協(xié)同過濾推薦算法進行融合,生成最終的推薦集P*。
表1 推薦集P與P*
本文提出基于用戶記憶函數(shù)的協(xié)同過濾推薦算法,采用推薦準確率(Precision)作為該算法的評價標準。它是一個最基礎的衡量推薦系統(tǒng)精確度的評價方式,表示在推薦的所有商品中,用戶點擊并訪問或者用戶成功購買所占的比例,比例越大則證明推薦精確度越高。
其中Hits代表推薦集中被用戶所產(chǎn)生購買的數(shù)量,N則表示推薦的總數(shù)量。
圖2 改進協(xié)同過濾與傳統(tǒng)協(xié)同過濾推薦算法比較
通過圖2我們可以看出,與傳統(tǒng)協(xié)同過濾推薦算法相比,融合了重復購買記憶函數(shù)的協(xié)同過濾算法在推薦精確度方面有明顯的提高,同時能夠給用戶更適合的推薦體驗。
與傳統(tǒng)的協(xié)同過濾算法相比,考慮了用戶購買記憶的協(xié)同過濾推薦算法,在推薦時更能夠了解用戶的實時興趣愛好的動態(tài)變化,針對個性化推薦更有效,避免了一些錯誤的推薦,不僅為電子商務系統(tǒng)節(jié)省了推薦資源,同時減少了對用戶不必要的困擾,在一定程度上提升了推薦的精確度。