王崢 郭士串
摘 要:“網(wǎng)絡(luò)團購”是一種越來越流行的電子商務(wù)模式,吸引了大量的商家和消費者,團購網(wǎng)站的商品展示方式和團購產(chǎn)品的推薦是很多團購網(wǎng)站迫切要解決的問題,傳統(tǒng)的推薦算法多是使用與傳統(tǒng)電子商務(wù)類似的協(xié)同過濾實現(xiàn)。文章提出了一種基于Apriori-BP算法的團購?fù)扑]模型,通過自定義數(shù)據(jù)清洗方法,使用Apriori算法和BP神經(jīng)網(wǎng)絡(luò)對商品進行評分和推薦,最后使用線上CTR和ROI對推薦結(jié)果進行評價和驗證,顯著提高了團購?fù)扑]商品的準確性。
關(guān)鍵詞:團購;神經(jīng)網(wǎng)絡(luò);關(guān)聯(lián)規(guī)則
近年來,隨著電子商務(wù)應(yīng)用模式與支付技術(shù)的日益成熟,一種新型消費模式—“網(wǎng)絡(luò)團購”已經(jīng)興起。團購又稱為組織購物或者集體購物,是指消費者通過聚集自己的消費需求因而達到了消費數(shù)量的要求而降價的一種動態(tài)制定商品價格的消費模式。最早的團購網(wǎng)站是2008年在美國成立,之后這種新型的消費模式在全世界范圍內(nèi)快速地掀起了一場發(fā)展的熱潮。隨后,Groupon的商業(yè)模式傳入中國,這種新型的電子商務(wù)模式迅速在全國大中小城市出現(xiàn),并很快被國內(nèi)消費者接受,團購網(wǎng)站在國內(nèi)的發(fā)展速度驚人,有26.2%的網(wǎng)民使用了團購網(wǎng)站的服務(wù)。團購已經(jīng)成為電子商務(wù)繼B2B,B2C,C2C后發(fā)展出來的又一全新的商務(wù)模式,與傳統(tǒng)的電子商務(wù)相比有許多不同之處。
個性化推薦能使電子商務(wù)系統(tǒng)更好地服務(wù)用戶、節(jié)約用戶的搜索時間、幫助用戶發(fā)現(xiàn)新的潛在需求,是當前乃至未來很長一段時間內(nèi)需要研究的重要課題。隨著團購電子商務(wù)模式的應(yīng)用和發(fā)展,在競爭越來越激烈的市場環(huán)境下,將個性化推薦與團購電子商務(wù)模式相結(jié)合成了必然的趨勢。
1 研究現(xiàn)狀
傳統(tǒng)的推薦技術(shù)主要有基于商品內(nèi)容信息的過濾以及協(xié)同過濾兩種主要的方法。由于基于內(nèi)容信息的過濾受商品信息內(nèi)容的限制導(dǎo)致這種方法存在局限性,協(xié)同過濾技術(shù)成為了當前主流的使用較多的推薦技術(shù),但是協(xié)同過濾方法需要依賴于用戶興趣信息,當用戶興趣信息匱乏時,該方法是不適用的。目前的研究方向主要集中在推薦系統(tǒng)的理論與技術(shù)方面,文獻[1]和[2]提出的一種協(xié)同過濾的推薦算法主要是基于項目評分預(yù)測的技術(shù)來實現(xiàn)。文獻[3]提出了用戶意圖識別和知識服務(wù)等相關(guān)技術(shù)。各種數(shù)據(jù)挖掘技術(shù)如關(guān)聯(lián)規(guī)則挖掘、聚類挖掘等技術(shù)也被應(yīng)用到推薦系統(tǒng)的研究與應(yīng)用中,文獻[4]提出了一種構(gòu)建用戶偏好的方法,主要用到了神經(jīng)網(wǎng)絡(luò)和遺傳K-means的算法。
本文根據(jù)團購的業(yè)務(wù)特點,將基于團購業(yè)務(wù)的個性化推薦模型分為數(shù)據(jù)清洗、關(guān)聯(lián)團單挖掘和商品推薦結(jié)果排序3部分。數(shù)據(jù)清洗模塊對用戶數(shù)據(jù)中的噪聲數(shù)據(jù)和作弊數(shù)據(jù)進行識別并過濾;關(guān)聯(lián)團單挖掘模塊用于挖掘可進行組合消費的關(guān)聯(lián)團單;商品推薦結(jié)果排序模塊主要依賴BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)團單按序推薦。本文提出的算法不僅通過數(shù)據(jù)清洗明顯改進了數(shù)據(jù)質(zhì)量,而且使用BP神經(jīng)網(wǎng)絡(luò)對關(guān)聯(lián)算法推薦的結(jié)果進行排序,使得最終推薦的效果得到了顯著的提升。
2 算法簡介
本文涉及的主要算法包括關(guān)聯(lián)規(guī)則算法和BP神經(jīng)網(wǎng)絡(luò)算法兩類,以下分別對兩種算法進行介紹并闡述選擇的原因。
2.1 關(guān)聯(lián)規(guī)則算法
關(guān)聯(lián)規(guī)則是形如AàB的推薦方法,其中A和B分別是關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。目前比較流行的關(guān)聯(lián)規(guī)則推薦算法可分為寬度優(yōu)先算法、深度優(yōu)先算法、數(shù)據(jù)集劃分算法、采樣算法和增量更新算法5類。其中寬度優(yōu)先算法中的Apriori算法和深度優(yōu)先算法中的FP-growth算法是目前使用最廣的兩類算法,但是FP-growth算法在處理很大的且很稀疏的數(shù)據(jù)庫時,在挖掘處理和遞歸運算中存在一定的劣勢,因此,本文采用Apriori算法進行規(guī)則推薦。
2.2 BP神經(jīng)網(wǎng)絡(luò)算法
誤差反向傳播(Back-Propagation)算法是Rumelhart和McClelland在1985年提出的一種神經(jīng)網(wǎng)絡(luò)算法,其基本原理是利用輸出后的誤差來估計輸出層的直接前導(dǎo)層的誤差,再利用前導(dǎo)層的誤差來估計更前一層的誤差,如此一層一層地反傳直到獲得所有層的誤差估計,通過不斷的循環(huán)迭代,直到誤差最終收斂到滿足預(yù)先設(shè)置的條件或迭代次數(shù)超過一定值后完成算法的實現(xiàn)。本文采用的BP神經(jīng)網(wǎng)絡(luò)算法共3層,分別為輸入層、隱藏層和輸出層,因為最終要對商品進行推薦,因此,在輸出層外加了一個softmax層進行概率計算。具體的模型結(jié)構(gòu)如圖1所示。
3 基于Apriori-BP的團購?fù)扑]模型
Apriori-BP團購?fù)扑]模型主要分為3個部分,分別為數(shù)據(jù)清洗、關(guān)聯(lián)團單挖掘和商品按序推薦,以下分別對這幾個模塊進行闡述。
數(shù)據(jù)清洗模塊主要對所有用戶數(shù)據(jù)中的噪聲數(shù)據(jù)和作弊數(shù)據(jù)進行識別并過濾剔除。大數(shù)據(jù)具有速度、精度、多樣、數(shù)量等眾多維度,大維度的數(shù)據(jù)中不可避免地存在著較多粗糙、不合時宜甚至是作弊的數(shù)據(jù),在團購系統(tǒng)中商家刷單和黃牛刷票的數(shù)據(jù)比較普遍,這些作弊數(shù)據(jù)會給個性化推薦尤其是關(guān)聯(lián)團單挖掘造成嚴重的影響,為保證個性推薦的效果,必須對作弊數(shù)據(jù)進行清洗剔除[5]。
作弊用戶的消費行為一般具有以下兩個特點:(1)用戶天成單量較大;(2)用戶消費團單類目較為單一。本文采用閾值過濾法對用戶作弊行為進行過濾,首先對用戶在一個時間窗口(如消費時間間隔為30 min)內(nèi)的相鄰兩次消費行為按照團單進行聚合,形成一次消費行為,該次消費行為信息包括驗單的團單與團單張數(shù),然后按天級別對用戶的消費行為次數(shù)進行統(tǒng)計,如果超過某閾值5次,判定該用戶該天存在作弊行為,之后對用戶存在作弊行為的天數(shù)進行統(tǒng)計計數(shù),如果存在作弊行為的天數(shù)超過閾值1,則判定該用戶為作弊用戶,一個用戶一旦被判定為作弊用戶,為了防止該用戶的消費行為對整個關(guān)聯(lián)規(guī)則挖掘算法造成影響,直接將該用戶的所有數(shù)據(jù)進行過濾。
關(guān)聯(lián)團單挖掘模塊主要根據(jù)用戶的組合消費行為,挖掘可進行組合消費的關(guān)聯(lián)團單。關(guān)聯(lián)團單是整個組合消費團單推薦的數(shù)據(jù)基礎(chǔ),關(guān)聯(lián)團單數(shù)據(jù)也可看作是群體性的推薦數(shù)據(jù)[6]。關(guān)聯(lián)規(guī)則挖掘工作的一項重要的關(guān)鍵任務(wù)是從大量的數(shù)據(jù)集當中分析出所有滿足所設(shè)定的最小支持度和最小貢獻度的頻繁項集,這也是關(guān)聯(lián)規(guī)則挖掘算法的主要任務(wù)。
使用Apriori算法遞歸地挖掘出所有的一階頻繁項集與二階頻繁項集,利用最小支持度閾值和最小貢獻度閾值找到所有符合要求的團購網(wǎng)站團單的強關(guān)聯(lián)規(guī)則,本文中最小支持度閾值設(shè)定為0.5,最小貢獻度閾值設(shè)為0.35。剩余的弱關(guān)聯(lián)再結(jié)合其他弱關(guān)聯(lián)間接得到強關(guān)聯(lián)規(guī)則,從而得到所有存在關(guān)聯(lián)條件的團單組合,具體實現(xiàn)過程如圖2所示。
對挖掘得出的存在關(guān)聯(lián)條件的團單組合使用BP神經(jīng)網(wǎng)絡(luò)進行分析,對各廠商名下的團單組合中的各類產(chǎn)品計算得分,選擇得分高的進行推薦。其中樣本通過用戶的日常瀏覽、點擊、下單行為數(shù)據(jù)進行構(gòu)建,首先通過BP神經(jīng)網(wǎng)絡(luò)的前兩層全連接層訓(xùn)練得出各類產(chǎn)品的得分,整個模型框架使用Tensorflow搭建,其中損失函數(shù)選擇交叉熵,使用隨機梯度下降技術(shù)防止模型過擬合并降低計算量,在隱藏層使用取值為0.5的隨機失活以實現(xiàn)集成學(xué)習的功能和降低輸入特征之間的關(guān)聯(lián)性,設(shè)置最大訓(xùn)練次數(shù)為1 000次,loss的收斂值為0.005,梯度更新的步長為0.01,并隨著迭代的進行逐步降低,平均每迭代100次降低0.001,隱藏層激活函數(shù)使用relu函數(shù)。最后對計算出的得分使用Softmax進行歸一化,最終得到各類產(chǎn)品的概率得分。
Apriori-BP團購?fù)扑]算法相較于以往的關(guān)聯(lián)規(guī)則挖掘算法,在關(guān)聯(lián)團單挖掘過程中增加了相同團單和過期團單的過濾,而且在計算支持度和貢獻度之前還對店鋪是否相同進行了分類,這使得數(shù)據(jù)在計算之前就實現(xiàn)了有效性的過濾,不僅降低了計算量,而且增加了推薦結(jié)果的準確性和有效性。在最后的排序算法層面使用了BP神經(jīng)網(wǎng)絡(luò)進行推薦產(chǎn)品得分計算,其中使用0.5的dropout不僅降低了計算量,加快了模型的計算速度,而且實現(xiàn)了類似于集成學(xué)習的功能,對提升模型的泛化能力有很大的幫助,隱藏層的激活函數(shù)選擇近年來使用比較頻繁的relu替代了以往使用較多的tanh函數(shù)和sigmoid函數(shù),有效預(yù)防了梯度消失。
4 性能評價
文中使用的樣本數(shù)據(jù)共64 929條,原始數(shù)據(jù)共約80 G,經(jīng)數(shù)據(jù)清洗后有效數(shù)據(jù)為55.8 G,清洗掉的數(shù)據(jù)包括無效數(shù)據(jù)和作弊數(shù)據(jù),其中作弊數(shù)據(jù)的團單類目多集中于“電影”“旅游”“體檢”等類目。
將數(shù)據(jù)分為4組進行訓(xùn)練,平均一組數(shù)據(jù)大約16 000條,每一組的運行時間分別在50 min左右,最終數(shù)據(jù)過濾的準確率在93%左右,具體清洗準確率如表1所示。
對清洗后的數(shù)據(jù)使用關(guān)聯(lián)規(guī)則算法和BP神經(jīng)網(wǎng)絡(luò)算法進行挖掘分析,對分析出的結(jié)果使用點擊率(Click Through Rate,CTR)和點擊后下單率(ROI)兩個指標進行評價,通過觀察CTR和ROI的提升情況對參數(shù)和指標進行微調(diào),對挖掘分析出的部分結(jié)果進行篩選得到最終的推薦商品,模型最終推薦的商品對提升線上CTR和線上ROI均有顯著的效果,其中CTR相對提升了29.15%,ROI相對提升了17.35%,相較于傳統(tǒng)算法分別提升了4.70%和2.35%(見圖3)。
5 結(jié)語
本文提出了一種基于Apriori-BP算法的團購?fù)扑]模型,根據(jù)團購的業(yè)務(wù)特點,研究了推薦領(lǐng)域比較常用的關(guān)聯(lián)規(guī)則算法,過濾了無效數(shù)據(jù)和作弊數(shù)據(jù),降低了運算量,提高了關(guān)聯(lián)團單挖掘的有效性,并針對關(guān)聯(lián)團單使用了BP神經(jīng)網(wǎng)絡(luò)進行概率計算,針對神經(jīng)網(wǎng)絡(luò)使用的各類方法不僅增加了模型的泛化能力,還提升了運算速度和準確性,最后在數(shù)據(jù)集上使用兩個線上指標對本文算法和傳統(tǒng)算法進行比較,證實了本模型在改進團購?fù)扑]上的有效性。
[參考文獻]
[1]薛福亮.電子商務(wù)協(xié)同過濾推薦質(zhì)量影響因素及其改進機制研究[D].天津:天津大學(xué),2012.
[2]SHEN S,HU B,CHEN W Z,et al.Personalized click model through collaborative filtering[C].Beijing:the Fifth ACM International Conference on Web Search and Data Mining,2012:323-332.
[3]羅成,劉奕群,張敏,等.基于用戶意圖識別的查詢推薦研究[J].中文信息學(xué)報,2014(1):101-106.
[4]KUO R J,LIAO J L,TU C.Integration of ART2 neural network and genetic k-means algorithm for analyzing web browsing paths in electronic commerce[J].Decision Support Systems,2005(1):353-373.
[5]蔣勛,劉喜文.大數(shù)據(jù)環(huán)境下面向知識服務(wù)的數(shù)據(jù)清洗研究[J].圖書與情報,2013(9):621-628.
[6]李愛寶.基于組合消費行為分析的團購?fù)扑]系統(tǒng)的設(shè)計與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2015.
Abstract:“Online group purchase” is an increasingly popular e-commerce mode, attracting a large number of merchants and consumers. The merchandise display method of group purchase websites and the recommendation of group purchase products are urgent problems to be solved by many group purchase websites. Most of the recommended algorithms use collaborative filtering similar to traditional e-commerce. This paper proposes a group purchase recommendation model based on Apriori-BP algorithm. Through the custom data cleaning method, the Apriori algorithm and BP neural network are used to score and recommend the products. Finally, the online CTR and ROI are used to evaluate and verify the recommendation results, significantly improved the accuracy of the group purchase recommended products.
Key words:group purchase; neural network; association rules