亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度森林在用戶購買預(yù)測中的應(yīng)用

2023-02-17 01:54:24付紅玉

計(jì)算機(jī)應(yīng)用與軟件 2023年1期

付紅玉賀紅

(山東大學(xué)機(jī)電與信息工程學(xué)院山東威海 264200)

0 引言

1990年至1993年，電子商務(wù)的概念被引入中國，經(jīng)過20多年的發(fā)展，中國電商上市公司數(shù)、交易規(guī)模、網(wǎng)民規(guī)模、網(wǎng)購用戶規(guī)模等持續(xù)攀升。電子商務(wù)平臺商品繁多，在為用戶提供產(chǎn)品和服務(wù)的同時(shí)，加大了用戶在海量數(shù)據(jù)中快速、準(zhǔn)確地找到符合用戶偏好的產(chǎn)品的難度[1]。而且，隨著電商領(lǐng)域發(fā)展到一定規(guī)模，流量的快速增長最終會(huì)停止，提高流量轉(zhuǎn)換率將成為一個(gè)電商企業(yè)保持長期、穩(wěn)定發(fā)展的決定性因素[2]?；诖耍娚谭?wù)技術(shù)得以快速發(fā)展，各大電商平臺逐步由應(yīng)用支撐向服務(wù)支撐邁進(jìn)。

由于電商獨(dú)特的平臺優(yōu)勢，在活躍的購買行為下,潛藏了更多的用戶行為數(shù)據(jù)，如用戶的瀏覽、點(diǎn)擊、關(guān)注行為及反映用戶偏好的評論行為等。這些行為數(shù)據(jù)呈指數(shù)級增長，其特點(diǎn)是數(shù)據(jù)量大、多樣性強(qiáng)、價(jià)值大且密度低，符合大數(shù)據(jù)的特點(diǎn)，被稱為電商大數(shù)據(jù)[3]。電商大數(shù)據(jù)帶來了信息過載的問題，基于電商大數(shù)據(jù)的個(gè)性化推薦系統(tǒng)，可以整合多源異構(gòu)數(shù)據(jù)，實(shí)時(shí)、準(zhǔn)確地向用戶推薦符合其意愿的產(chǎn)品，既能提高用戶購物體驗(yàn)，又能提高電商平臺轉(zhuǎn)換率，進(jìn)而提升企業(yè)競爭力，是有效解決信息過載問題的有效方案[4]。預(yù)測是推薦的基礎(chǔ)，“用戶購買行為預(yù)測”作為商品推薦系統(tǒng)研究的重點(diǎn)問題之一，近幾年來發(fā)展迅速。目前研究多集中于集成學(xué)習(xí)算法，多數(shù)學(xué)者旨在通過算法改進(jìn)和模型融合等手段，提高用戶復(fù)購預(yù)測準(zhǔn)確率。本文從兩方面對用戶購買預(yù)測模型進(jìn)行改進(jìn)：(1) 引入時(shí)間滑動(dòng)窗口技術(shù)和窗口權(quán)重遞減設(shè)置，從數(shù)量特征、時(shí)序特征等五方面構(gòu)建全面的訓(xùn)練特征。(2) 基于深度森林算法框架，引入隨機(jī)森林、XGBoost等多種集成算法搭建多層異源集成算法模型，預(yù)測用戶購買行為。

1 相關(guān)工作

推薦系統(tǒng)的定義由Resnick于1997年首次提出，已走過20多年的發(fā)展之路，目前傳統(tǒng)的推薦算法主要有協(xié)同過濾推薦、基于內(nèi)容的推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于知識的推薦和混合推薦5種分類[5]。在不同的應(yīng)用領(lǐng)域，傳統(tǒng)推薦算法存在很多問題，學(xué)者們從多角度考慮，提出了一系列改進(jìn)的推薦算法?；谟脩舻膮f(xié)同過濾和基于物品的協(xié)同過濾算法[6]對用戶-商品評分依賴性強(qiáng)，在用戶和商品數(shù)量不穩(wěn)定的領(lǐng)域推薦效果較差。Deshpande等[7]提出了一種基于模型的推薦算法，通過引入不同項(xiàng)目間相似性計(jì)算得到的算法模型比傳統(tǒng)的推薦算法快兩個(gè)數(shù)量級，且表現(xiàn)出更高質(zhì)量的推薦效果。針對數(shù)據(jù)稀疏情況下推薦質(zhì)量不佳的問題，岳希等[8]從評分空缺填補(bǔ)、考慮共同評分項(xiàng)數(shù)量等方面進(jìn)行優(yōu)化，提出了一種針對稀疏數(shù)據(jù)的推薦算法，且隨著數(shù)據(jù)稀疏度增大，模型效果更加明顯。

推薦算法逐漸走向成熟，預(yù)測作為推薦的基礎(chǔ)也成為國內(nèi)外學(xué)者的研究熱點(diǎn)。在預(yù)測問題的研究中，電商平臺借助技術(shù)手段深入挖掘并分析用戶的歷史行為，發(fā)現(xiàn)用戶行為特征、偏好和購買規(guī)律，在現(xiàn)有數(shù)據(jù)基礎(chǔ)上，預(yù)測用戶未來購買行為，以實(shí)現(xiàn)精準(zhǔn)營銷，優(yōu)化平臺購買服務(wù)，提高平臺運(yùn)行效率[9]。同時(shí)，精確的預(yù)測算法有助于平臺獲取老用戶的保有價(jià)值、新用戶的提升價(jià)值以及潛在用戶的挖掘價(jià)值，進(jìn)一步提高平臺轉(zhuǎn)化率[10]。在特征工程方面，李俊卿等[11]強(qiáng)調(diào)輸入特征向量的選擇是建立預(yù)測模型關(guān)鍵的一步，他提出了一種基于隨機(jī)森林篩選預(yù)測模型輸入向量的方法，通過降低模型復(fù)雜度，加快模型預(yù)測速度的同時(shí)提高了預(yù)測的精度。在模型搭建方面，Zhao等[12]在2014年使用機(jī)器學(xué)習(xí)和降維(SVD)方法，利用天貓—特定特征數(shù)據(jù)預(yù)測用戶購買行為，得到了很好的效果。Martínez等[13]使用Logistic Lasso、extreme learning machine和gradient tree boost分別搭建預(yù)測模型，預(yù)測用戶在未來一個(gè)月的購買行為，實(shí)驗(yàn)結(jié)果表明梯度提升樹預(yù)測效果最佳，這是集成學(xué)習(xí)在數(shù)值預(yù)測問題中的新探索。

近年來，深度學(xué)習(xí)算法很流行。它們由逐層神經(jīng)網(wǎng)絡(luò)構(gòu)成，具有很強(qiáng)的表示學(xué)習(xí)能力，在各領(lǐng)域預(yù)測問題研究中取得顯著的成果[14]。但深度學(xué)習(xí)模型參數(shù)較多，訓(xùn)練時(shí)間長。南京大學(xué)周志華教授于2017年首次提出深度森林的概念[15]，同時(shí)提出了一種以隨機(jī)森林為基分類器的多粒度級聯(lián)森林(multi-Grained Cascade forest，gcForest)深度樹集成方法。該框架提出至今，已被應(yīng)用于多個(gè)領(lǐng)域。Hu等[16]基于深度森林算法框架，搭建了一個(gè)既保留深度學(xué)習(xí)的特征表示能力，又考慮召回率和模型訓(xùn)練時(shí)間等其他評價(jià)指標(biāo)的新模型，新模型取得了比集成學(xué)習(xí)算法更優(yōu)異的表現(xiàn)。葛紹林等[17]提出了一種基于深度森林的用戶購買行為預(yù)測模型，在阿里平臺真實(shí)數(shù)據(jù)集上構(gòu)建用戶行為特征，輸入模型預(yù)測，實(shí)驗(yàn)結(jié)果表明深度森林模型在降低時(shí)間開銷的同時(shí)提高了預(yù)測準(zhǔn)確率。

綜上所示，這些技術(shù)只是簡單地從特征提取或模型選擇單方面進(jìn)行改進(jìn)。特征提取時(shí)未考慮數(shù)據(jù)間的時(shí)序關(guān)系，特征構(gòu)建不夠全面。模型選擇單一，未考慮多樣性對模型整體建設(shè)的重要性。本文通過對真實(shí)數(shù)據(jù)集進(jìn)行可視化操作，針對數(shù)據(jù)集稀疏性特點(diǎn)，有針對性地從五方面提取重要特征。電商平臺數(shù)據(jù)更新頻繁，對模型訓(xùn)練效率要求高，基于多種集成學(xué)習(xí)算法，提出了基于深度森林模型的用戶購買行為預(yù)測模型，在本文特征集上進(jìn)行訓(xùn)練，能得到很好的預(yù)測表現(xiàn)。深度森林是一個(gè)深度樹集成方法，具有比深度神經(jīng)網(wǎng)絡(luò)少得多的超參數(shù)，可以避免大規(guī)模的參數(shù)擬合來節(jié)省時(shí)間，在許多與深度神經(jīng)網(wǎng)絡(luò)競爭的領(lǐng)域表現(xiàn)出了出色的分類性能[18-19]。模型中的超參數(shù)有較強(qiáng)的魯棒性，在近乎完全一樣的超參數(shù)設(shè)置下，對不同領(lǐng)域不同數(shù)據(jù)的分類任務(wù)都能取得不錯(cuò)的分類效果。

2 預(yù)測模型

2.1 問題場景

在電商平臺中，用戶對日用品的購買具有一定規(guī)律性，在購買某品類物品時(shí)，會(huì)先瀏覽該品類的不同商品，在挑選和比較商品的過程中，會(huì)產(chǎn)生一系列的操作行為，如本文數(shù)據(jù)集中的瀏覽、關(guān)注行為等。不同用戶擁有不同的購物習(xí)慣，部分用戶要達(dá)到一定瀏覽次數(shù)才會(huì)產(chǎn)生購買行為，也有用戶習(xí)慣先關(guān)注心儀物品，日后從關(guān)注列表進(jìn)行購買。

2.2 特征構(gòu)建

在預(yù)測問題的研究中，決定最終預(yù)測結(jié)果好壞的，是特征的構(gòu)建和模型的選擇。在某種程度上，特征構(gòu)建的重要性甚至超過了模型的選擇。本文在原始數(shù)據(jù)集基礎(chǔ)上，從五個(gè)方面提取特征，從瀏覽—購買、關(guān)注—購買、購買—評論三個(gè)角度來擴(kuò)展特征。同時(shí)，引入時(shí)間滑動(dòng)窗口技術(shù)，構(gòu)建動(dòng)態(tài)時(shí)序序列，主要工作流程如圖1所示。

圖1 基于時(shí)間滑窗的特征構(gòu)建流程圖

(1) 基本特征。包括用戶性別、年齡、級別，商品的價(jià)格、參數(shù)等基本特征共7個(gè)。

(1)

(2)

式中：Δtu,i=tu,i-tu,i-1表示[A,B]窗口內(nèi)，第i次購買和第i-1次購買之間的時(shí)間差，以天為單位。權(quán)重wi：

(3)

(4)

(5)

用戶瀏覽、關(guān)注和評論行為的數(shù)量特征和時(shí)序特征的提取與上述一致。

(4) 組合特征。在以上已提取特征的基礎(chǔ)上，進(jìn)行關(guān)聯(lián)特征的組合。將數(shù)量特征(12個(gè))與時(shí)序特征(4個(gè))分別組合，構(gòu)建用戶活躍度指數(shù)特征，生成12×4=48個(gè)新特征xactive1：

(6)

(5) 時(shí)間滑動(dòng)窗口特征。以上構(gòu)建的83個(gè)特征的是在單時(shí)間窗口內(nèi)進(jìn)行的特征提取，本文初步設(shè)定的窗口個(gè)數(shù)為3個(gè)，窗口權(quán)重按由近及遠(yuǎn)依次設(shè)定為w1=2,w2=1.5,w3=1。至此，本節(jié)一共得到83×3=249個(gè)特征。

2.3 深度森林算法

深度森林算法的產(chǎn)生基于兩個(gè)目的：一方面，增強(qiáng)輸入特征的差異性；另一方面，增強(qiáng)模型對特征的處理能力。前者通過多粒度掃描模塊實(shí)現(xiàn)，后者通過多層級聯(lián)森林模塊實(shí)現(xiàn)。

圖2為多粒度掃描過程，多粒度掃描其實(shí)是引用了類似卷積神經(jīng)網(wǎng)絡(luò)滑動(dòng)窗口的技術(shù)，目前主要針對輸入的一維時(shí)序序列和二維圖像數(shù)據(jù)進(jìn)行掃描和特征提取。本文分類任務(wù)是將輸入的一維時(shí)序數(shù)據(jù)分為兩類，在掃描一維時(shí)序特征時(shí)，假設(shè)輸入特征向量為300維，采樣窗口設(shè)定為100維，通過逐步滑窗采樣，最終掃描產(chǎn)生201個(gè)子樣本(默認(rèn)采樣步長為1，所以子樣本數(shù)=(300-100)/1+1=201)。將子樣本分別輸入森林A和森林B中進(jìn)行訓(xùn)練，每個(gè)樣本輸出一個(gè)2維的概率特征向量，原始輸入的300維特征向量經(jīng)多粒度掃描后最終生成804維類特征向量，將所有向量連接起來作為級聯(lián)森林的輸入特征向量。

圖2 多粒度掃描過程

圖3 級聯(lián)森林結(jié)構(gòu)的圖示

多粒度掃描的特征輸入級聯(lián)森林模塊，經(jīng)過層層學(xué)習(xí)最終得到訓(xùn)練的學(xué)習(xí)模型和預(yù)測結(jié)果。本文提取的原始數(shù)據(jù)為一維時(shí)序數(shù)據(jù)，輸入的特征向量為249維。特征的提取基于用戶歷史行為數(shù)據(jù)，特征間具有很強(qiáng)的時(shí)序關(guān)系，故在多粒度掃描模塊，我們設(shè)計(jì)3個(gè)滑動(dòng)窗口分別進(jìn)行特征提取，滑動(dòng)窗口維度分別為50維、100維、150維，滑動(dòng)步長均為1?；趃cForest的用戶復(fù)購預(yù)測模型整體結(jié)構(gòu)如圖4所示。

圖4 用戶復(fù)購預(yù)測模型整體結(jié)構(gòu)圖示

其輸入是特征工程模塊提取的原始樣本集(其中一行樣本數(shù)據(jù)由基本特征、數(shù)量特征和時(shí)序特征等5類特征構(gòu)成的數(shù)據(jù)和標(biāo)簽組成)，經(jīng)多粒度掃描模塊后，共提取特征1 800維，作為級聯(lián)森林第一級的輸入，第一級訓(xùn)練后產(chǎn)生4×2=8維增強(qiáng)特征，加上1 800維粒度掃描得到的特征向量，形成1 808維變換特征向量作為第二級的輸入。以此類推，完成整個(gè)級聯(lián)森林的模型訓(xùn)練，重復(fù)以上過程直到模型性能收斂。算法1是深度森林模型的詳細(xì)算法描述。

算法1深度森林算法描述

Input:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xn,yn)}

測試集T={(xn+1,yn+1),(xn+2,yn+2),…,(xm,ym)}

深度森林最大層數(shù)M

Process

D0=多粒度掃描(D)

fori in Mdo

用訓(xùn)練集D訓(xùn)練得到2個(gè)隨機(jī)森林和2個(gè)完全隨機(jī)森林，兩者結(jié)合構(gòu)成級聯(lián)森林的第i層；

計(jì)算測試集T在當(dāng)前層的模型上的預(yù)測準(zhǔn)確率pi

ifpi-pi-1<0(i>0)do

訓(xùn)練終止，輸出深度森林模型。

end

else

得到級聯(lián)森林第i層輸出的二維類向量Y，與Di-1(i>0)中的特征進(jìn)行拼接，得到下一層森林的輸入Di+1

endif

ifi

訓(xùn)練終止，輸出深度森林模型

end

else

跳轉(zhuǎn)至for循環(huán)

endif

endfor

Output：深度森林模型

3 實(shí)驗(yàn)分析

本實(shí)驗(yàn)基于京東平臺2017年大數(shù)據(jù)算法比賽提供的真實(shí)數(shù)據(jù)集，為京東商城在2016年5月1日至2017年4月30日期間，9萬多名用戶對近4 000多個(gè)日用品的瀏覽、關(guān)注、購買和評論行為。

3.1 數(shù)據(jù)處理

數(shù)據(jù)集中包括兩個(gè)特殊的時(shí)間段：雙十一期間和6·18期間，據(jù)統(tǒng)計(jì)，京東2019年雙十一當(dāng)天日活躍用戶數(shù)(DAU)達(dá)4 786萬，為平時(shí)日活躍用戶數(shù)的幾十倍，故對雙十一和6·18期間的用戶行為參考平日數(shù)據(jù)進(jìn)行均衡化處理；特征矩陣中每一條樣本由user_id唯一標(biāo)識，該屬性不能刻畫樣本自身的分布規(guī)律，屬無關(guān)屬性，應(yīng)刪除；構(gòu)建數(shù)量特征時(shí)，存在少量用戶只有用戶描述，無任何行為數(shù)據(jù)，將該類用戶信息刪除，不參與訓(xùn)練；原始數(shù)據(jù)集正負(fù)樣本不均衡(16 774個(gè)負(fù)樣本和48 718個(gè)正樣本)，本文使用SMOTE技術(shù)[20]生成23 824個(gè)新的負(fù)樣本得到正負(fù)樣本比為1.2 ∶1的均衡數(shù)據(jù)集。

訓(xùn)練集構(gòu)建時(shí)間范圍為2016年9月1日—2017年3月31日，其中2016年9月1日—2017年2月28日為特征提取時(shí)間范圍，由三個(gè)時(shí)間滑動(dòng)窗口共同提取特征，2017年3月份的用戶購買行為作為標(biāo)簽(0代表無購買行為，1代表至少有一次購買行為)。同理，測試集在2016年10月1日—2017年3月31日區(qū)間內(nèi)提取特征，以2017年4月份的購買行為作為標(biāo)簽進(jìn)行預(yù)測評估。

3.2 評估指標(biāo)

本文實(shí)驗(yàn)采用5個(gè)標(biāo)準(zhǔn)的評估指標(biāo)：準(zhǔn)確率(Accuracy)、查準(zhǔn)率(Precious)、查全率(Recall)、F1和AUC(Area Under Curve)。準(zhǔn)確率指的是正確預(yù)測的樣本數(shù)占總預(yù)測樣本數(shù)的比值，它不考慮預(yù)測的樣本是正例還是反例。查準(zhǔn)率指正確預(yù)測的正樣本數(shù)占所有預(yù)測為正樣本的數(shù)量的比值，查準(zhǔn)率越高，證明對有購買行為預(yù)測越準(zhǔn)確，推薦算法越精準(zhǔn)。查全率指正確預(yù)測的正樣本數(shù)占真實(shí)正樣本總數(shù)的比值。查準(zhǔn)率和查全率是相互作用的兩個(gè)指標(biāo)，一個(gè)指標(biāo)的增加會(huì)導(dǎo)致另一指標(biāo)的下降，因此，選用F1作為衡量模型整體性的指標(biāo)。AUC被定義為ROC曲線下的面積，其取值區(qū)間為[0,1]，AUC值可以很直觀地評估模型表現(xiàn)，值越接近1表示模型分類效果越好。

評估指標(biāo)表示如式(7)-式(10)所示。

(7)

(8)

(9)

(10)

3.3 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)平臺基于Python語言搭建，實(shí)驗(yàn)硬件環(huán)境為英特爾i7- 7700 CPU @ 3.60 GHz處理器，8 GB內(nèi)存，操作系統(tǒng)為Windows 10專業(yè)版，實(shí)驗(yàn)的主要配置如表1所示。

表1 實(shí)驗(yàn)配置表

4 實(shí)驗(yàn)結(jié)果及分析

深度森林模型中森林的構(gòu)建是模型建立的核心，而決策樹的構(gòu)建是森林的核心，因此森林中決策樹的數(shù)量和深度會(huì)直接影響模型的訓(xùn)練效率和分類效果。深度森林可以級聯(lián)多種模型，多樣性對模型的設(shè)計(jì)尤為關(guān)鍵[21]，因此，本文嘗試級聯(lián)邏輯回歸(LR)、隨機(jī)森林(RF)、極端隨機(jī)樹(ET)、梯度提升樹(XGB)中多種森林模型，并通過實(shí)驗(yàn)確定模型種類和超參數(shù)。

如圖5(a)所示，各個(gè)森林模型整體均呈現(xiàn)隨n_estimate參數(shù)增大準(zhǔn)確率先增加后趨向平穩(wěn)的趨勢。其中，RF和XGB模型預(yù)測準(zhǔn)確率相當(dāng)。由于n_estimate參數(shù)的增加會(huì)帶來時(shí)間上的開銷，圖5(b)對模型訓(xùn)練時(shí)間進(jìn)行對比，可以明顯看出，n_estimate參數(shù)越大，模型的訓(xùn)練時(shí)間越長。

(a) 準(zhǔn)確率評估表現(xiàn)

(b) 訓(xùn)練時(shí)間評估表現(xiàn)圖5 n_estimators參數(shù)不同設(shè)置下模型表現(xiàn)

此外，我們對各模型隨參數(shù)maxdepth的變化情況進(jìn)行對比。圖6(a)可知，隨著maxdepth參數(shù)的增大，模型準(zhǔn)確率不但沒有提高，反而有所降低。在圖6(b)中，對于RF和ET模型而言，maxdepth參數(shù)的增大沒有帶來時(shí)間上的開銷，但XGB模型隨maxdepth參數(shù)的增大，運(yùn)行時(shí)間增加非常明顯。

(a) 準(zhǔn)確率指標(biāo)評估

(b) 訓(xùn)練時(shí)間上的表現(xiàn)圖6 maxdepth參數(shù)不同設(shè)置下模型的表現(xiàn)

通過綜合分析圖5、圖6中模型表現(xiàn)，對以上三個(gè)模型的超參數(shù)進(jìn)行設(shè)置(表2)。

表2 級聯(lián)森林中各模型參數(shù)設(shè)置

以上提到的三種模型在分類表現(xiàn)上各有優(yōu)勢：RF模型的方差和偏差都比較低，因而在實(shí)驗(yàn)中擁有最高的準(zhǔn)確率和最快的訓(xùn)練效率；ET模型的方差相對RF進(jìn)一步減少，偏差有所增大，分類準(zhǔn)確率稍有下降；XGBoost(表3中簡稱：XGB)作為梯度提升集成學(xué)習(xí)算法的典型代表，擁有非常高的準(zhǔn)確率，只是時(shí)間開銷比較大。級聯(lián)模型的多樣性直接影響分類效果，本文通過級聯(lián)以上多個(gè)模型，得到多種級聯(lián)森林的實(shí)驗(yàn)結(jié)果(表3)。

表3 多種級聯(lián)森林分類預(yù)測評估

通過對模型表現(xiàn)進(jìn)行多方面對比，綜合考慮模型準(zhǔn)確率和運(yùn)行時(shí)間等評估指標(biāo)，我們選擇RF、ET和XGB三種模型組成深度森林的級聯(lián)森林模塊。

為突出深度森林算法的優(yōu)勢，基于以上數(shù)據(jù)集，本文引入傳統(tǒng)機(jī)器學(xué)習(xí)算法：邏輯回歸(LR)、支持向量機(jī)(SVM)、決策樹(Decision Tree，DT)、深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)和集成算法隨機(jī)森林(Random Forest，RF)、XGBoost進(jìn)行預(yù)測和對比，各算法的部分超參數(shù)設(shè)置在表4中列出。表5列出了模型在各個(gè)指標(biāo)上的表現(xiàn)情況，其中每個(gè)評估指標(biāo)上表現(xiàn)最好的算法使用黑體加粗標(biāo)識。

表4 本文所用機(jī)器學(xué)習(xí)算法超參數(shù)設(shè)置表

表5 各模型在不同指標(biāo)上的表現(xiàn)

可以看出，深度森林模型在預(yù)測用戶復(fù)購行為上的表現(xiàn)比傳統(tǒng)機(jī)器學(xué)習(xí)算法更好，與深度卷積神經(jīng)網(wǎng)絡(luò)相比，雖然模型在預(yù)測準(zhǔn)確率上優(yōu)勢不明顯，但深度森林模型的訓(xùn)練時(shí)間僅為深度卷積神經(jīng)網(wǎng)絡(luò)的1/20，隨著數(shù)據(jù)量的增加，模型訓(xùn)練時(shí)間差距可能會(huì)更加明顯。對電商平臺應(yīng)用場景而言，這是非常重要的評估標(biāo)準(zhǔn)。

5 結(jié) 語

本文將深度森林算法應(yīng)用于真實(shí)數(shù)據(jù)集下用戶購買行為預(yù)測中，同時(shí)引入時(shí)間滑動(dòng)窗口技術(shù)和窗口權(quán)重遞減設(shè)置，經(jīng)數(shù)據(jù)分析、特征提取、缺失值剔除及數(shù)據(jù)平衡化等處理后得到用于訓(xùn)練的特征數(shù)據(jù)。后從模型多樣性的角度出發(fā)，構(gòu)建由多個(gè)集成學(xué)習(xí)算法組成的深度森林模型。電商平臺真實(shí)場景下，數(shù)據(jù)量更大，數(shù)據(jù)更新更快，因此本文模型還有更進(jìn)一步改進(jìn)和提升的空間。