韓亞娟,高 欣
(上海大學(xué) 管理學(xué)院,上海 200444)
銷(xiāo)量預(yù)測(cè)是企業(yè)供應(yīng)鏈的各個(gè)層次中必不可少的環(huán)節(jié)[1].近年來(lái),電子商務(wù)以及電商物流在互聯(lián)網(wǎng)時(shí)代背景下蓬勃發(fā)展,使交付周期縮短、客戶(hù)期望增加.電商企業(yè)為了贏得持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì),在有限資源下,銷(xiāo)量預(yù)測(cè)變得更加重要[2].與此同時(shí),電商企業(yè)也能從消費(fèi)者行為中獲得大量數(shù)據(jù),數(shù)據(jù)成為企業(yè)未來(lái)發(fā)展的核心競(jìng)爭(zhēng)力,海量的數(shù)據(jù)對(duì)于企業(yè)來(lái)說(shuō)是其獨(dú)特的優(yōu)勢(shì)和資源[3].如何有效地利用數(shù)據(jù)、精確地對(duì)銷(xiāo)量進(jìn)行預(yù)測(cè),成為了電商企業(yè)關(guān)注的焦點(diǎn).隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)的快速發(fā)展,合適的算法技術(shù),將為企業(yè)建立預(yù)測(cè)方案提供關(guān)鍵的技術(shù)支持.
許多學(xué)者專(zhuān)家在銷(xiāo)量預(yù)測(cè)方面做了系統(tǒng)的研究.在傳統(tǒng)的銷(xiāo)量預(yù)測(cè)方法中,大多采用了如線性模型、指數(shù)平滑等統(tǒng)計(jì)方法.如陳日進(jìn)[4]在銷(xiāo)售預(yù)測(cè)中比較了指數(shù)平滑與時(shí)間序列分解法,指出指數(shù)平滑法受季節(jié)性、周期性制約.Papacharalampous 等人[5]評(píng)估了各種統(tǒng)計(jì)方法在時(shí)間序列的可預(yù)測(cè)性,并在性能上做了比較,體現(xiàn)出這些方法在需求基本穩(wěn)定市場(chǎng)中的良好表現(xiàn).但是這種情況并不適用于現(xiàn)在的預(yù)測(cè),因?yàn)樾枨筮€依賴(lài)于除時(shí)間外的其他因素,而這些因素并不能有效地用過(guò)去的需求量來(lái)表示.例如,Uber 或滴滴出行等按需乘車(chē)服務(wù)不能僅依靠時(shí)間序列來(lái)估計(jì)其需求,它們必須考慮其他因素,如天氣條件(濕度、溫度等)、一天中的時(shí)間段或一周中的某一天[6].而傳統(tǒng)的統(tǒng)計(jì)預(yù)測(cè)方法通過(guò)外推歷史趨勢(shì)和季節(jié)波動(dòng)來(lái)預(yù)測(cè)未來(lái),所以它們通常很難利用對(duì)需求產(chǎn)生重大影響的特征進(jìn)行預(yù)測(cè)[1].
因此,包括機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)在內(nèi)的人工智能的新方法因其增強(qiáng)預(yù)測(cè)性能和建模非線性模式的能力而受到關(guān)注[7].由于深度神經(jīng)網(wǎng)絡(luò)在機(jī)器視覺(jué)、自然語(yǔ)言處理等方面的良好表現(xiàn),人們開(kāi)始將其運(yùn)用于銷(xiāo)量預(yù)測(cè).如WaveNet[8]、長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)[9]等.雖然與傳統(tǒng)的預(yù)測(cè)方法相比,深度神經(jīng)網(wǎng)絡(luò)有更好的預(yù)測(cè)表現(xiàn),但是其預(yù)測(cè)結(jié)果的可解釋行較差.所以預(yù)測(cè)的結(jié)果所能帶給企業(yè)的實(shí)際價(jià)值是有限的.與之相對(duì)的是,一些學(xué)者在研究中展現(xiàn)了隨機(jī)森林(random forest,RF)杰出的可解釋性水平、良好的精度和適當(dāng)?shù)挠?jì)算時(shí)間[10,11].隨機(jī)森林也被視為預(yù)測(cè)性分析約定俗成的工具,因?yàn)樗尮芾碚吡私饽P捅澈蟮脑?并了解其如何影響最終的結(jié)果.此外,運(yùn)用迭代與梯度提升思想的梯度提升樹(shù)(gradient boosting decision tree,GBDT)算法在生產(chǎn)與服務(wù)性需求預(yù)測(cè)中表現(xiàn)出比一般模型更好的性能與穩(wěn)定性[12].在基于梯度提升的基礎(chǔ)上,極限梯度提升(extreme gradient boosting,XGBoost)算法在工業(yè)實(shí)踐中有著優(yōu)秀的準(zhǔn)確性,在銷(xiāo)售預(yù)測(cè)的研究中驗(yàn)證了其良好的精度[13].
在輸出預(yù)測(cè)模型的過(guò)程中,學(xué)術(shù)研究人員和商業(yè)實(shí)踐者經(jīng)常遇到一個(gè)重要問(wèn)題:是選擇合適的建模方法進(jìn)行預(yù)測(cè),還是將這些不同的方法組合成一個(gè)單一的預(yù)測(cè)模型? Lean 等人對(duì)候選模型的選擇策略與組合策略做了研究,結(jié)果發(fā)現(xiàn)組合模型的預(yù)測(cè)效果一般優(yōu)于個(gè)體預(yù)測(cè)模型,且非線性組合的預(yù)測(cè)精度會(huì)優(yōu)于線性組合模型[14].因此,為進(jìn)一步優(yōu)化預(yù)測(cè)的結(jié)果,本文將著眼于電商商品的特點(diǎn),分析影響電商商品的特征因素,從而構(gòu)建新的特征集,使用RF、GBDT、XGBoost算法建立組合預(yù)測(cè)模型,對(duì)電商商品銷(xiāo)量進(jìn)行預(yù)測(cè).
RF是一種基于決策樹(shù)的回歸模型學(xué)習(xí)算法[15].每棵樹(shù)使用隨機(jī)選擇的特征子集來(lái)生長(zhǎng),然后計(jì)算在每個(gè)樹(shù)的最后一個(gè)節(jié)點(diǎn)處獲得的預(yù)測(cè)的平均值,彌補(bǔ)了單個(gè)決策樹(shù)所表現(xiàn)出的偏差低但方差非常大的不足,是一種強(qiáng)大而且不復(fù)雜的算法.
GBDT是一種由迭代思想而來(lái)的決策樹(shù)算法[16],通過(guò)集成基學(xué)習(xí)器,即CART 回歸樹(shù)形成強(qiáng)學(xué)習(xí)器來(lái)預(yù)測(cè)結(jié)果.對(duì)于一個(gè)包含n個(gè)樣本的數(shù)據(jù)集D={(xi,yi)}(|D|=n,xi∈R,yi∈R),算法具體步驟如下:
(1)初始化學(xué)習(xí)器:
其中,初始常數(shù)C一般設(shè)置為樣本真實(shí)值均值,L(·)為所選擇的損失函數(shù).
(2)迭代模型,其中迭代次數(shù)m=1,2,···,M:
1)對(duì)于每一個(gè)樣本i=1,2,···,n,計(jì)算負(fù)梯度,即殘差rim:
2)將得到的殘差更新為樣本真實(shí)值,并將數(shù)據(jù)(xi,rim) 作為第m棵樹(shù)的訓(xùn)練數(shù)據(jù),其對(duì)應(yīng)的葉子節(jié)點(diǎn)為Rjm,j=1,2,···,J.J為回歸樹(shù)的葉子節(jié)點(diǎn)數(shù).
3)對(duì)葉子區(qū)域j=1,2,···,J計(jì)算最優(yōu)的擬合值:
4)更新強(qiáng)學(xué)習(xí)器:
其中,I為指示函數(shù),當(dāng)x∈Rjm時(shí)值為1,否則為0.
(3)得到最終的強(qiáng)學(xué)習(xí)器預(yù)測(cè)值為:
XGBoost是由陳天奇等人提出的集成提升樹(shù)學(xué)習(xí)模型[17].它高效地實(shí)現(xiàn)了GBDT,并進(jìn)行了算法和工程上的許多改進(jìn),已經(jīng)在大量的數(shù)據(jù)挖掘競(jìng)賽中被廣泛地認(rèn)可,具有高效、靈活且魯棒性強(qiáng)等優(yōu)點(diǎn).對(duì)于一個(gè)包含n個(gè) 樣本的數(shù)據(jù)集D={(xi,yi)}(|D|=n,xi∈R,yi∈R),算法具體步驟如下:
(1)定義目標(biāo)函數(shù),由損失函數(shù)與正則項(xiàng)兩部分組成:
正則項(xiàng)部分如式(7)所示:
其中,K表示共有K棵樹(shù),fk表示第k棵樹(shù)模型,T表示每棵樹(shù)的葉子結(jié)點(diǎn)數(shù)量,ω 表示每棵樹(shù)的葉子結(jié)點(diǎn)的權(quán)重值,γ和λ為系數(shù),需要在訓(xùn)練中進(jìn)行調(diào)參.
(2)模型策略,與GBDT 相同,目標(biāo)函數(shù)的求解也是基于迭代思想,對(duì)于第t次迭代:
利用泰勒公式對(duì)式(8)進(jìn)行展開(kāi),得到:
本文旨在建立一個(gè)銷(xiāo)售預(yù)測(cè)模型來(lái)預(yù)測(cè)一段時(shí)期的電商銷(xiāo)量.為此,將用組合機(jī)器學(xué)習(xí)模型對(duì)電商商品的數(shù)據(jù)進(jìn)行建模和預(yù)測(cè).總體的研究框架如圖1所示,主要包括兩個(gè)部分:數(shù)據(jù)集處理和組合預(yù)測(cè)模型構(gòu)建.
圖1 預(yù)測(cè)流程圖
第1 部分:數(shù)據(jù)集處理.對(duì)原始數(shù)據(jù)進(jìn)行缺失值和異常值的數(shù)據(jù)預(yù)處理以及重新對(duì)樣本組織與特征構(gòu)建的過(guò)程.
第2 部分:組合預(yù)測(cè)模型構(gòu)建.對(duì)處理過(guò)的數(shù)據(jù)集分別用RF、GBDT、XGBoost 模型訓(xùn)練后,組合基礎(chǔ)模型的預(yù)測(cè)結(jié)果,并在此基礎(chǔ)上利用各個(gè)商品的補(bǔ)少補(bǔ)多成本對(duì)組合預(yù)測(cè)的結(jié)果賦權(quán),得到最后的預(yù)測(cè)輸出.
數(shù)據(jù)集處理的目的是挖掘有效的特征.預(yù)測(cè)結(jié)果的上限由數(shù)據(jù)和特征所決定,而模型和算法只能不斷逼近這個(gè)上限.當(dāng)算法難以突破瓶頸時(shí),優(yōu)秀的組合特征通常可以達(dá)到良好的預(yù)測(cè)效果.在本節(jié)中,將對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,并構(gòu)建新的模型特征集.
2.2.1 數(shù)據(jù)來(lái)源及預(yù)測(cè)特點(diǎn)介紹
阿里巴巴旗下電商擁有海量的買(mǎi)家和賣(mài)家交易場(chǎng)景下的數(shù)據(jù).本文研究的數(shù)據(jù)集來(lái)源于天池平臺(tái),由全國(guó)倉(cāng)數(shù)據(jù)、區(qū)域倉(cāng)數(shù)據(jù)和商品成本數(shù)據(jù)組成.數(shù)據(jù)集的基本信息如下:
(1)全國(guó)倉(cāng)數(shù)據(jù):包含了從2014.10.10–2015.12.27共442 天963 種商品的210 549 條銷(xiāo)售數(shù)據(jù).其中,商品的分類(lèi)特征有4 個(gè),如類(lèi)目ID、品牌ID 等,商品的用戶(hù)行為特征有25 個(gè),如瀏覽人數(shù)、加購(gòu)物車(chē)人數(shù)、成交人數(shù)等,以及日期、商品ID、倉(cāng)庫(kù)CODE 特征,一共32 維特征.
(2)區(qū)域倉(cāng)數(shù)據(jù):和全國(guó)倉(cāng)沒(méi)有本質(zhì)區(qū)別,涵蓋了從2014.10.10–2015.12.27的相同963 種商品的864 772條區(qū)域倉(cāng)的銷(xiāo)售數(shù)據(jù).
(3)商品成本數(shù)據(jù):記錄每個(gè)商品在全國(guó)和區(qū)域倉(cāng)的缺貨和庫(kù)存管理成本,即商品的補(bǔ)少成本a和補(bǔ)多成本b,用于計(jì)算總成本.
電商零售的所有工作都是讓正確的產(chǎn)品在正確的時(shí)間正確的地點(diǎn)滿足正確的消費(fèi)者.而在多年的電商平臺(tái)實(shí)踐中得知,商品銷(xiāo)量受眾多主客觀因素影響.總的來(lái)說(shuō),電商銷(xiāo)量預(yù)測(cè)問(wèn)題有以下的特點(diǎn):
(1)快速變化的用戶(hù)需求.消費(fèi)者需求會(huì)隨著地點(diǎn)、時(shí)間、特殊事件、個(gè)人偏好等各種各樣因素而改變,有時(shí)一個(gè)熱點(diǎn)就會(huì)導(dǎo)致商品銷(xiāo)量的激增或暴跌.這就產(chǎn)生了高度非平穩(wěn)的銷(xiāo)量時(shí)間序列.
(2)集中庫(kù)存.為了針對(duì)消費(fèi)者需求的快速變化,品牌電商平臺(tái)會(huì)建設(shè)或租賃大型倉(cāng)庫(kù)對(duì)各類(lèi)商品集中庫(kù)存以提供對(duì)不確定性的緩沖,這使電商銷(xiāo)量預(yù)測(cè)一般具有固定的時(shí)間周期.
(3)成千上萬(wàn)的產(chǎn)品.不同消費(fèi)者的消費(fèi)偏好是不同的,為了盡可能滿足所有用戶(hù)需求,大型電商平臺(tái)會(huì)在各種垂直品類(lèi)間部署不同類(lèi)型的大量商品,就產(chǎn)生了成千上萬(wàn)的時(shí)間序列.
2.2.2 數(shù)據(jù)預(yù)處理
此數(shù)據(jù)集經(jīng)過(guò)了脫敏處理,和商品的實(shí)際銷(xiāo)售量、成交金額等有一些差距,但是對(duì)整體的數(shù)據(jù)特性沒(méi)有影響.但由于數(shù)據(jù)來(lái)源于真實(shí)場(chǎng)景,原始數(shù)據(jù)的完整性、穩(wěn)定性等有所缺失,會(huì)對(duì)模型性能造成一定的影響,為此,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以匹配模型的需求.
(1)缺失值處理
有些商品信息在數(shù)據(jù)收集的過(guò)程中,由于商品的預(yù)售或團(tuán)購(gòu)等活動(dòng),存在一段時(shí)間內(nèi)只有商品的用戶(hù)行為特征而沒(méi)有銷(xiāo)量信息的情況.此外,后臺(tái)日志記錄的缺失也造成部分商品沒(méi)有用戶(hù)行為特征的現(xiàn)象.鑒于不同類(lèi)型商品的銷(xiāo)售周期、用戶(hù)行為偏好都各不相同,本文統(tǒng)一對(duì)缺失值進(jìn)行補(bǔ)“0”處理,既保證了數(shù)據(jù)的完整性,也符合電商商品的實(shí)際情況.
(2)異常值處理
圖2展示了所有商品銷(xiāo)量按天進(jìn)行統(tǒng)計(jì)的結(jié)果.
圖2 銷(xiāo)量直方圖
(1)本數(shù)據(jù)集的商品銷(xiāo)量在該時(shí)間序列內(nèi)較為平穩(wěn),沒(méi)有表現(xiàn)出明顯的季節(jié)性和周期性波動(dòng).可以理解為本數(shù)據(jù)集所選取的商品具有全面性,銷(xiāo)量在時(shí)間維度上的變化互相抵消并呈現(xiàn)總體上升的趨勢(shì).
(2)商品銷(xiāo)量具有若干突出的局部峰值,這種表現(xiàn)在2015.11.11 尤為明顯.結(jié)合店商品臺(tái)的活動(dòng)可知,峰值出現(xiàn)的日期均為平臺(tái)促銷(xiāo)活動(dòng)“618”“雙11”“雙12”當(dāng)天.因此本文將這幾日的數(shù)據(jù)識(shí)別為異常值并予以刪除.
2.2.3 樣本組織與特征工程
目前,商品銷(xiāo)量預(yù)測(cè)周期多以周銷(xiāo)量為最小預(yù)測(cè)單元[18,19],考慮到電商商品的需求量大、物流過(guò)程復(fù)雜等特點(diǎn),本文以?xún)芍茏鳛橐粋€(gè)預(yù)測(cè)單元重新對(duì)原始數(shù)據(jù)進(jìn)行樣本組織,并在此基礎(chǔ)上構(gòu)建新特征集和標(biāo)簽.
時(shí)間滑窗法能消除數(shù)據(jù)噪音并擴(kuò)展訓(xùn)練集[20].如圖3所示,樣本重組織是利用了時(shí)間滑窗的方法,以?xún)芍転橐粋€(gè)滑窗單元,在原始時(shí)間序列上按時(shí)間逆序進(jìn)行滑動(dòng)窗口操作.
圖3 時(shí)間滑窗法
由于數(shù)據(jù)的預(yù)測(cè)價(jià)值會(huì)隨著離最終預(yù)測(cè)時(shí)間距離的增大而衰減[19],本文將全國(guó)倉(cāng)和區(qū)域倉(cāng)數(shù)據(jù)合并,進(jìn)行了11 次前向滑窗,加和每個(gè)窗口后兩周內(nèi)各個(gè)商品的非聚劃算支付件數(shù),即總銷(xiāo)量作為標(biāo)簽,使用窗口1,2 內(nèi)數(shù)據(jù)作為測(cè)試集,其余為訓(xùn)練集.
商家信譽(yù)、商品性?xún)r(jià)比與商品歷史數(shù)據(jù)在較大程度影響了商品的銷(xiāo)量[21,22].結(jié)合以上因素,本文特征集的構(gòu)建方法如下:統(tǒng)計(jì)窗口前N=1,2,3,5,7,9,11,14 天內(nèi)25 維用戶(hù)行為數(shù)據(jù)的總和與平均值為用戶(hù)行為特征;以商品分類(lèi)特征做聚合,統(tǒng)計(jì)各類(lèi)特征的銷(xiāo)量平均值、總和、標(biāo)準(zhǔn)差為商品分類(lèi)特征;統(tǒng)計(jì)窗口內(nèi)的部分轉(zhuǎn)化率為商品比率特征.在利用時(shí)間滑窗法數(shù)據(jù)集處理并進(jìn)行樣本組織和特征構(gòu)建后.共產(chǎn)生11 個(gè)時(shí)間窗口,424 維特征,46 938 條數(shù)據(jù).新特征集結(jié)果如表1所示.
表1 商品特征表
考慮到實(shí)際銷(xiāo)量的影響因素較多,本文在原始數(shù)據(jù)的基礎(chǔ)上擴(kuò)展特征集,從而使新數(shù)據(jù)集獲得了更多可以被算法學(xué)習(xí)的信息.如果采用單一模型預(yù)測(cè),可能面臨精度下降或是過(guò)擬合的風(fēng)險(xiǎn).Dietterich 指出,模型結(jié)合可能會(huì)從統(tǒng)計(jì)、計(jì)算和表示3 個(gè)方面帶來(lái)好處[23].因此,本文利用不同算法的結(jié)構(gòu)差異構(gòu)建組合銷(xiāo)售預(yù)測(cè)模型,在提升精度的同時(shí)減少單個(gè)模型過(guò)擬合的風(fēng)險(xiǎn).具體的步驟如下.
步驟1.基礎(chǔ)模型訓(xùn)練.將重新構(gòu)建樣本與特征后的訓(xùn)練集,分別用隨機(jī)森林、GBDT、XGBoost 模型訓(xùn)練,輸入測(cè)試集特征集進(jìn)行預(yù)測(cè),得到每個(gè)基礎(chǔ)模型的預(yù)測(cè)值,如式(10)所示.
步驟2.組合預(yù)測(cè).對(duì)于電商平臺(tái)來(lái)說(shuō),商品銷(xiāo)量預(yù)測(cè)結(jié)果與實(shí)際銷(xiāo)量差異直接決定了使用補(bǔ)少還是補(bǔ)多成本計(jì)算成本,而不同商品的補(bǔ)少補(bǔ)多成本不同.因此,本文將補(bǔ)少補(bǔ)多成本加入銷(xiāo)量預(yù)測(cè)模型建模.
基于每個(gè)商品的補(bǔ)多補(bǔ)少成本,本文提出一種成本厭惡偏向性組合預(yù)測(cè)方法,具體如下:對(duì)于每一個(gè)商品,若該商品的補(bǔ)少成本ai小于補(bǔ)多成本bi,說(shuō)明預(yù)測(cè)結(jié)果比真實(shí)值大時(shí)會(huì)承擔(dān)更多的成本風(fēng)險(xiǎn),則將3 個(gè)模型中的最小預(yù)測(cè)值做作為組合預(yù)測(cè)結(jié)果,使模型有預(yù)測(cè)少的偏向性;反之,則將3 個(gè)模型中最大值作為預(yù)測(cè)結(jié)果,使模型有預(yù)測(cè)多的偏向性,如式(11)所示.
步驟3.預(yù)測(cè)賦權(quán).在組合預(yù)測(cè)的基礎(chǔ)上,為了進(jìn)一步提升預(yù)測(cè)結(jié)果對(duì)成本厭惡偏向性,本文對(duì)每個(gè)樣本進(jìn)行賦權(quán).如圖4所示,由于Sigmoid 函數(shù)有著良好的單調(diào)遞增等性質(zhì),常被用作神經(jīng)網(wǎng)絡(luò)的激活函數(shù).
圖4 Sigmoid 函數(shù)
本文以式(12)的Sigmoid 函數(shù)為基礎(chǔ)構(gòu)建賦權(quán)函數(shù).在定義域大于0 時(shí),該函數(shù)取值范圍為(0.5,1).由第2.2.2 節(jié)的分析可知,商品整體銷(xiāo)量較為平穩(wěn),故賦予樣本的權(quán)重值不應(yīng)過(guò)大,在式(12)基礎(chǔ)上加0.5 構(gòu)建賦權(quán)函數(shù),如式(13)所示.顯然,補(bǔ)少補(bǔ)多成本間較大與較小的比值始終大于1,由此計(jì)算出的權(quán)重值域?yàn)?S(1)+0.5,1.5),即約 (1.23,1.5),滿足權(quán)重值的穩(wěn)定性要求.
步驟4.在計(jì)算出每個(gè)樣本的權(quán)重值后,對(duì)式(11)中成本厭惡偏向性組合預(yù)測(cè)結(jié)果進(jìn)行賦值,最終的預(yù)測(cè)結(jié)果如式(14)所示.
誤差度量通過(guò)將預(yù)測(cè)值與實(shí)際值進(jìn)行比較來(lái)度量模型的質(zhì)量.一般地,對(duì)于預(yù)測(cè)問(wèn)題,有均方誤差、平均絕對(duì)誤差等指標(biāo).
由于原始數(shù)據(jù)中給出了每個(gè)商品的補(bǔ)多成本ai,補(bǔ)少成本bi,因此本文選用預(yù)測(cè)的總成本作為評(píng)價(jià)指標(biāo),與傳統(tǒng)指標(biāo)無(wú)本質(zhì)差別,且使結(jié)果更直觀具有實(shí)際價(jià)值.
為了評(píng)價(jià)組合模型的預(yù)測(cè)能力,本文使用了RF、GBDT、XGBoost 三個(gè)基礎(chǔ)模型,加入特征工程的模型,以及組合預(yù)測(cè)模型對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)測(cè),使用總成本作為評(píng)價(jià)指標(biāo),結(jié)果如表2所示.
表2 各模型下的預(yù)測(cè)總成本
由表2可知:
(1)特征工程能提升預(yù)測(cè)準(zhǔn)確性.加入特征工程后的模型與基礎(chǔ)模型相比,總成本都有所下降.說(shuō)明2.2 節(jié)中的特征構(gòu)建流程從原始數(shù)據(jù)中增加了有效特征,并幫助提升了模型準(zhǔn)確性.
(2)組合預(yù)測(cè)模型有較好的預(yù)測(cè)準(zhǔn)確性.加入特征工程后的組合模型預(yù)測(cè)為127.43 萬(wàn)元,相比于加入特征工程后的基礎(chǔ)模型約下降了42–52 萬(wàn)元.其中,式(13)的預(yù)測(cè)賦權(quán)貢獻(xiàn)了約22 萬(wàn)元的成本下降,式(11)的組合方法貢獻(xiàn)了20–30 萬(wàn)元的成本下降.這展現(xiàn)了組合模型相較于基礎(chǔ)模型的優(yōu)越性和預(yù)測(cè)賦權(quán)方法的有效性.
為了更準(zhǔn)確預(yù)測(cè)電商商品的銷(xiāo)量,本文提出了基于機(jī)器學(xué)習(xí)的組合預(yù)測(cè)模型.通過(guò)數(shù)據(jù)的預(yù)處理重新組織樣本,從用戶(hù)行為、商品分類(lèi)和商品比率3 個(gè)方面構(gòu)建了424 維新特征集,并有效地使用了商品成本數(shù)據(jù),在本文提出的成本厭惡偏向性組合模型的基礎(chǔ)上對(duì)預(yù)測(cè)結(jié)果賦權(quán),得到最終的預(yù)測(cè)結(jié)果.該方法在實(shí)現(xiàn)了對(duì)平臺(tái)數(shù)據(jù)的精細(xì)化運(yùn)用的基礎(chǔ)上,降低了總體倉(cāng)儲(chǔ)成本,對(duì)電商平臺(tái)提前了解商品銷(xiāo)量情況,合理制定庫(kù)存水平有著重要的意義.