(北京物資學(xué)院 北京 101149)
隨著網(wǎng)絡(luò)的不斷的普及壯大,電子商務(wù)得到了迅猛發(fā)展,網(wǎng)絡(luò)購物現(xiàn)象已經(jīng)變得越來越普遍,國內(nèi)外的電子商務(wù)也從平臺時代逐步邁向了數(shù)據(jù)化和個性化的時代,伴隨而來的是物流的井噴式出現(xiàn),在大量的物流作業(yè)運(yùn)作的背后和電商平臺買家和賣家交易的場景下,產(chǎn)生了海量的數(shù)據(jù),其中蘊(yùn)含著豐富的、有價值的信息。通過挖掘這座數(shù)據(jù)礦石中有價值的信息,可以預(yù)測客戶的購買行為和消費(fèi)行為,這樣,便可以為電子商務(wù)公司以及與之相關(guān)的物流運(yùn)作提供重要的決策支撐。
同時,伴隨著信息和科學(xué)技術(shù)的發(fā)展,大部分的物流作業(yè)環(huán)節(jié)都已經(jīng)做到了高效、安全。但在配送環(huán)節(jié)還是需要投入大量的人力與物力。如何提高物流配送的效率,降低成本,也是值得電商物流企業(yè)和廣大學(xué)者研究的問題。
一些企業(yè)和學(xué)者就“提前配送”展開了探索:Elbert利用機(jī)器學(xué)習(xí)和預(yù)測模型,為Gilt網(wǎng)站提出了一種“預(yù)測性遞送”模式,即根據(jù)某些商品會在某些區(qū)域的預(yù)計銷售量,就在開始銷售它們之前,將其配送到指定的區(qū)域。當(dāng)這些商品真的被購買時,它們在地理位置上距離客戶更近,這意味著客戶可以更快的收到商品。亞馬遜也基于大量客戶的歷史消費(fèi)信息進(jìn)行預(yù)測,提出了一種“預(yù)期配送”模式,提前將客戶所需商品進(jìn)行預(yù)測性配送。阿里巴巴集團(tuán)于2016年4月底開始,先后開展了“需求預(yù)測與分倉規(guī)劃”、“最后一公里極速配送”算法大賽,以求尋找新穎解法,降低供應(yīng)鏈的總成本和客戶收貨時間。
通過以上分析,本文選擇阿里巴巴集團(tuán)旗下電商平臺的公開數(shù)據(jù)集。利用機(jī)器學(xué)習(xí)方法,提出一個融合預(yù)測模型框架,以實現(xiàn)對電商平臺配送商品在一段時間內(nèi)全國和分區(qū)域的需求量的預(yù)測。希望能夠?qū)﹄娚唐髽I(yè)和物流企業(yè)的發(fā)展提供有利的幫助。所有的數(shù)據(jù)已“脫敏”處理,不涉及信息安全問題。
結(jié)合需求預(yù)測方法研究現(xiàn)狀,歸納整理適用于本文的一些傳統(tǒng)的預(yù)測方法,如表1所示。
表1 傳統(tǒng)預(yù)測方法分析
隨著電子商務(wù)平臺的迅猛發(fā)展,針對電商平臺配送商品的需求預(yù)測問題,傳統(tǒng)的預(yù)測方法適用性在逐步下降。而以梯度漸進(jìn)回歸樹、支持向量回歸為代表的機(jī)器學(xué)習(xí)方法是近年來發(fā)展非常迅速的新型理論方法,具有良好的非線性優(yōu)勢,在預(yù)測方面表現(xiàn)出良好的性能。并且模型融合方法已在個性化推薦、電力需求預(yù)測等預(yù)測領(lǐng)域上表現(xiàn)出良好的預(yù)測效果。因此,本文選擇利用機(jī)器學(xué)習(xí)方法進(jìn)行相關(guān)的預(yù)測研究。
機(jī)器學(xué)習(xí)是人工智能領(lǐng)域中最能夠體現(xiàn)智能的一個分支,其可以根據(jù)經(jīng)驗數(shù)據(jù)進(jìn)行學(xué)習(xí),以提高最終系統(tǒng)的性能。機(jī)器學(xué)習(xí)所面對的關(guān)鍵問題是:如何讓計算機(jī)程序通過不斷積累知識和經(jīng)驗自主的提升信息處理能力。機(jī)器學(xué)習(xí)的出現(xiàn)使得人工智能在各個研究領(lǐng)域得到了關(guān)注和普及。機(jī)器學(xué)習(xí)方法按照學(xué)習(xí)方式不同,一般分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)四類。
(一)原始數(shù)據(jù)特征
本論文選擇在該數(shù)據(jù)集合上進(jìn)行需求預(yù)測研究。原始數(shù)據(jù)105M左右,涉及到全國和5個分區(qū)域的銷售數(shù)據(jù),時間跨度為2014年10月10日至2015年12月27日,其中包括商品數(shù)目1000,商品的銷售行為記錄共計118萬條,全國銷售行為記錄23萬條,分區(qū)域銷售記錄95萬條。
關(guān)于數(shù)據(jù)集的相關(guān)特征,如表2所示。
表2 數(shù)據(jù)集相關(guān)特征
商品的全國銷售數(shù)據(jù)和分區(qū)域的銷售數(shù)據(jù)維度是一樣的,僅有的不同是商品的分區(qū)域銷售數(shù)據(jù),表達(dá)的是某個倉庫CODE所負(fù)責(zé)的地理區(qū)域內(nèi)的用戶的相關(guān)行為。
(二)數(shù)據(jù)處理
首先我們將數(shù)據(jù)集合進(jìn)行劃分,將2014年10月10日至2015年12月13日的數(shù)據(jù)用于特征提取和模型預(yù)測,2015年12月14日至2015年12月27日的數(shù)據(jù)用于模型效果驗證。
針對表1中的數(shù)據(jù)集特征,利用主成分分析法進(jìn)行“降維”操作。“降維”的主要目的是(1)為了減少預(yù)測量的個數(shù);(2)確保這些變量是相互獨立的;(3)提供一個框架來解釋最終的結(jié)果。通過分析,我們選擇瀏覽次數(shù)、收藏夾人次、淘寶客引導(dǎo)瀏覽次數(shù)、拍下筆數(shù)、直通車引導(dǎo)次數(shù)、拍下金額、成交金額和非聚劃算支付件數(shù)等8個特征作為最終的候選特征。
對任意地區(qū)的商品需求量的預(yù)測將通過以下過程來完成,其中全國區(qū)域配送商品的需求預(yù)測和分區(qū)域的配送商品的需求預(yù)測訓(xùn)練過程是分開的、獨立進(jìn)行的。
(一)分別在全國、分區(qū)域的商品銷售的歷史記錄上進(jìn)行特征提取。因不同模型所需要的特征可能不完全相同,所以特征提取要盡量豐富。這里我們選擇提取出8個特征作為候選特征,供基礎(chǔ)模型和需求預(yù)測模型利用和選擇。
(二)利用特征提取的結(jié)果,訓(xùn)練不同的基礎(chǔ)模型,例如支持向量回歸、梯度漸進(jìn)回歸樹等;通過設(shè)置基礎(chǔ)模型不同的參數(shù),對基礎(chǔ)模型進(jìn)行調(diào)優(yōu),尋找預(yù)測最佳時的模型參數(shù),輸出各個基礎(chǔ)模型對配送商品在未來兩周內(nèi)全國和分區(qū)域的商品需求量。
(三)輸出最終預(yù)測結(jié)果。在對模型融合方法訓(xùn)練完成后,利用基礎(chǔ)模型結(jié)果和模型融合結(jié)果,按照一定的策略,融合各個基礎(chǔ)模型的預(yù)測值,輸出配送商品在全國和分區(qū)域的需求量預(yù)測值。
其中,模型融合框架,如圖1所示:
圖1 模型融合框架
在融合模型框架下,最終模型的公式可以由公式1-1表示。最終模型由每個單獨的學(xué)習(xí)器的結(jié)果加權(quán)求和得到,每個基礎(chǔ)模型根據(jù)基礎(chǔ)模型的精確度被賦予一定的權(quán)值。
(1-1)
在本文中,沿用算法大賽中的評測指標(biāo)。通過預(yù)測的目標(biāo)庫存值與實際的需求值對比,通過差異來計算總的成本。
電子商務(wù)平臺商品需求預(yù)測基礎(chǔ)模型和融合模型的實驗結(jié)果,如表3所示。
表3 實驗結(jié)果
通過比較,我們得出了如下結(jié)論:
(1)在數(shù)據(jù)量較大的情況下,機(jī)器學(xué)習(xí)方法的預(yù)測效果優(yōu)于傳統(tǒng)預(yù)測方法的預(yù)測效果;
(2)從最終預(yù)測總成本上來看,融合模型的結(jié)果明顯優(yōu)于其他模型,效果較好;
(3)實驗證明,充分利用各個基礎(chǔ)模型的差異性,然后進(jìn)行模型融合實驗,會產(chǎn)生比單模型更好的效果。如果能夠做好特征和樣本的選擇,則可以進(jìn)一步增強(qiáng)機(jī)器學(xué)習(xí)方法的預(yù)測效果;
(4)每個分區(qū)域的需求量存在一定的差異,在實際的作業(yè)中,需求預(yù)測結(jié)果對于商品存儲和物流配送作業(yè)、合理分配人力、物力、財力有著一定的指導(dǎo)作用。
[1]TechTarget.大數(shù)據(jù)的顛覆意義:預(yù)測性配送[OL].2014/10/13 9:15:44.
[2]2016.Demand forecast and Warehouse planning prize 2016 tianchi open data project.
[3]李航.統(tǒng)計學(xué)習(xí)方法[M].北京,清華大學(xué)出版社,2012.
[4]周志華.機(jī)器學(xué)習(xí)[M].北京,清華大學(xué)出版社,2016.