■李 融
(廣東女子職業(yè)技術(shù)學院外語外貿(mào)學院,廣東 廣州 511450)
跨境電子商務(wù)是一種新興的跨國貿(mào)易模式,以網(wǎng)絡(luò)平臺為媒介,在國內(nèi)實現(xiàn)向國外銷售產(chǎn)品。這一模式的興起有效彌補了傳統(tǒng)交易方式在實時貨物追蹤方面的不足之處[1]。伴隨跨境電子商務(wù)的飛速增長,眾多公司目光聚焦海外市場,紛紛在國際競爭舞臺上競逐。為在國際市場中保持競爭優(yōu)勢,企業(yè)迫切需改進策略。其中,核心對策包括提升產(chǎn)品質(zhì)量,強化市場競爭力,增進企業(yè)競爭實力等。無論采用何種路徑,對銷售進行準確預測皆為必要。唯有精準預測銷售,方可確保企業(yè)持有足夠資金以維持生產(chǎn)與庫存[2-3]。為此,本項目擬將XGBoost算法用于跨境電商的庫存預測,以解決庫存過多、過少等問題。該項目的創(chuàng)新在于,綜合不同算法特征,著重提高海外市場競爭力,研究五種預測模型,根據(jù)不同消費品類型的跨境電商企業(yè)情境,強調(diào)制定全面決策以選擇最佳預測模型,使得方法和模型更加符合電商領(lǐng)域的使用情境。
XGBoost 算法(Extreme Gradient Boosting,XGBoost)以其出色的泛化能力著稱。通過融合多個決策樹,XGBoost 能夠有效避免過擬合現(xiàn)象,同時在預測精度方面表現(xiàn)出色。在此基礎(chǔ)上,研究以商品聚類為基礎(chǔ),對各類別的商品進行深入聚類分析,構(gòu)建多類備貨管理策略,以提升跨境電商平臺用戶滿意度。利用歷史交易數(shù)據(jù)指標反映跨境電商用戶需求特征[4-5]。為更準確反映備貨影響因素,將該指標作為商品聚類依據(jù)。兩步聚類算法中,首先,排除異常值,設(shè)定25%噪聲比例,隨后對數(shù)值字段標準化。其次,自動確定聚類數(shù)量,范圍設(shè)置在3.5 至17.5 之間。最終,采用貝葉斯信息準則的對數(shù)似然距離進行距離測量。通過輪廓系數(shù)評估聚類效果,較高的輪廓系數(shù)值代表更優(yōu)的聚類效果[6]。C-XGBoost 模型是一種用于電商備貨預測的算法,其獨特之處在于對商品聚類方法的改進,從而提升了預測的準確性。在面對電商領(lǐng)域龐大的數(shù)據(jù)量時,該模型通過商品聚類策略有效地減輕了每個群集內(nèi)訓練數(shù)據(jù)集的規(guī)模,提高了預測算法的運行效率[7-8]。
采用差分自回歸移動平均模型(Autoregressive Integrated Moving Average Model,ARIMA)來分析時間序列趨勢,模型的參數(shù)確定是利用載物之流的反饋(Accelerated Content Feedback,ACF)和用戶訪問一個網(wǎng)頁時,從目標頁面到網(wǎng)頁上所需的資源(Page access content feedback,PACF)實現(xiàn)的。針對ARIMA 模型在參數(shù)選擇的弊端,采用ACF、PACF 圖的參數(shù)組合1,然后利用Toolboxes 中的ets()函數(shù),確認ARIMA 模型的參數(shù)組合2,通過比較參數(shù)組合1 與參數(shù)組合2,最終確定ARIMA 模型的最佳參數(shù)配置[9]。該模式下對ARIMA 模型進行訓練,利用最優(yōu)參數(shù)組合的ARIMA 對序列趨勢進行測算,以計算殘差,如式(1)所示。
式(1)中,y0A(k)為預測值。利用假設(shè)檢驗來檢驗殘差是否為白噪音,將殘差序列視為隨機噪聲[10]。因其不符合已知分布,需收集足夠多樣本驗證殘差序列是否為白噪聲。使用訓練集平均殘差序列,得到每個樣本的平均值和在所有中位數(shù)中的位置[11-12]。結(jié)合XGBoost 算法的最優(yōu)A-XGBoost 模型的流程圖如圖1 所示。
圖1 確定最優(yōu)A-XGBoost 模型
圖1 中,首先對數(shù)據(jù)進行預處理和數(shù)據(jù)集的劃分,并利用單位根檢驗時間序列的平穩(wěn)性,以數(shù)據(jù)序列是否大于0.05 為界限,判定是否為平穩(wěn)序列和白噪音序列。并識別和定階A-XGBoost 模型的最優(yōu)參數(shù),以此生成殘差矩陣。對參數(shù)最優(yōu)選項提供篩選,并最終測試出預測結(jié)果。
在當下的物流環(huán)境中,儲存環(huán)節(jié)充當著鏈接交易參與者的關(guān)鍵角色,此環(huán)節(jié)位置的決定將會對交易雙方的益處產(chǎn)生直接影響[13-14]。其中,C-XGBoost 和A-XGBoostoost 兩種方法的權(quán)值分別體現(xiàn)了需求特性和時序趨勢對預測精度的影響。利用最小二乘方法對C-XGBoost 和A-XGBoost 進行優(yōu)化,得到C-XGBoost 和A-XGBoost 的最優(yōu)線性加權(quán)組合,并對其進行了改進。利用最小二乘原理,對各權(quán)值進行優(yōu)化,得到各權(quán)值的最佳組合。對最小二乘算法進行導數(shù)計算,使其成為一種新的權(quán)值計算方法[15]。
基于C-XGBoost 算法,列出備貨銷量與累計單品的分類管理表,將所有商品按照編號排序。記錄每個商品的備貨數(shù)量,再記錄每個商品的銷售數(shù)量,并計算每個商品的庫存數(shù)量,并與備貨數(shù)量和銷售數(shù)量進行比較,記錄每個商品的累計單品銷售量,以及占據(jù)總銷售額的比例,記錄每個商品的銷售額,以及占據(jù)總銷售額的比例,基于C-XGBoost 算法預測每個商品的未來銷售額。類產(chǎn)品對平臺銷量貢獻顯著,因此可優(yōu)先將產(chǎn)品貨源布置于國外倉庫。為降低資金占用,A 類產(chǎn)品可在保障安全存貨的前提下,依據(jù)預計備貨量,采用多批次存儲。B級產(chǎn)品建議存放于原產(chǎn)地倉庫,訂購后可通過合理運輸方式,從原產(chǎn)地倉庫運往國外倉庫。C 型產(chǎn)品屬長尾產(chǎn)品,倉庫存貨有限,可集中采購并適度增加庫存。
在數(shù)據(jù)選擇方面,主要使用數(shù)據(jù)集中的銷售數(shù)據(jù)和庫存數(shù)據(jù),由于跨境電商備貨預測時會有許多的不確定性因素存在,因此需要用到隨機抽樣和不平衡數(shù)據(jù)處理方法。采用tsdisplay 函數(shù),生成SKU_sales 的序列圖如圖2 所示。
圖2 三種定位模式的定位誤差
在圖2(a)中,SKU_sales 在最初55 天內(nèi)呈現(xiàn)明顯波動,而在56 天后有輕微增長;圖2(b)中,經(jīng)過分解,SKU_sales 函數(shù)在接近0 的位置上變化。在R 中,使用ADF 測試,訓練集合2 的P 值未超過0.01,暗示一階微分序列平穩(wěn)。通過Box-Pierce 檢驗,P 值低于3.331e-16,表明數(shù)據(jù)具有序列性,且P 值低于0.05,表明數(shù)據(jù)非白噪聲。
運用SPSS 對此模型進行實證研究,5 種預測模型的評估指標如圖3 所示。
圖3 5 種模型預測結(jié)果的比較
由圖3 可知,C-A-XGBoost 模型的預測曲線與實際值最為貼近,表明C-A-XGBoost 模型的預測精度高,其中真實銷售量SKU sales 的擬合效果最好。對比ARIMA和XGBoost 方法,XGBoost 方法在多個預測指標上均顯著優(yōu)于ARIMA 方法,說明XGBoost 方法在融合多因素預測方面表現(xiàn)更為出色。將ARIMA 與A-XGBoost 進行對比分析,A-XGBoost 在對ARIMA 進行修正后的預測結(jié)果上有顯著改善,特別在對時序趨勢的預測精度方面,進一步凸顯了A-XGBoost 相對于XGBoost 的優(yōu)越性。
研究結(jié)果表明,進行預先的客戶細分能有效提升客戶流失預測的效果,各預測指標均顯著改善。結(jié)合XGBoost 算法進行預測模型建立,并運用C-A-XGBoost 進行預測。實證分析證實C 型產(chǎn)品屬于長尾產(chǎn)品,其來源倉庫僅有部分存貨,適宜集中采購并適度增加庫存,也可相應減少訂單。利用R 中的Box 測試功能,進行白噪聲度測試。Box-Pierce 測試結(jié)果顯示P 值低于3.331e-16,表明序列非白噪聲。穩(wěn)定性與白噪聲分析表明一階微分的SKU_sales 序列非白噪聲且穩(wěn)定。A-XGBoost 與C-XGBoost 方法保持一致,相較于A-XGBoost和C-XGBoost 方法,該方法具有更高預測準確度。在未拆分的SKU_sales 序列圖中,初期的55 天表現(xiàn)出明顯波動,隨后的56 天銷量略有增長。隨著跨境電商企業(yè)國際布局加深,市場競爭愈發(fā)激烈。未來研究可側(cè)重于不同市場環(huán)境下備貨預測問題,以協(xié)助企業(yè)更好地應對市場變化。