隨著經(jīng)濟的高速發(fā)展,人們的消費需求不斷升級,快遞業(yè)也日益發(fā)展壯大。根據(jù)《中國快遞業(yè)社會貢獻報告2021》的報道,我國快遞業(yè)已經(jīng)連續(xù)8年穩(wěn)居世界前列,全年快遞業(yè)務量和業(yè)務收入達到1 083億件和10 332.3億元,快遞業(yè)已經(jīng)成為拉動國民經(jīng)濟發(fā)展的重要力量。
江蘇位于長江三角洲地區(qū),是我國綜合發(fā)展水平最高的省份,省域經(jīng)濟綜合競爭力居全國前列,人均GDP自2009年起連續(xù)13年全國領先,是我國經(jīng)濟最活躍的省份之一。作為我國經(jīng)濟強省,江蘇省的快遞業(yè)務量位居全國第三,十年內(nèi)增長了13倍。截止到2022年11月,江蘇省郵政快遞業(yè)務量累計78.8億件,同比增長3.4%,快遞業(yè)務收入累計740.7億元,同比增長1.1%??梢哉f,快遞業(yè)務已經(jīng)成為江蘇經(jīng)濟發(fā)展的重要領域之一。但是,經(jīng)濟下行使得我國各省市經(jīng)濟和居民生活受到影響,許多居民從線下購物轉(zhuǎn)為線上購物。這些不確定因素給快遞行業(yè)帶來了更大風險,除了季節(jié)性因素帶來的周期性快遞業(yè)務量波動之外,快遞業(yè)務量數(shù)據(jù)出現(xiàn)暴跌和驟增都暴露了我國在快遞行業(yè)還存在許多問題[1]。區(qū)域快遞量預測不僅能為快遞行業(yè)提供更多的數(shù)據(jù)支持,還能相應地提高快遞行業(yè)對風險的事前預測和事后評估能力,更好地助力物流和快遞行業(yè)的發(fā)展[2]。SARIMA模型在金融、交通、醫(yī)學、電力等領域都有廣泛應用,是統(tǒng)計模型中常見的時間序列預測模型。由于快遞量時間序列數(shù)據(jù)存在明顯的季節(jié)性特征,故本文采用SARIMA模型。
Python是一門免費開源、簡單、高效的面向?qū)ο蟮木幊陶Z言。Anaconda為Python發(fā)行版本,其中包含180個科學包及其依賴項。本文將采用其中的Numpy,pandas,matplotlib,Scikit-learn,statsmodels,pmdarima等Python庫進行數(shù)據(jù)分析及可視化、統(tǒng)計分析、模型建模等[3]。
同時,在人工智能、大數(shù)據(jù)分析等技術飛速發(fā)展的環(huán)境下,智能化的信息搜索和收集方式更受人們歡迎。網(wǎng)絡爬蟲技術可以模擬人類的上網(wǎng)行為,在互聯(lián)網(wǎng)上“爬取”信息,并且對網(wǎng)頁信息進行提取,自動保存。本文采用了爬蟲技術,完成了數(shù)據(jù)的采集、處理、儲存[4]。
季節(jié)性差分自回歸滑動平均模型(Seasonal Autoregressive Integrated Moving Average,簡稱SARIMA),是常用的時間序列預測模型,其在自回歸移動平均模型(Autoregressive Integrated Moving Average,簡稱ARIMA)的基礎上考慮了季節(jié)性因素。SARIMA模型在金融、交通、醫(yī)學、電力等領域都有廣泛的運用。由于快遞業(yè)存在明顯的季節(jié)性特征,故本文采用SARIMA模型。
1.3.1 數(shù)據(jù)處理
在獲取到原始時間序列之后,通過Python的pandas庫導入數(shù)據(jù),并將原始數(shù)據(jù)拆分為測試集和訓練集。使用訓練集完成對模型的訓練,將測試集作為模型測試的數(shù)據(jù),評估模型的準確性。
1.3.2 數(shù)據(jù)檢驗
在分析時間序列數(shù)據(jù)之前,需要對相關原始數(shù)據(jù)進行檢驗。首先,要判斷時間序列數(shù)據(jù)是否具有平穩(wěn)性,即通過ADF單位根檢驗,若數(shù)據(jù)是穩(wěn)定的,那么可以直接使用SARIMA模型進行建模分析,否則需要進行d階差分和D階差分處理,直到數(shù)據(jù)通過平穩(wěn)性檢驗。
1.3.3 白噪聲檢驗
白噪聲檢驗,即判斷經(jīng)過處理的穩(wěn)定時間序列數(shù)據(jù)是否是隨機序列,因為隨機序列不具有分析意義。圖1為SARIMA模型建立過程。
圖1 SARIMA模型建立過程
1.3.4 確定參數(shù)
確定時間序列數(shù)據(jù)是穩(wěn)定、非隨機的,那么要對SARIMA(p,d,q)(P,D,Q)m模型參數(shù)進行選擇,即通過自相關分析和偏自相關分析的大小來分析時間序列是否拖尾,確定趨勢自回歸階數(shù)p、趨勢移動平均階數(shù)q、季節(jié)性自回歸階數(shù)P、季節(jié)性移動平均階數(shù)Q;也可通過遍歷AIC(最小化信息量準則)和BIC(貝葉斯信息準則)的方式找到最佳參數(shù)。
1.3.5 判斷檢驗
確定模型的殘差序列是否為白噪聲,即是否屬于隨機序列,若是則檢驗通過,說明原始時間序列中的信息已經(jīng)被提取,不用再進一步分析了,否則需要重新進行參數(shù)的調(diào)整和確定。此外,還要觀察殘差圖是否符合正態(tài)分布[5]。
1.3.6 預測及評價
將測試集和SARIMA(p,d,q)(P,D,Q)m模型的預測數(shù)據(jù)進行比對,若誤差較小,則說明模型可行,否則說明模型的誤差較大,預測的性能較差。若預測誤差小,則使用該模型對未來數(shù)據(jù)進行預測。
由圖2可知,江蘇省快遞量呈逐漸上升趨勢。
圖2 江蘇省2016年1月—2022年11月快遞業(yè)務量
將原始數(shù)據(jù)進行分解,得到趨勢圖、季節(jié)性圖和殘差圖(見圖3)。結(jié)果顯示,江蘇省快遞業(yè)務量的季節(jié)性明顯。一年中的11月左右達到物流量的最高峰,2—3月份為物流量的最低谷。其主要原因為:由于春節(jié)導致快遞停運使物流量下降;每年的“雙11”等線上促銷活動使得物流量達到高峰。物流量趨勢在2016年1月—2021年6月明顯上升、2021年7月—2021年12月開始趨于平穩(wěn)。其主要原因為:國內(nèi)面臨經(jīng)濟下行的困難局面,經(jīng)濟增長變緩;“雙11”期間消費者的購物需求明顯降低,商家擔心庫存積壓、減少參與活動等。
圖3 原始時間序列分解圖
將2016年1月—2021年6月的數(shù)據(jù)進行劃分,2016年1月—2021年12月的前72個數(shù)據(jù)作為訓練集,2022年1月—2022年12月的11個數(shù)據(jù)作為測試集。
Augmented Dickey-Fuller test(增項DF單位根檢驗,簡稱ADF)是時間序列分析中常用的檢驗方法,表1是對2016年1月—2021年12月江蘇省快遞業(yè)務量進行ADF檢驗的結(jié)果。對原始數(shù)據(jù)進行檢驗,p值大于0.05,說明原始數(shù)據(jù)是不平穩(wěn)的。在經(jīng)過一階差分處理后,p值小于0.05且t值小于顯著性水平,說明一階差分后的數(shù)據(jù)是平穩(wěn)的。從原始數(shù)據(jù)分解圖(見圖3)可知,原始數(shù)據(jù)存在明顯的季節(jié)性,其周期為12,對一階差分后的數(shù)據(jù)進行季節(jié)性差分,p值小于0.05,且t值小于顯著性水平,說明在一階差分和季節(jié)性差分之后得到了平穩(wěn)序列,可以進行下一步分析。同時,從表中可以得知差分階層d、季節(jié)性差分階層D均為1。根據(jù)上述分析,可以確定模型為SARIMA(p,1,q)(P,1,Q)12。
表1 對2016年1月—2021年12月江蘇省快遞業(yè)務量進行ADF檢驗的結(jié)果
Ljung-Box檢驗,用來檢驗m階滯后范圍內(nèi)序列是否為隨機序列[6];在statsmodels庫中可以使用acorr_ljungbox函數(shù)進行分析。差分后的時間序列經(jīng)檢驗,p<0.001,為非白噪聲即非隨機序列,可以繼續(xù)分析。
自相關階數(shù)p、滑動平均階數(shù)q和季節(jié)性參數(shù)P、Q可以根據(jù)ACF圖(自相關圖)、PACF圖(偏自相關圖)來確定,也可以通過遍歷AIC(最小化信息量準則)和BIC(貝葉斯信息準則)最小參數(shù)組合來確定。從圖4可以看出,原序列在經(jīng)過一階差分和季節(jié)性差分之后得到了平穩(wěn)序列,可以開始進行模型的建立。通過網(wǎng)格搜索得到模型的最佳參數(shù)為SARIMA(1,1,1)(0,1,2)12。經(jīng)過白噪聲測試,模型的殘差為隨機序列,說明信息已經(jīng)被提取。
圖4 自相關系數(shù)圖和偏自相關系數(shù)圖
從表2中可以得知采用SARIMA(1,1,1)(0,1,2)12模型對2022年1月—2022年11月的數(shù)據(jù)進行預測,相對誤差的范圍在-0.22%~0.71%,結(jié)果顯示模型的預測效果良好。圖5為SARIMA(1,1,1)(0,1,2)12模型測試集的擬合。
表2 測試集真實數(shù)據(jù)和預測數(shù)據(jù)的比較
圖5 測試集SARIMA (1, 1, 1)(0, 1, 2)12的擬合圖
SARIMA模型對于短期時間內(nèi)的預測是比較準確的,隨著預測時間的延長,誤差便越來越大。所以選擇未來半年的數(shù)據(jù)預測未來目標。在模型評估后對2022年12月—2023年5月的江蘇省快遞業(yè)務量數(shù)據(jù)進行預測,見表3。
表3 江蘇省2022年12月—2023年5月快遞量預測
通過對2016—2022年的快遞業(yè)務量進行分析,結(jié)果表明,SARIMA模型在短期時間內(nèi)的預測效果較好,可以將預測數(shù)據(jù)作為未來短期物流需求量的參考指標。雖然由于經(jīng)濟下行等原因造成快遞量的波動和近期快遞需求量變緩,但從長期來看,這些因素對快遞行業(yè)的影響會逐漸減小。從原始快遞量數(shù)據(jù)的季節(jié)、趨勢分離結(jié)果來看,每年11月是快遞業(yè)務量的高峰期,快遞行業(yè)會面臨一年中最大的機會和挑戰(zhàn),在保證物品配送、運輸、搬運效率的同時,也要確保安全性,提升服務質(zhì)量。對于商家來說,應提前制訂好庫存計劃、配置好資源、人員等,以面對可能出現(xiàn)的風險和機遇。在“雙11”“雙12”等線上促銷活動中應當搶抓商機,制訂更加合理的營銷方案;對于電商平臺來說,要為消費者和商家建立合理的購物平臺,提高消費者的消費體驗,保障消費者權(quán)益等;對于快遞服務商來說,應該提高服務水平,確保商品運輸?shù)馁|(zhì)量安全性,合理制訂計劃,避免庫存積壓等問題的出現(xiàn)。春節(jié)前后是快遞量的低潮期,在面臨可能需要減少資源投入時,物流和快遞服務商應制定好相應的措施。在此過程中,區(qū)域快遞量預測和需求預測是必要的。
文章只考慮了包括季節(jié)性時間序列的單個因素,如果能夠考慮多種因素的組合實現(xiàn)區(qū)域快遞需求量預測將會使得該模型更加完善,影響快遞業(yè)的因素有許多,例如宏觀因素有區(qū)域經(jīng)濟、信息化程度、工業(yè)化程度、全球化程度、運輸化程度等;微觀因素有從業(yè)人員數(shù)量、基礎設施等[6],除此之外還要考慮一些突發(fā)情況。