姚 佼,吳秀榮,李 皓,謝貝貝,王詩璇,梁益銘
(1.上海理工大學(xué) 管理學(xué)院,上海 200093;2.中國鐵路濟南局集團有限公司,山東 濟南 250000)
近年來,伴隨著全球經(jīng)濟的快速發(fā)展,電子商務(wù)領(lǐng)域空前繁榮,物流業(yè)更是被稱為“第三利潤源泉”,2010 年至2020 年間我國快遞行業(yè)業(yè)務(wù)量總量逐年增長,預(yù)計2021 年至2025 年,快遞業(yè)務(wù)量年均增長15.4%,為滿足快遞業(yè)務(wù)的發(fā)展需求,合理的物流配送中心位置顯得尤為重要。
目前國內(nèi)外對物流配送中心的選址研究主要有:在應(yīng)急物流選址方面,?zdamar 等提出了自然災(zāi)難發(fā)生后的應(yīng)急物流和應(yīng)急物資配置問題,以物資送達時間最短和救治傷患延誤最小建立一種多目標(biāo)物流選址模型[1]。Mohri 運用ArcGIS 軟件研究了應(yīng)急物資的配送問題[2]。我國的歐忠文等最先提出應(yīng)急物流的概念,提出設(shè)立應(yīng)急處理設(shè)施和技術(shù)平臺的觀念[3];丁雪楓等構(gòu)建了考慮總成本、公平性和效率性的多目標(biāo)應(yīng)急設(shè)施選址模型[4]。在生鮮物流選址方面,HE X D 通過闡述生鮮農(nóng)產(chǎn)品物流的系統(tǒng)節(jié)點成員微觀行為與系統(tǒng)宏觀結(jié)構(gòu)演化關(guān)系,揭示生鮮農(nóng)產(chǎn)品物流生態(tài)系統(tǒng)演化的復(fù)雜性,以此進一步促進生鮮農(nóng)產(chǎn)品物流生態(tài)系統(tǒng)網(wǎng)絡(luò)的全面協(xié)調(diào)和優(yōu)化,最終提高生鮮農(nóng)產(chǎn)品物流的整體性能[5]。李晶晶根據(jù)生鮮農(nóng)產(chǎn)品易腐敗的特性,分析了新鮮度降低和打折銷售對顧客的影響,引入新鮮度函數(shù)建立滿足需求為前提、總成本最小為目的的冷鏈配送中心選址模型[6]。在逆向物流選址方面,Tadaros 針對鋰離子電池上市時間短但丟棄數(shù)量嚴(yán)重的現(xiàn)象,以最低的收集成本、運輸成本、處理成本以及建設(shè)設(shè)施成本之和最小為約束來恰當(dāng)安排鋰離子電池的選址位置和數(shù)量,最終成功解決了廢舊鋰電池的歸屬問題[7]。Guo 分析了政府補貼對消費者、電商企業(yè)、電商平臺的作用機制,這在促進快遞包裹回收以及明確不同主體戰(zhàn)略選擇層面的意義非凡[8]。
在物流配送中心選址的方法方面,主要包括定性研究法和定量研究法。其中定性研究法通常采用專家判斷或者多指標(biāo)評價法來選擇最優(yōu)方案,如張春玲運用模糊綜合評價法和層次分析法解決了多個備選點最優(yōu)的問題[9]。定量研究法主要通過數(shù)據(jù)統(tǒng)計和分析,并使用數(shù)學(xué)模型對各種選址方案進行模擬分析,常見的方法有多目標(biāo)規(guī)劃方法、聚類算法和遺傳算法。其中聚類算法具有能夠識別數(shù)據(jù)中的潛在模式和結(jié)構(gòu),以發(fā)現(xiàn)不同地點的相似性和差異性這一特點廣泛應(yīng)用于選址問題中,F(xiàn)rancisco 運用多項式Logit 模型研究了中國大陸跨國企業(yè)在德國投資時不同聚集網(wǎng)絡(luò)類型的優(yōu)缺點及選址問題[10]。朱晨陽分析了海南省生鮮農(nóng)產(chǎn)品物流配送中心和配送中心網(wǎng)絡(luò)結(jié)構(gòu)現(xiàn)狀,結(jié)合實際引入配送時間滿意度函數(shù),建立了考慮多種因素的多目標(biāo)模型[11]。徐昊源等基于K-means 聚類方法,以新鮮度損耗成本最小為目標(biāo)對生鮮自提柜進行選址,并結(jié)合建設(shè)與運營成本給出最佳的自提柜設(shè)置數(shù)量[12]。薛德琴等采用模糊綜合評價法和層次分析法針對已經(jīng)劃分完畢的協(xié)同配送區(qū)域具體選址確定兩種方案[13]。然而在運用K-means 算法進行聚類選址時,通常需要預(yù)先指定聚類數(shù)量K,而這個值的選擇通常是基于經(jīng)驗或試錯來進行的,這會導(dǎo)致算法結(jié)果的不確定性和不穩(wěn)定性,且由于實際的數(shù)據(jù)大多數(shù)是數(shù)值型和類別型變量混合,該算法無法對類別型變量進行聚類。
基于上述研究問題,本文主要從K 值確定及數(shù)據(jù)類型的聚類對K-means 算法進行優(yōu)化。本文將綜合運用肘部法及輪廓系數(shù)確定K-means 算法中的合理K 值;針對無法處理類別型變量的問題,采用變量編碼的方法,將類別型變量轉(zhuǎn)化為數(shù)值型變量,然后再進行聚類。最后基于實際數(shù)據(jù),對研究區(qū)域的最優(yōu)物流配送中心位置進行進一步的分析探討。
配送中心選址過程中需考慮多種影響因素,本文對2022 年以來的文獻進行梳理總結(jié),將影響因素分為經(jīng)濟因素、經(jīng)營環(huán)境因素、基礎(chǔ)設(shè)施因素、自然因素、運輸物品特點因素和其他因素六大類。對影響因素統(tǒng)計分類后結(jié)果如圖1 所示,根據(jù)ABC 分類法,對物流配送中心選址的各項影響因素進行分類,具體可分為關(guān)鍵因素、一般因素和次要因素三類。通過ABC 分類法,對選址文獻進行綜合考慮,本文選取以下劃分標(biāo)準(zhǔn)對物流配送中心選址影響因素進行分類:累計頻率為0%~80%為關(guān)鍵影響因素,80%~90%為一般影響因素,90%~100%為次要因素。
圖1 文獻指標(biāo)統(tǒng)計圖
由圖1 可知,運輸成本、運營成本、固定成本、需求量、服務(wù)滿意度水平、運輸方式、道路可達性和交通設(shè)施這8 項因素為關(guān)鍵影響因素,經(jīng)營環(huán)境和地形條件為一般影響因素,其余為次要影響因素。本文將以關(guān)鍵影響因素為基礎(chǔ)探究選址問題。
結(jié)合數(shù)據(jù)的可獲得性及影響因素特點,本文將建立物流配送中心選址影響因素指標(biāo)體系如表1 所示:
表1 物流配送中心選址指標(biāo)體系表
K-means 算法中,K 值決定在該聚類算法中所要分配聚類的簇的多少,簇的多少影響著算法的聚類效果。而通常情況下,想確定最佳K 值比較困難,目前常用的確定K 值的方法有肘部法及輪廓系數(shù)法。肘部法聚類時使用的評價指標(biāo)為數(shù)據(jù)集中所有樣本點到其中心簇的距離之和的平方(SSE),肘部法選擇的并不是誤差平方和最小的K 值,而是誤差平方和突然變小時對應(yīng)的K 值,因此對于降低速率較為均勻的數(shù)據(jù)無法確定合適K 值。在此種情況下,輪廓系數(shù)法能夠很好地解決該問題。輪廓系數(shù)值是常用的聚類效果評價指標(biāo),該指標(biāo)結(jié)合內(nèi)聚度和分離度兩個因素,具體計算過程如下:
(1)假設(shè)已經(jīng)通過聚類算法將數(shù)據(jù)進行了聚類,并最終得到k 個簇,對于簇中的每個樣本點i,分別計算其輪廓系數(shù),其中需要對每個樣本點i 計算下面兩個指標(biāo):
①a(i)為樣本點i 到與其同屬同一個簇的其他樣本點的距離平均值,該值越小,說明該樣本屬于該類的可能性越大。
②b(i)為樣本點i 到其他簇中所有樣本的平均距離的最小值。
(2)該樣本點的輪廓系數(shù)為:
對于所有樣本點的輪廓系數(shù)的平均值為該聚類結(jié)果的總輪廓系數(shù)。S(i)∈[-1,1],越接近1 聚類效果越好。
本文數(shù)值型數(shù)據(jù)均采取歸一化處理,在影響選址的指標(biāo)體系中除數(shù)值型數(shù)據(jù)外,還有類似運輸方式等類別型數(shù)據(jù),對于該種類型數(shù)據(jù)的處理本文采取獨熱編碼(One-Hot Encoding)將每個類別值表示為一個二進制向量,轉(zhuǎn)換為可以處理的連續(xù)型數(shù)據(jù)。該種方法保留了類別信息,不引入任意的數(shù)值關(guān)系,同時可以避免數(shù)值的大小對模型產(chǎn)生不正確的影響。適用于大多數(shù)機器學(xué)習(xí)算法,尤其是那些基于距離度量的算法,如本文的K-means 算法。
獨熱編碼的過程如下:首先,確定類別型特征中的所有不同類別值。然后,對于每個類別值,創(chuàng)建一個維度與類別數(shù)量相等的二進制向量。最后,將每個二進制向量的對應(yīng)維度上的值設(shè)置為1,其他維度上的值設(shè)置為0。如表1 中運輸類型指標(biāo),有鐵路/公路/航空三種運輸方式,通過獨熱編碼的方式可轉(zhuǎn)化為:鐵路:[1,0,0];公路:[0,1,0];航空:[0,0,1]。原來的類別型特征被轉(zhuǎn)換為了三個維度的連續(xù)型數(shù)據(jù),繼而能夠在后續(xù)聚類算法中應(yīng)用。
Mac Queen 首次提出了K 均值聚類算法,它是一種非監(jiān)督學(xué)習(xí)的硬聚類算法,通過迭代的方式尋找最優(yōu)的聚類結(jié)果。假設(shè)已獲取的物流配送中心營業(yè)點樣本點有I=(1,2,…,i)個,需要考慮的影響因素具有N=(1,2,…,n)個,對于第i 個樣本點其特征向量可以表示為;聚類中心有K=(1,2,…,k)個,對于第k 個聚類中心其特征向量可以表示樣本在聚類過程中,一個關(guān)鍵問題是如何定義樣本之間的相似性度量函數(shù)。常見的方法是使用歐氏距離作為度量樣本間距離的方式,歐氏距離是一種常見的距離度量方法,用于計算樣本之間的差異程度。每個簇下樣本點到聚類中心的聚類使用歐式距離表示,歐氏距離的計算公式如下:
依據(jù)上述公式,逐個計算每個特征的差值的平方,并對它們進行求和并進行平方根運算,然后計算每對樣本之間的歐氏距離,得到每個元素表示相應(yīng)樣本之間的歐氏距離。根據(jù)歐氏距離結(jié)果將數(shù)據(jù)點分配到最近的聚類中心,然后計算聚類后的各簇內(nèi)樣本點到聚類中心的歐氏距離和,設(shè)定總誤差平方和SSE 為:
對于所有樣本點的總誤差的平方和為該聚類結(jié)果的總誤差平方,SSE越小聚類效果越好。除考慮樣本點到該簇聚類中心點距離外,在聚類過程中還需考慮樣本點至其他簇中樣本點的距離,即輪廓系數(shù),具體計算公式如式(1)所示。計算后選取最佳K 值,確定最優(yōu)聚類方案,運用Matlab 編程后輸出聚類結(jié)果。
上海市作為中國經(jīng)濟發(fā)展迅速的城市之一,擁有眾多的物流配送中心,選取物流服務(wù)業(yè)中的順豐速運為代表研究其在上海市的物流配送中心選址問題?;诎俣乳_放平臺與Python 平臺獲取上海市大虹橋商區(qū)順豐速運末端營業(yè)點目前布局,如圖2 所示。這些物流配送中心分布在城市的不同區(qū)域,有的地理位置優(yōu)越,有的則位于偏遠的郊區(qū)。為了更好地管理和優(yōu)化這些物流配送中心,需要對它們進行聚類分析,并選取合適的聚類中心作為物流配送中心。
圖2 百度地圖上海市大虹橋商區(qū)“順豐速運營業(yè)點”可視化散點圖
根據(jù)本文研究所需從不同渠道獲得不同類型的數(shù)據(jù),本文所需數(shù)據(jù)如道路等級等來源于百度開放平臺;人口、勞動力成本等數(shù)據(jù)來自上海市統(tǒng)計局頒布的上海統(tǒng)計年鑒及順豐官網(wǎng)2021 年度報告,基于各末端營業(yè)點中的人口數(shù)量占總?cè)丝诘谋壤嬎愀鳡I業(yè)點人口成本。
本文使用肘部法和輪廓系數(shù)法度量聚類結(jié)果如圖3 所示,運用肘部法對該樣本數(shù)據(jù)進行聚類時,隨著K 值的增大,SSE 值會逐漸降低,但K 值下降速率平緩,無明顯突然下降趨勢,該種方法下無法確定最佳K 值;而輪廓系數(shù)法K 值為3 時輪廓系數(shù)最大,較為合適。
圖3 聚類結(jié)果K 值圖
選取K 為3,對大虹橋商區(qū)順豐現(xiàn)有物流配送中心營業(yè)點進行聚類,聚類結(jié)果如圖4 所示。
圖4 聚類結(jié)果圖
上述聚類結(jié)果以運輸成本、固定成本以及類別型影響因素為依據(jù),為更好地衡量該方案聚類效果,對比傳統(tǒng)K-means 聚類算法的物流總成本,物流總成本包含運輸成本、運營成本和固定成本。傳統(tǒng)K-means 聚類方法無法對類別型影響因素做出計算,因此在數(shù)據(jù)輸入時,傳統(tǒng)K-means 算法僅能輸入數(shù)值型影響因素特征值,改進K-means 算法能夠同時輸入數(shù)值型影響因素與類別型影響因素特征值,結(jié)果如表2 所示。
表2 成本對比表 萬元
從中可以看出,傳統(tǒng)K-means 算法聚類結(jié)果K 值為4 時,對比改進后考慮類別型因素K 值為3 時物流總成本為34.153 2 萬元,降低8.76%,運營成本降低14.85%,固定成本降低8.09%。由此可知,該方案能夠有效降低物流總成本。
本文在梳理出物流配送中心選址影響因素體系的基礎(chǔ)上,綜合運用肘部法及輪廓系數(shù)確定K-means 算法中的合理K 值;針對無法處理類別型變量的問題,采用變量編碼的方法,將類別型變量轉(zhuǎn)化為數(shù)值型變量,然后再進行聚類,確定物流中心的選址。最后基于實際的案例數(shù)據(jù),對最優(yōu)物流配送中心位置進行聚類分析,確定最佳選址。結(jié)論如下:
(1)相比較于傳統(tǒng)K-means 算法,本文提出的算法能夠采用熱編碼的方法有效處理類別型數(shù)據(jù),獲得更準(zhǔn)確的聚類效果。
(2)采用本文算法進行聚類分析的結(jié)果顯示,相比較于傳統(tǒng)K-means 算法,本文計算的聚類結(jié)果能夠有效降低物流總成本,整體方法可行。
(3)本文在考慮聚類選址時主要考慮了經(jīng)濟和交通影響因素,對于綜合考慮更多其他要素時,可在本文模型的基礎(chǔ)上進行豐富,其拓展性還可以進行更深入的研究。