秦智聃 陳章躍 弓憲文
摘? 要: 傳統(tǒng)物流配送成本估計方法對于配送費用數(shù)據(jù)的支持度閾值計算不夠精確,導致物流配送成本估計困難,為此研究基于數(shù)據(jù)挖掘技術(shù)的物流配送成本估計方法。該方法通過聚類分析,將龐大的費用數(shù)據(jù)劃分成具有相同特征的數(shù)據(jù)類簇,找出其中出現(xiàn)頻繁的數(shù)據(jù)類簇計算每一特征屬性下的支持度閾值,挖掘出數(shù)據(jù)之間的關聯(lián)規(guī)則,利用回歸差分移動平均法搭建數(shù)學模型,以此實現(xiàn)物流配送成本估計。實驗結(jié)果表明,與傳統(tǒng)成本估計方法相比,所研究的方法對于數(shù)據(jù)支持度閾值計算更加準確,挖掘到的關聯(lián)規(guī)則更詳盡,估計出的物流配送成本更加精確。由此可見,所研究的方法更適用于企業(yè)物流配送成本估計要求。
關鍵詞: 物流配送; 成本估計; 數(shù)據(jù)挖掘技術(shù); 數(shù)學模型搭建; 閾值計算; 關聯(lián)規(guī)則挖掘
中圖分類號: TN911.1?34; TP361? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)13?0183?04
Research on logistics distribution cost estimation based on data
mining technology
QIN Zhidan, CHEN Zhangyue, GONG Xianwen
(Chongqing University of Education, Chongqing 400067, China)
Abstract: The traditional logistics distribution cost estimation method is not accurate enough to calculate the support threshold of the distribution cost data, which leads to the difficulty of logistics distribution cost estimation. Therefore, the logistics distribution cost estimation method based on data mining technology is studied. With this method, the huge cost data is divided into the data type of clusters with the same characteristics by means of cluster analysis, the data class clusters which appear frequently are found out to compute the support threshold of each feature attribute, the association rules between the data are mined, and the mathematical model is built with the regression difference moving average method. The logistics cost estimation method is realized in this way. The experimental results show that, in comparison with the traditional cost estimation method, the proposed method is more accurate in calculating the data support threshold, its mined association rules are more exhaustive and its estimated logistics distribution cost is more precise. It can be seen that the method is more suitable for cost estimation of logistics distribution enterprises.
Keywords: logistics distribution; cost estimation; data mining technology; mathematic model building; threshold value calculation; association rule mining
0? 引? 言
數(shù)據(jù)挖掘技術(shù)旨在處理數(shù)量龐大、信息類型復雜、結(jié)構(gòu)形式多樣化的數(shù)據(jù)信息。而當前的物流運輸配送行業(yè)發(fā)展迅速,并且一些企業(yè)也將物流配送作為發(fā)展外延,因此使得企業(yè)財務部門對于物流配送成本估算有了更高的要求[1]。傳統(tǒng)的成本估計方法考慮的影響因素較少,對于相關數(shù)據(jù)的劃分也不夠細致,這就使管理人員在查詢關聯(lián)數(shù)據(jù)時,數(shù)據(jù)基數(shù)變小,估計出的成本數(shù)值會影響企業(yè)的發(fā)展。為此本文研究一種基于數(shù)據(jù)挖掘技術(shù)的成本估計方法,該方法對相關費用數(shù)據(jù)進行聚類分析、分類分析、異常分析、組群分析以及關聯(lián)性分析,通過找到數(shù)據(jù)之間隱含的潛在規(guī)則,提升成本估計的準確度,確保企業(yè)的成本預算[2]的準確性。
1? 數(shù)據(jù)挖掘技術(shù)的物流配送成本估計方法
1.1? 聚類物流配送數(shù)據(jù)
數(shù)據(jù)挖掘技術(shù)與計算機科學相關,通過數(shù)據(jù)收集、回歸分析、數(shù)據(jù)聚類、關聯(lián)規(guī)則以及神經(jīng)網(wǎng)絡方法,可以從海量數(shù)據(jù)中抓取隱藏的具有特殊關聯(lián)屬性的數(shù)據(jù)信息,預測或估計有關數(shù)據(jù)。
物流配送成本主要在配送流程和配送環(huán)節(jié)產(chǎn)生,主要包括分揀費用、流通加工費用、裝配費用以及運輸費用。其中,分揀費用包含分揀人工費用、分揀設備費用;流通加工費用包含流通加工設備、加工材料以及在流通加工過程中從事加工活動的管理人員、工人及有關人員工資、獎金等費用的總和;裝配費用包含裝配材料、人工以及相關輔助費用;運輸費用則包含車輛費用和其他運營間接費用[3]。由此可知,配送成本細化后,其中的費用類別多,二階科目更加繁瑣,因此,利用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)聚類手段,根據(jù)配送成本相關數(shù)據(jù)的近似情況,將數(shù)據(jù)信息組成多個不同類別或簇,保證同一個類別或簇中的數(shù)據(jù)彼此之間存在一定關聯(lián)屬性,而不同類別或簇之間存在一定的數(shù)據(jù)差異。因此聚類物流配送成本相關數(shù)據(jù)的計算公式為:
式中:[m]表示聚類后的類簇數(shù)量,[i],[j]分別表示具有一個特征屬性的簇;[nj]表示[j]數(shù)據(jù)簇中的項目數(shù);[k]表示數(shù)據(jù)項;[d]表示空間維度;[ajkd]代表數(shù)據(jù)簇[j]中的第[k]項數(shù)據(jù);[bid]代表數(shù)據(jù)簇[i]中的初始中心節(jié)點在[d]維度空間中的數(shù)據(jù)[4]。將配送成本進行聚類的部分示意圖如圖1所示。
通過圖1a)可以看出:[W]代表總的物流配送成本,其中,包含了[n]個相關費用數(shù)據(jù),聚類后得到圖1b),可知按照不同的費用類型,將這些數(shù)據(jù)打散,根據(jù)相同屬性特征進行劃分可得到新的同種類的數(shù)據(jù)類簇[5]。
1.2? 挖掘數(shù)據(jù)之間的關聯(lián)規(guī)則
根據(jù)聚類后的成本數(shù)據(jù)類簇,找出同一特征數(shù)據(jù)中不同信息之間的內(nèi)在關聯(lián)。各結(jié)構(gòu)通常被用來列舉那些存在可能性的數(shù)據(jù)類簇,一般包含[c]個不同項的數(shù)據(jù)類簇,可能會存在[2c]個頻繁數(shù)據(jù)類簇,并且會有[s]個規(guī)則[6]。因此,在這些復雜繁瑣的數(shù)據(jù)集合中找出滿足最小支持閾值的所有頻繁數(shù)據(jù)類簇,再從這些類簇中挖掘出具有高置信度的關聯(lián)規(guī)則,頻繁數(shù)據(jù)類簇之間可能存在的規(guī)則可以利用式(2)進行表述:
根據(jù)表1中的頻繁數(shù)據(jù)類簇項目,計算得到每一數(shù)據(jù)之間的支持度,以此得到數(shù)據(jù)之間每一種關系的關聯(lián)程度,找出不同費用之間存在的關聯(lián)規(guī)則[10][φ]。
1.3? 搭建數(shù)學模型估計成本
在挖掘出配送成本中各項數(shù)據(jù)關聯(lián)規(guī)則的基礎上,搭建一個數(shù)學預測模型,估計物流配送的總成本。物流配送成本中,總的來說主要涉及到人工成本和機械設備成本兩大類,因此配送成本在估計的過程中,根據(jù)分配和運送兩個流程中的管理人員、裝卸人員以及運送人員的調(diào)度,計算每一工作階段中產(chǎn)生的直接人工費用以及運輸費用[11]。將細化后的費用上傳到財務部門的記賬管理系統(tǒng)中,按配送時間,記錄貨物種類、配送人員、使用車輛等摘要,分別記錄每一操作流程下的費用,登錄財務記賬頁面,輸入相關數(shù)據(jù),如圖2所示[12]。
從圖2a)操作頁面可知,點擊該系統(tǒng)中的記賬模塊,將配送費用類數(shù)據(jù)輸入到上述財務系統(tǒng)中,統(tǒng)計每種費用的總數(shù)據(jù),得到的結(jié)果如圖2b)所示。月初時,打開該系統(tǒng)的業(yè)務往來模塊,點擊月末處理按鍵,結(jié)轉(zhuǎn)上月的物流配送成本,將導出的表格上傳到成本估算系統(tǒng)中[13]?;诨貧w差分移動平均方法,根據(jù)線性時間序列對配送成本進行預測估計。通過多次差分計算處理,將動態(tài)變化的時間序列轉(zhuǎn)換成平穩(wěn)的序列。設置一個參數(shù)為[ω],將其當成差分次數(shù),利用[ω],[p],[q]構(gòu)建估計模型,并對轉(zhuǎn)換后的平穩(wěn)序列進行建模,然后將其替換為原有序列[14]。以[ω],[p],[q]為計算參數(shù)的估計模型,其預測表達式如下所示:
式中:[y]表示物流配送成本估計值;[φm]表示費用數(shù)據(jù)之間存在的[m]個規(guī)則;[εp]表示特征參數(shù)[p]下的模型;[γq]表示特征參數(shù)[q]下的模型;[εq]表示在特征參數(shù)[q]下的隨機誤差。
上述計算過程中,要保證時間序列的穩(wěn)定性。當數(shù)據(jù)序列存在波動性特征時,要對其進行差分處理,根據(jù)自回歸系數(shù)以及偏回歸系數(shù)定階所要處理的目標數(shù)據(jù)序列。至此,根據(jù)以往月份或年度的成本數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)估計出此階段的物流配送成本[15]。
2? 仿真實驗
搭建一個仿真實驗平臺,利用該平臺檢測數(shù)據(jù)挖掘技術(shù)所估計出的物流配送成本,為了令實驗結(jié)果更加直觀,將該估計方法與傳統(tǒng)估計方法相比較,分析兩種成本估計方法下,所研究的數(shù)據(jù)挖掘技術(shù)較傳統(tǒng)方法而言,其具有大量物流配送數(shù)據(jù)的處理能力。
2.1? 實驗準備
此次實驗通過搭建Hadoop實驗云平臺,利用某一大型物流企業(yè)財務管理部門所記錄的從2005—2015年的395 GB配送費用相關數(shù)據(jù),按照年份分別預測當年的運輸成本。仿真實驗環(huán)境如圖3所示。
圖3中設備1為仿真實驗計算機,設備2為專用服務器,設備3為數(shù)據(jù)實時變動液晶顯示屏幕,設備4為網(wǎng)絡穩(wěn)定路由。此次實驗選擇兩臺型號、配置相同的計算機展開實驗,該計算機CPU為3.4 GHz,8 GB內(nèi)存,500 GB硬盤空間,選用高速計算網(wǎng)絡和千兆儲存網(wǎng)絡,打開無線路由連接計算機。該計算機的操作系統(tǒng)為Ubuntu 18.04,Java執(zhí)行環(huán)境為jdk?7u21?linux?i586,登錄仿真實驗軟件Matlab R2016a,試運行該軟件程序。軟件運行流暢無誤,運行Hadoop平臺,運行的指令編碼如圖4所示。
保證該平臺在單機模式、偽分布式模式以及完全分布式模式下正常運作。設置數(shù)據(jù)集群共有26個節(jié)點,其中,2個管理節(jié)點,1個I/O節(jié)點,23個計算節(jié)點,指定node01~node23,當其中發(fā)現(xiàn)可變化的成本數(shù)據(jù)時,及時進行修改,修改路徑設置為192.168.0.201。準備完畢后,針對選取的實驗對象開始實驗。