王妍妍,王艷寧
(1.燕山大學 經(jīng)濟管理學院,河北 秦皇島 066004;2.燕山大學 理學院,河北 秦皇島 066004)
隨著我國電子商務(wù)的迅猛發(fā)展,物流行業(yè)的競爭也日益激烈,競爭的焦點就在于能否以最低的成本,提供快捷、安全的全方位物流服務(wù)。物流成本管理是通過成本管理物流,幫助企業(yè)實現(xiàn)預測、決策和計劃,包括成本控制、成本核算和成本分析。通過成本分析可以發(fā)現(xiàn)影響物流成本變動的因素。對物流成本數(shù)據(jù)進行分析,可以優(yōu)化物流成本管理的過程和方法,有效降低物流行業(yè)的成本。數(shù)據(jù)挖掘可以根據(jù)物流成本數(shù)據(jù)特點發(fā)掘其中隱含的知識,從而更清楚的查看物流企業(yè)的成本情況?;跀?shù)據(jù)挖掘進行物流成本分析,可以實現(xiàn)在既定的顧客服務(wù)水平條件下降低物流成本,提高企業(yè)的競爭能力。
近年來,數(shù)據(jù)挖掘技術(shù)在物流管理中的應(yīng)用十分廣泛。Ozdamara等[1]將層次聚類算法引入到車輛路徑選擇問題中,在每個規(guī)劃中,把結(jié)點歸入最小的聚類中。Fu等[2]提出了基于模糊聚類的物流企業(yè)評估模型,從基礎(chǔ)信息、管理水平、技術(shù)力量、運輸能力、信息化程度、市場競爭和客戶服務(wù)幾個方面評估企業(yè)的整體能力。張玉峰等[3]設(shè)計動態(tài)物流數(shù)據(jù)挖掘模型,分析了動態(tài)物流數(shù)據(jù)采集技術(shù)、動態(tài)物流數(shù)據(jù)處理技術(shù)以及動態(tài)物流數(shù)據(jù)挖掘技術(shù)等關(guān)鍵問題,為物流大數(shù)據(jù)的精益化管理提供支持。周磊等[4]將物聯(lián)網(wǎng)與數(shù)據(jù)挖掘技術(shù)相融合,構(gòu)建物流信息分析模型,有效分析了物流信息。趙秀麗等[5]改進關(guān)聯(lián)規(guī)則算法,挖掘物流數(shù)據(jù)庫中的時空頻繁模式,如頻繁裝(卸)貨地點、頻繁直達路徑和頻繁轉(zhuǎn)運路徑等。江雨燕等[6]針對物流企業(yè)數(shù)據(jù)量大的特點,依據(jù)K-means聚類算法找到關(guān)鍵客戶,并對業(yè)務(wù)記錄進行Apriori關(guān)聯(lián)分析,形成相關(guān)聯(lián)的組合業(yè)務(wù)推廣模式。陳磊等[7]將模糊聚類方法應(yīng)用于物流中心選址決策中,并給出了模糊聚類的基本思想和基于模糊聚類物流中心選址的分析步驟。韓世蓮[8]提出用模糊系統(tǒng)聚類方法對客戶進行分類,運用智能加權(quán)對動態(tài)屬性進行集成,并生成相應(yīng)的配送策略,從而優(yōu)化物流配送線路。也有一些學者采用數(shù)據(jù)挖掘技術(shù)降低企業(yè)的物流成本。Paul等[9]將數(shù)據(jù)挖掘用于降低物流成本,解決物流車輛的路徑選擇問題。Wang等[10]提出客戶聚類方法用于物流網(wǎng)絡(luò)優(yōu)化,通過聚類客戶的相似特征,降低物流企業(yè)的運營成本,并提高客戶滿意度。Guo等[11]設(shè)計物流成本主題域數(shù)據(jù)倉庫,從不同的維度進行聚類,然后利用關(guān)聯(lián)規(guī)則挖掘,為降低物流企業(yè)的成本提供重要的決策支持。
上述研究表明,數(shù)據(jù)挖掘技術(shù)已經(jīng)在物流管理的路徑選擇、供應(yīng)商選取和物流中心選址等方面發(fā)揮了積極作用,但在物流成本分析方面還不夠深入。因此,本文詳細闡述了聚類和關(guān)聯(lián)規(guī)則在物流成本分析應(yīng)用的過程和方法,以達到提高物流企業(yè)成本管理水平的目標。
物流成本數(shù)據(jù)可以從企業(yè)內(nèi)部和企業(yè)外部獲取,這些數(shù)據(jù)數(shù)量大、結(jié)構(gòu)不統(tǒng)一、更新速度快。所以,分析物流成本時,首先要確定分析對象,抽取出不同環(huán)節(jié)中成本的主要影響因素,再對數(shù)據(jù)進行變換形成適合數(shù)據(jù)挖掘的形式。
通過分析物流系統(tǒng),發(fā)現(xiàn)物流成本發(fā)生在進貨、庫存、配送和運輸過程中,物流成本的主要構(gòu)成有運輸成本、倉儲成本、管理費用等。其中,運輸成本是物品在運輸過程中發(fā)生的移動成本,包括公路運輸成本、鐵路運輸成本、水運運輸成本和空運運輸成本等。倉儲成本是物品在入庫和倉庫內(nèi)進行移動、分揀、包裝和出庫等活動產(chǎn)生的成本。管理費用是與物流管理相關(guān)的各項費用和信息成本。在物流成本構(gòu)成中,運輸成本和倉儲成本占比最大,是物流成本管理的重點部分。
將物流過程中的運輸成本和倉儲成本作為研究對象,收集運輸成本和倉儲成本作為原始數(shù)據(jù),再將原始數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘分析的形式。物流成本數(shù)據(jù)預處理過程如下:
首先,抽取貨物類型、倉儲時長、入庫準備成本、裝卸搬運成本、訂單處理成本、倉庫管理成本、分揀組裝成本等作為倉儲成本的字段信息。
然后,分析物流運輸方式主要有公路運輸、海洋運輸、鐵路運輸和航空運輸。運輸方式不同運輸成本字段也不同。其中,發(fā)貨方、收貨方和貨物類型是共有的三個字段。再分別抽取燃料成本、輪胎成本、修理成本、運輸成本等作為公路運輸成本的字段信息;航次成本、船舶固定成本、船舶租賃成本、集裝箱成本等作為水運運輸成本;材料成本、燃料成本等作為鐵路運輸成本的字段信息;飛行成本、飛機維修成本等作為空運運輸成本的字段信息。
在物品運輸時,運輸方式可能不唯一,所以運輸成本為四種運輸方式的成本總和。在倉儲成本和運輸成本字段中,發(fā)貨方和收貨方以省市為劃分,貨物類型分為工業(yè)品、消費品和農(nóng)產(chǎn)品三類,每個省市和每類貨物分別設(shè)置不同代碼。成本中的每個字段就是一個成本項。
最后,對轉(zhuǎn)換后的各項成本數(shù)據(jù)進行規(guī)范化,采用最小-最大規(guī)范化方法將所有成本值計算到指定的區(qū)間內(nèi)。計算方法見公式(1)。
假定minA和maxA分別為成本A的最小值和最大值,則成本A的某項成本值v規(guī)范化到新的區(qū)間[new_minA,new_maxA]為v’:
聚類可以歸納、分類和整合物流成本數(shù)據(jù),將數(shù)據(jù)按自身特點劃分成相似度較高的類。關(guān)聯(lián)規(guī)則分析可以發(fā)現(xiàn)物流成本數(shù)據(jù)中隱含的有用規(guī)則,進而實現(xiàn)物流成本的全面管理?;跀?shù)據(jù)挖掘的物流成本分析方法如圖1所示。
圖1 基于數(shù)據(jù)挖掘的物流成本分析方法
聚類可以自動歸類樣本數(shù)據(jù),將物流成本劃分成相似度較高的多個簇。在各個聚簇內(nèi)分別進行物流成本分析,可以避免由于物流成本數(shù)量大、類型多而造成的分析效率低下、效果不佳等問題。
(1)物流成本數(shù)據(jù)相似度度量。物流成本由一系列成本項組成,成本表示為成本項序列{c1,c2,c3,…,cn}。假設(shè)物流成本 x={x1,x2,x3,…,xn},y={y1,y2,y3,…,yn},則物流成本x和y之間的歐幾里得距離d(x,y)見公式(2)。
其中,n為物流成本的數(shù)量,xk和yk是物流成本x和y在第k個成本項上的成本值。
物流成本之間的歐幾里得距離越小,則成本之間的相似程度就越高。依據(jù)歐幾里得距離,定義物流成本x和y之間的相似度sim(x,y),見公式(3)。
(2)物流成本數(shù)據(jù)的聚類算法。k-means是經(jīng)典的聚類算法,對初始參數(shù)敏感,聚類中心隨機選擇,不同的初始值可能會導致聚類過程差別大,甚至得到不同的結(jié)果。為了能夠更客觀的形成物流成本簇,根據(jù)物流成本數(shù)據(jù)的分布情況定義熵,完成kmeans聚類過程。
假設(shè)物流成本 x=(x1,x2,x3,…,xn)和 y=(y1,y2,y3,…,yn),則成本x和成本y之間的熵Hxy見公式(4)。
假設(shè)物流成本集為C,包含n個成本數(shù)據(jù),則物流成本x的總熵值Hx為該成本與其他成本熵值的和,見公式(5)。
根據(jù)熵的定義可知,成本數(shù)據(jù)分布比較集中的區(qū)域中成本的熵值較大,熵值越大成為聚類中心的可能性就越大。所以,選擇熵值大的成本數(shù)據(jù)作為聚類中心,可以讓聚類盡快達到穩(wěn)定狀態(tài)。
綜上,物流成本的聚類過程如下:首先,計算物流成本之間的歐幾里得距離和相似度。然后,計算每個物流成本數(shù)據(jù)的熵,依次選擇熵值最大的k個物流成本作為聚類中心。最后,根據(jù)物流成本與k個聚類中心的相似度,將其歸入與其相似度最高的中心點所在的聚類中,形成物流成本類簇。采用熵值指導聚類中心的選擇,可以更快、更好的聚類物流成本數(shù)據(jù)。在同一簇中,物流成本的相似程度較大,成本水平相當。
物流成本之間存在相關(guān)性,采用Apriori算法可以挖掘物流成本之間隱含的關(guān)聯(lián)關(guān)系。但是由于其在產(chǎn)生頻繁項集時多次掃描數(shù)據(jù)庫,存在時間開銷大的問題。如果在同一簇內(nèi)實施Apriori算法挖掘關(guān)聯(lián)規(guī)則,能夠大大提高算法的執(zhí)行效率。所以,基于Apriori算法的物流成本關(guān)聯(lián)規(guī)則分析,采用先分后合的思想。首先在相似度較高的一個簇內(nèi)挖掘關(guān)聯(lián)規(guī)則,然后再將各個簇中挖掘到的規(guī)則整合成決策支持庫。
同時,考慮到物流成本之間的相關(guān)性表現(xiàn),將在橫向和縱向兩個方面分別挖掘關(guān)聯(lián)關(guān)系。橫向相關(guān)性是物流成本各個成本項之間的相互影響。例如,在同一次物流過程中,季節(jié)與運輸物品種類之間的關(guān)系??v向相關(guān)性是不同次物流過程中,不同種類的物品物流成本之間的相互影響。例如,某類物品與另一類物品物流成本之間的關(guān)系。
采用Apriori算法挖掘出物流成本項之間以及物流成本之間的強關(guān)聯(lián)規(guī)則,整合每個簇中取得的規(guī)則,再結(jié)合管理層需求和用戶需要分析所有的規(guī)則,找出有用規(guī)則形成物流成本決策支持庫。
為了驗證上述聚類算法的效果,采用UCI提供的iris和letter來驗證算法的效率和聚類的質(zhì)量。測試數(shù)據(jù)集描述見表1。
表1 測試數(shù)據(jù)集樣本
在Weka平臺上,分別采用k-means算法和本文提出算法對測試數(shù)據(jù)集進行測試,聚類質(zhì)量和效率見表2。
從實驗結(jié)果可以看出,與k-means算法相比,本算法準確率略高。當數(shù)據(jù)集較大時,由于本算法將熵值作為聚類中心的選擇標準,聚類中心確定以后聚類結(jié)果不再發(fā)生變化,所以該算法的運行時間較短。
表2 聚類質(zhì)量和效率的比較
聚類物流成本數(shù)據(jù)時,首先要確定聚類個數(shù)k,這里采用平均輪廓系數(shù)對聚類結(jié)果進行評估。如果成本數(shù)據(jù)ci與同一聚類中成本數(shù)據(jù)的平均相似度為ai,與其他聚類中成本數(shù)據(jù)最大相似度為bi,則輪廓系數(shù)Sci定義如下:
平均輪廓系數(shù)記為所有成本數(shù)據(jù)輪廓系數(shù)的平均值,當平均輪廓系數(shù)最大時,聚類質(zhì)量最好,此時對應(yīng)的聚類個數(shù)k即為最優(yōu)的。平均輪廓系數(shù)定義如下:
在實驗中抽取4 000條運輸成本和倉儲成本數(shù)據(jù)進行數(shù)據(jù)預處理,再采用上述k-means算法對成本數(shù)據(jù)進行聚類,并將4 000條成本數(shù)據(jù)分成15個類,此時聚類效果最優(yōu)。
在每個簇中實施關(guān)聯(lián)規(guī)則分析,分別設(shè)置支持度和置信度為0.8。以水運成本數(shù)據(jù)為例,發(fā)現(xiàn)水運成本數(shù)據(jù)項之間的相關(guān)關(guān)系如下:
(1)發(fā)貨方∧船舶租賃成本∧船舶固定成本=>航線成本;
(2)發(fā)貨方∧運輸月份=>運輸時長。
通過挖掘所有類簇中的強關(guān)聯(lián)規(guī)則,可以得出物流成本數(shù)據(jù)之間存在的各種關(guān)聯(lián),這些強關(guān)聯(lián)規(guī)則和成本的相關(guān)性可以形成物流成本決策支持庫,用于指導物流成本的合理分配。
物流成本分析和管理的目標是在一定的物流收益水平約束下,追求物流成本最小化。為了滿足企業(yè)降低物流成本的需求,本文提出了基于聚類和關(guān)聯(lián)規(guī)則的物流成本分析方法。根據(jù)物流成本的結(jié)構(gòu),采用聚類技術(shù)縮小物流成本分析的范圍。再采用關(guān)聯(lián)規(guī)則分析方法發(fā)掘每個簇中物流成本之間隱含的規(guī)則,根據(jù)這些規(guī)則制定合理的物流成本分配策略。以此來指導物流成本資源的分配,貫穿于物流企業(yè)管理各個環(huán)節(jié)的,為企業(yè)的成本管理提供決策支持。