(中遠(yuǎn)海運集裝箱運輸有限公司,上海 200080 )
當(dāng)今社會,大數(shù)據(jù)分析已滲透到集裝箱運輸業(yè)的各個方面。作為世界第三、中國第一的航運企業(yè),透過客戶在我司留下的運輸足跡,站在行業(yè)的高度,結(jié)合企業(yè)內(nèi)外部數(shù)據(jù),探究和發(fā)現(xiàn)數(shù)據(jù)背后的潛在規(guī)律和價值。
本文圍繞深入挖掘航運數(shù)據(jù)背后的價值這一主題,選取我司在化工品和機電設(shè)備領(lǐng)域比較有代表性的兩家客戶(以下簡稱客戶A和客戶B),應(yīng)用名詞解析和機器學(xué)習(xí)等技術(shù),分析其出運貨物種類的特點及規(guī)律。筆者為本次數(shù)據(jù)分析制定了如下5個階段性目標(biāo),并分階段對其完成情況和意義進(jìn)行詳細(xì)闡述。①從客戶A和客戶B著手,總結(jié)這兩家企業(yè)的關(guān)鍵出貨品類。②與這兩家公司外部公開的數(shù)據(jù)進(jìn)行匹配,觀察其在我司系統(tǒng)中申報的貨物品類和其公司主營業(yè)務(wù)是否一致。③考察我司這些關(guān)鍵出貨品類的進(jìn)出口地點和量的變化趨勢。④將這種分析方法拓展到全公司,考察和這兩家公司運輸相似貨物的客戶的貨流走向。⑤站在客戶的角度去思考,如何利用我司的資源和數(shù)據(jù)幫助客戶在其領(lǐng)域獲得成功。
從我司訂艙系統(tǒng)的源數(shù)中查找到這兩家客戶2015年7月至今的所有貨物數(shù)據(jù)。共計18 342條。結(jié)合這兩家公司及其子公司官網(wǎng)上的信息和我司系統(tǒng)中的SAP ID信息,梳理他們各自的主營業(yè)務(wù)??蛻鬉的主營商品種類主要涵蓋化工原料及其衍生產(chǎn)品,相對貨物品類較為集中;而客戶B則以機電設(shè)備、家用電器、電子電器、汽車配件為主。
首先對18 342條貨物數(shù)據(jù)的貨物描述進(jìn)行名詞拆解和分析,拆解到只留下最為關(guān)鍵最能描述貨物情況的名詞。然后對相同的名詞進(jìn)行分類匯總。
通過對貨物描述的名詞拆解和分析,得出以下結(jié)論。
1)HS CODE和OOCL_CMDTY_GRP都存在較高的缺失率,直接利用統(tǒng)計會丟失信息。
2)FULL_DESC不存在缺失,但數(shù)據(jù)質(zhì)量較難控制,從筆者通過自然語言文本分析手段拆出名詞來看,客戶A的品類集中度較高,主要集中在化學(xué)品和橡膠上,有利于后期關(guān)鍵詞提取,而客戶B的較分散,說明客戶B的貨物關(guān)鍵詞提取難度更高。
3)HS CODE從統(tǒng)計結(jié)果看客戶B維護(hù)率較高,有助于后期輔助從FULL_DESC提取關(guān)鍵詞。
4)HS CODE和OOCL_CMDTY_GRP的缺失存在互補性,可以有助于后期輔助從FULL_DESC提取關(guān)鍵字。
通過這一階段的分析,確立了將客戶主營業(yè)務(wù)和其貨物信息結(jié)合起來的方法,那就是用名詞拆解的手段來進(jìn)行同公司內(nèi)HS CODE交叉補全,利用HS CODE作為主鍵來區(qū)分不同的貨物種類。再用人工的方法和該公司的主營業(yè)務(wù)匹配起來進(jìn)行貨物進(jìn)出口流向的分析和統(tǒng)計。
利用第二階段所建立的分析方法,筆者對18 342條貨物數(shù)據(jù)進(jìn)行了公司內(nèi)部的HS CODE交叉補全,并手工匹配了主營業(yè)務(wù)。再結(jié)合我司系統(tǒng)中貨物的進(jìn)出口地完成了這兩家客戶的統(tǒng)計小結(jié),即完成了第三個階段性目標(biāo)。
1)拆出的名詞可能包含一些常用名詞,所以多于貨物信息分析需要結(jié)合多個關(guān)鍵字理解。
2)關(guān)鍵字存在單復(fù)數(shù)還未清洗,后續(xù)需要完善。
3)關(guān)鍵字是對這兩家企業(yè)的貨物信息拆解,未來要擴展到其他公司,還需要創(chuàng)建同義詞表等。
4)關(guān)鍵字對于拼音暫時未做處理,后續(xù)有方法可以處理,但較為復(fù)雜。
1)主營業(yè)務(wù)對應(yīng)全人工處理,存在誤差,特別是客戶A的化學(xué)品拆解難度較大,很多歸類人工識別較困難。
2)主營業(yè)務(wù)對應(yīng)目前是借助關(guān)鍵字表完成,然后通過關(guān)鍵字表返回源數(shù)據(jù)。處理量少,但存在人工誤差。
把視角擴大到全公司,站在全公司的角度上分析這兩家客戶的貨物流向和貨物信息在其同行業(yè)中有什么特點和優(yōu)劣勢。
在對這兩家客戶研究成果的基礎(chǔ)上,統(tǒng)計分析全公司的貨描情況。
1)提升貨物描述數(shù)據(jù)質(zhì)量,便于后續(xù)統(tǒng)計分析。
2)全公司貨物描述關(guān)鍵字提取,借助HS CODE建立分類體系。
3)全公司貨物描述中涉及這兩家客戶的主營業(yè)務(wù)貨種的統(tǒng)計分析,例如,橡膠在我司每年的運輸量、進(jìn)出口國家等。
4)與這兩家客戶主營業(yè)務(wù)有交集的其他公司在我司的運輸情況。
筆者首先需要對全公司近一年的所有貨物數(shù)據(jù)進(jìn)行名詞拆解分析和HS CODE交叉補全。由于數(shù)據(jù)量較為龐大,經(jīng)過測試后隨機森林這個模式準(zhǔn)確率最高,故采用此模型。
完成HS CODE補全的公司有6 862家,其中剔除HS CODE全部缺失的公司,還剩4 874家,其中2 513家公司完成了有效的HS CODE補全。原先該部分的數(shù)據(jù)缺失率為69%,補全后缺失率為23%,該部分的缺失率仍有降低的可能性。下面的統(tǒng)計分析部分是基于這一結(jié)果之上的簡單分析。
基于客戶名稱的分析,我司從數(shù)據(jù)層面上暫時沒有完整的信息用來區(qū)分貨代和直客,故筆者想借助客戶公司名稱來初步統(tǒng)計分析。客戶公司運輸量和不同HS CODE數(shù)量之間的數(shù)值相關(guān)性不是很強,只有0.262 5。未來如果筆者對客戶公司按照一定的規(guī)律進(jìn)行劃分,可以劃區(qū)塊進(jìn)一步分析兩者之間的相關(guān)性。或者通過不同區(qū)域數(shù)值的劃分、相關(guān)性來劃分客戶公司,能更好地對我司的客戶公司進(jìn)行分群。
對于拼箱貨的貨物描述分析,貨物描述種類多,但實際的箱量貢獻(xiàn)度不高。這一類公司以百貨、零售、物流公司居多。在分析這類客戶公司貨物信息的時候,他們的實際貢獻(xiàn)度和一個箱子少量貨描的客戶公司的權(quán)重需要區(qū)別對待。
通過上一階段對代碼的分析和優(yōu)化,筆者將該方法運用于全公司的數(shù)據(jù)的HS CODE交叉補全。筆者已經(jīng)將大部分?jǐn)?shù)據(jù)的HS CODE字段進(jìn)行了補充,并加上了主營業(yè)務(wù)字段。為了后續(xù)篩選分析方便,引入“企業(yè)之間相似性”這個概念。
對于企業(yè)之間的相似性度量,可以將“量”概念引入,也可以忽略“量”,對于“量”,可以有多種方式度量:數(shù)據(jù)的量,產(chǎn)生TEU的量,利潤的量等。
在這里簡單起見,忽略“量”,將所有原先“量”,有數(shù)據(jù)看成1,沒數(shù)據(jù)看成0。因此對于一個公司的相似性度量只要考察二者主營業(yè)務(wù)的重疊數(shù)。例如客戶B有7種主營業(yè)務(wù),但是目標(biāo)公司與其重合的主營業(yè)務(wù)有3個,因此二者之間的相似性可以用3/7來計算,同時也有很多種計算方式,主要取決于希望從什么角度去看,后續(xù)供同行探討。
受制于單機的性能問題,筆者目前只完成了全公司70%貨物數(shù)據(jù)的HS CODE交叉補全。筆者還引入了“企業(yè)相似性”這一概念,從主營業(yè)務(wù)來判斷兩家客戶的相似程度,之后也會考慮加入更多的度量方式,例如數(shù)據(jù)的量、產(chǎn)生TEU的量、利潤的量等。
綜上所述,第一種是以貨物為基礎(chǔ)來考量,第二種是以公司為基礎(chǔ),筆者認(rèn)為可以將這兩種方法結(jié)合起來分析,看看怎樣最大化地給客戶帶去收益。