侯吉,宋瑞,何世偉,殷瑋川
(北京交通大學(xué)綜合交通運輸大數(shù)據(jù)應(yīng)用技術(shù)交通運輸行業(yè)重點實驗室,北京 100044)
隨著我國鐵路貨運改革的不斷推進和鐵路基礎(chǔ)設(shè)施建設(shè)的發(fā)展,鐵路運輸部門在貨物運輸方面大力發(fā)展“前店后廠”模式,精簡貨物承運辦理程序,加強與客戶的信息溝通,努力提高貨物運輸?shù)姆?wù)質(zhì)量。另一方面,隨著經(jīng)濟的快速發(fā)展和人民生活水準的提高,高附加值貨物及零散白貨的貨運需求不斷增加,對時效性的要求更加嚴格[1]。然而鐵路貨物運輸過程中,鐵路運輸部門的時間指標和要求靈活性不足,缺乏對貨物運輸全程中各車站和區(qū)段作業(yè)時間的動態(tài)考核和評價,貨物逾期到達的問題依然存在,成為制約鐵路提升貨運服務(wù)質(zhì)量的關(guān)鍵“痛點”。
目前,關(guān)于貨物運輸時間的研究多為對現(xiàn)有指標和作業(yè)流程的優(yōu)化。羅小明等[2-3]提出在新的運輸條件和鐵路普遍提速的前提下,制定新的貨物運到期限計算方法。韓雪松等[4]分析得出貨車在貨運站的集散時間和技術(shù)站之間的運送時間對全程貨物運輸時間影響較大,并提出一系列流程優(yōu)化建議。程文毅[5]分析了貨物運到期限的保障對貨主選擇貨運方式造成的影響。賈玉衛(wèi)[6]主要從可靠性方面分析評價貨物送達時間。張戎等[7]等分析了時間可靠性對鐵路集裝箱運輸?shù)挠绊憽6P(guān)于鐵路大數(shù)據(jù)應(yīng)用的研究[8-11],大多為系統(tǒng)框架構(gòu)建和需求功能分析等,也有如Yin 等[12]提出基于云計算的鐵路“門到門”貨物運輸產(chǎn)品設(shè)計方法,但是在貨物運輸責(zé)任劃分方面的研究較少。
綜上所述,本文針對目前在鐵路貨物運輸責(zé)任劃分和考核評價方面研究的不足,結(jié)合云計算和大數(shù)據(jù)處理方法,通過對鐵路貨運大數(shù)據(jù)的分析,提出了一種基于大數(shù)據(jù)的貨物運輸責(zé)任時間劃分方法(division method of railway freight transport responsibility time based on big data,DMRFTRT),以實現(xiàn)對鐵路貨運全程中各環(huán)節(jié)作業(yè)時間的動態(tài)考核評價,促進提高鐵路貨物運輸效率和保障鐵路貨物運輸?shù)臅r效性。
根據(jù)鐵路貨物運輸組織方法[13],貨物運輸過程可以劃分為3個階段:始發(fā)站的發(fā)送作業(yè)階段、途中技術(shù)站和區(qū)段的運輸階段、到達作業(yè)階段,如圖1所示。
圖1 鐵路貨物運輸全程示意圖Fig.1 Diagram of railway freight transportation
影響貨物運輸過程的因素眾多,主要有貨物因素、車站設(shè)備條件、區(qū)間設(shè)備條件、人為因素和其他因素等5個方面,如圖2所示。
由于貨物運輸過程中會經(jīng)過多個車站和區(qū)段,影響因素眾多,不同地區(qū)鐵路建設(shè)水平、運輸組織工作水平并不均衡,同時隨著近年來我國鐵路基礎(chǔ)設(shè)施不斷建設(shè)改造,車站區(qū)間能力得到釋放和改善,現(xiàn)行的貨物運到期限計算方法作為時間指標來組織和評價貨物運輸狀況難以符合實際現(xiàn)場情況,需對貨物運輸?shù)母鳝h(huán)節(jié)加強監(jiān)督與責(zé)任劃分。
傳統(tǒng)貨物運輸過程各環(huán)節(jié)時間的分配方法包括剩余時間平均分配法、均值比例分配法、蒙特卡洛仿真法[14-15]。剩余時間平均分配法,即將貨物實際送達時間與貨物運到期限的差值平均分配到各作業(yè)環(huán)節(jié)上;均值比例分配法直接以各環(huán)節(jié)作業(yè)的均值占貨物實際送達時間均值的比例來分配貨物運到期限;而蒙特卡洛方法則是通過查詢各作業(yè)環(huán)節(jié)的歷史數(shù)據(jù),利用符合各作業(yè)環(huán)節(jié)時間服從的分布規(guī)律產(chǎn)生隨機數(shù),再從其中隨機抽取樣本,最后算出各作業(yè)環(huán)節(jié)所占比例均值,以此來進行運到期限時間的分配。上述的幾種貨物運到期限時間的分配方法,主要不足有:(1)對貨物運輸各環(huán)節(jié)作業(yè)的時間波動性和不同環(huán)節(jié)作業(yè)時間的差異性缺乏體現(xiàn);(2)對于鐵路部門產(chǎn)生的大量記錄數(shù)據(jù)利用不充分,其時間分配結(jié)果適用性不高;(3)傳統(tǒng)的方法分配的時間標準并不是動態(tài)的,而是一個通過計算得到的固定值,對于影響因素眾多的鐵路貨物運輸不一定始終適用。
圖2 鐵路貨物運輸過程影響因素Fig. 2 Influence factors of railway freight transport process
據(jù)初步數(shù)據(jù)統(tǒng)計,中國鐵路總公司及各鐵路局存儲的數(shù)據(jù)總量已經(jīng)達到10 PB的數(shù)量級[16],鐵路貨物運輸大數(shù)據(jù)特點:數(shù)據(jù)量大(volume)、數(shù)據(jù)類型和來源多(variety)、數(shù)據(jù)實時采集(velocity)、價值密度低,但通過有效利用可獲得很高的價值(value),即具有4V特性。傳統(tǒng)的本地數(shù)據(jù)處理方法受限于數(shù)據(jù)量和計算速度,而大數(shù)據(jù)分析和云計算的發(fā)展,為鐵路利用貨運大數(shù)據(jù)實現(xiàn)精準營銷和提升工作水平都提供了更好的技術(shù)保證。
本文的貨車運行軌跡大數(shù)據(jù)的處理方法基于云計算平臺。數(shù)據(jù)來源于鐵路信息系統(tǒng)中普通貨車的裝卸作業(yè)和到發(fā)運行等記錄數(shù)據(jù),以及路局、站名等基礎(chǔ)數(shù)據(jù)字典。貨車運行軌跡大數(shù)據(jù)處理方法主要包括數(shù)據(jù)結(jié)構(gòu)讀取、數(shù)據(jù)上傳存儲、數(shù)據(jù)清洗、數(shù)據(jù)篩選匹配4個步驟,其中數(shù)據(jù)結(jié)構(gòu)讀取利用本地編程軟件如Java工具實現(xiàn),數(shù)據(jù)上傳存儲、數(shù)據(jù)清洗、數(shù)據(jù)篩選匹配在云計算平臺實現(xiàn)。本文中云計算平臺均使用阿里云計算服務(wù)大數(shù)據(jù)平臺[17],而將來的實際應(yīng)用中可以使用鐵路相關(guān)部門的自建云平臺。大數(shù)據(jù)處理流程見圖3,具體步驟如下:
(1)數(shù)據(jù)結(jié)構(gòu)讀取。即利用Java工具對原始數(shù)據(jù)文件的數(shù)據(jù)結(jié)構(gòu)進行讀取。獲得數(shù)據(jù)文件中行分隔符、列分隔符和數(shù)值類型等信息,以保證數(shù)據(jù)上傳時符合云端數(shù)據(jù)庫規(guī)范。
(2)數(shù)據(jù)上傳存儲。在云端數(shù)據(jù)庫新建與(1)中讀取出數(shù)據(jù)結(jié)構(gòu)符合的表格,然后利用云客戶端的MapReduce分布式上傳功能,完成原始數(shù)據(jù)上傳和存儲在云端數(shù)據(jù)庫中。
(3)數(shù)據(jù)清洗。由于數(shù)據(jù)在統(tǒng)計、導(dǎo)入導(dǎo)出等格式轉(zhuǎn)換時,不可避免會出現(xiàn)數(shù)據(jù)部分缺失、重復(fù)等問題,以及存在隱藏符號、空格等,會影響數(shù)據(jù)分析,所以需要對數(shù)據(jù)進行清洗,并將格式統(tǒng)一,以方便計算分析。
(4)數(shù)據(jù)篩選匹配。去除無效數(shù)據(jù),篩選有效信息,并通過貨物運輸不同環(huán)節(jié)產(chǎn)生的數(shù)據(jù)之間的相互匹配,得到需要分析的目標數(shù)據(jù)和結(jié)果。
圖3 基于云計算的貨車運行軌跡大數(shù)據(jù)處理流程Fig. 3 Big data processing flow of freight transit track based on cloud computing
利用云計算平臺處理貨車運行軌跡大數(shù)據(jù),其計算效率有明顯優(yōu)勢。在相同硬件環(huán)境條件下,阿里云MaxCompute和本地SQL Server2008數(shù)據(jù)庫處理大數(shù)據(jù)的SQL運算效率對比結(jié)果如表1所示,可見SQL語句越復(fù)雜或者運算數(shù)據(jù)量越大,云計算相對于傳統(tǒng)SQL Server數(shù)據(jù)庫的運算速率優(yōu)勢越能體現(xiàn)出來。
表1 云計算與傳統(tǒng)數(shù)據(jù)庫計算效率對比
2.2.1 符號與參數(shù)說明
本文以貨車為直接研究對象,貨物運輸責(zé)任時間為鐵路運輸全程中貨車在各環(huán)節(jié)應(yīng)該完成運輸作業(yè)的最大時間。其中,始發(fā)站的站內(nèi)作業(yè)時間為貨車裝車入線開始,至從車站開出時止的總時間;終到站的站內(nèi)作業(yè)時間為貨車到達車站開始,至卸車結(jié)束時止的總時間;對于貨運OD的貨車途經(jīng)車站,站內(nèi)作業(yè)時間為出發(fā)時間與到達時間之差;區(qū)段運行的作業(yè)時間為前一車站出發(fā)時間與后一車站到達時間之差;僅用于會車、越行的中間站和線路所,其作業(yè)時間均計入?yún)^(qū)段運行作業(yè)時間內(nèi)。
責(zé)任保障率就是能夠在貨物運輸責(zé)任時間范圍內(nèi)完成作業(yè)的貨車數(shù)占總數(shù)的百分比。相關(guān)符號和參數(shù)規(guī)定見表2。
表2 符號與參數(shù)說明
2.2.2 貨物運輸責(zé)任時間劃分和責(zé)任保障率計算方法
貨物運輸責(zé)任時間劃分和責(zé)任保障率計算方法總體步驟如圖4所示。
圖4 貨物運輸責(zé)任時間劃分和責(zé)任保障率計算總體步驟Fig. 4 The overall steps of freight transport responsibility time division and responsibility guarantee rate calculation
Step 1:確定各環(huán)節(jié)責(zé)任標準系數(shù)
Step 2:劃分各環(huán)節(jié)運輸責(zé)任時間和OD運輸責(zé)任時間
(1)
Step3:計算各環(huán)節(jié)責(zé)任保障率
第i車站作業(yè)的運輸責(zé)任保障率為:
(2)
第j區(qū)段的責(zé)任保障率為:
(3)
貨運OD責(zé)任保障率為:
(4)
Step4:考核評價
綜合考慮運輸各環(huán)節(jié)的責(zé)任保障率與責(zé)任標準系數(shù)的關(guān)系,評價每個環(huán)節(jié)的作業(yè)效率變化,并且根據(jù)各環(huán)節(jié)的責(zé)任保障率與貨運OD責(zé)任保障率之間的關(guān)系,確定對下一期數(shù)據(jù)考核的責(zé)任標準系數(shù)。以車站為例,考核評價方法如下:
區(qū)段的考核評價方法與車站的考核評價方法同理。
Step5:數(shù)據(jù)更新和動態(tài)考核
重復(fù)上述Step1~Step5,根據(jù)最新的貨運記錄數(shù)據(jù)不斷更新數(shù)據(jù)集,及時動態(tài)地考核評價貨物運輸過程中各環(huán)節(jié)作業(yè)時間和效率的變化情況,研究變化原因和對應(yīng)改善措施,提高貨物運輸組織生產(chǎn)效率。
基于2017年5月1日—21日共21 d的鐵路貨車到發(fā)和裝卸車記錄數(shù)據(jù),其中樣本貨運數(shù)據(jù)集包括27 173 283條記錄,考核貨運數(shù)據(jù)集包括14 029 506條記錄。
首先通過Java平臺編程讀取數(shù)據(jù)的結(jié)構(gòu),表3和表4分別為整車貨物的貨運裝卸記錄和貨運到發(fā)記錄數(shù)據(jù)表結(jié)構(gòu),行分隔符為“/n”,列分隔符為“,”。之后在云平臺建立符合該數(shù)據(jù)表結(jié)構(gòu)的表格,上傳并存儲數(shù)據(jù)。
表3 貨運裝卸記錄數(shù)據(jù)表結(jié)構(gòu)
表4 貨運到發(fā)記錄數(shù)據(jù)表結(jié)構(gòu)
數(shù)據(jù)清洗主要包括3個方面:第一,處理不規(guī)則字符,排除字符干擾,例如數(shù)據(jù)文件中String類型的數(shù)據(jù)含有雙引號和未顯示的空格,則需用split_part函數(shù)和trim函數(shù)進行數(shù)據(jù)清洗;第二,轉(zhuǎn)換數(shù)據(jù)類型以方便計算,例如貨運原始數(shù)據(jù)中數(shù)據(jù)類型均為String類型,而時間計算需要用到Datetime類型,故需將進行時間數(shù)值運算的數(shù)據(jù)由String類型轉(zhuǎn)換為Datetime類型;第三,清理無效數(shù)據(jù),由于原始數(shù)據(jù)中可能存在記錄不全、缺失、錯誤或者重復(fù)的無效數(shù)據(jù),需設(shè)置限制條件,以保證數(shù)據(jù)的可靠性。
數(shù)據(jù)篩選匹配,即是根據(jù)分析的OD不同,在數(shù)據(jù)庫中篩選目標數(shù)據(jù),并匹配計算時間分布特征:第一,在云平臺上對裝卸數(shù)據(jù)和到發(fā)數(shù)據(jù)的匹配和篩選,主要利用mapjoin等函數(shù),選取目標數(shù)據(jù),得到每輛貨車在各車站、區(qū)段的到發(fā)時間、停留狀態(tài)、裝車卸車等情況;第二,對篩選出的目標數(shù)據(jù),計算其數(shù)學(xué)特征,如在車站和區(qū)段的停留時間、裝卸作業(yè)時間等,并統(tǒng)計經(jīng)過某一車站或區(qū)段的所有貨車作業(yè)時間分布,如平均值、標準差、中位數(shù)等。
貨車運行軌跡大數(shù)據(jù)經(jīng)過上述云計算處理后,根據(jù)貨車數(shù)據(jù)篩選分析,發(fā)現(xiàn)僅在京廣線上樣本貨運數(shù)據(jù)集中裝卸貨車的OD有195對,表5中列出了部分裝卸貨車的OD,并計算出了其中同一OD間按照相同停站方案運送的貨車數(shù)。
表5 樣本貨運數(shù)據(jù)集京廣線部分裝卸貨車的OD及貨車數(shù)
3.2.1 貨物運輸責(zé)任時間劃分和責(zé)任保障率計算
基于云計算平臺的數(shù)據(jù)篩選匹配結(jié)果,考慮到論文篇幅有限,所以選擇京廣線上衡陽北—大朗運輸區(qū)段停站方案相同的貨車記錄為例,驗證本文提出的貨物運輸責(zé)任時間和責(zé)任保障率計算方法。
表6 衡陽北—大朗運輸區(qū)段各站段樣本貨運數(shù)據(jù)集的數(shù)據(jù)分析
Step2:根據(jù)劃分各環(huán)節(jié)運輸責(zé)任時間和OD運輸責(zé)任時間的方法,可以求得運輸中各環(huán)節(jié)貨物運輸責(zé)任時間和貨運OD的貨物運輸責(zé)任時間,如表7所示;
Step3:根據(jù)公式(2)~(4),求得各環(huán)節(jié)的責(zé)任保障率和貨運OD運輸責(zé)任保障率,如表7所示;
表7 運輸責(zé)任時間劃分和責(zé)任保障率計算結(jié)果
Step4:根據(jù)責(zé)任保障率與責(zé)任標準系數(shù)的關(guān)系,對作業(yè)效率進行評價,并確定下一考核周期的責(zé)任標準系數(shù),如表8所示。
Step 5:數(shù)據(jù)更新。樣本貨運數(shù)據(jù)集更新為2017年5月8日—21日的貨運數(shù)據(jù),考核貨運數(shù)據(jù)集更新為2017年5月22日—28日的貨運數(shù)據(jù)。不斷根據(jù)最新的貨物運輸記錄數(shù)據(jù)進行運輸各環(huán)節(jié)的責(zé)任時間劃分和評價,可以反映作業(yè)效率的波動,以及時調(diào)整運輸組織方式,保障作業(yè)效率。
3.2.2 與傳統(tǒng)時間分配方法的對比分析
根據(jù)鐵路總公司貨物承運辦法計算,衡陽北—大朗普通整車貨物的運到期限為3 d,即4320 min,基于m=1考核周期時的樣本貨運數(shù)據(jù)集和考核貨運數(shù)據(jù)集,分別用剩余時間分配法和均值比例分配法計算各環(huán)節(jié)的分配時間和保障率,結(jié)果如表9所示,不同時間分配方法各環(huán)節(jié)的保障率對比如圖5所示。
可以看出,這兩種時間分配方法的缺點是由于不考慮站段之間作業(yè)的差異性和作業(yè)時間的波動性,不符合實際作業(yè)規(guī)律,所以不同環(huán)節(jié)的保障率差異較大。如剩余時間分配法中,馬壩站內(nèi)作業(yè)時間、江村—大朗的區(qū)段作業(yè)時間分配時間大于該環(huán)節(jié)的最大時間,保障率都等于100.00%,說明分配時間偏大,而在始發(fā)站衡陽北、終到站大朗和途中編組站江村保障率明顯偏小,說明分配時間偏小;同理均值比例法中衡陽北—郴州區(qū)段、江村站內(nèi)保障率偏小,說明分配時間偏小。而貨物運輸責(zé)任時間劃分方法的保障率則能夠保持在90.00%左右,說明不存在作業(yè)時間劃分明顯偏大或者偏小的情況,更適合作為考核評價的指標。
表9 傳統(tǒng)時間分配法的責(zé)任保障率
圖5 不同時間分配方法各環(huán)節(jié)保障率對比Fig. 5 Comparison of responsibility guarantee rate in different time distribution methods
本文對鐵路貨物運輸責(zé)任時間計算方法進行研究,設(shè)計了基于大數(shù)據(jù)的貨物運輸責(zé)任時間劃分方法,提出了貨物運輸全程責(zé)任時間和責(zé)任保障率的概念,并通過算例驗證了該方法的有效性和可適性,得到以下結(jié)論:
(1)利用云計算平臺,對海量鐵路貨車運行軌跡大數(shù)據(jù)進行存儲、清洗、篩選分析等操作,能夠節(jié)省本地空間,大大提高數(shù)據(jù)管理和處理效率及準確性,降低鐵路企業(yè)的工作成本和提升工作效率。
(2)通過貨物運輸責(zé)任時間劃分和責(zé)任保障率的計算,能夠給對鐵路貨運全程各環(huán)節(jié)劃分責(zé)任時間,并評價各環(huán)節(jié)作業(yè)效率,且能夠根據(jù)貨車運行軌跡大數(shù)據(jù)反映的實際情況,實時動態(tài)地排除不同作業(yè)條件下歷史數(shù)據(jù)對現(xiàn)在運輸狀態(tài)評價的干擾,動態(tài)調(diào)整考核標準系數(shù),有利于改進貨物運輸組織工作保障水平。
(3)不同于傳統(tǒng)的貨物運到期限時間分配方法,本文提出的方法能夠體現(xiàn)各環(huán)節(jié)作業(yè)時間的差異性和波動性,考核方法具有更好的可適性和應(yīng)用前景,為鐵路貨運責(zé)任劃分提供了很好的研究新思路。
針對貨物運輸責(zé)任時間劃分的研究,根據(jù)不同列車、不同貨物種類,在鐵路運輸全程中對作業(yè)時間要求存在的差異性進行精細分析,是未來的研究和應(yīng)用的方向之一。