孫立 張昊 張棟棟 楊陽 王寶磊
1 基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)設(shè)計(jì)背景
港口每天產(chǎn)生海量數(shù)據(jù),包括港區(qū)內(nèi)貨物流動(dòng)數(shù)據(jù)、船舶靠泊數(shù)據(jù)、設(shè)備使用數(shù)據(jù)、設(shè)備能耗數(shù)據(jù)等。通過大數(shù)據(jù)技術(shù)處理,這些數(shù)據(jù)能描繪出企業(yè)、貨物、物流、行業(yè)的潛在特征,從而對(duì)決策制定起到輔助作用。當(dāng)前,港口數(shù)據(jù)從計(jì)劃和管理數(shù)據(jù)、物聯(lián)網(wǎng)傳感器生產(chǎn)數(shù)據(jù)逐步擴(kuò)大到互聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)量激增且數(shù)據(jù)復(fù)雜性提升,由此產(chǎn)生數(shù)據(jù)標(biāo)準(zhǔn)、共享、安全、服務(wù)等相關(guān)問題。港口行業(yè)具有資本密集型、規(guī)模經(jīng)濟(jì)性和周期性特點(diǎn):一方面,港口企業(yè)產(chǎn)品具有不可存續(xù)性,港口只能通過保有一定的吞吐能力來適應(yīng)吞吐量增長(zhǎng)需求;另一方面,港口吞吐量需求具有派生性,一旦經(jīng)濟(jì)衰退,貿(mào)易量減少,就會(huì)出現(xiàn)產(chǎn)能過剩、設(shè)備閑置的局面,造成資源浪費(fèi)。目前,港口設(shè)備固定資產(chǎn)投資決策呈現(xiàn)粗放式,存在缺乏綜合經(jīng)濟(jì)分析、投資決策效率低等問題。
信息技術(shù)的迅猛發(fā)展對(duì)數(shù)據(jù)庫技術(shù)提出更高要求,主要體現(xiàn)在以下方面:(1)高并發(fā)讀寫需求;(2)海量數(shù)據(jù)的高效存儲(chǔ)和訪問需求;(3)高可擴(kuò)展性和可用性需求。[1]在此背景下,非關(guān)系型數(shù)據(jù)庫(NoSQL)應(yīng)運(yùn)而生,以滿足以上數(shù)據(jù)處理需求。典型的數(shù)據(jù)庫包括Redis、Memcached、Cassandra、MongoDB、Neo4j等。在大數(shù)據(jù)處理技術(shù)方面,最主流的平臺(tái)是Hadoop。Hadoop由分布式文件系統(tǒng)(hadoop distributed file system,HDFS)、并行計(jì)算框架(MapReduce)、非結(jié)構(gòu)化數(shù)據(jù)庫(Hbase)組成,分別適用Google GFS、Google MapReduce和Google BigTable 開源實(shí)現(xiàn)。HDFS具有高容錯(cuò)性,適合部署在價(jià)格低廉的硬件上,同時(shí)適用于具有超大數(shù)據(jù)集的應(yīng)用程序。在大數(shù)據(jù)分析方面的代表性研究有Hive[2]、Pig[3]等數(shù)據(jù)倉庫工具,F(xiàn)acebook等公司在數(shù)據(jù)實(shí)時(shí)分析方面也進(jìn)行了相關(guān)研究[4-7]。
2 基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)設(shè)計(jì)方案
2.1 系統(tǒng)結(jié)構(gòu)
基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)業(yè)務(wù)功能覆蓋總體概覽、投資額管理、港口設(shè)備數(shù)據(jù)查詢、裝卸設(shè)備數(shù)據(jù)查詢、官方數(shù)據(jù)查詢、決策輔助支持等。如圖1所示,該系統(tǒng)采取基于瀏覽器和服務(wù)器的三層體系結(jié)構(gòu)設(shè)計(jì):表示層為港口設(shè)備多元分析系統(tǒng)的用戶接口部分,即用戶與系統(tǒng)信息交互界面;網(wǎng)站服務(wù)器組成的控制層負(fù)責(zé)接收客戶端發(fā)送的請(qǐng)求,包括各種數(shù)據(jù)庫查詢和操作請(qǐng)求,并反饋響應(yīng)結(jié)果,包括數(shù)據(jù)查詢結(jié)果和數(shù)據(jù)操作結(jié)果等;數(shù)據(jù)層存儲(chǔ)港口設(shè)備相關(guān)數(shù)據(jù),包括設(shè)備投資額、設(shè)備臺(tái)賬和設(shè)備類別等數(shù)據(jù),以便提供控制層調(diào)用邏輯,此外,數(shù)據(jù)層可在控制層的控制下隨時(shí)存取和修改數(shù)據(jù)。
2.2 系統(tǒng)功能
如圖2所示,基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)采用模塊化功能設(shè)計(jì),主要由數(shù)據(jù)采集模塊、設(shè)備分類管理模塊、數(shù)據(jù)查詢模塊和預(yù)測(cè)決策模塊組成。如圖3所示:系統(tǒng)首頁上部顯示區(qū)域有6個(gè)虛擬框,分別顯示設(shè)備總數(shù)、設(shè)備總值、單機(jī)運(yùn)行數(shù)據(jù)總量、臺(tái)賬數(shù)據(jù)總量、歷年累計(jì)吞吐量和當(dāng)年吞吐量;系統(tǒng)首頁左側(cè)區(qū)域顯示不同類別設(shè)備總值占比環(huán)圖;系統(tǒng)首頁右側(cè)區(qū)域顯示年投資總額情況。
2.2.1 數(shù)據(jù)采集模塊
數(shù)據(jù)采集模塊主要采集設(shè)備投資數(shù)據(jù)、設(shè)備相關(guān)數(shù)據(jù)(包括設(shè)備臺(tái)賬數(shù)據(jù)和設(shè)備單機(jī)運(yùn)行數(shù)據(jù)等)和官方統(tǒng)計(jì)數(shù)據(jù)等。數(shù)據(jù)采集形式分為Excel導(dǎo)入、網(wǎng)絡(luò)爬取、手工錄入等。
2.2.2 設(shè)備分類管理模塊
設(shè)備分類管理模塊的主要功能是在預(yù)制設(shè)備分類表的基礎(chǔ)上完成對(duì)設(shè)備投資數(shù)據(jù)的自動(dòng)分類。通過一定量訓(xùn)練集得到相關(guān)的分類標(biāo)準(zhǔn)后,該模塊可實(shí)現(xiàn)類別增加和刪除操作,同時(shí)將操作結(jié)果同步至數(shù)據(jù)庫以實(shí)現(xiàn)自動(dòng)分類,并且能夠執(zhí)行相應(yīng)的維護(hù)操作。
2.2.3 數(shù)據(jù)查詢模塊
數(shù)據(jù)查詢模塊用于查詢?cè)O(shè)備臺(tái)賬數(shù)據(jù)和設(shè)備單機(jī)運(yùn)行數(shù)據(jù)中部分具有決策參考意義的數(shù)據(jù),并能針對(duì)重要裝卸設(shè)備進(jìn)行運(yùn)算,實(shí)現(xiàn)對(duì)設(shè)備數(shù)據(jù)的直觀查詢。
2.2.4 預(yù)測(cè)決策模塊
預(yù)測(cè)決策模塊用于分析、預(yù)測(cè)各類設(shè)備投資額,并對(duì)預(yù)測(cè)結(jié)果和歷史趨勢(shì)以圖表形式進(jìn)行可視化呈現(xiàn),同時(shí)實(shí)現(xiàn)單類數(shù)據(jù)的提取查詢功能。設(shè)備固定資產(chǎn)投資是港口企業(yè)經(jīng)營(yíng)活動(dòng)的重要內(nèi)容之一,是涉及港口企業(yè)生產(chǎn)經(jīng)營(yíng)全局、影響港口企業(yè)生產(chǎn)經(jīng)營(yíng)方向和結(jié)構(gòu)的戰(zhàn)略性投資活動(dòng)。然而,港口行業(yè)發(fā)展具有周期性,受世界經(jīng)濟(jì)和國(guó)際貿(mào)易等影響較大,且設(shè)備投資具有資金占用量大、投資回收期長(zhǎng)、投資環(huán)境復(fù)雜、影響因素多等特點(diǎn),這使得港口設(shè)備固定資產(chǎn)投資存在一定風(fēng)險(xiǎn),且這些風(fēng)險(xiǎn)往往難以預(yù)測(cè)。在設(shè)備投資輔助決策模塊運(yùn)行狀態(tài)下,系統(tǒng)根據(jù)預(yù)測(cè)數(shù)據(jù)和歷史數(shù)據(jù)給出決策建議,并提醒項(xiàng)目管理人員對(duì)問題項(xiàng)目進(jìn)行人工復(fù)查。
3 基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)關(guān)鍵技術(shù)
3.1 基于貝葉斯網(wǎng)絡(luò)的自動(dòng)分類方法
以天津港數(shù)據(jù)為例,基于貝葉斯網(wǎng)絡(luò)的自動(dòng)分類方法按照數(shù)據(jù)屬性、功能和用途,將所有數(shù)據(jù)分為裝卸設(shè)備、計(jì)量、供暖制冷、電力、通信、車輛、信息化、環(huán)保、消防和其他等類別。基于貝葉斯網(wǎng)絡(luò)的自動(dòng)分類方法的實(shí)現(xiàn)流程如圖4所示,人工分類的數(shù)據(jù)樣本隨機(jī)分為訓(xùn)練數(shù)據(jù)集和分類測(cè)試數(shù)據(jù)集。
3.2 基于反饋神經(jīng)網(wǎng)絡(luò)的港口吞吐量預(yù)測(cè)
影響港口吞吐量的因素十分復(fù)雜,主要可以分為以下兩類:(1)港口自身基礎(chǔ)設(shè)施因素,主要包括碼頭岸線規(guī)模、泊位等級(jí)等,涉及的數(shù)據(jù)包括岸線長(zhǎng)度、泊位數(shù)量、萬噸級(jí)泊位數(shù)量等;(2)港口外部環(huán)境因素,主要包括地理位置、腹地經(jīng)濟(jì)、政策環(huán)境等,以天津港為例,涉及的數(shù)據(jù)包括北京市、天津市和河北省的外貿(mào)進(jìn)出口額和三大產(chǎn)業(yè)產(chǎn)值等。
人工神經(jīng)網(wǎng)絡(luò)模型由大量的神經(jīng)元結(jié)構(gòu)和神經(jīng)元加權(quán)連接而成。反向傳播神經(jīng)網(wǎng)絡(luò)是一種多層的前向性神經(jīng)網(wǎng)絡(luò)(包含輸入層、隱含層和輸出層),具有信號(hào)向前傳播而誤差反向傳播的特點(diǎn)。標(biāo)準(zhǔn)反向傳播神經(jīng)網(wǎng)絡(luò)采用梯度下降算法,網(wǎng)絡(luò)權(quán)值沿著性能函數(shù)梯度反向調(diào)整。以天津港為例,通過反向傳播神經(jīng)網(wǎng)絡(luò)分析上一年的港口貨物吞吐量和集裝箱吞吐量等輸入數(shù)據(jù),可以預(yù)測(cè)下一年的港口吞吐量情況。反向傳播神經(jīng)網(wǎng)絡(luò)的誤差與輸入存在較大相關(guān)性,且誤差的自相關(guān)性較強(qiáng),使得系統(tǒng)隨著時(shí)間推移呈現(xiàn)明顯的退化現(xiàn)象,這表明反向傳播神經(jīng)網(wǎng)絡(luò)需要進(jìn)一步優(yōu)化。
傳統(tǒng)反向傳播神經(jīng)網(wǎng)絡(luò)的退化現(xiàn)象主要是由過度擬合引起的;因此,引入貝葉斯正規(guī)化來增加魯棒性,通過其參數(shù)以概率分布的形式進(jìn)一步提供不確定性估計(jì)。與傳統(tǒng)反向傳播神經(jīng)網(wǎng)絡(luò)相比,貝葉斯正規(guī)化反向傳播神經(jīng)網(wǎng)絡(luò)輸入與誤差的相關(guān)性明顯降低,低于可信閾值。貝葉斯正規(guī)化反向傳播神經(jīng)網(wǎng)絡(luò)具有過擬合的特性,其預(yù)測(cè)結(jié)果雖然存在一定誤差,但總體在可接受的范圍內(nèi),未來可進(jìn)一步用來分析具體時(shí)期影響和限制港口吞吐量增長(zhǎng)的關(guān)鍵因素。
3.3 設(shè)備合理擁有量模型
如圖5所示,預(yù)測(cè)港口吞吐量是為了針對(duì)港口規(guī)模及定位進(jìn)行合理適度超前投資。建立設(shè)備合理擁有量模型的主要目的是:合理配置資源,降低設(shè)備維修成本,提高設(shè)備完好率和利用率,以取得最佳經(jīng)濟(jì)效益。
3.4 基于時(shí)間序列的設(shè)備投資預(yù)測(cè)
基于時(shí)間序列的設(shè)備投資預(yù)測(cè)的目的在于:對(duì)設(shè)備投資額數(shù)據(jù)進(jìn)行清洗;通過皮爾遜相關(guān)系數(shù),確定數(shù)據(jù)之間的線性關(guān)系。針對(duì)天津港的實(shí)際情況,需要對(duì)設(shè)備投資額數(shù)據(jù)進(jìn)行前期處理:若發(fā)現(xiàn)異常值,則需要與港口相關(guān)部門溝通,獲得合理解釋;否則,替換異常值。在預(yù)測(cè)時(shí),單靠一種方法很難具有說服力,因此,有必要采用多種方法比較擬合精度。
3.4.1 皮爾遜相關(guān)系數(shù)
針對(duì)港口某個(gè)設(shè)備投資額數(shù)據(jù)的皮爾遜相關(guān)系數(shù)可表示為
式中:r的取值范圍為[ 1,1]。當(dāng)|r|≤0.3時(shí),表明不存在線性關(guān)系;當(dāng)0.3<|r|≤0.5時(shí),表明存在低度線性關(guān)系;當(dāng)0.5<|r|≤0.8時(shí),表明存在顯著線性關(guān)系;當(dāng)|r|>0.8時(shí),表明存在高度線性關(guān)系。
最后,采取統(tǒng)計(jì)列表的方法分析各個(gè)設(shè)備投資額數(shù)據(jù)間的皮爾遜相關(guān)系數(shù),針對(duì)與集裝箱吞吐量相關(guān)性極強(qiáng)的設(shè)備投資額數(shù)據(jù),建立一元線性回歸方程或多項(xiàng)式回歸方程,并用列表的方式標(biāo)明各個(gè)數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)。
3.4.2 ARIMA模型
ARIMA模型的建模過程如下:首先,對(duì)某個(gè)時(shí)間序列設(shè)備投資額數(shù)據(jù)進(jìn)行白噪聲檢驗(yàn),如果檢驗(yàn)結(jié)果為白噪聲序列,則表明沒有預(yù)測(cè)的必要性;然后,通過設(shè)備投資額數(shù)據(jù)自相關(guān)圖檢驗(yàn)數(shù)據(jù)的平穩(wěn)性,通過差分運(yùn)算將非平穩(wěn)數(shù)據(jù)轉(zhuǎn)化為滿足預(yù)測(cè)要求的平穩(wěn)序列(見圖6)。
3.4.3 線性回歸分析
線性回歸模型的建模過程如下:首先,對(duì)影響設(shè)備投資額數(shù)據(jù)的因素進(jìn)行定性分析,確定與因變量相關(guān)的自變量因素;然后,利用最小二乘法擬合各個(gè)變量之間的常數(shù)項(xiàng)與系數(shù);最后,擬合方程。針對(duì)設(shè)備投資預(yù)測(cè)的多元線性回歸模型可表示為
當(dāng)式中變量Xk只有1個(gè)時(shí),該模型為一元線性回歸模型。
3.4.4 灰色預(yù)測(cè)理論
在灰色模型分析過程中,對(duì)設(shè)備原始投資數(shù)據(jù)的處理十分重要。數(shù)據(jù)處理方法主要分為累加和累減,其目的是去除或減少其他非主要信息數(shù)據(jù)的干擾,以便獲得數(shù)據(jù)內(nèi)在規(guī)律,處理后的數(shù)列稱為灰色序列算子。
4 結(jié)束語
綜上所述,基于大數(shù)據(jù)的港口設(shè)備投資決策系統(tǒng)項(xiàng)目主要包括以下內(nèi)容:(1)基于貝葉斯網(wǎng)絡(luò)的自動(dòng)分類方法技術(shù)對(duì)設(shè)備投資項(xiàng)目名稱進(jìn)行分類;(2)基于反饋神經(jīng)網(wǎng)絡(luò)技術(shù)預(yù)測(cè)港口吞吐量并分析港口吞吐量影響因素;(3)基于時(shí)間序列的設(shè)備投資預(yù)測(cè)模型適用于觀測(cè)樣本少、無法完全提取數(shù)據(jù)影響因素的情況;(4)港口設(shè)備合理擁有量模型用于計(jì)算港口碼頭裝卸設(shè)備配置數(shù)量,以輔助設(shè)備采購(gòu)決策。
港口日常生產(chǎn)作業(yè)過程同時(shí)是產(chǎn)生海量數(shù)據(jù)的過程,通過各種手段獲取這些數(shù)據(jù)顯得格外重要。為了獲得更多有價(jià)值的資源和信息,需要從全方位采集和存儲(chǔ)港口數(shù)據(jù)。大數(shù)據(jù)技術(shù)的應(yīng)用有助于從海量港口數(shù)據(jù)中挖掘更多有價(jià)值的信息用于指導(dǎo)港口企業(yè)提升運(yùn)營(yíng)效率,這對(duì)增強(qiáng)港口企業(yè)綜合競(jìng)爭(zhēng)力有著十分重要的意義。
參考文獻(xiàn):
[1] 交通運(yùn)輸部. 關(guān)于推進(jìn)港口轉(zhuǎn)型升級(jí)的指導(dǎo)意見[J]. 綜合運(yùn)輸,2014(7):84-87.
[2] THUSOO A, SARMA J S, JAIN N, et al. Hive-a petabyte scale data warehouse using Hadoop[C]//2010 IEEE 26th International Conference on Data Engineering (ICDE 2010),March 1-6, 2010, Long Beach, California. New York: IEEE, 2010: 996-1005.
[3] GATES A F, NATKOVICH O, CHOPRA S, et al. Building a high-level dataflow system on top of Map-Reduce: the Pig experience[C]// Proceedings of the VLDB Endowment, 2009, 2(2): 1414-1425.
[4] HOLLOWAY A L, DEWITT D J. Read-optimized databases, in depth[C]//Proceedings of the VLDB Endowment, 2008, 1(1): 502-513.
[5] THUSOO A, SHAO Z, ANTHONY S, et al. Data warehous-ing and analytics infrastructure at facebook[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data. ACM, 2010:1013-1020.
[6] ABADI D J, MADDEN S R. HACHEM N. Column-Stores vs. Row-Stores: How different are they really? [C]//Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. ACM, 2008:967-980.
[7] PAVLO A, PAULSON E, RASIN A, et al. A comparison of approaches to large-scale data analysis[C]//Proceedings of the 2009 ACM SIGMOD International Conference on Manage-ment of Data. ACM, 2009:165-178.
(編輯:曹莉瓊 收稿日期:2019-04-16)