吳 勇
(上海民航新時代機(jī)場設(shè)計研究院有限公司,上海 200335)
機(jī)場大數(shù)據(jù)平臺的設(shè)計與應(yīng)用是智慧民航發(fā)展過程中至關(guān)重要的部分,《中國民航四型機(jī)場建設(shè)行動綱要(2020—2035年)》指出,建立以機(jī)場運(yùn)行數(shù)據(jù)為核心的大數(shù)據(jù)信息共享平臺,覆蓋旅客出行全流程、貨物運(yùn)輸全鏈條、運(yùn)行監(jiān)控全系統(tǒng)、機(jī)場管理全領(lǐng)域[1],綜合運(yùn)用大數(shù)據(jù)技術(shù),采集、洗練、統(tǒng)計和分析各類旅客服務(wù)、生產(chǎn)協(xié)同、安全與安保、綜合交通、商業(yè)管理、能源管理及航空物流數(shù)據(jù),實現(xiàn)預(yù)測分析、資源優(yōu)化、場景控制、輔助決策等功能,利用大數(shù)據(jù)輔助科學(xué)決策,推動政府管理理念和行業(yè)治理模式革新。目前,大數(shù)據(jù)信息共享平臺在機(jī)場建設(shè)中的具體應(yīng)用方式如下:通過在本地私有云上部署機(jī)場Hadoop大數(shù)據(jù)平臺,提供大數(shù)據(jù)處理環(huán)境和分布式數(shù)據(jù)處理功能,以實現(xiàn)對外大容量的數(shù)據(jù)存儲、分析和實時流式數(shù)據(jù)處理分析功能。考慮到機(jī)場基礎(chǔ)運(yùn)行數(shù)據(jù)每年都以倍數(shù)關(guān)系增長,Hadoop集群的數(shù)據(jù)量增長速度更是大于基礎(chǔ)運(yùn)行數(shù)據(jù)增幅,而機(jī)場基建項目的審批流程從項目立項到竣工驗收時間漫長,往往遇到因數(shù)據(jù)增長超過預(yù)期,導(dǎo)致項目驗收后基礎(chǔ)硬件資源利用率過高或已不能滿足使用需求的問題。本文以首都機(jī)場大數(shù)據(jù)平臺現(xiàn)狀為例,分析說明現(xiàn)有大數(shù)據(jù)應(yīng)用模式的不足,在此基礎(chǔ)上提出一種混合云彈性伸縮架構(gòu)的機(jī)場大數(shù)據(jù)平臺設(shè)計方案,通過將機(jī)場現(xiàn)有云下數(shù)據(jù)中心業(yè)務(wù)逐步遷移至第三方云上,解決運(yùn)行數(shù)據(jù)快速增長與基礎(chǔ)硬件資源短缺的問題。
首都機(jī)場是第一批開展大數(shù)據(jù)平臺建設(shè)的國內(nèi)機(jī)場,2008年首都機(jī)場開始立項建設(shè)機(jī)場大數(shù)據(jù)平臺,擬對機(jī)場的運(yùn)行數(shù)據(jù)、商業(yè)數(shù)據(jù)及能源類數(shù)據(jù)等進(jìn)行統(tǒng)一管理。2014年,首都機(jī)場智慧運(yùn)營管理平臺建成投產(chǎn),是國內(nèi)首個基于Apache Hadoop架構(gòu)的機(jī)場大數(shù)據(jù)平臺,該平臺具有通用的spark、stream等開源通用組件,能夠支持非結(jié)構(gòu)化數(shù)據(jù)及流數(shù)據(jù)的處理[2]。2019年,首都機(jī)場啟動大數(shù)據(jù)平臺項目的升級建設(shè)工作,對現(xiàn)有大數(shù)據(jù)平臺進(jìn)行升級改造,在原平臺基礎(chǔ)上增加了面向生產(chǎn)運(yùn)行、經(jīng)營管理、旅客服務(wù)、安全防范等業(yè)務(wù)領(lǐng)域的應(yīng)用支撐平臺。
從首都機(jī)場大數(shù)據(jù)平臺的建設(shè)案例可以看出,由于機(jī)場運(yùn)行數(shù)據(jù)增長和新增業(yè)務(wù)應(yīng)用每隔3~5年就需要重新立項升級擴(kuò)容現(xiàn)有大數(shù)據(jù)平臺,采用本地私有云的建設(shè)模式,每次升級都需對現(xiàn)有基礎(chǔ)硬件設(shè)施重新擴(kuò)容,建設(shè)周期漫長、初期建設(shè)投資高。而采用混合云建設(shè)模式將部分業(yè)務(wù)遷移至第三方云上部署,可以大幅提升大數(shù)據(jù)平臺基礎(chǔ)硬件資源處理能力、縮短建設(shè)周期、降低建設(shè)初期投資費用,同時節(jié)約運(yùn)維成本。
目前國內(nèi)各大機(jī)場陸續(xù)開展機(jī)場大數(shù)據(jù)基礎(chǔ)平臺建設(shè),對機(jī)場數(shù)據(jù)進(jìn)行資產(chǎn)化管理,通過云計算、人工智能、數(shù)字孿生和物聯(lián)網(wǎng)等創(chuàng)新性信息技術(shù)綜合運(yùn)用,實現(xiàn)機(jī)場在更多業(yè)務(wù)場景的創(chuàng)新性應(yīng)用與服務(wù)。
本次機(jī)場大數(shù)據(jù)平臺設(shè)計方案(如圖1所示)基于混合云平臺架構(gòu)提供大數(shù)據(jù)MapReduce服務(wù)(MRS),MRS是一個在基于云上業(yè)務(wù)部署的高性能并行計算平臺,采用湖倉一體化架構(gòu),減少數(shù)據(jù)重復(fù)存儲,消除數(shù)據(jù)孤島,提供數(shù)據(jù)統(tǒng)一存儲、加工、查詢、分析的功能,支撐離線數(shù)據(jù)及實時數(shù)據(jù)的處理,通過各組件功能,實現(xiàn)對大數(shù)據(jù)中心能力的基礎(chǔ)技術(shù)支撐[3]。
圖1 混合云架構(gòu)大數(shù)據(jù)平臺設(shè)計方案
2.1.1 混合云平臺
混合云是一種混合部署方式,通過VPN或者企業(yè)專線,把私有云和公有云有機(jī)結(jié)合在一起。公有云服務(wù)器主要負(fù)責(zé)處理各企業(yè)間的共有業(yè)務(wù)、存放公共數(shù)據(jù)、分析計算數(shù)據(jù)量大但數(shù)據(jù)安全要求較低的數(shù)據(jù)[4]。本地重要業(yè)務(wù)核心數(shù)據(jù)部署在本地私有云服務(wù)器上,既具有私有云的保密性和安全性,也兼?zhèn)涔性瀑Y源豐富和擴(kuò)展性強(qiáng)的特點。
基于混合云平臺的機(jī)場大數(shù)據(jù)平臺設(shè)計方案可隨大數(shù)據(jù)應(yīng)用數(shù)據(jù)業(yè)務(wù)量的變化彈性擴(kuò)展,避免業(yè)務(wù)高峰時期基礎(chǔ)計算資源不足,以及業(yè)務(wù)空閑時期基礎(chǔ)資源利用效率低等問題。
2.1.2 Hadoop大數(shù)據(jù)平臺
隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)種類越來越多,數(shù)據(jù)產(chǎn)生的速度越來越快,傳統(tǒng)的數(shù)據(jù)庫方案已無法在成本受控的情況解決這些新的大數(shù)據(jù)問題。為解決以上大數(shù)據(jù)問題,2004年GoogleApache基金會推出了Hadoop大數(shù)據(jù)處理的開源解決方案,Hadoop架構(gòu)是一個開源分布式計算平臺,可以通過混合云部署(本地數(shù)據(jù)中心+第三方云廠商),完成海量數(shù)據(jù)的處理。
Hadoop大數(shù)據(jù)平臺是一站式大數(shù)據(jù)管理及開發(fā)平臺,可以匯聚機(jī)場內(nèi)各類數(shù)據(jù)形成機(jī)場數(shù)據(jù)資源池。提供HDFS、HBase、Kafka、MapReduce、Spark、Hive等 大 數(shù)據(jù)組件,數(shù)據(jù)資源池內(nèi)數(shù)據(jù)可進(jìn)行批、流、交互式多引擎融合分析。
HDFS(Hadoop Distributed File System):適合運(yùn)行在云平臺上的分布式文件系統(tǒng),可以提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用;HBase:分布式開源存儲系統(tǒng),面向列數(shù)據(jù)庫;MapReduce:用于大規(guī)模并行數(shù)據(jù)集計算,能自動處理并行數(shù)據(jù)業(yè)務(wù);Kafka:具備分布式發(fā)布訂閱消息功能,可以提供高可靠海量數(shù)據(jù)的消息分發(fā)服務(wù);Spark:用于大規(guī)模數(shù)據(jù)處理的快速通用分布式的計算框架;Hive:基于Hadoop大數(shù)據(jù)平臺的開源數(shù)據(jù)倉庫工具;提供類似SQL的Hive QL語言操作結(jié)構(gòu)化數(shù)據(jù)存儲服務(wù)和基本的數(shù)據(jù)分析服務(wù);Flink:分布式流對流數(shù)據(jù)和批數(shù)據(jù)的處理引擎。
2.1.3 數(shù)據(jù)倉庫
采用大規(guī)模并行分析MPP(Massive Parallel Processing)數(shù)據(jù)庫作為數(shù)據(jù)倉庫,它是Shared Nothing架構(gòu)的分布式并行結(jié)構(gòu)化數(shù)據(jù)庫集群,具備高性能、高可用、高擴(kuò)展特性,支持行存儲與列存儲。
采用湖倉一體化方案,提供數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)集市等多種分析能力,減少數(shù)據(jù)重復(fù)存儲,消除數(shù)據(jù)孤島。
數(shù)據(jù)源包含生產(chǎn)類數(shù)據(jù)、安全類數(shù)據(jù)、旅客服務(wù)類數(shù)據(jù)、物流信息類數(shù)據(jù),實現(xiàn)數(shù)據(jù)處理、數(shù)據(jù)倉庫、數(shù)據(jù)治理等功能。
2.1.4 數(shù)據(jù)采集
2.1.4.1 數(shù)據(jù)采集方式
完成數(shù)據(jù)統(tǒng)一采集,具備系統(tǒng)數(shù)據(jù)接入能力、批量文件接入能力、實時消息接入能力。數(shù)據(jù)接入類型包括清單級數(shù)據(jù)、明細(xì)級數(shù)據(jù)、用戶級數(shù)據(jù)、標(biāo)簽數(shù)據(jù)、指標(biāo)數(shù)據(jù)等。
2.1.4.2 實時消息采集
提供流式數(shù)據(jù)的采集能力?;谥悄苤行拇髷?shù)據(jù)平臺數(shù)據(jù)及服務(wù)總線提供的實時流處理工具,提供實時流的設(shè)計、開發(fā)及實施服務(wù)。
對于實時性要求較高的數(shù)據(jù),采用實時消息方式接入,保證其可靠性、實時性。消息交互涉及數(shù)據(jù)發(fā)送方、數(shù)據(jù)接收方。實時消息接入需具備部署簡單、易擴(kuò)展、安全可靠、高效實時等特點。實時消息接入要保證發(fā)送方和接收方數(shù)據(jù)一致性、準(zhǔn)確性、實時性;需要具備統(tǒng)計、監(jiān)控功能,保證雙方數(shù)據(jù)平衡;需具備異常告警功能,發(fā)送過程中異常及時告警。
2.1.4.3 批量離線數(shù)據(jù)采集
基于專業(yè)ETL工具,提供離線數(shù)據(jù)的采集服務(wù),將數(shù)據(jù)存儲于大數(shù)據(jù)平臺。提供包括數(shù)據(jù)庫、文本文件、API接口等數(shù)據(jù)源的數(shù)據(jù)離線采集服務(wù)。
批量文件接入能力基于FTP(SFTP)傳輸協(xié)議實現(xiàn)文件的交互功能。文件交互涉及數(shù)據(jù)發(fā)送方、數(shù)據(jù)接收方。批量文件接入對數(shù)據(jù)提供方提供的數(shù)據(jù)文件、校驗文件進(jìn)行及時的讀取、接收、校驗、傳輸及斷點續(xù)傳,具備傳輸全過程監(jiān)控的能力,并保證傳輸?shù)陌踩?、?zhǔn)確性和一致性。
2.1.4.4 其他外部數(shù)據(jù)交換采集
通過機(jī)場企業(yè)服務(wù)總線與機(jī)場外聯(lián)單位之間進(jìn)行交換獲取數(shù)據(jù)。企業(yè)服務(wù)總線負(fù)責(zé)提供API接口服務(wù)、數(shù)據(jù)南北向傳輸、協(xié)議轉(zhuǎn)換、傳輸路由等功能,通過協(xié)議適配,根據(jù)實際業(yè)務(wù)情況,配置相應(yīng)的數(shù)據(jù)交換任務(wù),對系統(tǒng)產(chǎn)生的信息資源進(jìn)行統(tǒng)一采集匯總和傳輸。
大數(shù)據(jù)應(yīng)用服務(wù)為機(jī)場建立一個數(shù)據(jù)共享與協(xié)同的實時運(yùn)行數(shù)據(jù)和歷史離線數(shù)據(jù)的共享轉(zhuǎn)發(fā)平臺,整合各類旅客服務(wù)、生產(chǎn)協(xié)同、安全與安保、綜合交通、商業(yè)管理、能源管理及航空物流數(shù)據(jù),統(tǒng)一數(shù)據(jù)交互格式標(biāo)準(zhǔn)和數(shù)據(jù)定義,通過技術(shù)架構(gòu),實現(xiàn)計算、存儲、網(wǎng)絡(luò)和數(shù)據(jù)等資源的共享,滿足機(jī)場內(nèi)部、機(jī)場與外部單位間數(shù)據(jù)交互的需求,促進(jìn)機(jī)場數(shù)字化轉(zhuǎn)型[5],輔助機(jī)場管理科學(xué)決策,推動機(jī)場運(yùn)行管理理念和數(shù)據(jù)治理模式革新。
2.2.1 可視化業(yè)務(wù)分析
提供統(tǒng)一的數(shù)據(jù)展示門戶,提供數(shù)據(jù)圖形化展示功能,通過儀表盤、曲線圖、柱狀圖、餅狀圖、表格等多種圖表形式,將旅客服務(wù)、生產(chǎn)協(xié)同、安全與安保、綜合交通、商業(yè)管理、能源管理及航空物流數(shù)據(jù)進(jìn)行交叉融合和緊密關(guān)聯(lián),擬定評價指標(biāo)標(biāo)準(zhǔn)并用直觀的可視化圖形或文字深度揭示機(jī)場運(yùn)行特性,做到事前預(yù)警、事中決策、事后總結(jié)。
2.2.2 生產(chǎn)運(yùn)行分析應(yīng)用
機(jī)場大數(shù)據(jù)平臺提供滿足機(jī)場特定運(yùn)行場景運(yùn)行狀態(tài)監(jiān)控需求的數(shù)據(jù)分析平臺,可以對包括航空器、車輛、調(diào)度人員運(yùn)行效率數(shù)等實時生產(chǎn)數(shù)據(jù)進(jìn)行多維分析建模、下鉆關(guān)聯(lián)分析,以頁面設(shè)計和豐富的圖形,實現(xiàn)生產(chǎn)運(yùn)行的數(shù)據(jù)可視化展示。對當(dāng)日實時航班運(yùn)行情況、放行正常率、始發(fā)離港正常率、起飛正常率、值機(jī)柜臺、安檢、登機(jī)口、機(jī)位等資源的狀態(tài)、使用率進(jìn)行綜合分析,對機(jī)場運(yùn)行壓力實時分析并給出實時評判。
2.2.3 商業(yè)管理分析應(yīng)用
從機(jī)場商業(yè)的主營航空運(yùn)輸業(yè)務(wù)角度對支持機(jī)場服務(wù)和商業(yè)收入、經(jīng)營成本進(jìn)行分析,在數(shù)據(jù)管理系統(tǒng)建立的過程中堅持以主營航空運(yùn)輸業(yè)務(wù)為中心的原則,實現(xiàn)航空主業(yè)、整體經(jīng)營、財務(wù)、商業(yè)、能源、航班保障服務(wù)等領(lǐng)域數(shù)據(jù)的可視化展示,尋找收入管理短板,為管理者進(jìn)行投入、產(chǎn)出決策提供科學(xué)依據(jù),做好產(chǎn)權(quán)和經(jīng)營性資源價值管理,提升公司整體經(jīng)營業(yè)務(wù)水平、資源價值和創(chuàng)新發(fā)展能力。
2.2.4 旅客服務(wù)分析應(yīng)用
通過對業(yè)務(wù)系統(tǒng)的對接、報表采集及在線上報等3種方式實現(xiàn)對進(jìn)出港旅客服務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一采集,采集后的數(shù)據(jù)接入機(jī)場大數(shù)據(jù)平臺,獲取天氣、航路航線、進(jìn)出港旅客、待值機(jī)旅客、已安檢旅客、已登機(jī)旅客等生產(chǎn)運(yùn)行數(shù)據(jù)。針對不同角色提供旅客數(shù)據(jù)訪問權(quán)限管理,保障數(shù)據(jù)的安全性。實時展現(xiàn)進(jìn)出港旅客量、中轉(zhuǎn)旅客、客流流向分布,內(nèi)容包括客戶投訴反饋、行業(yè)測評情況、智慧服務(wù)指標(biāo)、服務(wù)監(jiān)測指標(biāo)等。
大數(shù)據(jù)基礎(chǔ)軟件由本地私有云部分和第三方云服務(wù)廠商公有云部分組成。
本地私有云平臺配置數(shù)據(jù)采集和加工VM服務(wù)器、分析可視化VM服務(wù)器、數(shù)據(jù)門戶VM、綜合可視化應(yīng)用VM服務(wù)器和綜合可視化代理VM服務(wù)器,以及網(wǎng)絡(luò)傳輸和業(yè)務(wù)云存儲資源。
本地大數(shù)據(jù)平臺物理服務(wù)器采用本地私有云部署,整體可提供Kafka和Flink實時流處理能力50 MB/s,Spark+Hive離線數(shù)據(jù)處理量50 TB,Hbase數(shù)據(jù)集市總數(shù)據(jù)量50 TB、Redis數(shù)據(jù)緩存能力50 GB。另外,通過VPN或者企業(yè)專線接入公有云服務(wù)器進(jìn)行彈性擴(kuò)展。
為貫徹四型機(jī)場建設(shè)目標(biāo),云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)、人工智能等創(chuàng)新性信息技術(shù)已被廣泛地應(yīng)用于新建和改擴(kuò)建機(jī)場工程建設(shè)中,相對于傳統(tǒng)的本地大數(shù)據(jù)平臺建設(shè)方案,基于混合云架構(gòu)的大數(shù)據(jù)平臺具備敏捷迭代、快速響應(yīng)、高擴(kuò)展等技術(shù)優(yōu)點,有利于機(jī)場大數(shù)據(jù)應(yīng)用服務(wù)的快速部署和彈性擴(kuò)容,降低建設(shè)初期物理硬件資源投資,提升機(jī)場融合數(shù)據(jù)倉庫和數(shù)據(jù)治理能力,為機(jī)場數(shù)字化轉(zhuǎn)型大數(shù)據(jù)服務(wù)等高階服務(wù)賦能,促進(jìn)民航業(yè)向高質(zhì)量發(fā)展方向轉(zhuǎn)型。
大數(shù)據(jù)平臺在混合云上建設(shè)也帶來了一系列需要重點研究的問題。首先,考慮到民航行業(yè)的特殊性,需確保云上數(shù)據(jù)安全,防止核心數(shù)據(jù)泄露。其次,云上、云下都存在海量數(shù)據(jù),需確保數(shù)據(jù)同步及操作的一致性。最后,在保障現(xiàn)有平臺穩(wěn)定運(yùn)行的前提下,如何將部分現(xiàn)有業(yè)務(wù)安全遷移到公有云是亟待解決的問題。