趙學(xué)武,吳 寧,王 軍,阮 利,李玲玲,徐 濤
1.鄭州航空工業(yè)管理學(xué)院 智能工程學(xué)院,鄭州450046
2.鄭州航空工業(yè)管理學(xué)院 大數(shù)據(jù)科學(xué)研究院,鄭州450046
3.北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京100191
4.中國(guó)民航大學(xué) 中國(guó)民航信息技術(shù)科研基地,天津300300
+通信作者E-mail:373413349@qq.com
進(jìn)入21 世紀(jì)以來,互聯(lián)網(wǎng)、多媒體、物聯(lián)網(wǎng)、云計(jì)算和人工智能等技術(shù)的發(fā)展,使數(shù)據(jù)以爆炸式的速度增長(zhǎng)。到目前為止,大數(shù)據(jù)的發(fā)展已經(jīng)歷了十余個(gè)年頭。然而,人們對(duì)大數(shù)據(jù)的認(rèn)識(shí)不盡相同,而且也不斷發(fā)生著變化。從當(dāng)前大數(shù)據(jù)的使用情況來看,大數(shù)據(jù)的定義可以從單純數(shù)據(jù)和系統(tǒng)性的角度來理解。從數(shù)據(jù)的角度講,大數(shù)據(jù)是指數(shù)據(jù)本身,這些數(shù)據(jù)無法通過傳統(tǒng)的存儲(chǔ)、管理和分析等技術(shù)手段進(jìn)行管理和提供服務(wù),具有數(shù)據(jù)量大(Volume)、數(shù)據(jù)量增長(zhǎng)速度快(Velocity)、種類和來源多樣化(Variety)、價(jià)值密度低(Value)和數(shù)據(jù)準(zhǔn)確與可依賴(Veracity)的特點(diǎn)(稱為“5V”)。從這個(gè)角度來理解,目前出現(xiàn)了不同領(lǐng)域的大數(shù)據(jù),例如,醫(yī)療領(lǐng)域產(chǎn)生的大數(shù)據(jù)、交通領(lǐng)域產(chǎn)生的大數(shù)據(jù)和金融領(lǐng)域產(chǎn)生的大數(shù)據(jù)等。從系統(tǒng)性的角度看,大數(shù)據(jù)是一個(gè)體系,既包括數(shù)據(jù)本身,也包括與之相關(guān)的要素、技術(shù)、工具,如智能算法、開源軟件、硬件平臺(tái)、應(yīng)用場(chǎng)景等。例如,日常講到的大數(shù)據(jù)中心或大數(shù)據(jù)研究院中的大數(shù)據(jù)應(yīng)作系統(tǒng)性的理解。
眾所周知,航空領(lǐng)域業(yè)務(wù)非常復(fù)雜,涉及航空器系統(tǒng)、機(jī)場(chǎng)系統(tǒng)、服務(wù)/應(yīng)用的對(duì)象系統(tǒng)、環(huán)境與航空公司等。因此,航空領(lǐng)域生來就擁有多樣的大數(shù)據(jù),具有優(yōu)秀的大數(shù)據(jù)基因。目前,航空業(yè)蓬勃發(fā)展,各大航空公司因愈發(fā)激烈的競(jìng)爭(zhēng)而紛紛把航空大數(shù)據(jù)提升至發(fā)展戰(zhàn)略的高度。在國(guó)外,先后出現(xiàn)了通用電氣的集工業(yè)連接、實(shí)時(shí)監(jiān)控、數(shù)據(jù)分析等功能為一體的Predix 平臺(tái)[1],波音公司的具有工程優(yōu)化、機(jī)隊(duì)可靠性分析和預(yù)測(cè)性維護(hù)等多種功能的AnalytX 平臺(tái)和空客公司與波音公司同步推出的Skywise。在國(guó)內(nèi),中國(guó)南方航空公司于2016 年率先加入交通運(yùn)輸部的綜合交通運(yùn)輸出行大數(shù)據(jù)開放云平臺(tái)項(xiàng)目,并以之為基礎(chǔ)不斷完善自己的航空大數(shù)據(jù)處理平臺(tái);重慶機(jī)場(chǎng)集團(tuán)有限公司于2017 年9 月與華為合作啟動(dòng)智慧機(jī)場(chǎng)建設(shè);中國(guó)國(guó)際航空公司和海南航空公司也開始使用國(guó)內(nèi)首個(gè)提供民航數(shù)據(jù)分析服務(wù)的飛常準(zhǔn)大數(shù)據(jù)平臺(tái)。這些航空大數(shù)據(jù)平臺(tái)雖然有力地推動(dòng)了航空公司的運(yùn)營(yíng)效率和服務(wù)水平,但是仍然不能滿足航空業(yè)競(jìng)爭(zhēng)日漸加劇、客戶個(gè)性化需求日益提高和航空服務(wù)領(lǐng)域不斷擴(kuò)大等新時(shí)代航空業(yè)發(fā)展的需求。利用航空大數(shù)據(jù)因能預(yù)測(cè)航空器和服務(wù)對(duì)象行為、挖掘關(guān)聯(lián)模式和檢測(cè)異常等而成為眾多航空公司降低運(yùn)營(yíng)成本、提高服務(wù)質(zhì)量和促進(jìn)航空應(yīng)用的有力手段。
到目前為止,也出現(xiàn)了少許航空大數(shù)據(jù)綜述方面的工作。文獻(xiàn)[2]主要簡(jiǎn)單地綜述了航空大數(shù)據(jù)采集傳輸、分析技術(shù)及可視化,評(píng)述了目前主要的幾款航空大數(shù)據(jù)平臺(tái),指出了大數(shù)據(jù)在航空系統(tǒng)中的應(yīng)用還存在著理念、方法、技術(shù)、人等方面的挑戰(zhàn)等。文獻(xiàn)[3]指出了航空大數(shù)據(jù)給航空系統(tǒng)帶來的機(jī)遇和應(yīng)用實(shí)例,然后給出了一種從關(guān)系型SQL(structured query language)數(shù)據(jù)庫(kù)向NoSQL 數(shù)據(jù)庫(kù)轉(zhuǎn)換的一種解決方案。文獻(xiàn)[4]從2010 年后被廣泛引用的200 篇文獻(xiàn)中分析了航空研究中數(shù)據(jù)的多樣性、可用性、追蹤性、適用性和來源,然而對(duì)航空大數(shù)據(jù)中的技術(shù)和存在的問題涉及甚少。與之相比,本文從數(shù)據(jù)和系統(tǒng)兩個(gè)角度厘清航空大數(shù)據(jù)的定義,并對(duì)其中的內(nèi)容進(jìn)行了較為詳細(xì)的闡述;同時(shí)從計(jì)算機(jī)技術(shù)的角度對(duì)航空大數(shù)據(jù)關(guān)鍵技術(shù)進(jìn)行了較為全面系統(tǒng)的論述;更進(jìn)一步地,從航空技術(shù)本身和航空要素兩個(gè)層面指出了航空大數(shù)據(jù)中存在的主要問題及相應(yīng)的研究方向。本文試圖為航空大數(shù)據(jù)勾勒出一個(gè)較為全面而清晰的概貌,為相關(guān)領(lǐng)域的研究提供有益參考。
隨著經(jīng)濟(jì)的發(fā)展和社會(huì)生活節(jié)奏的加快,航空業(yè)得到了空前的發(fā)展;與此同時(shí),航空服務(wù)對(duì)象也由最初的旅客和貨物擴(kuò)展到農(nóng)業(yè)、海洋監(jiān)測(cè)和搶災(zāi)救險(xiǎn)等眾多領(lǐng)域。各大航空公司競(jìng)相通過自身研發(fā)與交流合作降低服務(wù)成本和提高服務(wù)質(zhì)量。在此背景下,需要一個(gè)較為準(zhǔn)確明晰的航空大數(shù)據(jù)的定義和組織結(jié)構(gòu),以界定研究討論的范圍和厘清努力的方向與存在的問題。與上述大數(shù)據(jù)的定義相對(duì)應(yīng),下面分別從數(shù)據(jù)和系統(tǒng)的角度給出航空大數(shù)據(jù)的定義及組織結(jié)構(gòu)。
航空系統(tǒng)的正常運(yùn)轉(zhuǎn)需要其中的元素(實(shí)體)相互通信、彼此協(xié)作,圖1 示意性地展示了異常龐大而又高度復(fù)雜協(xié)同的航空系統(tǒng);其中的航空器、機(jī)場(chǎng)、顧客、航空公司、航空制造公司和航空地面站等通過數(shù)據(jù)通信而協(xié)調(diào)有序運(yùn)行。數(shù)據(jù)角度的航空大數(shù)據(jù)是航空系統(tǒng)本身和由之在應(yīng)用領(lǐng)域產(chǎn)生以及延伸的大數(shù)據(jù)。例如,航空器本身的運(yùn)維、航空運(yùn)輸對(duì)象、航空公司、服務(wù)對(duì)象和航空經(jīng)濟(jì)等。圖2 清晰地展示數(shù)據(jù)角度的航空大數(shù)據(jù)的組織結(jié)構(gòu)??梢钥吹?,數(shù)據(jù)角度的航空大數(shù)據(jù)由航空器大數(shù)據(jù),機(jī)場(chǎng)大數(shù)據(jù),空管大數(shù)據(jù),航空公司人員、管理、設(shè)備和營(yíng)銷的大數(shù)據(jù),應(yīng)用領(lǐng)域的大數(shù)據(jù)和延伸的大數(shù)據(jù)六部分組成。
Fig.1 Schematic diagram of aviation system圖1 航空系統(tǒng)示意圖
Fig.2 Organizational structure diagram of aviation big data from data perspective圖2 數(shù)據(jù)角度航空大數(shù)據(jù)的組織結(jié)構(gòu)示意圖
航空器大數(shù)據(jù)主要包括航空器在設(shè)計(jì)、生產(chǎn)、運(yùn)行和維護(hù)過程中產(chǎn)生的大數(shù)據(jù)。例如,羅爾斯·羅伊斯在研發(fā)發(fā)動(dòng)機(jī)的過程中,首先要設(shè)計(jì)發(fā)動(dòng)機(jī),并記錄相關(guān)數(shù)據(jù);然后制造出發(fā)動(dòng)機(jī)樣機(jī),在進(jìn)行試驗(yàn)測(cè)試的同時(shí)記錄各種數(shù)據(jù);在生產(chǎn)發(fā)動(dòng)機(jī)時(shí),記錄下生產(chǎn)線上的各種數(shù)據(jù);使用快速存取記錄器(quick access recorder,QAR)和飛行數(shù)據(jù)記錄器(flight data recorder,F(xiàn)DR)記錄航空器運(yùn)行過程的大數(shù)據(jù);在飛行和停飛期間對(duì)航空器進(jìn)行預(yù)測(cè)性維護(hù)和地面維護(hù)會(huì)產(chǎn)生航空器維護(hù)大數(shù)據(jù)。
機(jī)場(chǎng)大數(shù)據(jù)是指由機(jī)場(chǎng)內(nèi)及周圍的實(shí)體和動(dòng)態(tài)系統(tǒng)產(chǎn)生的大數(shù)據(jù),主要包括機(jī)場(chǎng)航班大數(shù)據(jù)、機(jī)場(chǎng)旅客大數(shù)據(jù)、機(jī)場(chǎng)物流大數(shù)據(jù)和機(jī)場(chǎng)交通大數(shù)據(jù)等。每天的航班信息組成了機(jī)場(chǎng)航班大數(shù)據(jù),如航班號(hào)、出發(fā)/到達(dá)時(shí)間、是否延誤等。安檢、娛樂消費(fèi)、服務(wù)評(píng)價(jià)和行為軌跡等組成了機(jī)場(chǎng)旅客大數(shù)據(jù)。機(jī)場(chǎng)內(nèi)旅客行李和貨物的安檢、封裝、分流而產(chǎn)生的機(jī)場(chǎng)物流大數(shù)據(jù)。機(jī)場(chǎng)電力資源的使用情況和狀態(tài)及維護(hù)、機(jī)場(chǎng)調(diào)度室人員與設(shè)備工作、機(jī)場(chǎng)內(nèi)娛樂與餐飲服務(wù)等產(chǎn)生的大數(shù)據(jù)組成了機(jī)場(chǎng)運(yùn)行保障資源大數(shù)據(jù)。機(jī)場(chǎng)內(nèi)部及其周圍的交通所產(chǎn)生的大數(shù)據(jù)組成了機(jī)場(chǎng)交通大數(shù)據(jù),例如機(jī)場(chǎng)內(nèi)部旅客和貨物的短距離載運(yùn)、與機(jī)場(chǎng)相關(guān)的周圍交通的變化和與機(jī)場(chǎng)內(nèi)其他例行性作業(yè)相關(guān)交通的運(yùn)行等。
隨著航空器種類和數(shù)量的增多,空中交通管理變得越來越重要,因此會(huì)產(chǎn)生空管大數(shù)據(jù)。該類大數(shù)據(jù)主要有以下幾種:(1)每天在機(jī)場(chǎng)對(duì)眾多航空器進(jìn)行調(diào)度會(huì)產(chǎn)生航空器調(diào)度大數(shù)據(jù)。(2)航空器在飛行過程中經(jīng)常因改變航道、出現(xiàn)故障、航行狀態(tài)等情況和地面空管機(jī)構(gòu)通話,產(chǎn)生陸空通話大數(shù)據(jù)。(3)為了對(duì)空中交通進(jìn)行實(shí)時(shí)高效的管理,需要不斷記錄反映天氣的指標(biāo)數(shù)據(jù)。(4)空管系統(tǒng)因管理空域中的航路而需要不間斷地、可視化地監(jiān)視空中航空器的航行軌跡,由此產(chǎn)生航跡大數(shù)據(jù)。
航空公司大數(shù)據(jù)是指從事航空器制造和與航空應(yīng)用相關(guān)的公司在人員、管理、設(shè)備和營(yíng)銷方面產(chǎn)生的大數(shù)據(jù)。其中,航空公司營(yíng)銷大數(shù)據(jù)主要包括市場(chǎng)上消費(fèi)者需要分析的大數(shù)據(jù)、營(yíng)銷模型和策略及其效益的大數(shù)據(jù)和財(cái)務(wù)大數(shù)據(jù)等。
應(yīng)用領(lǐng)域(服務(wù)/對(duì)象)大數(shù)據(jù)是指航空器在服務(wù)旅客、貨運(yùn)、農(nóng)業(yè)和海洋等過程中來自于服務(wù)對(duì)象和環(huán)境的大數(shù)據(jù)。例如,航空旅客大數(shù)據(jù)是航空器服務(wù)旅客的全過程中來自于旅客和環(huán)境的大數(shù)據(jù),包括旅客自身的數(shù)據(jù)、機(jī)票搜索與預(yù)訂數(shù)據(jù)、空客評(píng)論與社交網(wǎng)絡(luò)數(shù)據(jù)、旅客的行為偏好數(shù)據(jù)等。
延伸的大數(shù)據(jù)是指由上述五類航空大數(shù)據(jù)延伸出的大數(shù)據(jù)。例如:(1)航空經(jīng)濟(jì)大數(shù)據(jù)是指由航空系統(tǒng)給區(qū)域或國(guó)家?guī)淼慕?jīng)濟(jì)方面的大數(shù)據(jù)。如航空公司股票大數(shù)據(jù)和航空公司經(jīng)濟(jì)收益大數(shù)據(jù)及由航空系統(tǒng)帶動(dòng)的其他行業(yè)的經(jīng)濟(jì)數(shù)據(jù)等。(2)航空合作交流大數(shù)據(jù)是由航空組織和政府及相關(guān)學(xué)術(shù)組織因舉行會(huì)議和相關(guān)活動(dòng)而產(chǎn)生的大數(shù)據(jù)。隨著社會(huì)發(fā)展節(jié)奏的加快和經(jīng)濟(jì)交叉融合的日益深入,延伸的大數(shù)據(jù)也會(huì)越來越多。
從上述組織結(jié)構(gòu)可以看出,數(shù)據(jù)角度的航空大數(shù)據(jù)除了具有大數(shù)據(jù)的“5V”特征外,還擁有自己的特性:(1)從行業(yè)角度看,航空大數(shù)據(jù)具有保密性。例如,客戶數(shù)據(jù)、航空器飛行數(shù)據(jù)等都具有較高的行業(yè)商業(yè)保密性。(2)從空間角度講,航空大數(shù)據(jù)可來自空、天、地三個(gè)維度,具有廣域性。(3)從時(shí)間層面看,航空系統(tǒng)的動(dòng)態(tài)性和高安全性需求使數(shù)據(jù)角度的航空大數(shù)據(jù)具有鮮明的高實(shí)時(shí)性特征。(4)來源多樣的航空大數(shù)據(jù)交織在一起,而且易受環(huán)境和人為因素的影響,表現(xiàn)出超復(fù)雜性。
目前,航空大數(shù)據(jù)自身的獲取比較容易,而航空大數(shù)據(jù)的處理技術(shù)和平臺(tái)構(gòu)建相對(duì)較難。因此常說的航空大數(shù)據(jù)日益具有系統(tǒng)性的一面。系統(tǒng)角度的航空大數(shù)據(jù)是一個(gè)完整的體系,既包括航空系統(tǒng)本身和由之在應(yīng)用領(lǐng)域以及延伸產(chǎn)生的大數(shù)據(jù)本身,也包括與之相關(guān)的硬件平臺(tái)、智能處理技術(shù)和虛擬仿真與可視化技術(shù)等。圖3 示意性地展示了系統(tǒng)角度的航空大數(shù)據(jù)的體系組織結(jié)構(gòu)。從圖3 可以清晰地看到:除了數(shù)據(jù)角度的航空大數(shù)據(jù)外,系統(tǒng)角度的航空大數(shù)據(jù)還包括基礎(chǔ)架構(gòu)層、資源層、數(shù)據(jù)解析管理層、分析層和可視化層等。下面對(duì)其中的每一層進(jìn)行詳細(xì)闡述。
1.2.1 基礎(chǔ)架構(gòu)層
Fig.3 Organization structure diagram of aviation big data from system perspective圖3 系統(tǒng)角度航空大數(shù)據(jù)的組織結(jié)構(gòu)示意圖
基礎(chǔ)架構(gòu)層主要是為航空大數(shù)據(jù)的存儲(chǔ)、傳輸、安全和面向某一具體應(yīng)用等提供基礎(chǔ)性服務(wù)的軟件與硬件設(shè)備。大數(shù)據(jù)的“5V”特點(diǎn)和應(yīng)用領(lǐng)域與場(chǎng)景的多樣性對(duì)服務(wù)器的性能提出了較高的要求,按具體的用途主要有計(jì)算類服務(wù)器、面向海量存儲(chǔ)的服務(wù)器、面向可視化和虛擬現(xiàn)實(shí)的服務(wù)器、面向通訊與網(wǎng)絡(luò)系統(tǒng)的服務(wù)器和鏡像服務(wù)器五種。不同類型的服務(wù)器只有協(xié)調(diào)工作才能形成一個(gè)功能完備的服務(wù)器集群。
航空系統(tǒng)產(chǎn)生的大數(shù)據(jù)具有實(shí)時(shí)性和多源性的特點(diǎn);位于基礎(chǔ)架構(gòu)層服務(wù)器中的數(shù)據(jù)會(huì)被頻繁訪問。因此,基礎(chǔ)架構(gòu)層內(nèi)應(yīng)包括具有高速寬帶、負(fù)載均衡和并發(fā)訪問機(jī)制等特性的網(wǎng)絡(luò)輔助系統(tǒng)?;ヂ?lián)網(wǎng)開放環(huán)境對(duì)位于基礎(chǔ)架構(gòu)層內(nèi)服務(wù)器的安全性提出了更高的要求;而基礎(chǔ)架構(gòu)層中的安全設(shè)備可為其中的服務(wù)器提供安全保障。服務(wù)器機(jī)房常用的安全設(shè)備有防火墻、空調(diào)系統(tǒng)、備用電源、監(jiān)控系統(tǒng)和隔熱層等。
1.2.2 資源層
虛擬化技術(shù)能構(gòu)建支持異構(gòu)存儲(chǔ)、異構(gòu)網(wǎng)絡(luò)、異構(gòu)主機(jī)及各種不同版本應(yīng)用的統(tǒng)一的計(jì)算資源池的架構(gòu),因此虛擬化的基礎(chǔ)架構(gòu)為基礎(chǔ)架構(gòu)層中服務(wù)器和其他軟硬件的擴(kuò)展提供了便利。到目前為止,常用于航空大數(shù)據(jù)的虛擬化技術(shù)有存儲(chǔ)虛擬化、網(wǎng)絡(luò)虛擬化、服務(wù)器虛擬化等。每臺(tái)虛擬化的服務(wù)器都擁有虛擬化的獨(dú)立“硬件”,其工作實(shí)際上是由物理機(jī)的硬件完成的。
Hadoop 編程框架的出現(xiàn),開辟了在大規(guī)模集群上并行分布式計(jì)算和存儲(chǔ)的時(shí)代。在基于Hadoop 集群的分布式并行系統(tǒng)中:(1)一個(gè)計(jì)算節(jié)點(diǎn)或存儲(chǔ)節(jié)點(diǎn)可映射到一臺(tái)或多臺(tái)物理服務(wù)器上;(2)物理服務(wù)器數(shù)量的可擴(kuò)充性和虛擬映射機(jī)制使得計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)可方便地?cái)U(kuò)展,因此能提供近似無限的計(jì)算和存儲(chǔ)能力;同時(shí),云技術(shù)可把眾多由網(wǎng)絡(luò)連接的超大服務(wù)器集群起來。因此,以Hadoop 為代表的分布式系統(tǒng)和云技術(shù)為基礎(chǔ)架構(gòu)虛擬化提供了便利。
1.2.3 數(shù)據(jù)解析管理層
數(shù)據(jù)解析管理層主要是對(duì)多源大數(shù)據(jù)進(jìn)行解析和管理。工業(yè)互聯(lián)網(wǎng)云系統(tǒng)Predix 和飛參解析系統(tǒng)是航空領(lǐng)域兩個(gè)非常著名的航空大數(shù)據(jù)解析管理系統(tǒng)。2013 年推出的Predix 旨在通過將各種工業(yè)資產(chǎn)設(shè)備和供應(yīng)商相互連接和接入云端,提供端到端的安全連接、實(shí)時(shí)性的設(shè)備資產(chǎn)監(jiān)控以及云端大數(shù)據(jù)分析和進(jìn)行基于客戶需要的個(gè)性化軟件開發(fā)和部署[2]。目前的Predix 具有鏈接資產(chǎn)的安全監(jiān)控、工業(yè)數(shù)據(jù)管理、工業(yè)數(shù)據(jù)分析、云技術(shù)應(yīng)用與移動(dòng)性四大核心功能,在航空領(lǐng)域中常用于發(fā)動(dòng)機(jī)設(shè)計(jì)與制造、航空器制造與運(yùn)營(yíng)過程中的實(shí)時(shí)監(jiān)控等。
航空器的飛行參數(shù)和狀態(tài)參數(shù)是飛行參數(shù)記錄器記錄的重要指標(biāo)。隨著航空器的發(fā)展,需要記錄的飛行參數(shù)也越來越多。到目前為止,記錄的飛行參數(shù)有航空器狀態(tài)參數(shù)、航空器飛行姿態(tài)參數(shù)、航空器飛行航向參數(shù)、航空器發(fā)動(dòng)機(jī)狀態(tài)參數(shù)、航空器有關(guān)操縱器件參數(shù)和航空器其他有關(guān)設(shè)備參數(shù)等。這些被記錄的參數(shù)值通過地面檢測(cè)儀傳回地面,然后通過飛參解析系統(tǒng)對(duì)其進(jìn)行聯(lián)合智能分析。飛參解析系統(tǒng)是一個(gè)集人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘?yàn)橐惑w的學(xué)習(xí)式專家系統(tǒng),可以在不斷學(xué)習(xí)、分析新數(shù)據(jù)的基礎(chǔ)上逐漸完善自己的知識(shí)規(guī)則庫(kù)和智能分析能力,進(jìn)而不斷提高服務(wù)質(zhì)量。
由具體應(yīng)用領(lǐng)域產(chǎn)生的航空大數(shù)據(jù)是海量多源的和異域的,也往往需要進(jìn)行不同的處理。因此,采集到的航空大數(shù)據(jù)常常是分布式存儲(chǔ)的。由Hadoop提供的分布式文件系統(tǒng)(Hadoop distribution file system,HDFS)為數(shù)據(jù)的分布式存儲(chǔ)提供了強(qiáng)有力的支持。在實(shí)際存儲(chǔ)時(shí),大數(shù)據(jù)會(huì)被分成不同的片段,然后將其存儲(chǔ)到不同的節(jié)點(diǎn)上。為了方便查找,將建立大數(shù)據(jù)片段的分布式全局索引;然后由分布式操作引擎發(fā)起對(duì)大數(shù)據(jù)的增刪改查。到目前為止,常用于分布式存儲(chǔ)航空大數(shù)據(jù)的數(shù)據(jù)庫(kù)有以下幾個(gè):(1)HBase是一種構(gòu)建在HDFS 之上的分布式、面向列的動(dòng)態(tài)模式數(shù)據(jù)庫(kù),比較適合實(shí)時(shí)讀寫、隨機(jī)訪問超大規(guī)模數(shù)據(jù)集的場(chǎng)景。(2)MongoDB 是一種基于分布式文件存儲(chǔ)的NoSql 數(shù)據(jù)庫(kù),適用于半結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和增刪改查,支持多種編程語言訪問、完全索引和動(dòng)態(tài)查詢。(3)Hive是一個(gè)運(yùn)行于Hadoop 分布式文件系統(tǒng)上的開源數(shù)據(jù)庫(kù),提供完整的SQL 查詢功能,適用于大數(shù)據(jù)集的批處理作業(yè)。(4)Redis 是一個(gè)開源免費(fèi)的Key-Value 型高性能數(shù)據(jù)庫(kù),支持字符串、鏈表和集合等類型的value 值的存儲(chǔ),具有較高的讀寫速度,支持主從服務(wù)器數(shù)據(jù)同步與消息訂閱等優(yōu)點(diǎn)。航空大數(shù)據(jù)采集和分析過程中經(jīng)常會(huì)產(chǎn)生一些適合傳統(tǒng)數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)庫(kù)在航空大數(shù)據(jù)中仍有用武之地。常用的傳統(tǒng)數(shù)據(jù)庫(kù)有MySQL、SQL Server和Oracle等。
1.2.4 分析層
分析層的本質(zhì)是利用人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識(shí)別中的模型與算法對(duì)航空大數(shù)據(jù)進(jìn)行有目的處理的過程。大數(shù)據(jù)的“5V”特點(diǎn)和航空領(lǐng)域的復(fù)雜性與實(shí)際應(yīng)用需求使得智能算法不能直接處理航空大數(shù)據(jù),而是需要使用一些軟件模塊來滿足流數(shù)據(jù)處理和實(shí)時(shí)性等業(yè)務(wù)需求。對(duì)于航空大數(shù)據(jù)體系來講,分析層中經(jīng)常使用的輔助模塊有以下幾種:(1)工作流系統(tǒng)幫助分析層中各部分協(xié)調(diào)高效工作,目前常見的航空大數(shù)據(jù)工作流系統(tǒng)有Airflow、Azkaban、Conductor、Oozie 和Zookeeper 等。其中的Zookeeper 采用leader-follower 協(xié)同機(jī)制,具有配置維護(hù)、域名服務(wù)、分布式同步和組服務(wù)等功能。(2)計(jì)算引擎是專注于大數(shù)據(jù)進(jìn)行快速計(jì)算的軟件系統(tǒng)。Spark 計(jì)算引擎包括批處理計(jì)算的Spark core、實(shí)時(shí)流處理的Spark Streaming、機(jī)器學(xué)習(xí)的Spark MLlib 和圖計(jì)算的Spark GraphX 等核心組件,具有計(jì)算高效、通用易用和運(yùn)行模式多樣的特點(diǎn)。Flink 計(jì)算引擎具有可容錯(cuò)、高吞量、支持窗口機(jī)制和狀態(tài)管理機(jī)制等,在真正意義上做到了流處理與批處理的統(tǒng)一。(3)資源調(diào)度通過集中管理集群中各節(jié)點(diǎn)的資源,以共享集群的方式為分析層中的各種計(jì)算框架和智能算法統(tǒng)一提供CPU、內(nèi)存和存儲(chǔ)等資源。Yarn 負(fù)責(zé)集群資源的統(tǒng)一管理,適合多種計(jì)算框架,并具有高擴(kuò)展性和高可用性的優(yōu)點(diǎn),因此成為目前航空大數(shù)據(jù)平臺(tái)上主流的資源調(diào)度系統(tǒng)。(4)航空大數(shù)據(jù)領(lǐng)域中的航空器數(shù)據(jù)、旅客數(shù)據(jù)和物流數(shù)據(jù)等都是流式數(shù)據(jù),需要專門的流處理引擎對(duì)其進(jìn)行流式處理。目前常用于航空大數(shù)據(jù)領(lǐng)域的流處理引擎有Spark Streaming、Storm 和Flink DataStream 等。其中,Spark Streaming 按一定的時(shí)間間隔將接收到數(shù)據(jù)流切分成離散數(shù)據(jù)片段(batch),然后對(duì)其進(jìn)行批處理。Spark Streaming 具有高吞吐量、容錯(cuò)機(jī)制和支持多種數(shù)據(jù)源的優(yōu)點(diǎn)。Storm 采用Master/Slave 體系結(jié)構(gòu),其分布式計(jì)算由Nimbus 和Supervisor 兩類服務(wù)進(jìn)程實(shí)現(xiàn)。Storm 具有編程簡(jiǎn)單、支持多種語言、容錯(cuò)性強(qiáng)和消息處理快等優(yōu)點(diǎn)。
分析層對(duì)航空大數(shù)據(jù)進(jìn)行上述輔助性處理之后,還需使用人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘與模式識(shí)別中的智能算法進(jìn)行挖掘才得到有價(jià)值的知識(shí)與信息。具體的航空大數(shù)據(jù)分析技術(shù)詳見2.4 節(jié)。
1.2.5 可視化層
由智能算法從航空大數(shù)據(jù)中挖掘出的知識(shí)和信息通常是數(shù)字或文本,這給決策者理解和使用帶來不便。而對(duì)有價(jià)值的知識(shí)和信息進(jìn)行可視化是幫助決策者分析和決策的有效途徑。另一方面,航空領(lǐng)域真實(shí)場(chǎng)景比較復(fù)雜,更加需要可視化技術(shù)進(jìn)行清晰的展示?;趫D表的可視化是一種最簡(jiǎn)單的可視化技術(shù),如利用數(shù)學(xué)意義上的二維圖、三維圖、坐標(biāo)圖和表格展示分析結(jié)果?;谔摂M現(xiàn)實(shí)的可視化技術(shù)通過在對(duì)真實(shí)場(chǎng)景虛擬仿真的基礎(chǔ)上立體式顯示挖掘出的結(jié)果,適合復(fù)雜應(yīng)用場(chǎng)景的虛擬仿真。此外,利用智能可視化軟件展示航空大數(shù)據(jù)分析結(jié)果是一條便捷有效的可視化途徑。具體內(nèi)容詳見2.5節(jié)。
航空大數(shù)據(jù)的復(fù)雜多源性和不同層次與應(yīng)用面向的決策者對(duì)航空大數(shù)據(jù)分析需求的多樣性,造成了航空大數(shù)據(jù)技術(shù)的多樣性。從航空大數(shù)據(jù)處理過程性的技術(shù)角度,將航空大數(shù)據(jù)關(guān)鍵技術(shù)分為航空大數(shù)據(jù)采集技術(shù)、航空大數(shù)據(jù)存儲(chǔ)管理技術(shù)、航空大數(shù)據(jù)預(yù)處理技術(shù)、航空大數(shù)據(jù)分析技術(shù)和航空大數(shù)據(jù)虛擬仿真與可視化技術(shù)。圖4 從技術(shù)的角度展示了航空大數(shù)據(jù)關(guān)鍵技術(shù)的組織結(jié)構(gòu),其中一些類的技術(shù)又包含不同的具體技術(shù)。
獲得航空大數(shù)據(jù)是進(jìn)行航空系統(tǒng)狀態(tài)分析的前提,而且航空大數(shù)據(jù)的質(zhì)量也對(duì)分析結(jié)果產(chǎn)生至關(guān)重要的影響。因此,航空大數(shù)據(jù)采集技術(shù)是航空大數(shù)據(jù)的關(guān)鍵技術(shù)之一。到目前為止,航空大數(shù)據(jù)的采集技術(shù)可粗略地歸納為以下五種。
Fig.4 Organization chart of key technologies of aviation big data圖4 航空大數(shù)據(jù)關(guān)鍵技術(shù)組織結(jié)構(gòu)圖
(1)基于航空器機(jī)載感知設(shè)備的航空大數(shù)據(jù)采集技術(shù)。航空器通常需要在空中完成作業(yè),因此利用機(jī)載感知設(shè)備監(jiān)控航空器的狀態(tài)是非常重要的。航空器機(jī)載的感知設(shè)備主要包括傳感器、攝像頭和智能終端儀表等。基于機(jī)載傳感器的航空大數(shù)據(jù)采集系統(tǒng)主要包括QAR、FDR、駕駛艙語音記錄器(cockpit voice recorder,CVR)、飛行數(shù)據(jù)管理系統(tǒng)(flight data management system,F(xiàn)DMS)和應(yīng)用性機(jī)載攝像頭等。表1 列出了基于航空器機(jī)載感知設(shè)備的主要航空大數(shù)據(jù)采集工具。
(2)基于網(wǎng)絡(luò)的航空大數(shù)據(jù)采集技術(shù)。航空領(lǐng)域是由多個(gè)不同的子領(lǐng)域組成的,如航空制造領(lǐng)域、航空旅客領(lǐng)域和航空貨運(yùn)領(lǐng)域等。網(wǎng)絡(luò)上有許多與這些子領(lǐng)域相關(guān)的客戶信息、客戶的評(píng)價(jià)與反饋和客戶的偏好等,與之相應(yīng)的大數(shù)據(jù)可通過基于網(wǎng)絡(luò)的航空大數(shù)據(jù)采集技術(shù)來獲得。具體來講,采用某種網(wǎng)絡(luò)爬蟲技術(shù)或網(wǎng)站公開API(application programming interface)等方式從某些特定網(wǎng)站上獲得航空大數(shù)據(jù)。其中,網(wǎng)絡(luò)爬蟲本質(zhì)上是按照設(shè)計(jì)的抓取策略自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。目前常用的抓取策略有廣度優(yōu)先搜索、深度優(yōu)先搜索和最佳優(yōu)先搜索等。常用的開發(fā)網(wǎng)絡(luò)爬蟲的語言有PHP、C++、Java和Python 等。
Table 1 Main aviation big data acquisition tools based on airborne perception equipment表1 機(jī)載感知設(shè)備的主要航空大數(shù)據(jù)采集工具
(3)基于衛(wèi)星和無線電傳輸?shù)暮娇沾髷?shù)據(jù)采集技術(shù)?;谛l(wèi)星和無線電傳輸?shù)暮娇沾髷?shù)據(jù)采集是指利用衛(wèi)星和無線電通訊技術(shù)在航空器和地面人員之間實(shí)行雙工通信,獲得與飛行員、天氣狀況等方面的航空大數(shù)據(jù)[9]。例如:航空器通信尋址和報(bào)告系統(tǒng)是一種通過無線電或衛(wèi)星在航空器和地面站之間傳輸報(bào)文的代表性數(shù)字?jǐn)?shù)據(jù)鏈系統(tǒng)。
(4)基于地面智能設(shè)備的航空大數(shù)據(jù)采集技術(shù)。航空器在起降和飛行過程中都要實(shí)時(shí)地和地面智能設(shè)備通信,在此期間和機(jī)場(chǎng)有著千絲萬縷的聯(lián)系。機(jī)場(chǎng)有塔臺(tái)、觀測(cè)站、雷達(dá)、導(dǎo)航儀、通訊發(fā)射架和空域檢測(cè)儀等,這些設(shè)備也可產(chǎn)生航空大數(shù)據(jù)?;诘孛嬷悄茉O(shè)備的航空大數(shù)據(jù)采集通常是由地面安裝的智能設(shè)備或地勤人員通過便攜式設(shè)備現(xiàn)場(chǎng)收集到的航空大數(shù)據(jù)。
(5)基于人工記錄的航空大數(shù)據(jù)采集技術(shù)。航空領(lǐng)域中的一些大數(shù)據(jù)是通過長(zhǎng)時(shí)間的現(xiàn)場(chǎng)人工記錄獲得的,如航空器相關(guān)設(shè)備耗損的記錄、相關(guān)人員每天的工作記錄和相關(guān)設(shè)備制造時(shí)的異常情況記錄等。由該采集技術(shù)獲得的數(shù)據(jù)通常在統(tǒng)一匯總后錄入相關(guān)的信息管理系統(tǒng)。
作為大數(shù)據(jù)家族中的一員,航空大數(shù)據(jù)通常也采用基于分布式架構(gòu)的存儲(chǔ)技術(shù)。具體來講,以Hadoop 中的HDFS 為基礎(chǔ),依托存儲(chǔ)大數(shù)據(jù)的數(shù)據(jù)庫(kù)和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)建立航空大數(shù)據(jù)平臺(tái),實(shí)現(xiàn)對(duì)各類航空數(shù)據(jù)的存儲(chǔ)和管理。航空大數(shù)據(jù)的異質(zhì)多源性決定了所用數(shù)據(jù)庫(kù)的非單一性:既需要專門用于海量的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)庫(kù)HBase、MongoDB 和Redis 等,充分利用其高性能、高可靠和低成本的優(yōu)勢(shì),又要利用Oracle 和MySQL 等傳統(tǒng)數(shù)據(jù)庫(kù)來存儲(chǔ)分析結(jié)果和結(jié)構(gòu)化的航空大數(shù)據(jù),充分利用其靈活、快速、復(fù)雜的統(tǒng)計(jì)分析功能。圖5 展示了基于Hadoop 的航空大數(shù)據(jù)存儲(chǔ)示意圖,可以看到:采集到的廣域多源航空大數(shù)據(jù)首先輸入給處理結(jié)構(gòu)化數(shù)據(jù)的Sqoop 和半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的Flume;然后,非實(shí)時(shí)數(shù)據(jù)流經(jīng)HDFS 存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)或非關(guān)系數(shù)據(jù)庫(kù)中,實(shí)時(shí)性數(shù)據(jù)流以消息的形式暫存到Kafka 的消息隊(duì)列中,繼而將其輸入給Storm,最終存儲(chǔ)到數(shù)據(jù)庫(kù)中。Zookeeper為分布式集群環(huán)境下的節(jié)點(diǎn)提供管理協(xié)調(diào)服務(wù)。圖6 進(jìn)一步詳細(xì)展示了HDFS 主從結(jié)構(gòu):HDFS 主節(jié)點(diǎn)NameNode 管理若干個(gè)數(shù)據(jù)節(jié)點(diǎn)DataNode,每個(gè)DataNode 中的數(shù)據(jù)塊是從(機(jī)房里)存儲(chǔ)盤節(jié)點(diǎn)node 上獲取的;HDFS 從節(jié)點(diǎn)是主節(jié)點(diǎn)的備份,能提高HDFS 的抗災(zāi)容錯(cuò)性能。
Fig.5 Schematic diagram of aviation big data storage based on Hadoop圖5 基于Hadoop 的航空大數(shù)據(jù)存儲(chǔ)示意圖
Fig.6 HDFS schematic diagram圖6 HDFS 結(jié)構(gòu)示意圖
航空大數(shù)據(jù)的來源較多,如航空器、航空公司、機(jī)場(chǎng)和服務(wù)對(duì)象等,因此航空大數(shù)據(jù)的形式和組織格式是多樣的。另一方面,航空大數(shù)據(jù)采集時(shí)因受環(huán)境和記錄時(shí)況的影響而呈現(xiàn)出噪音大和部分值缺失的現(xiàn)象。更進(jìn)一步地,航空大數(shù)據(jù)的分析往往需要多種數(shù)據(jù)的融合。在此背景下,航空大數(shù)據(jù)的預(yù)處理就顯得非常重要。到目前為止,航空大數(shù)據(jù)預(yù)處理的基本步驟如下[10]:
(1)數(shù)據(jù)清洗,是對(duì)航空大數(shù)據(jù)的初步預(yù)處理,主要包括以下幾個(gè)操作:①刪除有缺失值的記錄或者對(duì)其進(jìn)行平均或隨機(jī)填充。②通過分箱、聚類和回歸等技術(shù)降低航空大數(shù)據(jù)中的噪音。③通過聚類等技術(shù)檢測(cè)出離群點(diǎn)并刪除。(2)數(shù)據(jù)標(biāo)準(zhǔn)化/轉(zhuǎn)換,根據(jù)需要采用某種技術(shù)將其轉(zhuǎn)化為某種標(biāo)準(zhǔn)形式,如歸一化技術(shù)、標(biāo)準(zhǔn)正態(tài)化技術(shù)等。(3)數(shù)據(jù)融合/集成,對(duì)不同的數(shù)據(jù)源進(jìn)行概念和物理上的集成,以形成一個(gè)更加綜合的數(shù)據(jù)集。數(shù)據(jù)融合主要包括實(shí)體的識(shí)別與統(tǒng)一、冗余屬性的刪除和數(shù)據(jù)值沖突的檢測(cè)與消除等。(4)數(shù)據(jù)約簡(jiǎn),通過數(shù)據(jù)立方合計(jì)、維數(shù)消減、數(shù)據(jù)壓縮和數(shù)據(jù)塊消減等技術(shù),得到航空大數(shù)據(jù)集的約簡(jiǎn)表示。約簡(jiǎn)后的數(shù)據(jù)集既要有較小的規(guī)模,又要保持原有數(shù)據(jù)集的完整性。(5)數(shù)據(jù)離散化,通過采用等距、等頻和監(jiān)督的離散優(yōu)化等方法將航空大數(shù)據(jù)中的某些屬性值映射到區(qū)間或概念標(biāo)號(hào)上。例如,采用等距法將航班延誤時(shí)間映射到相應(yīng)的區(qū)間上。(6)數(shù)據(jù)泛化,將數(shù)據(jù)從相對(duì)低層概念映射到更高層概念上,并對(duì)數(shù)據(jù)庫(kù)中與任務(wù)相關(guān)的數(shù)據(jù)進(jìn)行抽象。
在實(shí)際應(yīng)用中,應(yīng)根據(jù)待處理的航空大數(shù)據(jù)的特點(diǎn)、分析算法的特性和實(shí)際需求選擇相應(yīng)的預(yù)處理步驟。
航空大數(shù)據(jù)的多源性、異構(gòu)性、多樣性和航空決策服務(wù)人員需求的多層次性決定了航空大數(shù)據(jù)的分析技術(shù)是多種多樣的。從計(jì)算機(jī)技術(shù)與數(shù)學(xué)的角度看,航空大數(shù)據(jù)分析技術(shù)可粗略地分為預(yù)測(cè)建模分析技術(shù)、聚類分析技術(shù)、關(guān)聯(lián)分析技術(shù)、異常檢測(cè)技術(shù)和虛擬仿真與可視化技術(shù)等,下面對(duì)其進(jìn)行逐一詳述。
2.4.1 航空大數(shù)據(jù)預(yù)測(cè)建模分析技術(shù)
在航空大數(shù)據(jù)領(lǐng)域中,預(yù)測(cè)性分析航空器件、服務(wù)對(duì)象和環(huán)境等的狀態(tài)變化對(duì)航空器件的維護(hù)、飛行安全、服務(wù)精準(zhǔn)度的提高、運(yùn)營(yíng)成本的降低和競(jìng)爭(zhēng)力的提高都是非常重要的。因此,預(yù)測(cè)性分析技術(shù)在航空大數(shù)據(jù)技術(shù)中占據(jù)著十分重要的地位。從目前來看,航空大數(shù)據(jù)的預(yù)測(cè)建模分析技術(shù)主要有經(jīng)典分類模型、深度神經(jīng)網(wǎng)絡(luò)模型、數(shù)學(xué)模型、增強(qiáng)學(xué)習(xí)和新建模型等。
(1)基于經(jīng)典分類模型的航空大數(shù)據(jù)預(yù)測(cè)
支撐向量機(jī)(support vector machine,SVM)因具有數(shù)學(xué)理論基礎(chǔ)堅(jiān)實(shí)、算法簡(jiǎn)單和魯棒性強(qiáng)的優(yōu)點(diǎn)而在航空大數(shù)據(jù)預(yù)測(cè)方面得到了應(yīng)用研究[11-16]。Chen等人提出了一個(gè)帶有加權(quán)邊緣的模糊SVM 模型,并將之用于航班延誤的早期預(yù)警[11]。該模型采用相對(duì)距離作為隸屬度,通過一對(duì)一的分類方式實(shí)現(xiàn)延誤等級(jí)的多分類。李艷軍等人提出了一種基于信息?;蚐VM 的航空發(fā)動(dòng)機(jī)性能預(yù)測(cè)方法[14],該方法首先對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行模糊?;缓笤谟?xùn)練核化SVM 的過程中利用遺傳算法對(duì)懲罰參數(shù)和核函數(shù)參數(shù)進(jìn)行優(yōu)化。然而該方法的運(yùn)行時(shí)間較長(zhǎng)。田德紅等人提出了一種基于鄰域粗糙集和SVM 的航空彈藥消耗預(yù)測(cè)方法[15]:首先基于條件屬性對(duì)決策屬性的重要程度原理,利用鄰域粗糙集對(duì)數(shù)據(jù)集中的屬性以前向貪婪的方式進(jìn)行約簡(jiǎn);然后通過融入高斯核函數(shù)建立非線性SVM 模型,采用粒子群算法優(yōu)化懲罰參數(shù)和核參數(shù)。實(shí)驗(yàn)表明:該方法所得結(jié)果具有相對(duì)較小的誤差;與傳統(tǒng)的SVM 預(yù)測(cè)和雙隱含層BP(back propagation)神經(jīng)網(wǎng)絡(luò)相比,該方法預(yù)測(cè)的結(jié)果更接近實(shí)際值,且均方誤差較小。文獻(xiàn)[16]提出了一種基于最小二乘SVM 的燃油消耗動(dòng)態(tài)預(yù)測(cè)方法:首先建立最小二乘SVM 模型形式;然后通過引入精英集改進(jìn)粒子群算法,使用其搜索懲罰系數(shù)和核函數(shù)參數(shù);接著通過改進(jìn)粒子群算法學(xué)習(xí)SVM 參數(shù);最后結(jié)合提出的橫向與縱向二維驅(qū)動(dòng)的動(dòng)態(tài)模型實(shí)現(xiàn)動(dòng)態(tài)預(yù)測(cè)。實(shí)驗(yàn)表明該方法的預(yù)測(cè)效果較好,但是其計(jì)算復(fù)雜度較高。
決策樹是一個(gè)根據(jù)數(shù)據(jù)集屬性的分類能力而構(gòu)建的樹形分類預(yù)測(cè)模型,具有無參數(shù)、構(gòu)建技術(shù)成熟、易解釋和魯棒性強(qiáng)等優(yōu)點(diǎn)。這些優(yōu)點(diǎn)使其在航空大數(shù)據(jù)預(yù)測(cè)方面得到了應(yīng)用[17-22]。Manna 等人將梯度增強(qiáng)型決策樹用于航班延遲預(yù)測(cè):首先從含有14個(gè)分量的數(shù)據(jù)集中選取8 個(gè)作為特征,然后對(duì)其進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化處理,最后依據(jù)處理后的特征數(shù)據(jù)集構(gòu)建決策樹模型[17];該模型具有較高的準(zhǔn)確率。Mangortey 等人提出了一個(gè)用于航空大數(shù)據(jù)分析的數(shù)據(jù)融合框架:該框架先采用JSON(javascript object notation)解析不同的數(shù)據(jù)集,再按時(shí)間和機(jī)場(chǎng)把解析的數(shù)據(jù)集融合到一起;然后采用決策樹技術(shù)預(yù)測(cè)與天氣有關(guān)的地面延誤程序的發(fā)生[18]。Christopher 等人將分類技術(shù)用于航空器事故預(yù)警等級(jí)的預(yù)測(cè)[21]:首先利用相關(guān)特征選擇、一致特征子集、增益率和主成分分析等技術(shù)對(duì)航空器大數(shù)據(jù)進(jìn)行特征選擇,得到約簡(jiǎn)的特征集;然后采用決策樹、樸素貝葉斯分類器、SVM、K-近鄰和多層感知器進(jìn)行預(yù)警等級(jí)分類。實(shí)驗(yàn)結(jié)果表明,基于決策樹的預(yù)測(cè)模型可得到最高的準(zhǔn)確率。文獻(xiàn)[22]提出了一種基于決策樹的航空電子設(shè)備故障診斷模型:首先在僅有故障和無故障兩類的訓(xùn)練集上學(xué)習(xí)到多棵決策樹;然后對(duì)于診斷的數(shù)據(jù)而言,由每棵決策樹做出概率預(yù)測(cè),再由置信區(qū)間估計(jì)和貝葉斯概率計(jì)算出最終的預(yù)測(cè)。該模型的診斷是概率統(tǒng)計(jì)進(jìn)行的,并不能保證完全準(zhǔn)確。
隨機(jī)森林(random forest,RF)是由多棵決策樹集成的,也被用于航空大數(shù)據(jù)預(yù)測(cè)建模[23-26]。文獻(xiàn)[23]將RF 用于航空公司客戶流失的預(yù)測(cè):首先對(duì)航空公司的會(huì)員數(shù)據(jù)進(jìn)行整理,得到30 個(gè)自變量(屬性);然后樹的棵數(shù)和大小采用默認(rèn)的參數(shù)值,通過交叉檢驗(yàn)獲得92.02%準(zhǔn)確率;接著固定樹的大小,再向RF中增加至90 棵決策樹;最后實(shí)驗(yàn)結(jié)果表明該RF 模型可取得91.39%的預(yù)測(cè)準(zhǔn)確度。Belcastro 等人提出了一種基于MapReduce 和RF 的航班延誤預(yù)測(cè)方法[25],該方法首先對(duì)原始的航班數(shù)據(jù)集和天氣數(shù)據(jù)集進(jìn)行預(yù)處理和轉(zhuǎn)換;然后從處理后的數(shù)據(jù)集中生成多個(gè)不同的子集,將其作為訓(xùn)練集分布在MapReduce 框架中的不同節(jié)點(diǎn)上,并通過學(xué)習(xí)算法得到多棵決策樹;最后將其集成到一起形成RF。所提方法因基于MapReduce 而表現(xiàn)出良好的可伸展性。文獻(xiàn)[26]首先收集了美國(guó)國(guó)內(nèi)2005—2015 年的航班數(shù)據(jù)和天氣數(shù)據(jù),抽取與45 個(gè)機(jī)場(chǎng)相關(guān)的數(shù)據(jù),并對(duì)其進(jìn)行數(shù)據(jù)補(bǔ)缺和標(biāo)準(zhǔn)化等預(yù)處理;然后基于此對(duì)決策樹、RF、Adaboost 和K-近鄰分類器進(jìn)行訓(xùn)練,并將之用于航班延誤的預(yù)測(cè);實(shí)驗(yàn)表明RF 的性能最優(yōu)。
(2)基于神經(jīng)網(wǎng)絡(luò)模型的航空大數(shù)據(jù)預(yù)測(cè)
神經(jīng)網(wǎng)絡(luò)模型因具有特征表示能力強(qiáng)、容錯(cuò)性高和魯棒性強(qiáng)的特點(diǎn)而被應(yīng)用于航空大數(shù)據(jù)的預(yù)測(cè)建模[27-32]。Kim 等人將循環(huán)神經(jīng)網(wǎng)絡(luò)和一般的神經(jīng)網(wǎng)絡(luò)相結(jié)合用于航班延誤預(yù)測(cè)[28]:首先將機(jī)場(chǎng)名字、時(shí)期、航班、天氣等數(shù)據(jù)作為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,然后將其輸出的某航班的延遲類別、歷史延遲類別和歷史天氣數(shù)據(jù)作為一般神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)測(cè)出該航班的延遲狀態(tài);整個(gè)預(yù)測(cè)模型通過隨機(jī)梯度下降法快速訓(xùn)練得到,但是得到的預(yù)測(cè)模型的精度往往不高。張頡健等人針對(duì)航空發(fā)動(dòng)機(jī)性能預(yù)測(cè)提出了一種基于離散輸入過程性神經(jīng)網(wǎng)絡(luò)的融合預(yù)測(cè)模型[29]:首先利用蟻群算法對(duì)參數(shù)的樣本空間進(jìn)行劃分,利用主成分分析對(duì)各個(gè)子空間進(jìn)行特征提取,并將其作為神經(jīng)網(wǎng)絡(luò)融合預(yù)測(cè)模型的輸入;然后確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),采用遺傳算法搜索最優(yōu)權(quán)值的閾值;最后通過減小輸出與標(biāo)準(zhǔn)值的誤差更新權(quán)值,進(jìn)而得到神經(jīng)網(wǎng)絡(luò)模型。該模型的訓(xùn)練因使用了蟻群算法和遺傳算法而表現(xiàn)出效率較低的特點(diǎn)。田德紅等人提出了一個(gè)基于變異粒子群優(yōu)化與深度神經(jīng)網(wǎng)絡(luò)的航空彈藥消耗預(yù)測(cè)模型[30],該模型首先根據(jù)輸入和輸出確定神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu);然后將粒子定義為由深度神經(jīng)網(wǎng)絡(luò)的所有權(quán)值和閾值組成的向量,以網(wǎng)絡(luò)輸出誤差作為適應(yīng)度函數(shù),通過運(yùn)行帶有自適應(yīng)變異算子的粒子群算法得到最優(yōu)的深度神經(jīng)網(wǎng)絡(luò);最后由之對(duì)輸入進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)表明,該模型所得的預(yù)測(cè)結(jié)果具有很小的相對(duì)誤差,也具有優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)模型和深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度。文獻(xiàn)[31]提出了一種基于改進(jìn)型長(zhǎng)短期記憶(long and short term memory,LSTM)網(wǎng)絡(luò)的軍用飛機(jī)下降階段的燃油消耗模型,首先利用互信息篩選了與燃油流率高度相關(guān)的參數(shù),然后在LSTM 中遺忘門的輸入上增加上一時(shí)刻的細(xì)胞狀態(tài)和采用了輸入門和遺忘門耦合的方式來共同控制細(xì)胞狀態(tài)的更新,并將改進(jìn)的LSTM 用于燃油消耗模型的構(gòu)建。實(shí)驗(yàn)表明新模型優(yōu)于標(biāo)準(zhǔn)LSTM和BP的預(yù)測(cè)結(jié)果。文獻(xiàn)[32]提出了一種基于LSTM-ARIMA(autoregressive integrated moving average)的短期航跡預(yù)測(cè)方法:首先通過特征擴(kuò)展增加了到目標(biāo)機(jī)場(chǎng)的距離和轉(zhuǎn)向狀態(tài)的特征數(shù)據(jù),然后針對(duì)LSTM 模型表達(dá)線性數(shù)據(jù)線性關(guān)系的不足,用LSTM 對(duì)經(jīng)度、緯度和高度進(jìn)行非線性建模,再用ARIMA 對(duì)高度進(jìn)行線性關(guān)系建模,對(duì)于兩個(gè)模型的高度預(yù)測(cè)值用標(biāo)準(zhǔn)相關(guān)性準(zhǔn)則進(jìn)行融合,最后將融合之后的高度值和LSTM 模型預(yù)測(cè)的經(jīng)度、緯度一起組成預(yù)測(cè)航跡的三維位置。
(3)基于數(shù)學(xué)模型的航空大數(shù)據(jù)預(yù)測(cè)
在面向航空大數(shù)據(jù)的預(yù)測(cè)建模技術(shù)中,整數(shù)規(guī)劃模型、回歸模型和統(tǒng)計(jì)模型也得到了應(yīng)用[33-38]。文獻(xiàn)[33]針對(duì)航空物流運(yùn)輸提出了一種基于整數(shù)規(guī)劃模型的時(shí)間戳數(shù)據(jù)匹配技術(shù),其中的整數(shù)規(guī)劃模型用0-1 變量表示兩個(gè)記錄時(shí)間是否匹配。該模型的求解具有成熟的技術(shù),但是當(dāng)問題太復(fù)雜時(shí)建模較難。Ravizza 等人將多元線性回歸模型用于航空器滑行時(shí)間的估計(jì)[35]:首先通過決定系數(shù)識(shí)別出與航空器離開和到達(dá)的滑行時(shí)間最相關(guān)的因素;然后由此建立滑行時(shí)間的多元線性回歸模型,并利用最小二乘法估計(jì)出回歸系數(shù)。實(shí)驗(yàn)表明,提出的新方法在預(yù)測(cè)時(shí)可取得較高的決定系數(shù)。趙廣社等人提出了一種多源統(tǒng)計(jì)數(shù)據(jù)驅(qū)動(dòng)的航空發(fā)動(dòng)機(jī)剩余壽命預(yù)測(cè)方法[36],該方法首先使用基于歐氏距離的統(tǒng)計(jì)異常策略融合發(fā)動(dòng)機(jī)狀態(tài)的監(jiān)測(cè)信息;然后采用帶非線性飄移的維納過程為航空發(fā)動(dòng)機(jī)退化建模,并通過似然函數(shù)求極值估算模型的參數(shù)值;接著將非線性的維納過程轉(zhuǎn)換成標(biāo)準(zhǔn)的布朗運(yùn)動(dòng),再通過推導(dǎo)出航空發(fā)動(dòng)機(jī)剩余使用壽命的概率密度函數(shù)解析式進(jìn)行預(yù)測(cè)。該模型比較復(fù)雜,構(gòu)建較難,適用于連續(xù)變量的情形。Pagels 將多核學(xué)習(xí)算法、隱馬爾可夫模型和自然語言處理算法用于航空大數(shù)據(jù)挖掘[38]:①針對(duì)航空系統(tǒng)異常,提出一種基于多核學(xué)習(xí)的異常探測(cè)算法;②基于飛行記錄器的數(shù)據(jù),訓(xùn)練隱馬爾可夫模型,并將其用于異常預(yù)測(cè);③將一種半監(jiān)督的bootstrapping算法用于航空事故報(bào)告數(shù)據(jù)的挖掘,以發(fā)現(xiàn)少數(shù)異常類并在報(bào)告中明確地標(biāo)明事故。該工作可以大大降低人力消耗。
(4)基于增強(qiáng)學(xué)習(xí)的航空大數(shù)據(jù)預(yù)測(cè)
航空系統(tǒng)運(yùn)行的交互性給增強(qiáng)學(xué)習(xí)在航空大數(shù)據(jù)分析中的應(yīng)用帶來了可行性。目前,也出現(xiàn)了一些基于增強(qiáng)學(xué)習(xí)的航空大數(shù)據(jù)預(yù)測(cè)建模分析技術(shù)[39-40]。Janakiraman 等人將增強(qiáng)學(xué)習(xí)用于航空前兆異常事件的發(fā)現(xiàn)[39]:基于機(jī)載傳感器產(chǎn)生的數(shù)據(jù)序列,通過訓(xùn)練逆增強(qiáng)學(xué)習(xí)得到專家獎(jiǎng)賞模型,借助SVM 的訓(xùn)練得到專家的值模型;接著將測(cè)試序列數(shù)據(jù)中每個(gè)分量作為狀態(tài),利用貝爾曼最優(yōu)原理得到專家的最優(yōu)行為,進(jìn)而得到最優(yōu)的狀態(tài);最后根據(jù)其和數(shù)據(jù)序列的下一個(gè)狀態(tài)代入值模型差值的大小判斷是否出現(xiàn)異常前兆。Balakrishna 等人將增強(qiáng)學(xué)習(xí)用于滑行時(shí)間的預(yù)測(cè)[40]:首先對(duì)表示滑行時(shí)間預(yù)測(cè)的行為空間和系統(tǒng)狀態(tài)空間進(jìn)行離散化,并將獎(jiǎng)賞值定義為實(shí)際滑行時(shí)間和預(yù)測(cè)滑行時(shí)間之差的絕對(duì)值;然后訓(xùn)練基于增強(qiáng)學(xué)習(xí)的預(yù)測(cè)器,其中使用均勻分布的概率選擇行為;最后,與最低非零獎(jiǎng)賞值對(duì)應(yīng)的行為表示滑行預(yù)測(cè)值。實(shí)驗(yàn)表明該方法在預(yù)測(cè)航空器滑行時(shí)間時(shí)可取得93.7%準(zhǔn)確率。
(5)基于新建模型的航空大數(shù)據(jù)預(yù)測(cè)
作為一個(gè)富有前景的研究方向,航空大數(shù)據(jù)的預(yù)測(cè)建模分析激發(fā)了一些學(xué)者研究新模型的興趣。符江鋒等人提出了基于一元流動(dòng)的航空離心泵綜合損失模型[41]:首先分別對(duì)離心泵的水力效率、容積效率、機(jī)械效率和輪盤摩擦效率進(jìn)行數(shù)據(jù)建模;然后根據(jù)這4 個(gè)效率和離心泵的主要設(shè)計(jì)參數(shù)建立其綜合損失模型;最后在實(shí)驗(yàn)數(shù)據(jù)上的結(jié)果表明綜合損失模型僅有2.8%預(yù)測(cè)誤差。文獻(xiàn)[42]提出了一種航空花鍵振動(dòng)磨損預(yù)測(cè)方法:首先基于Archard 磨損模型,利用花鍵轉(zhuǎn)子系統(tǒng)動(dòng)力學(xué)分析推導(dǎo)出花鍵振動(dòng)磨損預(yù)測(cè)的數(shù)據(jù)模型;然后進(jìn)行實(shí)驗(yàn)測(cè)試。文獻(xiàn)[43]構(gòu)建了一個(gè)由季節(jié)性延遲趨勢(shì)、日常延遲傳播模式和隨機(jī)殘差組成的預(yù)測(cè)模型,其中隨機(jī)殘差用混合分布表示,并用融合最大期望算法的遺傳算法學(xué)習(xí)該混合分布。新提出的模型既可以預(yù)測(cè)出延遲的時(shí)間點(diǎn),也能估計(jì)出延遲的分布。
此外,也出現(xiàn)了一些其他的航空大數(shù)據(jù)建模技術(shù)。文獻(xiàn)[44]將模糊規(guī)則系統(tǒng)用于機(jī)場(chǎng)航空器滑行時(shí)間的估計(jì):通過基于遺傳算法的K-means 對(duì)數(shù)據(jù)集聚類,將每個(gè)簇表示為一個(gè)規(guī)則,進(jìn)而得到規(guī)則庫(kù);采用隸屬度函數(shù)表達(dá)模糊關(guān)系,再借助解模糊操作得到估計(jì)值。實(shí)驗(yàn)表明,相對(duì)于線性回歸方法,基于模糊規(guī)則系統(tǒng)的估計(jì)方法可以取得更準(zhǔn)確的估計(jì),其主要原因在于采用的模糊規(guī)則系統(tǒng)可以逼近任何復(fù)雜的非線性系統(tǒng)。文獻(xiàn)[45]將灰色預(yù)測(cè)模型和相關(guān)向量模型相結(jié)合用于航空發(fā)動(dòng)機(jī)狀態(tài)的預(yù)測(cè):首先針對(duì)實(shí)驗(yàn)的序列數(shù)據(jù)集,借助于微分方程知識(shí)建立灰色預(yù)測(cè)模型;然后將灰色預(yù)測(cè)模型的輸出作為相關(guān)向量機(jī)的輸入,以原始序列數(shù)據(jù)為標(biāo)準(zhǔn)輸出,通過運(yùn)行EM(expectation maximization)算法得到相關(guān)向量機(jī)預(yù)測(cè)模型,最終得到灰色預(yù)測(cè)模型和相關(guān)向量模型的串行結(jié)構(gòu);實(shí)驗(yàn)結(jié)果表明由該串行結(jié)構(gòu)得到的結(jié)果在預(yù)測(cè)精度方面優(yōu)于僅由灰色預(yù)測(cè)模型或相關(guān)向量模型得到的結(jié)果。文獻(xiàn)[46]提出了一種基于貝葉斯網(wǎng)絡(luò)的航空器故障預(yù)測(cè)方法,該方法首先確定用于建構(gòu)貝葉斯網(wǎng)絡(luò)的變量,并對(duì)其進(jìn)行二值化處理;然后以這些二值變量的數(shù)據(jù)集作為基于貝葉斯網(wǎng)絡(luò)的預(yù)測(cè)方法的輸入,最后借助維修工程師的經(jīng)驗(yàn)重新確定貝葉斯網(wǎng)的變量,實(shí)驗(yàn)表明該預(yù)測(cè)方法的錯(cuò)誤率下降到18%左右。
2.4.2 航空大數(shù)據(jù)聚類分析技術(shù)
聚類是將數(shù)據(jù)對(duì)象集中相似的對(duì)象組成多個(gè)簇的過程,因具有無需先驗(yàn)知識(shí)的特性而在航空大數(shù)據(jù)分析中得到了研究和應(yīng)用。到目前為止,航空大數(shù)據(jù)分析中經(jīng)常用到的聚類分析算法有K-means、層次聚類和譜聚類等。
(1)基于K-means的航空大數(shù)據(jù)分析技術(shù)
K-means 具有簡(jiǎn)單易懂和運(yùn)行高效的優(yōu)點(diǎn),在航空大數(shù)據(jù)領(lǐng)域得到了較多的應(yīng)用[47-54]。文獻(xiàn)[48]將Kmeans 聚類算法用于航空旅客空間行為模式的分析:首先按空間要求將航站樓劃分為多個(gè)不同的功能區(qū),根據(jù)旅客是否到達(dá)過功能區(qū)得到與其對(duì)應(yīng)的表達(dá)其行為的0-1 向量;然后利用K-means 對(duì)這些向量集進(jìn)行聚類,直到簇中心不再變化為止;最后將南京祿口國(guó)際機(jī)場(chǎng)T2 航站樓國(guó)內(nèi)出發(fā)旅客的行為聚類為5 種行為模式,并分析了旅客性別和收入等基本屬性在這5 種空間模式上的分布。文獻(xiàn)[50]將K-means 聚類用于大數(shù)據(jù)背景下航空客戶價(jià)值分析:首先在大數(shù)據(jù)平臺(tái)上使用Sqoop 將數(shù)據(jù)導(dǎo)入Hive 中,并在HiveQL 對(duì)其進(jìn)行預(yù)處理后得到5 個(gè)特征的旅客數(shù)據(jù);然后使用K-means 將預(yù)處理后的旅客數(shù)據(jù)集聚成5 個(gè)簇,并根據(jù)每個(gè)簇的特征分布將客戶分為重點(diǎn)保持、重點(diǎn)發(fā)展、重點(diǎn)挽留、低價(jià)值和一般5 種類型的客戶,從而提高航空公司的精準(zhǔn)化服務(wù)水平和競(jìng)爭(zhēng)力。唐靜等人提出了一種基于平衡核函數(shù)聚類的飛行航跡數(shù)據(jù)分析方法[51],該方法首先由民航空管軟件得到軌跡的時(shí)間、經(jīng)度、緯度、高度、速度和航向6 個(gè)分量,通過將其轉(zhuǎn)換到直角坐標(biāo)系得到軌跡樣本數(shù)據(jù)集,并通過高斯核變換將其映射到特征空間;然后以設(shè)計(jì)的平衡核函數(shù)作為K-means 的目標(biāo)函數(shù),通過運(yùn)行K-means 得到樣本數(shù)據(jù)集的聚類;最后以每個(gè)簇的樣本中心和各簇樣本的非線性超球半徑為輸入訓(xùn)練模糊SVM。文獻(xiàn)[53]提出一種基于距離和樣本權(quán)重改進(jìn)的K-means 算法:首先采用維度加權(quán)的歐氏距離計(jì)算出所有樣本的密度和權(quán)重,然后取密度最大的點(diǎn)作為第一個(gè)初始聚類中心,并剔除該簇內(nèi)所有樣本,接著依次根據(jù)上一個(gè)聚類中心和數(shù)據(jù)集中剩下樣本點(diǎn)的權(quán)重并通過引入的參數(shù)τi找出下一個(gè)初始聚類中心,如此重復(fù)直至數(shù)據(jù)集為空,最后得到k個(gè)初始聚類中心。文獻(xiàn)[54]針對(duì)K-means聚類結(jié)果的不穩(wěn)定問題,通過反復(fù)比較簇間距離和簇內(nèi)距離動(dòng)態(tài)調(diào)整初始聚類中心,得到具有較強(qiáng)代表性的初始聚類中心;實(shí)驗(yàn)表明改進(jìn)的K-means 聚類算法具有更好的聚類效果,能夠更為合理地挖掘民航潛在高價(jià)值旅客。
(2)基于層次聚類的航空大數(shù)據(jù)分析技術(shù)
層次聚類以樹形結(jié)構(gòu)表示聚類的過程,可以得到不同的聚類結(jié)果,因此在航空大數(shù)據(jù)分析中也得到了應(yīng)用[55-56]。徐濤等人提出了一種基于層次聚類的機(jī)場(chǎng)噪聲數(shù)據(jù)挖掘方法[55],該方法首先對(duì)機(jī)場(chǎng)噪聲數(shù)據(jù)進(jìn)行缺失數(shù)據(jù)填補(bǔ)和臟數(shù)據(jù)修正等預(yù)處理,并對(duì)使用矩陣分解的噪聲數(shù)據(jù)矩陣進(jìn)行維數(shù)約簡(jiǎn);然后使用兩階段的基于代表點(diǎn)的快速層次聚類算法對(duì)約簡(jiǎn)后的矩陣進(jìn)行聚類:第一階段采用基于代表點(diǎn)的二分法進(jìn)行快速聚類,把距離每個(gè)簇中心最近的點(diǎn)作為該簇的代表性點(diǎn);第二階段使用基于代表點(diǎn)的凝聚層次聚類算法進(jìn)行聚類。該聚類方法的時(shí)間復(fù)雜度低于傳統(tǒng)的層次聚類方法,實(shí)驗(yàn)結(jié)果也表明了該方法能準(zhǔn)確發(fā)現(xiàn)機(jī)場(chǎng)周圍噪聲的分布模式。文獻(xiàn)[56]提出了一種基于小波變換和聚類的無刷直流電動(dòng)機(jī)故障檢測(cè)與識(shí)別方法,該方法對(duì)采樣數(shù)據(jù)進(jìn)行預(yù)處理,并通過對(duì)其進(jìn)行連續(xù)小波變換得到同時(shí)包含時(shí)域信息和頻域信息的小波變換系數(shù);然后使用層次聚類算法對(duì)該系數(shù)模值臨近的采樣點(diǎn)按時(shí)間位置進(jìn)行層次聚類;最后計(jì)算每一簇中所有位置的取整平均值,得到實(shí)際信號(hào)的突變位置和突變次數(shù)信息,進(jìn)而對(duì)故障進(jìn)行檢測(cè)與識(shí)別。
(3)基于譜聚類的航空大數(shù)據(jù)分析技術(shù)
譜聚類利用矩陣及其特征向量降低計(jì)算量,并能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解。因此,該聚類也被應(yīng)用于航空大數(shù)據(jù)的分析[57-61]。李楠等人提出了一種基于多維特征的終端區(qū)航空器軌跡聚類方法[57]:首先利用散點(diǎn)相關(guān)矩陣確定多維軌跡特征經(jīng)度、緯度、地速和航向,并定義出兩條軌跡的多維特征之間的距離計(jì)算公式;然后利用譜聚類算法對(duì)軌跡的多維特征進(jìn)行聚類。實(shí)驗(yàn)表明基于多維特征的軌跡譜聚類明顯優(yōu)于僅使用位置特征的聚類。Cong 等人將譜聚類用于航空運(yùn)輸網(wǎng)絡(luò)中關(guān)鍵機(jī)場(chǎng)的識(shí)別[59]:首先把機(jī)場(chǎng)抽象為節(jié)點(diǎn),機(jī)場(chǎng)之間交通流的相關(guān)性為邊構(gòu)建航空交通運(yùn)輸網(wǎng)絡(luò);然后,對(duì)該網(wǎng)絡(luò)中節(jié)點(diǎn)間的相關(guān)性矩陣進(jìn)行譜聚類,進(jìn)而得到多個(gè)機(jī)場(chǎng)在相關(guān)性上的空間拓?fù)浣Y(jié)構(gòu);接著,通過分析節(jié)點(diǎn)的時(shí)間序列的距離相關(guān)和功率譜的波動(dòng)趨勢(shì)檢查網(wǎng)絡(luò)的自組織臨界性,以發(fā)現(xiàn)關(guān)鍵機(jī)場(chǎng)簇;最后在中國(guó)航空運(yùn)輸網(wǎng)上的實(shí)驗(yàn)表明該方法可發(fā)現(xiàn)6個(gè)關(guān)鍵機(jī)場(chǎng)簇。文獻(xiàn)[60]提出了一種基于Spark 的譜聚類算法:首先利用Spark GraphX 計(jì)算樣本數(shù)據(jù)間的相似性,進(jìn)而得到拉普拉斯矩陣;然后利用并行化Lanczos算法將其轉(zhuǎn)化為三對(duì)角陣,計(jì)算其前K個(gè)特征向量,由并行化的K-means算法在K個(gè)特征向量上完成聚類。
(4)基于密度聚類的航空大數(shù)據(jù)分析技術(shù)
以DBSCAN(density-based spatial clustering of applications with noise)為代表的密度聚類在航空大數(shù)據(jù)分析中也得到了應(yīng)用[62-64]。文獻(xiàn)[63]提出了一種面向航路燃油預(yù)測(cè)的航跡聚類方法,該方法首先基于BADA(base of aircraft data)數(shù)據(jù)庫(kù)利用模糊聚類對(duì)機(jī)型進(jìn)行分組,并據(jù)此對(duì)航跡數(shù)據(jù)劃分;然后將DBSCAN 算法中的單純空間鄰域擴(kuò)展為時(shí)空速鄰域,而后將其用于劃分后航跡數(shù)據(jù)的時(shí)空聚類。文獻(xiàn)[64]提出了一種用于時(shí)空軌跡聚類的矢量點(diǎn)DBSCAN 算法,該算法首先在判斷Eps領(lǐng)域時(shí)要綜合考察空間、時(shí)間、速度3 個(gè)屬性,通過增加容忍速度差MaxSpd 和容忍方向差MaxDir 把那些在地理位置上靠近、方向基本一致、速度相差不大的矢量點(diǎn)聚集為一個(gè)簇,然后計(jì)算出每個(gè)簇的平均航向;接著在每個(gè)簇上以一定的間隔做平均航向的法線,將其劃分為若干個(gè)區(qū)塊,以算術(shù)平均的方式計(jì)算出這些區(qū)塊的質(zhì)心向量,并通過相連這些質(zhì)心向量得到各個(gè)簇的特征軌跡,最后依據(jù)軌跡分段重組的思想進(jìn)行融合,完成飛行軌跡的聚類。
此外,其他一些聚類方法在航空大數(shù)據(jù)領(lǐng)域也得到了探索。曹愈遠(yuǎn)等人將親和力傳播聚類和免疫算法用于航空發(fā)動(dòng)機(jī)故障的診斷[65]:首先,對(duì)航空發(fā)動(dòng)機(jī)的樣本數(shù)據(jù)分為正常樣本和故障樣本兩組,利用親和力傳播聚類對(duì)這兩組樣本數(shù)據(jù)分別進(jìn)行聚類,計(jì)算出每個(gè)簇內(nèi)的最大距離、最小距離、平均距離和數(shù)據(jù)集數(shù),并利用熵權(quán)法確定每個(gè)聚類中心的權(quán)重系數(shù);然后,將簇中心作為輸入,通過運(yùn)行混沌理論初始化種群的免疫算法得到最終的抗體檢測(cè)器記憶庫(kù);最后,針對(duì)某個(gè)樣本進(jìn)行診斷時(shí),計(jì)算其與記憶庫(kù)中每個(gè)抗體檢測(cè)器的親和力,占比大的即為該樣本的狀態(tài)。齊林等人提出了一種基于距離分級(jí)聚類的機(jī)載雷達(dá)航跡抗差關(guān)聯(lián)算法[66],該算法首先通過真實(shí)狀態(tài)對(duì)消得到航跡距離矢量;然后進(jìn)行基于距離矢量的分級(jí)聚類:(1)合并距離最近的兩個(gè)簇為一個(gè)新簇,并計(jì)算該簇到其他簇的距離;(2)不斷重復(fù)(1),直到剩下一個(gè)簇或最近的兩個(gè)簇間的距離大于簇間距閾值時(shí)停止;取元素?cái)?shù)最多的簇作為同源航跡的距離矢量,進(jìn)而得到相應(yīng)的航跡關(guān)聯(lián)關(guān)系。該算法具有在目標(biāo)密集、隨機(jī)誤差和系統(tǒng)誤差較大等復(fù)雜環(huán)境下錯(cuò)誤關(guān)聯(lián)率低和穩(wěn)定性強(qiáng)的優(yōu)點(diǎn)。
2.4.3 航空大數(shù)據(jù)關(guān)聯(lián)分析技術(shù)
利用關(guān)聯(lián)分析技術(shù)可在表征客戶、航空電子設(shè)備和航班等的相關(guān)記錄中挖掘出有價(jià)值的頻繁模式或關(guān)聯(lián)規(guī)則,因此關(guān)聯(lián)分析技術(shù)在航空大數(shù)據(jù)分析中有著重要的應(yīng)用[67-73]。Sternberg 等人將頻繁模式用于巴西航班延誤分析[67]:首先利用概念映射、分段和時(shí)間融合等將數(shù)據(jù)集轉(zhuǎn)化為易于挖掘頻繁模式的形式;然后采用Apriori 算法搜索頻繁模式,并過濾掉不感興趣的頻繁模式。但是Apriori 算法因需不斷掃描數(shù)據(jù)庫(kù)而表現(xiàn)出較低的執(zhí)行效率。侯熙桐將基于多維關(guān)聯(lián)規(guī)則的Apriori 算法用于民航事故數(shù)據(jù)的挖掘[68]:首先針對(duì)民航事故數(shù)據(jù)的多類多樣性和層次復(fù)雜性,設(shè)計(jì)了包括單維關(guān)聯(lián)規(guī)則、維間關(guān)聯(lián)規(guī)則和混合維關(guān)聯(lián)規(guī)則的多維關(guān)聯(lián)規(guī)則策略;然后利用Apriori算法時(shí)選擇某一層次的數(shù)據(jù)作為挖掘?qū)ο?,其余層次的?shù)據(jù)不參與挖掘,同時(shí)在產(chǎn)生頻繁規(guī)則集的過程中使用剪枝策略。文獻(xiàn)[70]提出了一種面向機(jī)場(chǎng)噪聲多監(jiān)測(cè)點(diǎn)噪聲值的關(guān)聯(lián)規(guī)則挖掘方法,該方法首先使用密度聚類算法(density-based clustering,DENCLUE)對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行聚類,找到每個(gè)簇的代表點(diǎn),由之組成較小的數(shù)據(jù)集,并對(duì)其進(jìn)行預(yù)處理;然后掃描一次預(yù)處理后的數(shù)據(jù)集,得到頻繁1 項(xiàng)集和二維數(shù)組K(K的行表示一個(gè)事務(wù)項(xiàng)集,列表示一個(gè)項(xiàng));接著在掃描K的過程中進(jìn)行連接和剪枝得到頻繁多項(xiàng)集;最后由置信度閾值得到關(guān)聯(lián)規(guī)則。該方法通過多次掃描簡(jiǎn)化的二維數(shù)組K代替多次掃描預(yù)處理后的數(shù)據(jù)集,因此比Apriori 算法有較高的運(yùn)行效率。曹衛(wèi)東等人提出了一種面向民航中旅客訂座后卻不能如期登機(jī)的預(yù)測(cè)和強(qiáng)因子關(guān)聯(lián)分析方法[71],該方法首先選用適合大數(shù)據(jù)的C4.5 生成決策樹預(yù)測(cè)模型,并得到不同特征屬性的量化結(jié)果;然后選取一些重要的特征屬性,通過運(yùn)行Apriori 算法得到關(guān)聯(lián)規(guī)則集,輔助航空公司售票和個(gè)性化推薦。文獻(xiàn)[72]將改進(jìn)的FP-tree(frequent pattern tree)算法用于航空用戶數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘:針對(duì)航空數(shù)據(jù)數(shù)量大、重復(fù)率低的特點(diǎn)與建立FP-tree 過程中重復(fù)遍歷子節(jié)點(diǎn)的現(xiàn)象,通過先使用Bloomfilter 方法,借助快速的hash 定位技術(shù)和位數(shù)組來判斷要查詢的事務(wù)是否在原來的數(shù)據(jù)集中,從而提高FP-tree的創(chuàng)建效率,使之更適合于航空大數(shù)據(jù)的處理。文獻(xiàn)[73]首先通過發(fā)動(dòng)機(jī)的初始數(shù)據(jù)庫(kù)、運(yùn)行數(shù)據(jù)庫(kù)、維修數(shù)據(jù)庫(kù)和其他相關(guān)數(shù)據(jù)庫(kù)建立發(fā)動(dòng)機(jī)全參數(shù)大數(shù)據(jù)庫(kù),然后在設(shè)定支持度和置信度閾值的基礎(chǔ)上進(jìn)行全參數(shù)關(guān)聯(lián)規(guī)則挖掘。
2.4.4 航空大數(shù)據(jù)異常檢測(cè)技術(shù)
航空系統(tǒng)是一個(gè)既復(fù)雜龐大又精密的系統(tǒng),涉及到航空器、各種地面設(shè)備、工作人員和客戶等。另一方面,航空系統(tǒng)的異常給航空公司帶來的損失往往是巨大的。因此,航空系統(tǒng)更加迫切需要面向航空大數(shù)據(jù)的異常檢測(cè)技術(shù)。到目前為止,航空大數(shù)據(jù)異常檢測(cè)技術(shù)可大致分為以下三類。
(1)基于模型的航空大數(shù)據(jù)異常檢測(cè)
基于模型的航空大數(shù)據(jù)異常檢測(cè)首先根據(jù)數(shù)據(jù)建立模型,然后通過模型判斷數(shù)據(jù)對(duì)象是否異常。這類技術(shù)在航空大數(shù)據(jù)異常檢測(cè)中得到了較多的應(yīng)用[13,74-80]。Li 等人提出了一種基于高斯混合模型的飛行操作異常檢測(cè)方法[13]:首先將數(shù)據(jù)集轉(zhuǎn)換為適合高斯混合模型的形式;然后通過高斯混合模型挖掘出飛行操作的正常模式;最后基于該正常模式檢測(cè)出異常。該方法具有無需正常模式先驗(yàn)知識(shí)的優(yōu)點(diǎn)。Jia 等人提出了一種融合LSTM 模型和多層感知器的模型,用于民航空中交通管制中無線電回讀異常的檢測(cè)[76]。該模型用兩個(gè)通道分別接收來自空中交通控制中心的句子和飛行員回讀的句子,分別對(duì)句子做分割和詞嵌入;然后分別輸入到兩個(gè)LSTM 模型中,再將其輸出作為平均池化層的輸入,得到相應(yīng)句子的語義向量;接著將兩個(gè)語義向量輸入給多層感知器,得到句子的語義相關(guān)度;最后將該相關(guān)度作為K近鄰分類器的輸入,進(jìn)而判斷無線電回讀的句子是否異常。Akerman 等人將卷積的LSTM 編碼器-解碼器模型用于廣播式自動(dòng)相關(guān)監(jiān)視信息的異常檢測(cè)[77]:首先將來自廣播式相關(guān)監(jiān)視系統(tǒng)的序列信息表示為圖片序列,并將其作為卷積LSTM 編碼器-解碼器模型的輸入;然后采用Adam 優(yōu)化器和均方誤差損失函數(shù)對(duì)該模型進(jìn)行訓(xùn)練,其中編碼器提取圖片特征,解碼器基于此進(jìn)行圖片重構(gòu);最后計(jì)算輸入序列的圖片和相應(yīng)輸出序列圖片的差異性,根據(jù)預(yù)設(shè)的閾值判定相應(yīng)的監(jiān)視信息是否異常。預(yù)設(shè)的閾值對(duì)判定結(jié)果有重要影響。文獻(xiàn)[78]提出了一種基于自適應(yīng)核主元分析的航空發(fā)動(dòng)機(jī)異常監(jiān)測(cè)方法,該方法通過滑動(dòng)窗口滑動(dòng)切割收集的正常歷史數(shù)據(jù),通過高斯核函數(shù)將標(biāo)準(zhǔn)化后的數(shù)據(jù)映射到高維特征空間,建立核主元分析模型,并計(jì)算T2 統(tǒng)計(jì)量和預(yù)測(cè)誤差統(tǒng)計(jì)量及其控制限;然后對(duì)新采集的監(jiān)測(cè)數(shù)據(jù),使用當(dāng)前核主元分析模型計(jì)算T2 和預(yù)測(cè)誤差統(tǒng)計(jì)量,并通過與當(dāng)前統(tǒng)計(jì)量的控制限的比較判斷航空發(fā)動(dòng)機(jī)是否出現(xiàn)異常,當(dāng)無異常的新監(jiān)測(cè)數(shù)據(jù)累計(jì)到一定量時(shí)就用其替換最近的舊數(shù)據(jù),重新建立核主元分析模型T2 和預(yù)測(cè)誤差統(tǒng)計(jì)量及其控制限。因此該方法表現(xiàn)出監(jiān)測(cè)的自適應(yīng)性,具有較低的虛警率。
吳奇等人提出了一種基于深度學(xué)習(xí)的航空器異常飛行識(shí)別方法[79],該方法首先利用小波技術(shù)對(duì)原始飛行數(shù)據(jù)進(jìn)行降噪預(yù)處理,在一系列典型飛行參數(shù)上提取經(jīng)典時(shí)域特征和小波奇異熵等信息熵特征,由主元分析降維后構(gòu)成初始特征集;然后建立由兩層稀疏受限玻爾茲曼機(jī)和一層反向傳播網(wǎng)絡(luò)堆疊而成的異常飛行狀態(tài)識(shí)別模型架構(gòu),并通過自下而上的預(yù)訓(xùn)練和自上而下的微調(diào)訓(xùn)練出識(shí)別模型,高斯過程分類器以該模型輸出的特征為輸入實(shí)現(xiàn)分類;最后通過將預(yù)處理后的測(cè)試樣本輸入到識(shí)別模型中得到其類別。該方法產(chǎn)生的初始特征集豐富,構(gòu)建的模型較復(fù)雜。
(2)基于鄰近度的航空大數(shù)據(jù)異常檢測(cè)
基于鄰近度的航空大數(shù)據(jù)異常檢測(cè)是在定義對(duì)象之間鄰近度的基礎(chǔ)上找出遠(yuǎn)離大部分其他對(duì)象的對(duì)象。常見的聚類算法是這種異常檢測(cè)技術(shù)的代表。文獻(xiàn)[81]提出了一種面向離散序列的異常檢測(cè)方法,并將其用于航空安全領(lǐng)域。該方法以歸一化的公共子序列長(zhǎng)度作為兩個(gè)序列相似性的度量,首先利用K-medoids 聚類算法對(duì)序列集進(jìn)行聚類;然后對(duì)每個(gè)簇中的序列按照其與簇中心的相似性分?jǐn)?shù)升序排列;接著,將一定比例的具有最低相似度的序列視為異常;最后識(shí)別出異常集中的區(qū)域,并基于貝葉斯概率框架對(duì)異常進(jìn)行合理的解釋。實(shí)驗(yàn)結(jié)果表明新檢測(cè)方法的性能優(yōu)于隱性馬爾可夫模型。李楠等人提出了一種基于異常特征值的終端區(qū)航空器異常軌跡識(shí)別方法[82]。該方法首先按時(shí)間間隔取得該架航空器的軌跡,根據(jù)定義的距離度量計(jì)算軌跡之間的相似性,得到相似性矩陣,并通過譜聚類對(duì)其聚類產(chǎn)生不同的簇;接著計(jì)算每個(gè)簇內(nèi)的相似性距離,確定每個(gè)簇的中心軌跡;最后計(jì)算每個(gè)軌跡到其簇中心的距離,將之與該軌跡對(duì)應(yīng)的航空器的飛行距離作為異常特征,通過對(duì)這兩個(gè)特征加權(quán)求和得到軌跡的可疑度,由設(shè)置的異常檢測(cè)率確定異常的軌跡。實(shí)驗(yàn)結(jié)果表明距離度量的設(shè)計(jì)和異常檢測(cè)率的設(shè)置對(duì)該方法的性能有重要影響。
(3)基于密度的航空大數(shù)據(jù)異常檢測(cè)
基于密度的航空大數(shù)據(jù)異常檢測(cè)將局部密度顯著低于它的大部分鄰近的數(shù)據(jù)對(duì)象視為異常點(diǎn)。密度聚類是該類異常檢測(cè)技術(shù)的代表[83-87]。文獻(xiàn)[83]提出了一種面向QAR 數(shù)據(jù)的航班異常檢測(cè)方法,該方法首先對(duì)數(shù)據(jù)進(jìn)行特征選擇、過濾噪聲和歸一化等預(yù)處理,并采用主成分分析對(duì)數(shù)據(jù)矩陣降維;然后使用DBSCAN 對(duì)降維后的數(shù)據(jù)進(jìn)行聚類,把離群的數(shù)據(jù)點(diǎn)或簇視為異常。實(shí)驗(yàn)表明該方法可以從大量航班數(shù)據(jù)中檢測(cè)出異常的航班,但是沒有對(duì)異常進(jìn)行深入分析,數(shù)據(jù)降維也會(huì)帶來一定的信息損失。Jarry 等人提出了一種基于函數(shù)主成分分析和層次型DBSCAN 的航空器進(jìn)近異常檢測(cè)方法[85]。該方法首先將由雷達(dá)獲得的飛行軌跡數(shù)據(jù)轉(zhuǎn)化為航空器的總能量序列,并利用滑動(dòng)窗口將其分割成多個(gè)子序列;然后對(duì)每個(gè)子序列進(jìn)行樣條函數(shù)分解和函數(shù)主成分分析,得到前K個(gè)主成分的系數(shù);接著使用層次型DBSCAN 對(duì)多組系數(shù)聚類,最后將一些離簇遠(yuǎn)的元素或非常稀疏的元素作為層次型全局-局部離群分?jǐn)?shù)算法的輸入,通過該算法的輸出判斷飛行軌跡是否異常。文獻(xiàn)[86]針對(duì)快速搜索發(fā)現(xiàn)密度峰值聚類算法存在的密度中心選擇不方便、聚類精度不高的問題,提出基于馬氏距離的自動(dòng)搜索發(fā)現(xiàn)密度峰值的聚類算法。該算法將馬氏距離引入距離測(cè)定中,提高了聚類精度;提出聚類中心判定參數(shù)γ,自動(dòng)獲得了聚類中心。實(shí)驗(yàn)結(jié)果表明,所提算法能夠很好地在故障特征的分類與識(shí)別上具有優(yōu)勢(shì)。文獻(xiàn)[87]針對(duì)原始密度峰值聚類算法應(yīng)用標(biāo)準(zhǔn)高斯核計(jì)算局部密度和需要人工研判確定簇類別數(shù)易造成誤識(shí)別的缺陷,分別引入共享鄰域算法對(duì)局部密度的計(jì)算方法和BIC 選擇準(zhǔn)則對(duì)簇類別數(shù)的選擇方法;最后新算法在航空發(fā)動(dòng)機(jī)氣路故障診斷領(lǐng)域有較高的實(shí)用價(jià)值。
航空大數(shù)據(jù)虛擬仿真與可視化技術(shù)既能服務(wù)于航空器器件和系統(tǒng)的設(shè)計(jì)、制造和測(cè)試,又可為事件分析、機(jī)務(wù)維修、理解運(yùn)營(yíng)狀況、制定決策、提升旅客的感知理解提供支持。因此,航空大數(shù)據(jù)虛擬仿真與可視化技術(shù)也引起了研究者和航空系統(tǒng)的重視。到目前為止,航空大數(shù)據(jù)虛擬仿真與可視化技術(shù)可分為以下三種。
(1)基于傳統(tǒng)二/三維圖形的虛擬仿真與可視化技術(shù)利用傳統(tǒng)的二/三維圖形來展示航空大數(shù)據(jù)及其分析結(jié)果。Burzlaff 在估算出燃油消耗量之后,利用二維曲線圖和柱狀圖及表格對(duì)單位千米耗油量與飛行距離之間的關(guān)系、單位負(fù)荷耗油量與飛行距離之間的關(guān)系和不同種類航空器間的耗油量比較等進(jìn)行了可視化展示[88]。Li 等人提出了一種可視化終端空域軌跡的方法[89]。該方法首先針對(duì)每個(gè)機(jī)場(chǎng)每次到達(dá)按時(shí)間順序建立三維坐標(biāo);然后通過多項(xiàng)式回歸和雙曲切線插值對(duì)儀表著陸系統(tǒng)進(jìn)行建模;最后通過數(shù)學(xué)軟件中的ParametricPlot3D 函數(shù)實(shí)現(xiàn)可視化展示。朱志童首先從飛行數(shù)據(jù)集中提取了12 種數(shù)據(jù),然后在此基礎(chǔ)上利用固定窗口濾波和粒子群算法進(jìn)行飛行異常檢測(cè);最后通過三維曲線圖形可視化異常檢測(cè)結(jié)果[90]。
(2)基于自行開發(fā)軟件的虛擬仿真與可視化技術(shù)是基于某種程序設(shè)計(jì)語言和已有軟件自行研發(fā)出的新虛擬仿真與可視化軟件技術(shù)。文獻(xiàn)[91]基于C語言開發(fā)平臺(tái)和已有航空發(fā)動(dòng)機(jī)基本類庫(kù)開發(fā)了一款具有圖形化用戶界面的可視化航空發(fā)動(dòng)機(jī)性能計(jì)算平臺(tái)。該平臺(tái)可通過圖形化的方式建立任意構(gòu)型的發(fā)動(dòng)機(jī)性能計(jì)算模型,并可在對(duì)模型進(jìn)行設(shè)計(jì)參數(shù)、控制規(guī)律和猜值公式靈活給定時(shí)計(jì)算各種條件下任意構(gòu)型發(fā)動(dòng)機(jī)的穩(wěn)態(tài)性能。程振陽提出了一種針對(duì)航空發(fā)動(dòng)機(jī)機(jī)加工藝執(zhí)行可視化系統(tǒng)[92]。該系統(tǒng)主要由可視化文件模板管理模塊、可視化文件生成模塊、可視化文件發(fā)布和管理模塊組成。在第一個(gè)模塊中,模板設(shè)計(jì)者可在Adobe Acrobat 中通過JavaScript 編程設(shè)計(jì)個(gè)性化模板,采用visual studio 編程的方式實(shí)現(xiàn)模板與系統(tǒng)的鏈接。在可視化文件生成模塊中,使用UG 軟件為三維模型添加視圖和產(chǎn)品制造信息等,將基于定義的模型導(dǎo)入3D Reviewer 軟件后設(shè)計(jì)機(jī)加工藝仿真動(dòng)畫和零件列表,嵌入可視化文件模板。在最后一個(gè)模塊中,把與每個(gè)零件機(jī)械加工的所有工序?qū)?yīng)的3D PDF 文件整合到一個(gè)工藝文件包中,將其發(fā)布給下游的工作人員。Omidvar等人提出了一種面向航空大數(shù)據(jù)的交互式可視化框架[93]。該框架采用了索引查找和Crossfilter 視圖技術(shù),其后端使用Python 和PostgreSQL 實(shí)現(xiàn),前端通過D3和LeafletJS7實(shí)現(xiàn)可視化顯示。Karikawa等人提出了面向航路空中交通管制任務(wù)的可視化工具軟件[94]。該可視化軟件包含投影過程模型、情境識(shí)別過程的認(rèn)識(shí)模型和空中交通展示模型三個(gè)核心部件。其中,空中交通展示模塊含有空中交通管制訓(xùn)練模擬器,將可視化的內(nèi)容顯示在空中交通管制控制臺(tái)的雷達(dá)屏幕上。賀鵬借助CATIA(computer aided threedimensional interactive application)二次開發(fā)的組件應(yīng)用架構(gòu)開發(fā)能自動(dòng)解析和提取關(guān)鍵特性編碼信息的功能平臺(tái),并構(gòu)建關(guān)鍵特性數(shù)據(jù)庫(kù)系統(tǒng);然后基于VC++6.0 搭建關(guān)鍵特性可視化平臺(tái),以樹圖展示關(guān)鍵特性間的相互關(guān)系;最后以協(xié)調(diào)數(shù)據(jù)集中的信息為數(shù)據(jù)源,利用Vis/VSA 軟件建立容差仿真模型[95]。
(3)基于已有軟件的虛擬仿真與可視化技術(shù)直接利用已有軟件進(jìn)行航空大數(shù)據(jù)及其分析結(jié)果的可視化呈現(xiàn)[96-104]。Weibel 等人對(duì)飛行甲板上飛行員移動(dòng)眼球追蹤進(jìn)行了可視化探索[96]。首先使用Tobii 眼鏡系統(tǒng)捕捉眼動(dòng)序列數(shù)據(jù),然后基于由之輸出的凝視點(diǎn)數(shù)據(jù)對(duì)每個(gè)感興趣的區(qū)域創(chuàng)建二進(jìn)制時(shí)間序列,并與場(chǎng)景相機(jī)視頻數(shù)據(jù)一起作為ChronoViz 的輸入,得到按時(shí)間序列的動(dòng)態(tài)可視化展示;最后借助計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)眼睛和注視物體的對(duì)準(zhǔn)。Khoury等人首先利用STROBOSCOPE 工具對(duì)底特律機(jī)場(chǎng)進(jìn)行基于離散事件的仿真建模;然后使用VITASCOPE對(duì)所建模型在虛擬環(huán)境下進(jìn)行3D 動(dòng)畫展示[97]。杜永良提出了一種基于MATLAB 和FLIGHTGEAR 的可視化飛行仿真方法[98]。該方法首先使用美國(guó)空軍氣動(dòng)估算軟件DATCOM 得到氣動(dòng)數(shù)據(jù);然后基于該數(shù)據(jù)利用MATLAB 建立航空器模型,設(shè)計(jì)從起飛到著陸階段的自動(dòng)飛行控制律;最后通過接口模塊將響應(yīng)數(shù)據(jù)發(fā)送到飛行模擬軟件FLIGHTGEAR 上,得到仿真航跡圖、飛行實(shí)時(shí)顯示仿真圖、重要參數(shù)隨時(shí)間變化的曲線仿真圖等。文獻(xiàn)[100]提出了一種基于AMESim 和MATLAB 的燃油調(diào)節(jié)器可視化聯(lián)合仿真方法。該方法首先建立燃油調(diào)節(jié)器的AMESim 模型,并通過活性指數(shù)計(jì)算與頻域特性分析簡(jiǎn)化該模型;然后將簡(jiǎn)化的AMESim 模型導(dǎo)入MATLAB 中的Simulink進(jìn)行聯(lián)合仿真,進(jìn)而通過可視化界面觀察整個(gè)燃油調(diào)節(jié)器的穩(wěn)態(tài)和過渡態(tài)調(diào)節(jié)過程。Hernández 等人提出了一種基于大數(shù)據(jù)架構(gòu)的利用航空器軌跡對(duì)到達(dá)時(shí)間實(shí)時(shí)精確預(yù)測(cè)的可視化系統(tǒng)[103]。該系統(tǒng)采用了lambda 架構(gòu)集群,利用混合云架構(gòu)支持結(jié)果的實(shí)時(shí)可視化,放置在可視化服務(wù)器中的微軟Azure 能根據(jù)桌面和移動(dòng)客戶機(jī)的請(qǐng)求繪制和定制信息。表2列出了其他基于已有軟件的航空大數(shù)據(jù)虛擬仿真與可視化研究工作。
Table 2 Main literature of virtual simulation and visualization based on existing softwares表2 已有軟件的虛擬仿真與可視化主要文獻(xiàn)
航空系統(tǒng)的復(fù)雜性和航空應(yīng)用的日益廣泛性帶來了航空大數(shù)據(jù)應(yīng)用場(chǎng)景的多樣性。下面從航空器故障預(yù)測(cè)與維修、航空運(yùn)輸對(duì)象服務(wù)、智慧機(jī)場(chǎng)和空中交通管理等方面闡述其典型應(yīng)用。
航空器是最主要的航空大數(shù)據(jù)來源實(shí)體之一。另一方面,航空器設(shè)備部件精密,而且越來越復(fù)雜;同時(shí)航空器故障通常會(huì)造成巨大損失。因此,航空器故障預(yù)測(cè)與維修是航空大數(shù)據(jù)的一個(gè)典型應(yīng)用場(chǎng)景。文獻(xiàn)[106]提出了一個(gè)基于Flume、Kafka、Storm和HDFS 的航空維修大數(shù)據(jù)系統(tǒng),該系統(tǒng)通過Flume采集歷史數(shù)據(jù)和接收實(shí)時(shí)數(shù)據(jù),然后采用Kafka 對(duì)數(shù)據(jù)進(jìn)行緩沖和分發(fā),接著使用實(shí)時(shí)流處理引擎Storm和相關(guān)的智能分析算法對(duì)維修相關(guān)數(shù)據(jù)進(jìn)行處理,最后將數(shù)據(jù)存儲(chǔ)在HDFS 上。到目前為止,出現(xiàn)了一些與之相關(guān)的應(yīng)用性軟件系統(tǒng)和平臺(tái)。著名的Skywise 是一個(gè)集運(yùn)營(yíng)、維護(hù)和航空器數(shù)據(jù)整合為一體的航空大數(shù)據(jù)服務(wù)平臺(tái),可以對(duì)航空器進(jìn)行預(yù)測(cè)性維護(hù)、維修方案優(yōu)化、可靠性預(yù)測(cè)等。加拿大飛行數(shù)據(jù)評(píng)價(jià)公司開發(fā)的自動(dòng)飛行信息報(bào)告系統(tǒng)和FlyhtHealth 軟件,可通過監(jiān)測(cè)航空器數(shù)據(jù)減少非計(jì)劃維修次數(shù),也能通過識(shí)別發(fā)動(dòng)機(jī)的衰退而建議其更換時(shí)機(jī),還可提供定制化的報(bào)警服務(wù)等[107]。發(fā)動(dòng)機(jī)是航空器的心臟,人們對(duì)其修理與維護(hù)做了大量的研究和運(yùn)用,詳見文獻(xiàn)[108]。
航空運(yùn)輸是航空公司中一種非常重要的業(yè)務(wù)形式,可持續(xù)不斷地產(chǎn)生與運(yùn)輸對(duì)象有關(guān)的大數(shù)據(jù)。因此,航空公司在此方面做了不少的研究和實(shí)際應(yīng)用。在航空客運(yùn)上,文獻(xiàn)[50]研究了一種基于大數(shù)據(jù)的航空客戶價(jià)值分析系統(tǒng),該系統(tǒng)采用Sqoop 將數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)抽取到數(shù)據(jù)倉(cāng)庫(kù)Hive 中;然后在數(shù)據(jù)預(yù)處理后使用大數(shù)據(jù)挖掘工具M(jìn)ahout進(jìn)行快速高效的聚類分析;最后將該系統(tǒng)用于某航空公司的客戶價(jià)值分析。文獻(xiàn)[109]將基于Spark 的航空常旅客流失系統(tǒng)用于南方航空公司旅客流失的預(yù)測(cè),該系統(tǒng)在Spark 平臺(tái)下調(diào)用MLlib 軟件包中的機(jī)器學(xué)習(xí)算法獲得邏輯回歸、RF 和梯度提升樹三個(gè)模型,采用堆疊集成技術(shù)進(jìn)行融合并將其整合到Spark 源碼中編譯;然后針對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行K-means 聚類分析;最后將分析結(jié)果更新到數(shù)據(jù)庫(kù)中,以支持頁面展示和下載。文獻(xiàn)[110]將基于客戶價(jià)值的航空旅客細(xì)分系統(tǒng)用于某航空公司客戶特性的研究,該系統(tǒng)首先建立航空旅客的客戶價(jià)值評(píng)估指標(biāo)體系,基于客戶的當(dāng)前價(jià)值、潛在價(jià)值和客戶忠誠(chéng)度建立航空旅客細(xì)分模型,然后用K-means 對(duì)客戶進(jìn)行劃分,最后對(duì)重點(diǎn)關(guān)注的客戶群體構(gòu)建客戶畫像,并向航空公司提出營(yíng)銷建議。在航空貨運(yùn)上,文獻(xiàn)[111]開發(fā)了一款基于大數(shù)據(jù)技術(shù)的航空貨運(yùn)管理系統(tǒng),該系統(tǒng)具有運(yùn)單與銷售類數(shù)據(jù)分析、運(yùn)輸與服務(wù)類數(shù)據(jù)分析和運(yùn)價(jià)分析與收益預(yù)估類數(shù)據(jù)分析等功能,目前被用于中國(guó)國(guó)際貨運(yùn)航空有限公司的貨運(yùn)日常管理。文獻(xiàn)[112]研發(fā)了一款機(jī)場(chǎng)貨運(yùn)管理系統(tǒng),并用于大連機(jī)場(chǎng)。
機(jī)場(chǎng)是航班流、旅客流、行李流、貨物流、地面交通流等多種信息的交匯之處,承擔(dān)著航班高效運(yùn)行、旅客安全和服務(wù)提升的任務(wù)。因此,打造智慧機(jī)場(chǎng)成為國(guó)家和航空公司新時(shí)代航空業(yè)發(fā)展的核心目標(biāo)之一。目前,學(xué)者們就新提出的智慧機(jī)場(chǎng)也進(jìn)行了一些初步研究。文獻(xiàn)[113]研究了一種基于Spark 的用戶行為分析平臺(tái),然后將該平臺(tái)用于某智慧機(jī)場(chǎng)被調(diào)度人群軌跡數(shù)據(jù)的分析,為機(jī)場(chǎng)管理者提供直觀的人群調(diào)度運(yùn)營(yíng)效果。文獻(xiàn)[114]為支撐智慧機(jī)場(chǎng)發(fā)展提出了機(jī)場(chǎng)大數(shù)據(jù)平臺(tái)。該平臺(tái)分為10 層,可提供全面的預(yù)測(cè)分析能力和信息視圖、監(jiān)測(cè)安檢排隊(duì)、實(shí)時(shí)分析機(jī)場(chǎng)流量、分析客戶關(guān)系管理、展示運(yùn)行態(tài)勢(shì)等,被用于北京首都國(guó)際機(jī)場(chǎng)?;诖髷?shù)據(jù)的雷電預(yù)警系統(tǒng)被用于香港機(jī)場(chǎng)和??诿捞m機(jī)場(chǎng)的建設(shè)中,可及時(shí)做出雷電預(yù)警和信息傳遞,從而為機(jī)場(chǎng)的生產(chǎn)運(yùn)行提供有效指引[115]。
不同類型的航空器在空中有條不紊地飛行,離不開空中交通的管理。因此每天對(duì)空中航空器交通的管理會(huì)產(chǎn)生航空大數(shù)據(jù)。而利用航空空管大數(shù)據(jù)可以提高空中交通管理水平和空中資源的利用效率。文獻(xiàn)[116]首先對(duì)基于Hadoop 的廣播式自動(dòng)相關(guān)監(jiān)視系統(tǒng)數(shù)據(jù)進(jìn)行解析和存儲(chǔ),然后在MapReduce環(huán)境下利用改進(jìn)的隔離森林算法將軌跡數(shù)據(jù)映射到地圖網(wǎng)格中,通過對(duì)網(wǎng)格單元的篩選和隔離劃分,并計(jì)算其異常分值,實(shí)現(xiàn)分布式環(huán)境下快速異常軌跡的檢測(cè)。民航空管設(shè)備大數(shù)據(jù)信息化分析管理應(yīng)用平臺(tái)以Hadoop 為基礎(chǔ)架構(gòu),在對(duì)空管數(shù)據(jù)采集和數(shù)據(jù)處理的基礎(chǔ)上表現(xiàn)出實(shí)時(shí)監(jiān)控空中交通、發(fā)出空中告警和趨勢(shì)分析等功能[117]。當(dāng)前航空器種類和數(shù)量不斷增多,充分利用航空大數(shù)據(jù)是應(yīng)對(duì)此形勢(shì)的一條可行途徑。
盡管目前世界各國(guó)的航空公司和相關(guān)學(xué)者對(duì)航空大數(shù)據(jù)的研究非常重視并取得了一些重要成果,但是由于航空系統(tǒng)的復(fù)雜性與廣域性、航空應(yīng)用領(lǐng)域的廣泛性和航空大數(shù)據(jù)分析技術(shù)不夠成熟等原因,航空大數(shù)據(jù)領(lǐng)域仍然存在一些亟待解決的問題和與之相應(yīng)的新研究方向。航空系統(tǒng)的復(fù)雜性和航空大數(shù)據(jù)的獨(dú)特性也使航空大數(shù)據(jù)研究中亟待解決的問題呈現(xiàn)出多層面的特點(diǎn),下面從技術(shù)本身和航空要素兩個(gè)層面加以闡述。
(1)無人機(jī)機(jī)載大數(shù)據(jù)處理技術(shù)比較匱乏。無人機(jī)因其靈巧便利性和在農(nóng)業(yè)、國(guó)土測(cè)繪、海洋巡查、應(yīng)急救援等方面有著廣闊的應(yīng)用前景而受到航空業(yè)和需求者的青睞。然而,與有人機(jī)相比,無人機(jī)機(jī)載硬件的功能相對(duì)較薄弱、機(jī)載能源相對(duì)較少、機(jī)載的大數(shù)據(jù)處理軟件與技術(shù)比較匱乏。研發(fā)高效輕量級(jí)的機(jī)載無人機(jī)大數(shù)據(jù)處理軟件與技術(shù)是目前航空大數(shù)據(jù)技術(shù)中的一個(gè)挑戰(zhàn),也是提高無人機(jī)性能所需要的。因此,研究者應(yīng)面向不同的應(yīng)用需求,基于特定的無人機(jī)研發(fā)快速有效的機(jī)載大數(shù)據(jù)處理技術(shù)。詳細(xì)地說,首先在無人機(jī)機(jī)載存儲(chǔ)方面,研究更有效的壓縮存儲(chǔ)技術(shù);然后在無人機(jī)狀態(tài)預(yù)測(cè)和修正方面,研究與無人機(jī)系統(tǒng)相適應(yīng)的高效預(yù)測(cè)技術(shù),并在某些狀態(tài)異常條件下或特殊環(huán)境下可對(duì)其狀態(tài)做出適當(dāng)?shù)恼{(diào)整;最后,針對(duì)某種應(yīng)用的核心需求研發(fā)相應(yīng)的軟件系統(tǒng),例如針對(duì)航拍和測(cè)繪等需求,需要研究高級(jí)的采集與計(jì)算系統(tǒng),能夠快速地完成影像圖制作。
(2)探索高效的多模多源航空大數(shù)據(jù)融合和特征提取方法。從數(shù)據(jù)模態(tài)上看,航空大數(shù)據(jù)既可以是數(shù)字、文本和圖像數(shù)據(jù),又可以是音頻和視頻數(shù)據(jù)。從數(shù)據(jù)來源上講,航空大數(shù)據(jù)不僅可以來自航空器和衛(wèi)星,又可來自機(jī)場(chǎng)、多樣的服務(wù)或應(yīng)用對(duì)象。這就對(duì)航空大數(shù)據(jù)的融合和特征提取提出了挑戰(zhàn)。在航空大數(shù)據(jù)融合方面,在充分分析數(shù)據(jù)特性和實(shí)際需求的基礎(chǔ)上,基于已有的拼接、深度學(xué)習(xí)模型和數(shù)學(xué)計(jì)算模型等研究高效的數(shù)據(jù)融合方法。在特征提取方面,綜合考慮數(shù)據(jù)特性、后繼處理(方法)和解決的需求,采用過濾式框架、封裝式框架和嵌入式框架或根據(jù)需要研究新的框架,并嘗試其能高效解決問題的實(shí)現(xiàn)形式。多模多源航空大數(shù)據(jù)融合的質(zhì)量和特征提取方法的性能對(duì)后續(xù)分析方法和問題解決程度有著基礎(chǔ)性的影響。因此,探索面向多模多源航空大數(shù)據(jù)的融合和特征提取方法是未來一個(gè)十分有價(jià)值的研究課題。
(3)研究面向航空大數(shù)據(jù)的高效預(yù)測(cè)方法。航空系統(tǒng)由眾多實(shí)體要素組成,而且對(duì)安全性有著較高的要求。而預(yù)測(cè)方法是航空系統(tǒng)高效協(xié)調(diào)運(yùn)行和提高其安全性的一種重要手段。從目前來看,雖然基于分類模型的預(yù)測(cè)技術(shù)、基于聚類的預(yù)測(cè)技術(shù)、基于關(guān)聯(lián)規(guī)則的預(yù)測(cè)技術(shù)等在航空領(lǐng)域得到了應(yīng)用,但基本上都是傳統(tǒng)預(yù)測(cè)技術(shù)的直接應(yīng)用,并沒有與航空大數(shù)據(jù)深度融合。與此同時(shí),對(duì)工作中的航空系統(tǒng)實(shí)體(如航空器和客戶流等)的預(yù)測(cè)具有較強(qiáng)的實(shí)時(shí)性要求。因此,目前用于航空大數(shù)據(jù)的預(yù)測(cè)方法不能滿足日益復(fù)雜的航空系統(tǒng)和不斷提高的服務(wù)需求。鑒于此,應(yīng)面向應(yīng)用需求、航空大數(shù)據(jù)特點(diǎn)及其架構(gòu),研究高效的預(yù)測(cè)方法。從思路上講,可從以下幾點(diǎn)考慮:①研究航空大數(shù)據(jù)的整體架構(gòu),探索與之高度吻合的有效預(yù)測(cè)方法;②基于某種應(yīng)用需求及其所使用的航空大數(shù)據(jù)的特性,嘗試通過結(jié)合數(shù)學(xué)知識(shí)和機(jī)器學(xué)習(xí)從原理機(jī)制上創(chuàng)新性地提出更高效的新預(yù)測(cè)方法;③針對(duì)航空器和客戶流等的實(shí)時(shí)預(yù)測(cè)需求,研究基于增量預(yù)測(cè)、隨機(jī)過程等的高效預(yù)測(cè)方法,這是航空大數(shù)據(jù)技術(shù)中的一個(gè)難點(diǎn)。高效的預(yù)測(cè)方法將在航空器剩余壽命/狀態(tài)故障預(yù)測(cè)、航空路徑預(yù)測(cè)和客戶旅行預(yù)測(cè)等方面取得良好的效果,進(jìn)而提高航空系統(tǒng)的智能化水平和客戶的體驗(yàn)品質(zhì)。
(4)基于航空大數(shù)據(jù)的虛擬仿真與可視化方法。航空系統(tǒng)的龐雜性和由之產(chǎn)生的大數(shù)據(jù)及其分析結(jié)果的復(fù)雜性給該領(lǐng)域的虛擬仿真和可視化帶來了挑戰(zhàn)。到目前為止,一些虛擬仿真與可視化技術(shù)在空域軌跡、模擬飛行仿真、航空器加工、航空器故障診斷等方面得到了應(yīng)用。但是這些應(yīng)用有以下特點(diǎn):①其中的一些應(yīng)用還處于實(shí)驗(yàn)室研究階段,并未走向?qū)嶋H應(yīng)用;②不同方面的應(yīng)用基本上是孤立的,沒有整合成一個(gè)基于航空大數(shù)據(jù)的協(xié)同運(yùn)行、智能互連的虛擬仿真與可視化系統(tǒng)。針對(duì)以上兩個(gè)問題,可從以下三方面入手:①積極推動(dòng)基于航空大數(shù)據(jù)的虛擬仿真與可視化研究和航空緊密結(jié)合,推進(jìn)研究成果的應(yīng)用轉(zhuǎn)化;②先從航空系統(tǒng)中重要方面入手,構(gòu)建基于航空大數(shù)據(jù)的虛擬仿真與可視化的綜合性、智能型系統(tǒng)與平臺(tái),同時(shí)具備較強(qiáng)的可擴(kuò)展性;③針對(duì)某類虛擬仿真與可視化應(yīng)用,研究面向航空大數(shù)據(jù)的快速、準(zhǔn)確、友好的方法。高效的虛擬仿真和可視化方法可以提高航空器設(shè)計(jì)制造和故障診斷水平、優(yōu)化機(jī)場(chǎng)資源布局、提升客戶的感知體驗(yàn)和提高安全性等。因此,基于航空大數(shù)據(jù)的虛擬仿真與可視化是航空公司競(jìng)爭(zhēng)的重要內(nèi)容,也是未來一項(xiàng)非常具有實(shí)用性的研究?jī)?nèi)容。
(5)航空大數(shù)據(jù)傳輸?shù)陌踩院退俣炔荒軡M足實(shí)際需要。具有高安全性要求的航空系統(tǒng)亟需安全快速的航空大數(shù)據(jù)傳輸技術(shù)。另一方面,客戶服務(wù)需求的日益精準(zhǔn)化和航空公司資源的高度協(xié)同化與服務(wù)的無縫銜接也需要安全快速的航空大數(shù)據(jù)傳輸技術(shù)做支撐。因此研發(fā)安全快速的航空大數(shù)據(jù)傳輸技術(shù)是航空大數(shù)據(jù)技術(shù)中的一個(gè)挑戰(zhàn)。從目前來看,基于5G 技術(shù),研究地面(基站)、航空器和衛(wèi)星之間的雙向無線傳輸技術(shù)是一條可行的途徑??蓮囊韵氯c(diǎn)入手:①如何使用5G 技術(shù)實(shí)現(xiàn)地面、航空器和衛(wèi)星之間傳輸?shù)臒o縫連接;②研究和設(shè)計(jì)適用于航空大數(shù)據(jù)安全快速傳輸?shù)耐ㄐ艆f(xié)議;③研發(fā)用于航空大數(shù)據(jù)安全快速傳輸?shù)?、具有高吞吐量的中間設(shè)備。安全快速的航空大數(shù)據(jù)傳輸技術(shù)是提高航空系統(tǒng)服務(wù)水平的重要支撐,也是一個(gè)非常有潛力的研究方向。
(1)基于大數(shù)據(jù)的航空器設(shè)計(jì)制造水平不高。在設(shè)計(jì)方面,航空器主要是利用軟件進(jìn)行總體設(shè)計(jì),然后通過風(fēng)洞試驗(yàn)或流體動(dòng)力學(xué)分析驗(yàn)證的方式進(jìn)行結(jié)構(gòu)設(shè)計(jì);在制造方面,航空器主要依靠傳統(tǒng)建造工藝[118-119]。這樣的設(shè)計(jì)制造方式因大數(shù)據(jù)未深入?yún)⑴c而使航空器在設(shè)計(jì)、故障和缺陷分析方面沒有較完善的分析模型與方法,進(jìn)而導(dǎo)致生產(chǎn)的航空器在運(yùn)行效率、安全性、經(jīng)濟(jì)性、舒適性和環(huán)保性等方面不能滿足國(guó)家、航空公司和客戶的發(fā)展需求。提高大數(shù)據(jù)在航空器設(shè)計(jì)制造中的參與度是一條提升航空器設(shè)計(jì)制造水平的有效途徑。具體來講,在設(shè)計(jì)層面上,利用大數(shù)據(jù)技術(shù)對(duì)已有的設(shè)計(jì)數(shù)據(jù)與知識(shí)和相關(guān)需求進(jìn)行分析,采用虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)對(duì)航空器進(jìn)行完善和展示;在制造層面上,建立基于大數(shù)據(jù)的航空器生產(chǎn)、質(zhì)量監(jiān)測(cè)、安全監(jiān)督為一體的綜合性制造管理系統(tǒng)。這樣做既有利于催生新的設(shè)計(jì)制造工藝和提高航空器的質(zhì)量,也能迎接航空器日益多樣化的制造需求。因此,基于大數(shù)據(jù)的航空器設(shè)計(jì)制造將是未來一個(gè)有前景的研究方向。
(2)基于航空大數(shù)據(jù)的機(jī)場(chǎng)服務(wù)不能滿足日益增長(zhǎng)的經(jīng)濟(jì)社會(huì)發(fā)展和民眾出行需求。目前,基于航空大數(shù)據(jù)的機(jī)場(chǎng)在票務(wù)、行李托管、機(jī)務(wù)人員管理、航空器起降調(diào)度和監(jiān)測(cè)等方面表現(xiàn)出一定的信息化水平;但是一些機(jī)場(chǎng)仍存在著值機(jī)排隊(duì)、安檢擁堵、行李傳送慢、跑道安全性低等問題。同時(shí),經(jīng)濟(jì)社會(huì)的發(fā)展帶來航空器密度和乘客流量的不斷增大,較快的生活節(jié)奏使客戶對(duì)航空服務(wù)質(zhì)量的期望越來越高。這就要求機(jī)場(chǎng)對(duì)機(jī)場(chǎng)資源具有智能高效的協(xié)同調(diào)度能力。在此需求下,機(jī)場(chǎng)應(yīng)建立并不斷完善自己的航空大數(shù)據(jù)服務(wù)平臺(tái),以提高機(jī)場(chǎng)的智慧化服務(wù)水平。具體來講:①著眼于未來需求,研究基于虛擬仿真、可視化技術(shù)、新概念和專家知識(shí)經(jīng)驗(yàn)的機(jī)場(chǎng)設(shè)計(jì)與擴(kuò)建,構(gòu)建基礎(chǔ)設(shè)施布局高效、功能多樣便利、資源節(jié)約、人文環(huán)境友好的大機(jī)場(chǎng);②研究基于航空大數(shù)據(jù)服務(wù)平臺(tái)的高效預(yù)測(cè)技術(shù)解決排隊(duì)、安檢擁堵、資源的協(xié)同調(diào)度問題;③研究基于航空大數(shù)據(jù)服務(wù)平臺(tái)的高效關(guān)聯(lián)分析和聚類技術(shù),分析和追蹤不同類乘客的偏好與消費(fèi)行為,進(jìn)而引導(dǎo)乘客的機(jī)場(chǎng)行為,以提升其體驗(yàn)質(zhì)量;④研究基于航空大數(shù)據(jù)服務(wù)平臺(tái)的高效異常檢測(cè)技術(shù),提高對(duì)航空器、機(jī)場(chǎng)旅客行為、跑道等的異常檢測(cè)能力,打造平安機(jī)場(chǎng)。這些航空大數(shù)據(jù)分析技術(shù)的研究必將提高機(jī)場(chǎng)資源協(xié)同利用、個(gè)性服務(wù)、安全預(yù)防和智能決策的能力,也是新時(shí)代機(jī)場(chǎng)建設(shè)的發(fā)展方向。
(3)空中交管系統(tǒng)不能適應(yīng)新時(shí)代航空的發(fā)展要求。伴隨著航空業(yè)進(jìn)入快速發(fā)展的新時(shí)代,航班的數(shù)量和航空器的種類不斷增多。這就導(dǎo)致空中交通流量持續(xù)攀升,進(jìn)而致使空中交管系統(tǒng)在空域交通規(guī)劃、交管負(fù)荷測(cè)量、交管人員工作時(shí)長(zhǎng)、數(shù)據(jù)傳輸和安全性等方面的問題越來越凸顯。針對(duì)上述問題,可以探索構(gòu)建基于航空大數(shù)據(jù)技術(shù)和空天地一體化網(wǎng)絡(luò)技術(shù)為支撐的智能化空中交通管理服務(wù)平臺(tái)。具體可從以下幾點(diǎn)做起:①充分利用5G 技術(shù)容量大、時(shí)延低和下行速度快的優(yōu)勢(shì),建立覆蓋空天地的網(wǎng)絡(luò)技術(shù),以促進(jìn)人、物、機(jī)的高效互通,同時(shí)研究可加密的網(wǎng)絡(luò)傳輸協(xié)議;②針對(duì)新時(shí)代空中交通管制的需求,嘗試研究基于航空大數(shù)據(jù)技術(shù)的與空中交管相關(guān)的大數(shù)據(jù)存儲(chǔ)、分析和展示系統(tǒng);③充分考慮航空器的多樣性及其航行空域的特點(diǎn),結(jié)合人工智能技術(shù)和相關(guān)知識(shí)建構(gòu)具有高度自治性的空中交管系統(tǒng),以減少空管人員的工作負(fù)荷。面對(duì)航空應(yīng)用日益增多和個(gè)性化需求日漸增強(qiáng)的形勢(shì),迫切需要通過上述措施構(gòu)筑一個(gè)能滿足多用戶需求,支持自由飛行的無縫隙、空天地一體化的空管系統(tǒng),這也是新時(shí)代航空發(fā)展的一個(gè)動(dòng)向。
(4)基于航空大數(shù)據(jù)的客戶管理與服務(wù)不能滿足市場(chǎng)競(jìng)爭(zhēng)的需要。在航空業(yè)界,航空公司就大數(shù)據(jù)在客戶上的應(yīng)用主要包括客戶全生命周期與旅客管理、客戶行為分析、網(wǎng)購(gòu)行為分析、用社交網(wǎng)絡(luò)進(jìn)行營(yíng)銷推廣等。然而,就目前來講,從這些數(shù)據(jù)中挖掘出的信息還沒有有機(jī)融合在一起,不能形成一個(gè)客戶的360°視圖。航空公司應(yīng)以客戶為中心,首先對(duì)自己的業(yè)務(wù)方案、技術(shù)方案和數(shù)據(jù)進(jìn)行評(píng)估;然后設(shè)計(jì)具體的技術(shù)方案、算法,并確定路線圖;最后從平臺(tái)建設(shè)、團(tuán)隊(duì)建設(shè)、數(shù)據(jù)建設(shè)、應(yīng)用建設(shè)幾個(gè)角度不斷完善和拓展航空大數(shù)據(jù)的應(yīng)用。航空公司需要招募數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集成、數(shù)據(jù)處理、Hadoop 等方面的人才,逐漸形成一套適合自己而又不斷完善的客戶管理方案,從而追蹤和了解客戶所需,做出最有效的決策。
航空大數(shù)據(jù)是大數(shù)據(jù)研究中較為活躍的研究領(lǐng)域之一。本文首先從單純數(shù)據(jù)和系統(tǒng)性兩個(gè)角度給出了航空大數(shù)據(jù)的定義,并對(duì)其進(jìn)行了系統(tǒng)的闡述;然后全面地分析和總結(jié)了航空大數(shù)據(jù)的關(guān)鍵技術(shù);最后指出了航空大數(shù)據(jù)的幾個(gè)典型應(yīng)用場(chǎng)景,并深入地論述和分析了航空大數(shù)據(jù)中存在的問題。航空大數(shù)據(jù)的研究,一方面將會(huì)降低航空公司的運(yùn)營(yíng)成本,提升服務(wù)的精準(zhǔn)性和客戶的感知體驗(yàn),另一方面也會(huì)豐富和完善大數(shù)據(jù)技術(shù)的研究。此外,航空大數(shù)據(jù)也可應(yīng)用于運(yùn)輸、農(nóng)業(yè)和海洋巡查等具體領(lǐng)域,從而推動(dòng)航空經(jīng)濟(jì)的發(fā)展,同時(shí)也為人工智能、云計(jì)算和物聯(lián)網(wǎng)的應(yīng)用帶來光明前景。