寇寶智
層級(jí)數(shù)據(jù)格式在試飛數(shù)據(jù)歸檔中的應(yīng)用
寇寶智
(中國(guó)飛行試驗(yàn)研究院,陜西 西安 710089)
論述了層級(jí)數(shù)據(jù)格式在試飛數(shù)據(jù)歸檔中的適用性探索,介紹了層級(jí)數(shù)據(jù)格式的特點(diǎn)及應(yīng)用優(yōu)點(diǎn)。對(duì)傳統(tǒng)顫振試飛數(shù)據(jù)規(guī)整和基于HDF5歸檔的數(shù)據(jù)規(guī)整進(jìn)行結(jié)構(gòu)對(duì)比,以某小型民機(jī)顫振試飛數(shù)據(jù)歸檔為例,介紹了基于HDF5文件的試飛數(shù)據(jù)規(guī)整思路,該方法可為其他試飛科目數(shù)據(jù)歸檔提供參考。
層級(jí)數(shù)據(jù)格式;HDF5;顫振試飛數(shù)據(jù);數(shù)據(jù)歸檔
層級(jí)數(shù)據(jù)格式HDF(Hierarchical Data Format)是用來(lái)存儲(chǔ)和管理大容量復(fù)雜數(shù)據(jù)的一種數(shù)據(jù)格式,由抽象數(shù)據(jù)模型、函數(shù)庫(kù)和文件格式組成,1987年由美國(guó)伊利諾伊大學(xué)厄巴納-香檳分校國(guó)家超級(jí)計(jì)算應(yīng)用中心(NCSA)開(kāi)發(fā),現(xiàn)在由非盈利社團(tuán)HDF Group支持,HDF5為最新版本,與之前HDF4在設(shè)計(jì)和接口上有顯著區(qū)別。HDF5文件的優(yōu)秀特性使得其在天文學(xué)、物理學(xué)、計(jì)算流體力學(xué)、地球科學(xué)、工程、生物醫(yī)藥及金融等領(lǐng)域被廣泛成熟應(yīng)用,很多行業(yè)基于該文件格式設(shè)計(jì)了數(shù)據(jù)交換存儲(chǔ)的標(biāo)準(zhǔn)文件格式,如開(kāi)放地理空間信息聯(lián)盟基于HDF5設(shè)計(jì)了其官方標(biāo)準(zhǔn)[1]。美國(guó)早在F-22的航空電子飛行試驗(yàn)中經(jīng)過(guò)多種文件格式對(duì)比分析,采用該數(shù)據(jù)格式進(jìn)行了數(shù)據(jù)管理,并評(píng)測(cè)了該文件格式在實(shí)驗(yàn)室模型數(shù)據(jù)與試飛數(shù)據(jù)對(duì)比及數(shù)據(jù)應(yīng)用方面的優(yōu)勢(shì)[2]。波音和NCSA合作通過(guò)擴(kuò)展HDF5開(kāi)發(fā)了用于飛行測(cè)試數(shù)據(jù)集中管理及傳遞的相關(guān)數(shù)據(jù)容器,并進(jìn)一步挖掘其在試驗(yàn)實(shí)時(shí)數(shù)據(jù)分析中的能力[3]。LOCKARD等基于HDF5設(shè)計(jì)了工程測(cè)試數(shù)據(jù)管理系統(tǒng)[4]。在中國(guó)試飛數(shù)據(jù)管理應(yīng)用中,安然將HDF5文件格式應(yīng)用到飛行試驗(yàn)數(shù)據(jù)管理中,并基于HDF5函數(shù)庫(kù)和Python接口設(shè)計(jì)了性能專(zhuān)業(yè)試飛數(shù)據(jù)管理的專(zhuān)用文件格式[5]。查曉文等提出試飛數(shù)據(jù)具有大數(shù)據(jù)的特點(diǎn),將HDF5文件格式應(yīng)用到運(yùn)輸類(lèi)民機(jī)整架機(jī)試飛數(shù)據(jù)管理中,將多類(lèi)型測(cè)試數(shù)據(jù)進(jìn)行統(tǒng)一管理調(diào)度,測(cè)試了HDF5數(shù)據(jù)存儲(chǔ)容量及檢索速率的優(yōu)勢(shì)[6]。
近年來(lái)大數(shù)據(jù)的迅速發(fā)展已經(jīng)從互聯(lián)網(wǎng)行業(yè)擴(kuò)展到各工業(yè)領(lǐng)域,數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)均基于大規(guī)模高價(jià)值數(shù)據(jù)實(shí)現(xiàn)。大數(shù)據(jù)是一種在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型以及價(jià)值密度四大特征。其中數(shù)據(jù)的價(jià)值密度與數(shù)據(jù)的規(guī)模通常成反比,所以大數(shù)據(jù)的意義不在于掌握龐大的數(shù)據(jù),而在于對(duì)這些低價(jià)值龐大數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理,通過(guò)對(duì)數(shù)據(jù)的清洗、連接、聚合、分組、重塑及規(guī)整等各種加工后實(shí)現(xiàn)數(shù)據(jù)增值。工業(yè)生產(chǎn)及測(cè)試中產(chǎn)生的各類(lèi)數(shù)據(jù),不僅體現(xiàn)在特定應(yīng)用中的價(jià)值,海量數(shù)據(jù)形成規(guī)模價(jià)值需要迅速挖掘,其中高價(jià)值歷史數(shù)據(jù)的積累是實(shí)現(xiàn)規(guī)模應(yīng)用的基礎(chǔ)。近年來(lái)工程數(shù)據(jù)整理歸檔在飛行試驗(yàn)工程中受到極大關(guān)注,數(shù)據(jù)歸檔成為了規(guī)模數(shù)據(jù)增值的基礎(chǔ)需求。本文所述的數(shù)據(jù)歸檔類(lèi)似于傳統(tǒng)的文件歸檔,對(duì)原始數(shù)據(jù)及分析數(shù)據(jù)進(jìn)行規(guī)范化保存,實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)、檢索、審查、交換及二次開(kāi)發(fā)利用。數(shù)據(jù)的歸檔整理,使其符合相關(guān)專(zhuān)業(yè)的應(yīng)用特征,是實(shí)現(xiàn)試飛工程大數(shù)據(jù)應(yīng)用及數(shù)據(jù)挖掘、反哺飛機(jī)設(shè)計(jì)和工程管理的有效途徑,這種基于大數(shù)據(jù)統(tǒng)計(jì)的反饋,也是提高試飛效率的有效手段。
試飛工程管理中對(duì)過(guò)程文件及試飛報(bào)告有嚴(yán)格的管理規(guī)定,歸檔管理主要目標(biāo)是文件及影像資料等,數(shù)據(jù)歸檔多體現(xiàn)在整架次試飛原始測(cè)試數(shù)據(jù)歸檔,這種歸檔是對(duì)試飛工作的一種記錄與保存。試飛數(shù)據(jù)是飛機(jī)設(shè)計(jì)定型及適航取證的重要依據(jù),是對(duì)飛機(jī)設(shè)計(jì)最直接、最有效的驗(yàn)證。高價(jià)值試飛數(shù)據(jù)一般由試飛分析工程師在編寫(xiě)特定科目試飛報(bào)告中對(duì)數(shù)據(jù)進(jìn)行規(guī)整形成,相比原始數(shù)據(jù)容量要小很多,同時(shí)數(shù)據(jù)結(jié)構(gòu)組織及內(nèi)容也更加復(fù)雜多樣,所以基于數(shù)據(jù)庫(kù)的高價(jià)值試飛數(shù)據(jù)歸檔相關(guān)應(yīng)用及方法在近年來(lái)也發(fā)展迅速。不同的工程專(zhuān)業(yè)、試飛科目、試飛工程人員、數(shù)據(jù)分析軟件和數(shù)據(jù)管理系統(tǒng)與方式等,帶來(lái)試飛數(shù)據(jù)規(guī)整標(biāo)準(zhǔn)化的困難,使得試飛數(shù)據(jù)歸檔也面臨復(fù)雜的技術(shù)及管理問(wèn)題。
HDF5是用于存儲(chǔ)和分發(fā)科學(xué)數(shù)據(jù)的一種自我描述、多對(duì)象文件格式,可滿足不同科學(xué)家在不同工程項(xiàng)目領(lǐng)域的需要,可以提供科學(xué)數(shù)據(jù)存儲(chǔ)和分布的許多必要條件。其設(shè)計(jì)具有靈活性、自述性、高性能和跨平臺(tái)等特性,這些特性使得該文件格式適用于試飛數(shù)據(jù)歸檔,在復(fù)雜的試飛工程數(shù)據(jù)管理中具有極大優(yōu)勢(shì)。
靈活性體現(xiàn)在HDF5的層次結(jié)構(gòu)、豐富數(shù)據(jù)類(lèi)型和方便交互分享方面。HDF5主要包含數(shù)據(jù)集和組群兩種對(duì)象類(lèi)型,數(shù)據(jù)集一般包含各種類(lèi)型的多維數(shù)組,組是持有數(shù)據(jù)集和其他組的容器結(jié)構(gòu),這就產(chǎn)生了層級(jí)、類(lèi)似文件系統(tǒng)的數(shù)據(jù)格式,允許用戶把各種數(shù)據(jù)對(duì)象組合在一起放到層級(jí)結(jié)構(gòu)中,便于規(guī)整管理數(shù)據(jù)。通過(guò)使用合適的HDF5數(shù)據(jù)結(jié)構(gòu),符號(hào)、數(shù)字和圖形數(shù)據(jù)等許多數(shù)據(jù)類(lèi)型可以同時(shí)存儲(chǔ)在一個(gè)HDF文件里,如可以將重要試驗(yàn)現(xiàn)場(chǎng)圖片及數(shù)據(jù)圖表與原始測(cè)試數(shù)據(jù)集中到一個(gè)統(tǒng)一數(shù)據(jù)文檔中管理。HDF5文件不會(huì)被任何其他廠商平臺(tái)鎖定,單個(gè)文件可以便攜拷貝到需要的各種計(jì)算平臺(tái)中使用。
自述性使一個(gè)HDF5文件里的每一個(gè)數(shù)據(jù)對(duì)象,都可以定義關(guān)于該數(shù)據(jù)的綜合信息,即元數(shù)據(jù)。在沒(méi)有任何外部信息的情況下,允許應(yīng)用程序解釋文件的結(jié)構(gòu)和內(nèi)容。其自描述特性使得一個(gè)基于HDF5標(biāo)準(zhǔn)化后的試飛數(shù)據(jù)檔案,在沒(méi)有其他說(shuō)明文件的情況下不會(huì)影響工程人員對(duì)數(shù)據(jù)的解讀與調(diào)用。
優(yōu)異性能使基于HDF5的數(shù)據(jù)管理,占用存儲(chǔ)空間少且數(shù)據(jù)存取處理速度高。隨著機(jī)載測(cè)試技術(shù)的迅速發(fā)展,測(cè)試數(shù)據(jù)種類(lèi)和單架次測(cè)試數(shù)據(jù)規(guī)模急劇增加,同時(shí)試飛驗(yàn)證要求增多與計(jì)算機(jī)分析技術(shù)的發(fā)展,也帶來(lái)分析計(jì)算數(shù)據(jù)規(guī)模的增加。這種優(yōu)秀的空間及速度性能滿足大容量數(shù)據(jù)及高速存取接口的分析需求,也為試飛數(shù)據(jù)的實(shí)時(shí)分析與管理提供了基礎(chǔ)。
HDF5專(zhuān)門(mén)為大規(guī)??茖W(xué)數(shù)據(jù)交互設(shè)計(jì),具有豐富接口,HDF5可在個(gè)人電腦以及大型并行計(jì)算機(jī)等廣泛的計(jì)算平臺(tái)上構(gòu)建獨(dú)立軟件庫(kù),支持廣泛的操作系統(tǒng),且受大量商業(yè)及非商業(yè)軟件和編程平臺(tái)支持,如C/C++、Java、Python、R、Fortran、Julia、Matlab、Octave等,常見(jiàn)工程數(shù)據(jù)分析平臺(tái)基本都對(duì)其提供較好支持。所以HDF5具有與平臺(tái)和架構(gòu)無(wú)關(guān)且兼容性強(qiáng)的特點(diǎn),適用于匹配現(xiàn)有數(shù)據(jù)分析系統(tǒng)和數(shù) 據(jù)庫(kù)。
跨平臺(tái)、可擴(kuò)展、層級(jí)結(jié)構(gòu)和自描述的HDF5文件可實(shí)現(xiàn)關(guān)聯(lián)控制,在試飛數(shù)據(jù)規(guī)整中滿足標(biāo)準(zhǔn)化要求,其便捷性及高性能滿足試飛數(shù)據(jù)歸檔需求。
飛行試驗(yàn)會(huì)按照規(guī)劃好的各科目試飛大綱及實(shí)施方案組織進(jìn)行,試飛分析工程師一般會(huì)依據(jù)各架次規(guī)劃的試飛狀態(tài)點(diǎn)提取需要的有效試飛數(shù)據(jù),通常是整架次數(shù)據(jù)中某些參數(shù)的某些時(shí)間段數(shù)據(jù)。單架次飛行機(jī)載數(shù)據(jù)通過(guò)解碼和添加校線獲得,并按試飛狀態(tài)需求所提參數(shù)及時(shí)間段處理后,得到適用于分析的原始數(shù)據(jù)文本文件。該文本數(shù)據(jù)文件關(guān)聯(lián)的參數(shù)、數(shù)據(jù)結(jié)構(gòu)、獲取的試飛環(huán)境、試飛方法和飛機(jī)狀態(tài)等信息,均需要額外的描述文件來(lái)記錄。這種按照試飛組織規(guī)劃及數(shù)據(jù)處理工作流程自然形成的數(shù)據(jù)規(guī)整方式,符合試飛中大部分科目最終報(bào)告使用數(shù)據(jù)檔案形成的規(guī)律。如顫振試飛科目以試飛架次歸類(lèi),建立基于平臺(tái)文件夾和文件的數(shù)據(jù)規(guī)整結(jié)構(gòu)如圖1所示。
圖1 基于平臺(tái)文件夾和文件的顫振試飛數(shù)據(jù)規(guī)整結(jié)構(gòu)
科目描述文件主要記錄整體科目規(guī)劃及執(zhí)行情況,包含各架次完成情況及試飛中遇到的問(wèn)題、各架次執(zhí)行時(shí)間及部分日志等統(tǒng)計(jì)信息;架次描述文件記錄架次執(zhí)行的任務(wù)單號(hào)、氣象、飛機(jī)構(gòu)型、執(zhí)行的試飛狀態(tài)點(diǎn)、提取數(shù)據(jù)段的試飛狀態(tài)及激勵(lì)參數(shù)表等內(nèi)容;數(shù)據(jù)描述文件記錄數(shù)據(jù)組織結(jié)構(gòu)、參數(shù)及各數(shù)據(jù)段對(duì)應(yīng)的飛行狀態(tài);飛參數(shù)據(jù)文件及振動(dòng)數(shù)據(jù)文件為依據(jù)目標(biāo)試飛狀態(tài)選取的、各參數(shù)原始數(shù)據(jù)文件;分析結(jié)果文件記錄選定試飛狀態(tài)及激勵(lì)情況下顫振試飛數(shù)據(jù)處理結(jié)果,一般為分析得到的模態(tài)參數(shù)及對(duì)應(yīng)試飛狀態(tài)的統(tǒng)計(jì)信息,也有數(shù)據(jù)分析形成的圖表等文件。
這種由描述文件、原始數(shù)據(jù)文件、分析結(jié)果文件和文件夾形成的試飛數(shù)據(jù)層級(jí)規(guī)整結(jié)構(gòu)缺乏便捷性且效率較低,難以形成統(tǒng)一標(biāo)準(zhǔn)。數(shù)據(jù)歸檔需與試飛報(bào)告或?qū)I(yè)特點(diǎn)相一致,一般按照規(guī)劃的試飛狀態(tài)點(diǎn)結(jié)合科目特征進(jìn)行規(guī)整,而所需試飛狀態(tài)的數(shù)據(jù)可能存在于多個(gè)架次中,單個(gè)架次也可能包含多個(gè)試飛狀態(tài)點(diǎn)。通常在整個(gè)科目試飛結(jié)束后,需要重新整理數(shù)據(jù)及描述文件,以滿足數(shù)據(jù)歸檔需求,數(shù)據(jù)組織方式的改變,往往容易使部分關(guān)聯(lián)數(shù)據(jù)丟失且耗費(fèi)精力。
基于HDF5文件格式設(shè)計(jì)一種結(jié)合試飛狀態(tài)點(diǎn)和專(zhuān)業(yè)特點(diǎn)的試飛數(shù)據(jù)規(guī)整方法,通過(guò)各元數(shù)據(jù)關(guān)聯(lián)原始數(shù)據(jù)重要信息以代替各種描述文件,方便進(jìn)行標(biāo)準(zhǔn)化及統(tǒng)一部署?;贖DF5設(shè)計(jì)的顫振試飛數(shù)據(jù)規(guī)整結(jié)構(gòu)如圖2所示。由于所有的組和數(shù)據(jù)集均可定義元數(shù)據(jù),把傳統(tǒng)的數(shù)據(jù)描述文件包含的各種參數(shù)和定義均放置于對(duì)應(yīng)的組和數(shù)據(jù)集的元數(shù)據(jù)中,與數(shù)據(jù)自動(dòng)關(guān)聯(lián),增強(qiáng)數(shù)據(jù)的可讀性。如某一掃頻激勵(lì)形成的振動(dòng)數(shù)據(jù)集,其對(duì)應(yīng)的激勵(lì)舵面、激勵(lì)時(shí)間、頻率范圍和激勵(lì)幅值等激勵(lì)參數(shù)可直接放置在該數(shù)據(jù)集對(duì)應(yīng)的元數(shù)據(jù)中;各狀態(tài)點(diǎn)的組元數(shù)據(jù)存儲(chǔ)該狀態(tài)點(diǎn)所要求的高度、速度等相關(guān)參數(shù)等。采用HDF5進(jìn)行數(shù)據(jù)規(guī)整管理,可以通過(guò)編程接口,方便調(diào)用其中的原始數(shù)據(jù)。通過(guò)將原始數(shù)據(jù)、數(shù)據(jù)處理分析結(jié)果和重要圖片放在一個(gè)HDF5文件中歸檔,不僅記錄了原始數(shù)據(jù),同時(shí)與試飛報(bào)告加強(qiáng)了關(guān)聯(lián),有利于過(guò)程記錄及驗(yàn)證查詢需求。
圖2 基于HDF5的顫振試飛數(shù)據(jù)規(guī)整結(jié)構(gòu)
基于HDF5設(shè)計(jì)的某小型民用飛機(jī)顫振試飛歸檔數(shù)據(jù)文件如圖3所示,該數(shù)據(jù)文件包含7個(gè)試飛狀態(tài)點(diǎn)、分析結(jié)果數(shù)據(jù)及部分分析結(jié)果圖片,每個(gè)試飛狀態(tài)點(diǎn)按照激勵(lì)方式分類(lèi)存放在原始數(shù)據(jù)段,其他所有的描述參數(shù)均放置在各組或數(shù)據(jù)集的元數(shù)據(jù)中。這種數(shù)據(jù)組織方式便于進(jìn)行數(shù)據(jù)查詢、檢索及調(diào)用。
圖3 某小型民用飛機(jī)顫振試飛的HDF5歸檔數(shù)據(jù)文件
指定傳感器振動(dòng)均方根值隨速度變化趨勢(shì)如圖4所示。采用該數(shù)據(jù)格式文件,只需要通過(guò)編程接口操作該單一文件,像查詢數(shù)據(jù)庫(kù)一樣,按照數(shù)據(jù)組織結(jié)構(gòu)檢索并結(jié)合元數(shù)據(jù)進(jìn)行篩選,調(diào)取各數(shù)據(jù)集中符合要求的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)即可得到結(jié)果。如果基于傳統(tǒng)模式,需要打開(kāi)各數(shù)據(jù)描述文件查找符合條件的數(shù)據(jù)文件,并打開(kāi)每個(gè)數(shù)據(jù)文件提取四個(gè)加速度傳感器數(shù)據(jù)進(jìn)行整合統(tǒng)計(jì),最終形成統(tǒng)計(jì)結(jié)果,雖然文本數(shù)據(jù)文件中特定傳感器數(shù)據(jù)獲取與分析也可以編程實(shí)現(xiàn),但是必須依靠數(shù)據(jù)描述文件尋找符合條件的文本數(shù)據(jù)文件,顯著降低了效率。同時(shí)這種HDF5數(shù)據(jù)規(guī)整結(jié)構(gòu)可以通過(guò)接口程序轉(zhuǎn)換為基于飛行時(shí)間或其他狀態(tài)的數(shù)據(jù)規(guī)整結(jié)構(gòu),方便適配各種后續(xù)應(yīng)用的數(shù)據(jù)接口。
圖4 指定傳感器振動(dòng)均方根值隨速度變化趨勢(shì)
以上實(shí)例是HDF5在顫振試飛數(shù)據(jù)歸檔中的應(yīng)用,主要數(shù)據(jù)為采樣率256的加速度傳感器數(shù)據(jù)。振動(dòng)環(huán)境試飛的采樣率可達(dá)到8 000,噪聲更高,所需提取的試飛狀態(tài)也更多,這就極大增加了歸檔數(shù)據(jù)的規(guī)模。采用HDF5格式的歸檔數(shù)據(jù),可應(yīng)用其數(shù)據(jù)壓縮功能節(jié)省存儲(chǔ)空間,同時(shí)其高速訪問(wèn)特性有利于分析軟件的高效調(diào)用。
基于HDF5設(shè)計(jì)實(shí)現(xiàn)的數(shù)據(jù)存檔文件,是一個(gè)具有層級(jí)和自描述特性且便于標(biāo)準(zhǔn)化管理的單一文件,適用于查檔、規(guī)模數(shù)據(jù)積累及數(shù)據(jù)挖掘等。這種層級(jí)數(shù)據(jù)結(jié)構(gòu)在試飛數(shù)據(jù)歸檔及實(shí)現(xiàn)數(shù)據(jù)規(guī)模應(yīng)用價(jià)值中值得采用和持續(xù)開(kāi)發(fā),有利于高價(jià)值試飛數(shù)據(jù)的傳承及再利用。
建議以層級(jí)數(shù)據(jù)格式的試飛數(shù)據(jù)歸檔為基礎(chǔ),形成相關(guān)專(zhuān)業(yè)的試飛數(shù)據(jù)庫(kù),進(jìn)一步開(kāi)發(fā)后端及數(shù)據(jù)分析挖掘算法及工具,實(shí)現(xiàn)大數(shù)據(jù)在試飛工程中的更廣泛應(yīng)用。
[1]OGC采用、公布第5版層次型數(shù)據(jù)格式核心標(biāo)準(zhǔn)[J].測(cè)繪標(biāo)準(zhǔn)化,2020,36(4):16.
[2]BARNUM J.The use of hdf in f-22 avionics test and evaluation[C]//International telemetering conference proceedings,1996.
[3]WEGENER J A,DAVIS R L.Extension of a common data format for real-time applications[C]//International telemetering conference proceedings international foundation for telemetering,2004.
[4]LOCKARD M T,RAJAGOPALAN R,ARLING J A.Mining irig-106 chapter 10 and hdf-5 data[C]// International telemetering conference proceedings,2006.
[5]安然.HDF5文件格式在飛行試驗(yàn)數(shù)據(jù)管理中的應(yīng)用 [J].中國(guó)科技信息,2013(12):90-91.
[6]查曉文,王加熙,李成浩.基于HDF5的試飛數(shù)據(jù)格式研究[C]//2019航空裝備服務(wù)保障與維修技術(shù)論壇暨中國(guó)航空工業(yè)技術(shù)裝備工程協(xié)會(huì)年會(huì),2019.
2095-6835(2021)06-0158-03
V217
A
10.15913/j.cnki.kjycx.2021.06.065
寇寶智(1989—),男,碩士,工程師,研究方向?yàn)轱w行器顫振試飛。
〔編輯:嚴(yán)麗琴〕