姚鵬飛
(92493部隊(duì) 葫蘆島 125000)
在武器裝備試驗(yàn)領(lǐng)域,隨著試驗(yàn)任務(wù)項(xiàng)目的急劇增長(zhǎng)和裝備信息化水平的不斷提升,試驗(yàn)過(guò)程中產(chǎn)生的各類(lèi)試驗(yàn)信息在數(shù)據(jù)量上和類(lèi)型上不斷增加,伴隨而來(lái)的是數(shù)據(jù)處理時(shí)效不高、數(shù)據(jù)資源利用率偏低的問(wèn)題,這已成為制約裝備試驗(yàn)的一個(gè)重要瓶頸。當(dāng)前,大數(shù)據(jù)相關(guān)技術(shù)已成為處理海量數(shù)據(jù)、挖掘有用信息、輔助指揮決策的有效方式[11~12]。因此,面對(duì)日益增長(zhǎng)的試驗(yàn)數(shù)據(jù)量及處理任務(wù),急需加強(qiáng)對(duì)基于大數(shù)據(jù)技術(shù)的裝備試驗(yàn)數(shù)據(jù)應(yīng)用管理平臺(tái)的研究,以其實(shí)現(xiàn)對(duì)各類(lèi)數(shù)據(jù)資源的高效管理和應(yīng)用,從而為改進(jìn)試驗(yàn)方式、提高試驗(yàn)效率提供快速、精準(zhǔn)決策。
大數(shù)據(jù)是指無(wú)法在一定的時(shí)間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合[1]。目前,通常用4V特征對(duì)大數(shù)據(jù)基本特點(diǎn)進(jìn)行描述。1)Volume:數(shù)據(jù)量巨大。由傳統(tǒng)TB級(jí)數(shù)據(jù)量向PB級(jí)數(shù)據(jù)量發(fā)展再到向ZB級(jí)數(shù)據(jù)量發(fā)展已成為大數(shù)據(jù)發(fā)展的基本趨勢(shì)。2)Variety:數(shù)據(jù)類(lèi)型多樣。大數(shù)據(jù)不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括各種非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)類(lèi)型,而且非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)類(lèi)型比重遠(yuǎn)遠(yuǎn)大于結(jié)構(gòu)化數(shù)據(jù),增加了數(shù)據(jù)處理的難度。3)Value:價(jià)值密度很低。大數(shù)據(jù)中的數(shù)據(jù)價(jià)值密度與數(shù)據(jù)量成反比。4)Velocity:處理速度快。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的處理、分析、存儲(chǔ)和管理通常要達(dá)到秒級(jí)的響應(yīng)水平,以用來(lái)支持和輔助用戶決策。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)產(chǎn)生的效益日益明顯,目前通運(yùn)輸、醫(yī)療、金融、電商等領(lǐng)域得到廣泛應(yīng)用[2~3]。在軍事領(lǐng)域,美國(guó)國(guó)防部及國(guó)防高級(jí)研究計(jì)劃局已將“數(shù)據(jù)到?jīng)Q策”、“網(wǎng)絡(luò)內(nèi)部威脅”、“影像檢索與分析”等10個(gè)項(xiàng)目列入研究計(jì)劃,著力提高美軍在大數(shù)據(jù)獲取、管理和分析等方面的能力,已經(jīng)成為美軍建設(shè)的戰(zhàn)略重點(diǎn)[4]。大數(shù)據(jù)技術(shù)應(yīng)用已成為戰(zhàn)斗力生成的一個(gè)重要標(biāo)志,美軍在2013年試飛的X-47B無(wú)人機(jī)[5],基于大數(shù)據(jù)分析技術(shù),成功實(shí)現(xiàn)了無(wú)人條件下的自主決策和自主行動(dòng)[10]。近年來(lái),我軍在指揮信息系統(tǒng)大數(shù)據(jù)建設(shè)、裝備保障大數(shù)據(jù)建設(shè)做了一些有益探索,但在大數(shù)據(jù)實(shí)際應(yīng)用方面還處于初步階段[6~8]。
1)數(shù)據(jù)量大。當(dāng)前,武器裝備信息化程度越來(lái)越高,裝備試驗(yàn)無(wú)論是試驗(yàn)?zāi)K還是整個(gè)測(cè)試過(guò)程中,測(cè)量設(shè)備多、測(cè)量參數(shù)多,所產(chǎn)生的數(shù)據(jù)量很大[9]。通常來(lái)講,裝備試驗(yàn)數(shù)據(jù)通常包括試驗(yàn)文書(shū)和試驗(yàn)資料等試驗(yàn)檔案數(shù)據(jù),也包括測(cè)試數(shù)據(jù)、觀測(cè)數(shù)據(jù)、目標(biāo)特性數(shù)據(jù)、環(huán)境物理場(chǎng)數(shù)據(jù)、模型與仿真數(shù)據(jù)和計(jì)量校標(biāo)數(shù)據(jù)等。另外,數(shù)字化高清視頻圖像監(jiān)測(cè)設(shè)備在裝備試驗(yàn)中的應(yīng)用越來(lái)越普遍,所產(chǎn)生的視頻圖像數(shù)據(jù)與日俱增。
2)數(shù)據(jù)類(lèi)型多樣。試驗(yàn)對(duì)象測(cè)試數(shù)據(jù)的多樣、測(cè)試項(xiàng)目的增加、測(cè)試手段的改變?cè)斐煞墙Y(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的大量出現(xiàn)。非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)主要包括試驗(yàn)過(guò)程中產(chǎn)生的圖像、數(shù)字、文字、視頻、音頻等類(lèi)型數(shù)據(jù),其規(guī)模和復(fù)雜度都超越現(xiàn)有常規(guī)技術(shù)能夠處理分析的范圍。
3)數(shù)據(jù)應(yīng)用價(jià)值高。武器裝備試驗(yàn)數(shù)據(jù)對(duì)于裝備全壽命周期的有效期很長(zhǎng),往往可以長(zhǎng)達(dá)十幾年至幾十年,早期試驗(yàn)數(shù)據(jù)也可能有很高的利用和使用價(jià)值。通過(guò)分析歷史試驗(yàn)數(shù)據(jù),可以發(fā)現(xiàn)以往試驗(yàn)過(guò)程中存在的問(wèn)題及需要改進(jìn)的環(huán)節(jié),從而提高武器裝備試驗(yàn)效率,保證武器裝備質(zhì)量。
4)數(shù)據(jù)處理速度快。由于武器裝備試驗(yàn)存在型號(hào)、批次上的不同,試驗(yàn)項(xiàng)目中往往會(huì)用到不同的采集分析軟件,造成試驗(yàn)數(shù)據(jù)在處理上相對(duì)分散,數(shù)據(jù)的處理時(shí)效和數(shù)據(jù)的完整性得不到根本保障。因此,迫切需要采用大數(shù)據(jù)技術(shù),實(shí)現(xiàn)對(duì)數(shù)據(jù)的高效快速分析、存儲(chǔ)及管理,從而達(dá)到改進(jìn)試驗(yàn)手段、輔助首長(zhǎng)決策的目的。
裝備試驗(yàn)數(shù)據(jù)信息資源主要用于對(duì)裝備是否滿足戰(zhàn)術(shù)技術(shù)要求、研制方案是否正確做出客觀評(píng)價(jià);提出裝備存在的主要問(wèn)題和改進(jìn)建議;估計(jì)裝備作戰(zhàn)的適用性和效能,為裝備能否定型或裝備部隊(duì)提供依據(jù)。當(dāng)前,受整體技術(shù)水平、管理手段和科研基礎(chǔ)條件建設(shè)等因素的制約,裝備試驗(yàn)數(shù)據(jù)的管理與應(yīng)用存在著如下問(wèn)題:
1)歷史試驗(yàn)數(shù)據(jù)數(shù)字化程度較低。長(zhǎng)期以來(lái),由于基礎(chǔ)條件建設(shè)和技術(shù)手段等方面原因,很多歷史試驗(yàn)信息記錄采用紙制、膠片等非數(shù)字化方式進(jìn)行存儲(chǔ),未進(jìn)行數(shù)字化處理工作,裝備試驗(yàn)數(shù)據(jù)安全性、完整性得不到保障。
2)試驗(yàn)數(shù)據(jù)融合度較低。裝備試驗(yàn)數(shù)據(jù)數(shù)量多、規(guī)模大、種類(lèi)全。但是對(duì)試驗(yàn)信息資源的體系性建設(shè)和集約化應(yīng)用研究投入太少,裝備試驗(yàn)數(shù)據(jù)信息“孤島”太多,各種試驗(yàn)信息相對(duì)分散、無(wú)序、雜亂,缺乏對(duì)試驗(yàn)數(shù)據(jù)的有效管理、應(yīng)用研究、綜合集成和融合再生。
3)試驗(yàn)數(shù)據(jù)的利用和挖掘程度較低。長(zhǎng)期以來(lái),試驗(yàn)信息主要用于試驗(yàn)結(jié)果報(bào)告編寫(xiě)和簡(jiǎn)單的存儲(chǔ)歸檔,缺乏試驗(yàn)信息二次及多次開(kāi)發(fā)的必要手段,試驗(yàn)數(shù)據(jù)利用率低,多層次、多視角的數(shù)據(jù)挖掘工作開(kāi)展不夠深入,試驗(yàn)數(shù)據(jù)綜合價(jià)值和效益發(fā)揮不充分。
綜上所述,裝備試驗(yàn)數(shù)據(jù)已經(jīng)滿足大數(shù)據(jù)的基本特征且存在很大的潛在價(jià)值,開(kāi)展裝備試驗(yàn)大數(shù)據(jù)應(yīng)用研究對(duì)于數(shù)據(jù)的管理、分析和深度挖掘具有重要的軍事應(yīng)用價(jià)值。
由于試驗(yàn)數(shù)據(jù)資源來(lái)源廣泛、數(shù)據(jù)量大、格式不統(tǒng)一,且大多數(shù)為視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)的Oracle、DB2等關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足試驗(yàn)數(shù)據(jù)的存儲(chǔ)需求。在這種情況和背景下,NoSQL數(shù)據(jù)庫(kù)以其自身靈活的可擴(kuò)展性、靈活的數(shù)據(jù)模型、與云計(jì)算緊密融合的特點(diǎn)成為試驗(yàn)大數(shù)據(jù)存儲(chǔ)的必然選擇。它可以支持海量數(shù)據(jù)的存儲(chǔ)管理,彌補(bǔ)了關(guān)系型數(shù)據(jù)庫(kù)在存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)方面的不足和缺陷。在裝備試驗(yàn)大數(shù)據(jù)應(yīng)用平臺(tái)架構(gòu)中,對(duì)于已經(jīng)存儲(chǔ)在關(guān)系數(shù)據(jù)中的裝備試驗(yàn)基本信息仍然采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),對(duì)于試驗(yàn)過(guò)程中產(chǎn)生的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)采用基于NoSQl的云數(shù)據(jù)庫(kù),一方面,可以充分利用平臺(tái)自身的基礎(chǔ)設(shè)施服務(wù),提高資源利用效率,另一方面,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的高效管理,從而解決試驗(yàn)任務(wù)劇增后海量試驗(yàn)數(shù)據(jù)量的存儲(chǔ)和高并發(fā)、低延遲的讀寫(xiě)效率。
在大數(shù)據(jù)領(lǐng)域中,要想從海量數(shù)據(jù)中獲取到相對(duì)有價(jià)值的數(shù)據(jù)信息就需要從多個(gè)維度進(jìn)行分析和挖掘。對(duì)裝備試驗(yàn)數(shù)據(jù)而言,試驗(yàn)數(shù)據(jù)通常都是在試驗(yàn)過(guò)程中采集,試驗(yàn)數(shù)據(jù)的處理對(duì)于響應(yīng)時(shí)間沒(méi)有特別高的要求,因此可以通過(guò)數(shù)據(jù)采集工具將大數(shù)據(jù)導(dǎo)入專用的數(shù)據(jù)處理平臺(tái)進(jìn)行分析,通常采用基于Hadoop的離線分析架構(gòu),從而減小數(shù)據(jù)格式轉(zhuǎn)換的代價(jià)。對(duì)于試驗(yàn)數(shù)據(jù)的挖掘,主要是使用R預(yù)言等大數(shù)據(jù)分析挖掘工具,通過(guò)常用的大數(shù)據(jù)挖掘算法,實(shí)現(xiàn)對(duì)數(shù)據(jù)的關(guān)聯(lián)規(guī)則和分類(lèi)、聚類(lèi)的分析,從多個(gè)維度深度挖掘數(shù)據(jù)之間存在的相互關(guān)系,提取有價(jià)值信息。
圖1展示了基于Hadoop處理架構(gòu)的數(shù)據(jù)處理過(guò)程。首先將數(shù)據(jù)拆分成多個(gè)Map任務(wù)在多臺(tái)機(jī)器上進(jìn)行并行處理,每個(gè)Map任務(wù)通常運(yùn)行在數(shù)據(jù)存儲(chǔ)的節(jié)點(diǎn)上,將計(jì)算和數(shù)據(jù)放在一塊執(zhí)行,減小額外的數(shù)據(jù)傳輸時(shí)間。Map任務(wù)產(chǎn)生的中間結(jié)果會(huì)被分發(fā)到多個(gè)Reduce任務(wù)并在多臺(tái)機(jī)器上進(jìn)行并行執(zhí)行,Reduce任務(wù)結(jié)束后會(huì)對(duì)中間結(jié)果進(jìn)行匯總,產(chǎn)生最終輸出結(jié)果。
圖1 基于Hadoop處理架構(gòu)的數(shù)據(jù)處理過(guò)程
依托現(xiàn)有大數(shù)據(jù)分析挖掘工具和常用算法,根據(jù)用戶的需求,以儀表盤(pán)、駕駛艙等多種方式實(shí)現(xiàn)對(duì)分析挖掘結(jié)果的展現(xiàn),為試驗(yàn)方案改進(jìn)提供技術(shù)集成和決策支持。
裝備試驗(yàn)大數(shù)據(jù)應(yīng)用架構(gòu)根據(jù)試驗(yàn)過(guò)程中采集的數(shù)據(jù)類(lèi)型的不同,使用不同的數(shù)據(jù)存儲(chǔ)模式和處理方式,對(duì)于環(huán)境物理場(chǎng)數(shù)據(jù)、測(cè)試數(shù)據(jù)等實(shí)時(shí)性要求較高的數(shù)據(jù),采用基于Spark框架的內(nèi)存計(jì)算模式,提高處理時(shí)效,對(duì)于試驗(yàn)資料檔案數(shù)據(jù)等實(shí)時(shí)性要求不高的數(shù)據(jù),采用基于Hadoop框架的離線批處理架構(gòu)。在數(shù)據(jù)存儲(chǔ)方面,基于HDFS文件存儲(chǔ)系統(tǒng),綜合關(guān)系型數(shù)據(jù)庫(kù)和NoSQL數(shù)據(jù)庫(kù)優(yōu)缺點(diǎn),對(duì)數(shù)據(jù)進(jìn)行分類(lèi)存儲(chǔ)。大數(shù)據(jù)處理框架中包含了多種框架融合計(jì)算調(diào)度方式,包含離線批處理計(jì)算、在線實(shí)時(shí)分析計(jì)算、流式計(jì)算等多種計(jì)算方式。
大數(shù)據(jù)應(yīng)用總體架構(gòu)為4層結(jié)構(gòu),主要包括大數(shù)據(jù)資源層、大數(shù)據(jù)存儲(chǔ)處理層、大數(shù)據(jù)分析層、大數(shù)據(jù)應(yīng)用管理支撐層、大數(shù)據(jù)應(yīng)用服務(wù)層,如圖2所示。
裝備試驗(yàn)大數(shù)據(jù)由于試驗(yàn)項(xiàng)目的復(fù)雜性、測(cè)量測(cè)試裝備的多樣性,所產(chǎn)生的數(shù)據(jù)資源種類(lèi)繁多、結(jié)構(gòu)復(fù)雜、數(shù)量大,數(shù)據(jù)資源層主要需要實(shí)現(xiàn)對(duì)多類(lèi)異構(gòu)數(shù)據(jù)源的采集,構(gòu)建覆蓋試驗(yàn)資料檔案數(shù)據(jù)、環(huán)境物理場(chǎng)數(shù)據(jù)、模型與仿真數(shù)據(jù)、觀測(cè)數(shù)據(jù)、測(cè)試數(shù)據(jù)、計(jì)量校標(biāo)數(shù)據(jù)、目標(biāo)特性數(shù)據(jù)、試驗(yàn)音視頻數(shù)據(jù)的試驗(yàn)大數(shù)據(jù)資源層,內(nèi)容涉及到裝備的組成結(jié)構(gòu)、工作原理、操作使用、維護(hù)保養(yǎng)、故障維修、技術(shù)性能和試驗(yàn)環(huán)境、試驗(yàn)實(shí)時(shí)態(tài)勢(shì)、試驗(yàn)勤務(wù)保障、試驗(yàn)裝備保障等各個(gè)方面。
裝備試驗(yàn)大數(shù)據(jù)處理層采用分布式計(jì)算框架,可以實(shí)現(xiàn)對(duì)不同計(jì)算框架的統(tǒng)一資源調(diào)度和管理。根據(jù)試驗(yàn)中數(shù)據(jù)源、數(shù)據(jù)類(lèi)型和數(shù)據(jù)關(guān)系的不同采用不同的數(shù)據(jù)存儲(chǔ)服務(wù)和存儲(chǔ)系統(tǒng),滿足不同數(shù)據(jù)類(lèi)型的處理效率,為裝備試驗(yàn)數(shù)據(jù)的高效存儲(chǔ)管理提供保證。多框架融合計(jì)算調(diào)度實(shí)現(xiàn)對(duì)底層集群硬件資源的統(tǒng)一調(diào)度和管理,將CPU、內(nèi)存通過(guò)虛擬化手段形成資源池,實(shí)現(xiàn)負(fù)載均衡和效率的提升。
試驗(yàn)大數(shù)據(jù)分析層主要是構(gòu)建裝備試驗(yàn)大數(shù)據(jù)應(yīng)用服務(wù)的挖掘分析工具及知識(shí)庫(kù)。面向裝備試驗(yàn)大數(shù)據(jù)應(yīng)用服務(wù)領(lǐng)域,對(duì)通用數(shù)據(jù)挖掘工具進(jìn)行優(yōu)化改造及并行化實(shí)現(xiàn),為裝備試驗(yàn)大數(shù)據(jù)應(yīng)用服務(wù)提供專用的分析模型庫(kù)。在裝備試驗(yàn)大數(shù)據(jù)挖掘利用的基礎(chǔ)上,輔以裝備試驗(yàn)領(lǐng)域知識(shí)構(gòu)建技術(shù),建立知識(shí)庫(kù)模型。
應(yīng)用管理支撐層將實(shí)現(xiàn)平臺(tái)對(duì)外的標(biāo)準(zhǔn)化服務(wù)注冊(cè)、封裝、調(diào)用、開(kāi)發(fā)提供大數(shù)據(jù)應(yīng)用支撐平臺(tái),為相互邏輯隔離、獨(dú)立運(yùn)行的數(shù)據(jù)提供方和數(shù)據(jù)使用方創(chuàng)建交互環(huán)境。主要包含四個(gè)部分:數(shù)據(jù)安全服務(wù)、運(yùn)營(yíng)安全服務(wù)、數(shù)據(jù)管理服務(wù)、數(shù)據(jù)服務(wù)總線。
應(yīng)用層主要是基于統(tǒng)一的門(mén)戶,為用戶提供報(bào)表、即席查詢、分發(fā)、下載等數(shù)據(jù)資源服務(wù)以及試驗(yàn)數(shù)據(jù)分析處理等數(shù)據(jù)挖掘分析服務(wù)。另外,應(yīng)用層還提供數(shù)據(jù)分析接口和系統(tǒng)功能接口等基礎(chǔ)平臺(tái)服務(wù),便于平臺(tái)功能擴(kuò)展及對(duì)其他應(yīng)用功能的綜合集成。
圖2 裝備試驗(yàn)大數(shù)據(jù)應(yīng)用總體架構(gòu)
大數(shù)據(jù)、云計(jì)算等技術(shù)作為信息領(lǐng)域的重要技術(shù)手段,給裝備試驗(yàn)大數(shù)據(jù)建設(shè)發(fā)展帶來(lái)了新的發(fā)展機(jī)遇。本文就裝備試驗(yàn)數(shù)據(jù)的特點(diǎn)及應(yīng)用現(xiàn)狀,結(jié)合大數(shù)據(jù)相關(guān)技術(shù),提出裝備試驗(yàn)大數(shù)據(jù)應(yīng)用架構(gòu),可為裝備試驗(yàn)數(shù)據(jù)的應(yīng)用提供一條有效路徑,為其在裝備試驗(yàn)領(lǐng)域應(yīng)用提供參考。