/中國航天科技集團有限公司
田雪穎、王志梅 /中國航天標準化研究所
航天裝備試驗鑒定工作從2017年3月開始全面展開,將全生命周期航天裝備試驗統(tǒng)一規(guī)范為性能試驗、作戰(zhàn)試驗和在役考核3個階段。試驗鑒定工作的開展,將產(chǎn)生大量的試驗數(shù)據(jù)、試驗文件等信息,如何全面掌握這些試驗信息,并充分利用這些信息挖掘隱藏在數(shù)據(jù)間的巨大價值以及分析預測裝備性能指標是亟待解決的問題。大數(shù)據(jù)技術作為新一代信息技術的代表,具有復雜的數(shù)據(jù)處理和數(shù)據(jù)分析能力,是實現(xiàn)數(shù)據(jù)融合管理、數(shù)據(jù)分析、知識決策支持和成果共享的有效途徑。因此,筆者將介紹基于大數(shù)據(jù)技術進行航天裝備試驗鑒定數(shù)據(jù)管理及數(shù)據(jù)分析應用研究的部分內(nèi)容。
試驗鑒定數(shù)據(jù)包括各級各類產(chǎn)品按照試驗鑒定工作要求開展的各種試驗相關內(nèi)容,按照數(shù)據(jù)的結構化形式可以將試驗鑒定數(shù)據(jù)分為非結構化數(shù)據(jù)、結構化數(shù)據(jù)和半結構化數(shù)據(jù)3類。
非結構化數(shù)據(jù)指試驗鑒定過程中產(chǎn)生的文檔資料,主要包括:一案三綱、研制總要求、試驗任務書、試驗條件與試驗要求、質量保證大綱、計劃進度、安全技術要求和安全技術措施、試驗報告、故障分析報告、試驗鑒定總結報告、成熟度評價報告、可靠性評估報告、試驗鑒定申請報告、狀態(tài)鑒定結論、試驗鑒定批復等。
結構化數(shù)據(jù)指以二維表結構形式按照規(guī)定數(shù)據(jù)格式和長度規(guī)范要求保存的數(shù)據(jù),主要包括:被試產(chǎn)品的描述、試驗項目、試驗時間、試驗單位、試驗條件和要求、試驗設備狀況、試驗產(chǎn)品測量參數(shù)、試驗結果、異常情況等。
半結構化數(shù)據(jù)指原始聲像影像資料和人工記錄的數(shù)據(jù)及文字資料,如試驗時間、試驗工況、試驗狀態(tài)、參試人員、異?,F(xiàn)象等。
試驗鑒定數(shù)據(jù)具有一般意義上大數(shù)據(jù)的相同特點,即數(shù)據(jù)量足夠大(Volume)、數(shù)據(jù)的種類多樣(Variety)、數(shù)據(jù)的增長及處理速度快(Velocity)、數(shù)據(jù)蘊藏價值大(Value)等。
Volume:試驗鑒定數(shù)據(jù)范圍廣,包括各級各類航天裝備在性能試驗、作戰(zhàn)試驗和在役考核3個階段各項試驗數(shù)據(jù),數(shù)據(jù)采集、存儲和計算量巨大,已經(jīng)從TB(太字節(jié))級別躍升至PB(拍字節(jié))級別,傳統(tǒng)技術很難滿足其存儲和處理要求。
Variety:試驗鑒定數(shù)據(jù)的種類紛繁,包括文本、文檔、表格、數(shù)據(jù)、圖像、音視頻等結構化、半結構化與非結構化數(shù)據(jù),并且試驗鑒定數(shù)據(jù)來源較多,性能試驗階段的數(shù)據(jù)主要來源于工業(yè)部門,作戰(zhàn)試驗和在役考核數(shù)據(jù)主要來源于作戰(zhàn)部隊、試驗基地、測控站等。
Velocity:試驗鑒定數(shù)據(jù)每分每秒都在爆炸性的增長,如某型號一次綜合試驗就要產(chǎn)生2GB的數(shù)據(jù),一次熱待機試驗產(chǎn)生20GB數(shù)據(jù),傳統(tǒng)技術處理這些數(shù)據(jù)的時間較長,嚴重影響數(shù)據(jù)判讀的實時性。
Value:試驗鑒定數(shù)據(jù)存在著巨大的待挖掘價值,利用試驗鑒定數(shù)據(jù)可以摸清裝備性能底數(shù)、分析裝備的作戰(zhàn)效能、確定保障效能、計算任務滿足度、評估裝備質量穩(wěn)定性,從而可改進提升裝備性能、反推裝備研制需求,但由于龐大的數(shù)據(jù)量基數(shù)及數(shù)據(jù)量的不斷增加,數(shù)據(jù)的單位價值密度相對較低。
試驗鑒定數(shù)據(jù)存在著巨大的待挖掘價值,利用試驗鑒定數(shù)據(jù)可以摸清裝備性能底數(shù)、分析裝備的作戰(zhàn)效能、確定保障效能、計算任務滿足度、評估裝備質量穩(wěn)定性,從而可改進提升裝備性能、反推裝備研制需求,但由于龐大的數(shù)據(jù)量基數(shù)及數(shù)據(jù)量的不斷增加,數(shù)據(jù)的單位價值密度相對較低。
當前,航天產(chǎn)業(yè)的發(fā)展正經(jīng)歷著數(shù)據(jù)大爆炸時代,數(shù)據(jù)不僅是海量的,更是復雜的。在此背景下,航天裝備試驗鑒定數(shù)據(jù)管理存在以下幾個問題:
一是試驗鑒定數(shù)據(jù)管理要求尚不明確。按照試驗鑒定管理工作新要求,目前一些航天裝備已有的原始觀測數(shù)據(jù)、業(yè)務處理數(shù)據(jù)、試驗評估數(shù)據(jù)等大多應該屬于性能試驗階段的數(shù)據(jù),而在役考核和作戰(zhàn)試驗屬于新界定的工作要求,具體試驗項目尚待進一步明確,在役考核環(huán)節(jié)雖已采集相關試驗數(shù)據(jù),但該方面的數(shù)據(jù)尚未能系統(tǒng)管理。
二是試驗鑒定數(shù)據(jù)分散在各單位,缺乏統(tǒng)一管理平臺。航天裝備試驗鑒定數(shù)據(jù)分散在各單位、各部門,未進行集中管理,型號抓總單位對型號試驗鑒定數(shù)據(jù)的全局情況掌握不全面,在對已有的試驗數(shù)據(jù)進行查詢時,需要通過多種渠道才可以收集完備,信息綜合查詢工作效率較低,難以實現(xiàn)試驗鑒定數(shù)據(jù)的全面對比。
三是試驗鑒定數(shù)據(jù)缺少規(guī)范化管理,不利于數(shù)據(jù)的共享傳遞。各部門間數(shù)據(jù)采集、數(shù)據(jù)分析等工作缺少統(tǒng)一的標準、規(guī)范,數(shù)據(jù)項內(nèi)容和格式不一致,試驗數(shù)據(jù)在各部門間傳遞時不能直接使用,數(shù)據(jù)傳遞難以形成便捷暢通的渠道,數(shù)據(jù)共享困難造成各單位各部門信息不透明、不對等的情況嚴重,型號抓總單位難以進行信息匯總,給數(shù)據(jù)的宏觀分析和深度挖掘工作帶來了不便。
四是試驗鑒定數(shù)據(jù)缺乏綜合處理分析工具,自動化程度和信息利用效率低。當前,各單位設計開發(fā)的數(shù)據(jù)庫、信息系統(tǒng)一般僅是基于數(shù)據(jù)管理的需求,而非數(shù)據(jù)分析的需求,所以在此基礎上缺乏綜合統(tǒng)計分析和數(shù)據(jù)挖掘的工具、手段,信息分析工作往往需要采用人工統(tǒng)計的方式進行,自動化程度低,對型號性能試驗數(shù)據(jù)、作戰(zhàn)試驗數(shù)據(jù)和在役考核數(shù)據(jù)等分析不足,不利于型號和主管部門的決策管理。
航天裝備試驗鑒定應建設大數(shù)據(jù)管理與分析平臺,將各單位的試驗鑒定數(shù)據(jù)進行集中、規(guī)范與融合,在此基礎上設計開發(fā)大數(shù)據(jù)統(tǒng)計分析和數(shù)據(jù)挖掘工具,消除數(shù)據(jù)割裂的局面,充分發(fā)揮大數(shù)據(jù)分析挖掘數(shù)據(jù)的優(yōu)勢,實現(xiàn)基于全方位、全階段、海量數(shù)據(jù)的挖掘分析,最大化提高信息處理和分析效率。
基于當前主流的大數(shù)據(jù)平臺體系架構,結合試驗鑒定數(shù)據(jù)的特點,從數(shù)據(jù)的采集與預處理、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)可視化展示4個方面設計開發(fā)大數(shù)據(jù)管理與分析平臺,如圖 1所示。
一是數(shù)據(jù)采集與預處理。
數(shù)據(jù)采集與預處理是大數(shù)據(jù)價值挖掘中的重要一環(huán),其后的分析挖掘都建立在數(shù)據(jù)采集與預處理的基礎上。試驗鑒定數(shù)據(jù)來源渠道廣、數(shù)據(jù)類型多,數(shù)據(jù)量大導致存在大量無用、不規(guī)范的雜質數(shù)據(jù),需要對這部分數(shù)據(jù)進行預處理,其采集與預處理過程如圖2所示。根據(jù)數(shù)據(jù)存在形式不同,采用不同的方式進行數(shù)據(jù)采集與預處理,一部分是已經(jīng)按照標準規(guī)范要求填報、無需清洗的數(shù)據(jù),這部分數(shù)據(jù)如果沒有存在于任何信息系統(tǒng)或數(shù)據(jù)庫中,則需要建立新的數(shù)據(jù)庫,通過傳統(tǒng)的方式進行數(shù)據(jù)的增、刪、改、查及入庫,或可以從已有的數(shù)據(jù)庫中批量導入入庫;另一部分是存在于分布的、異構數(shù)據(jù)源中的不同種類和結構的數(shù)據(jù),這部分數(shù)據(jù)根據(jù)離線和實時處理的需要,分別將數(shù)據(jù)送至批處理平臺Hadoop和流處理平臺Storm,通過ETL工具進行數(shù)據(jù)抽取和集成,從中提取關聯(lián)規(guī)則和實體,并對數(shù)據(jù)進行預處理,包括數(shù)據(jù)的解析、去重、篩選、清洗、合并、分類、轉換、增強等,以保證數(shù)據(jù)的質量及可信性,提高數(shù)據(jù)分析的準確性。這2個部分數(shù)據(jù)入庫后需要進行關聯(lián)適配、分類聚類融合,并采用統(tǒng)一定義的結構進行數(shù)據(jù)存儲。
二是數(shù)據(jù)存儲。
大數(shù)據(jù)管理與分析平臺的另一個重要環(huán)節(jié)是數(shù)據(jù)存儲,存儲系統(tǒng)的優(yōu)劣直接決定了大數(shù)據(jù)平臺的分析效率和可擴展性。傳統(tǒng)的直接采用關系型的分布式數(shù)據(jù)庫已不能適應大數(shù)據(jù)時代數(shù)據(jù)存儲的需要,從軟件和硬件2個方面考慮試驗鑒定數(shù)據(jù)存儲,其過程如圖3所示。硬件上,需要考慮大數(shù)據(jù)量的存儲空間,為了保證大數(shù)據(jù)平臺的可擴展性,考慮NAS+SAN的集群方式。軟件上,根據(jù)實時數(shù)據(jù)和離線數(shù)據(jù)的不同對存儲方式區(qū)別對待。實時數(shù)據(jù)需要流處理平臺實時處理,數(shù)據(jù)環(huán)境不斷變化,很難掌握整個數(shù)據(jù)的全貌,且對數(shù)據(jù)處理速度和響應時間要求極高,因此實時數(shù)據(jù)直接存入內(nèi)存數(shù)據(jù)庫中。標準數(shù)據(jù)和離線數(shù)據(jù)需要針對不同類型的數(shù)據(jù)格式選擇相應的數(shù)據(jù)庫存儲,針對結構化的、有邏輯關系的試驗數(shù)據(jù)采用關系型數(shù)據(jù)庫ORACLE儲存;針對試驗文件采用分布式文件存儲數(shù)據(jù)庫MongoDB存儲;針對圖形數(shù)據(jù)采用分布式圖數(shù)據(jù)庫Neo4j存儲;對于其他半結構化和非結構化數(shù)據(jù),采用HBase數(shù)據(jù)庫存儲。在數(shù)據(jù)庫的基礎上,將各類數(shù)據(jù)通過ETL工具進行加工與集成后,按照主題進行數(shù)據(jù)存儲,形成性能和狀態(tài)評估、壽命預測、效能分析等相關主題數(shù)據(jù)倉庫,為前端數(shù)據(jù)查詢、在線聯(lián)機分析(OLAP)和深度挖掘等數(shù)據(jù)分析提供條件。在數(shù)據(jù)倉庫的基礎上,還可以根據(jù)試驗鑒定不同部門的特殊需求,按照多維方式從數(shù)據(jù)倉庫某個特定主題中抽取試驗數(shù)據(jù)形成數(shù)據(jù)集市進行存儲,采用數(shù)據(jù)集市方式可以在一定程度上緩解訪問數(shù)據(jù)倉庫的瓶頸。
圖2 數(shù)據(jù)采集與預處理過程
圖3 數(shù)據(jù)存儲過程
三是數(shù)據(jù)分析。
數(shù)據(jù)分析是大數(shù)據(jù)管理與分析平臺建設的核心,因為大數(shù)據(jù)的價值產(chǎn)生于分析過程。從異構數(shù)據(jù)源抽取和集成的數(shù)據(jù)構成了數(shù)據(jù)分析的原始數(shù)據(jù),建立的大數(shù)據(jù)平臺數(shù)據(jù)分析技術包括數(shù)理統(tǒng)計分析、利用分析工具分析、OLAP在線聯(lián)機分析和數(shù)據(jù)挖掘4個部分,如圖4所示。
數(shù)理統(tǒng)計分析。數(shù)理統(tǒng)計分析即傳統(tǒng)的數(shù)據(jù)綜合統(tǒng)計分析功能,根據(jù)大數(shù)據(jù)平臺收集的試驗鑒定性能試驗、作戰(zhàn)試驗和在役考核3個階段的數(shù)據(jù),通過柱狀圖、餅圖、折線圖等形式進行航天裝備相關數(shù)據(jù)的綜合統(tǒng)計。例如,產(chǎn)品可靠性達標率統(tǒng)計、衛(wèi)星生命期內(nèi)失效統(tǒng)計、衛(wèi)星/運載火箭發(fā)生故障次數(shù)統(tǒng)計等,可以為用戶對3個階段的試驗情況提供一個初步的綜合了解。
分析工具。大數(shù)據(jù)管理與分析平臺的建設將集成多種數(shù)據(jù)分析工具軟件,包括產(chǎn)品可靠性與壽命評估軟件、信號連續(xù)性與可用性評估軟件、成熟度評價軟件、成功數(shù)據(jù)包絡分析軟件、質量問題分析軟件等。產(chǎn)品可靠性與壽命評估軟件可以評估計算單機產(chǎn)品的可靠性與壽命,在此基礎上預測系統(tǒng)可靠性與壽命;信號連續(xù)性與可用性評估軟件可以利用單星在軌中斷數(shù)據(jù)及星座構型計算空間信號連續(xù)性與可用性;成熟度評價軟件可以依據(jù)航天產(chǎn)品成熟度評價模型,定量計算航天產(chǎn)品的成熟度等級值;成功數(shù)據(jù)包絡分析軟件可以判定待分析產(chǎn)品數(shù)據(jù)是否落在包絡范圍內(nèi),評估產(chǎn)品是否達到設計要求;質量問題分析軟件可以對試驗鑒定3個階段發(fā)生的質量問題進行分析,不斷積累各級各類產(chǎn)品的故障模式庫。
圖4 數(shù)據(jù)分析過程
OLAP在線聯(lián)機分析。OLAP以數(shù)據(jù)倉庫為基礎,從數(shù)據(jù)倉庫中抽取數(shù)據(jù)的一個子集,并經(jīng)過必要的聚集存儲到OLAP存儲器中供前端分析工具讀取,基本多維分析操作有鉆取、切片、切塊和旋轉等。OLAP在線聯(lián)機分析可以從不同維度呈現(xiàn)航天裝備的質量和性能指標滿足度,分析鑒定試驗指標結果與大綱要求之間的差距,實時跟蹤掌握裝備使用、保障、維修的情況,以及驗證裝備作戰(zhàn)與保障效能等。例如,可以利用切片分析對同一裝備同一指標在性能試驗、作戰(zhàn)試驗、在役考核3個階段的試驗值進行對比分析,利用切塊分析多型號、多類別產(chǎn)品質量問題產(chǎn)生的原因等。
數(shù)據(jù)挖掘。數(shù)據(jù)挖掘通過關聯(lián)分析、聚類分析從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中高度自動化地提取隱含在其中卻非常有價值的信息、模式(規(guī)則)和趨勢,挖掘數(shù)據(jù)之間的潛在關聯(lián)關系。利用試驗鑒定過程中海量基礎數(shù)據(jù),可以從不同維度挖掘大綱要求的設計值與實際試驗值之間的差距和問題、各項指標參數(shù)變化與質量態(tài)勢之間的潛在關聯(lián)關系、產(chǎn)品壽命與性能退化之間的關系等,實現(xiàn)裝備整體作戰(zhàn)效能、保障效能的影響指數(shù)預測、任務滿足度預測、質量穩(wěn)定性趨勢預測等。
四是數(shù)據(jù)可視化展示。
雖然數(shù)據(jù)分析是大數(shù)據(jù)管理與平臺建設的核心部分,但是用戶往往更關注的是結果展示。如果分析結果正確,但是沒有采用適當?shù)慕忉尫椒?,則所產(chǎn)生的結果很可能讓用戶難以理解?;谠囼炶b定大數(shù)據(jù)的海量特點,數(shù)據(jù)分析的結果也是海量的,傳統(tǒng)的以文本形式輸出結果或直接在電腦終端上顯示結果的方式基本不可行,需要采用可視化技術解釋試驗鑒定數(shù)據(jù)分析結果。大數(shù)據(jù)可視化技術主要利用大數(shù)據(jù)驅動可視化技術、多目標決策優(yōu)化技術,將星地一體化大系統(tǒng)、地面站、一至四級航天裝備產(chǎn)品的試驗鑒定狀況進行集中形象化展示,分為結構可視化、功能可視化、關聯(lián)關系可視化和發(fā)展趨勢可視化。例如,可以對航天裝備產(chǎn)品的結構圖實現(xiàn)3D多維效果可視化展示;對運載火箭發(fā)動機進行3D建模,清晰展示發(fā)動機運轉狀態(tài),實現(xiàn)試驗數(shù)據(jù)所對應功能的可視化;將數(shù)據(jù)挖掘得到的數(shù)據(jù)間關聯(lián)關系通過網(wǎng)絡圖等形式可視化展示。通過將數(shù)據(jù)可視化展示,可以深入展現(xiàn)數(shù)據(jù)中潛在的或復雜的模式和關系,幫助上級機關和型號管理部門更好地理解數(shù)據(jù)的內(nèi)涵和關聯(lián)關系,實現(xiàn)數(shù)據(jù)價值利用的最大化,同時可以為上級機關和型號管理部門等提供決策支持服務。
試驗數(shù)據(jù)是結構化數(shù)據(jù)、半結構數(shù)據(jù)、非結構化數(shù)據(jù)的融合,數(shù)據(jù)類型的多樣性促使了數(shù)據(jù)存儲方式的變化,采用新的存儲方式要求數(shù)據(jù)在集成過程中進行數(shù)據(jù)轉換,而這種轉換操作是非常復雜和難以管理的。
試驗鑒定數(shù)據(jù)具有多源異構、分布廣泛、動態(tài)增長等特點,正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點,使得大數(shù)據(jù)管理與分析平臺的建設面臨著如下挑戰(zhàn):
試驗數(shù)據(jù)是結構化數(shù)據(jù)、半結構數(shù)據(jù)、非結構化數(shù)據(jù)的融合,數(shù)據(jù)類型的多樣性促使了數(shù)據(jù)存儲方式的變化,采用新的存儲方式要求數(shù)據(jù)在集成過程中進行數(shù)據(jù)轉換,而這種轉換操作是非常復雜和難以管理的。此外,試驗數(shù)據(jù)量大導致數(shù)據(jù)價值密度低,垃圾、錯誤信息泛濫,數(shù)據(jù)集成過程中需要進行數(shù)據(jù)清洗以避免無用數(shù)據(jù)干擾后續(xù)數(shù)據(jù)分析過程。數(shù)據(jù)清洗過程必須謹慎,因為細微有用的信息混雜在龐大的數(shù)據(jù)量中,若信息清洗的粒度過細,很容易將有用信息過濾掉,但清洗粒度過粗,又無法達到真正的清洗效果。
目前,實時數(shù)據(jù)處理的模式主要有流處理模式、批處理模式以及兩者的融合,大數(shù)據(jù)管理與分析平臺采用Storm流處理平臺進行實時數(shù)據(jù)處理。雖然流處理模式天然適合實時處理系統(tǒng),但是仍未有一個通用的大數(shù)據(jù)實時處理框架,各種工具實現(xiàn)實時處理的方法不一致,支持的應用類型也相對有限,在對試驗數(shù)據(jù)進行實時處理分析時往往需要根據(jù)試驗鑒定業(yè)務的需求,并結合實際應用場景對現(xiàn)有的處理技術和工具進行改造才能滿足需要。
試驗數(shù)據(jù)涉及型號組成、尺寸、重量、功能、性能等具體指標信息,關系到國家軍事安全戰(zhàn)略層面,數(shù)據(jù)安全隱私保護極為重要。然而,試驗鑒定數(shù)據(jù)增長速度快,數(shù)據(jù)處于不斷動態(tài)更新的狀態(tài),而一般的數(shù)據(jù)隱私保護技術都是基于對靜態(tài)數(shù)據(jù)保護,這就給隱私保護帶來了新的挑戰(zhàn)。在復雜變化的條件下如何實現(xiàn)試驗鑒定數(shù)據(jù)隱私安全的保護,是大數(shù)據(jù)管理與分析平臺建設的重點研究方向之一。
試驗鑒定數(shù)據(jù)作為一個新興領域,具有典型的大數(shù)據(jù)特點,在大數(shù)據(jù)技術飛速發(fā)展的今天,試驗鑒定數(shù)據(jù)管理在面臨機遇的同時,也同樣需要應對數(shù)據(jù)集成、數(shù)據(jù)安全、數(shù)據(jù)實時分析與處理技術實現(xiàn)等方面的挑戰(zhàn)。我們?nèi)孕枰钊胙芯亢教煅b備試驗鑒定過程及數(shù)據(jù)特征,借鑒大數(shù)據(jù)技術手段實現(xiàn)航天裝備性能試驗、作戰(zhàn)試驗、在役考核全生命周期海量數(shù)據(jù)采集、存儲、分析、預測和評估,使航天裝備試驗鑒定工作更加科學、規(guī)范、高效,不斷提升航天裝備的實戰(zhàn)適用性和高可靠性。