/中國航天科技集團有限公司
田雪穎、王志梅 /中國航天標準化研究所
航天裝備試驗鑒定工作從2017年3月開始全面展開,將全生命周期航天裝備試驗統(tǒng)一規(guī)范為性能試驗、作戰(zhàn)試驗和在役考核3個階段。試驗鑒定工作的開展,將產生大量的試驗數(shù)據、試驗文件等信息,如何全面掌握這些試驗信息,并充分利用這些信息挖掘隱藏在數(shù)據間的巨大價值以及分析預測裝備性能指標是亟待解決的問題。大數(shù)據技術作為新一代信息技術的代表,具有復雜的數(shù)據處理和數(shù)據分析能力,是實現(xiàn)數(shù)據融合管理、數(shù)據分析、知識決策支持和成果共享的有效途徑。因此,筆者將介紹基于大數(shù)據技術進行航天裝備試驗鑒定數(shù)據管理及數(shù)據分析應用研究的部分內容。
試驗鑒定數(shù)據包括各級各類產品按照試驗鑒定工作要求開展的各種試驗相關內容,按照數(shù)據的結構化形式可以將試驗鑒定數(shù)據分為非結構化數(shù)據、結構化數(shù)據和半結構化數(shù)據3類。
非結構化數(shù)據指試驗鑒定過程中產生的文檔資料,主要包括:一案三綱、研制總要求、試驗任務書、試驗條件與試驗要求、質量保證大綱、計劃進度、安全技術要求和安全技術措施、試驗報告、故障分析報告、試驗鑒定總結報告、成熟度評價報告、可靠性評估報告、試驗鑒定申請報告、狀態(tài)鑒定結論、試驗鑒定批復等。
結構化數(shù)據指以二維表結構形式按照規(guī)定數(shù)據格式和長度規(guī)范要求保存的數(shù)據,主要包括:被試產品的描述、試驗項目、試驗時間、試驗單位、試驗條件和要求、試驗設備狀況、試驗產品測量參數(shù)、試驗結果、異常情況等。
半結構化數(shù)據指原始聲像影像資料和人工記錄的數(shù)據及文字資料,如試驗時間、試驗工況、試驗狀態(tài)、參試人員、異常現(xiàn)象等。
試驗鑒定數(shù)據具有一般意義上大數(shù)據的相同特點,即數(shù)據量足夠大(Volume)、數(shù)據的種類多樣(Variety)、數(shù)據的增長及處理速度快(Velocity)、數(shù)據蘊藏價值大(Value)等。
Volume:試驗鑒定數(shù)據范圍廣,包括各級各類航天裝備在性能試驗、作戰(zhàn)試驗和在役考核3個階段各項試驗數(shù)據,數(shù)據采集、存儲和計算量巨大,已經從TB(太字節(jié))級別躍升至PB(拍字節(jié))級別,傳統(tǒng)技術很難滿足其存儲和處理要求。
Variety:試驗鑒定數(shù)據的種類紛繁,包括文本、文檔、表格、數(shù)據、圖像、音視頻等結構化、半結構化與非結構化數(shù)據,并且試驗鑒定數(shù)據來源較多,性能試驗階段的數(shù)據主要來源于工業(yè)部門,作戰(zhàn)試驗和在役考核數(shù)據主要來源于作戰(zhàn)部隊、試驗基地、測控站等。
Velocity:試驗鑒定數(shù)據每分每秒都在爆炸性的增長,如某型號一次綜合試驗就要產生2GB的數(shù)據,一次熱待機試驗產生20GB數(shù)據,傳統(tǒng)技術處理這些數(shù)據的時間較長,嚴重影響數(shù)據判讀的實時性。
Value:試驗鑒定數(shù)據存在著巨大的待挖掘價值,利用試驗鑒定數(shù)據可以摸清裝備性能底數(shù)、分析裝備的作戰(zhàn)效能、確定保障效能、計算任務滿足度、評估裝備質量穩(wěn)定性,從而可改進提升裝備性能、反推裝備研制需求,但由于龐大的數(shù)據量基數(shù)及數(shù)據量的不斷增加,數(shù)據的單位價值密度相對較低。
試驗鑒定數(shù)據存在著巨大的待挖掘價值,利用試驗鑒定數(shù)據可以摸清裝備性能底數(shù)、分析裝備的作戰(zhàn)效能、確定保障效能、計算任務滿足度、評估裝備質量穩(wěn)定性,從而可改進提升裝備性能、反推裝備研制需求,但由于龐大的數(shù)據量基數(shù)及數(shù)據量的不斷增加,數(shù)據的單位價值密度相對較低。
當前,航天產業(yè)的發(fā)展正經歷著數(shù)據大爆炸時代,數(shù)據不僅是海量的,更是復雜的。在此背景下,航天裝備試驗鑒定數(shù)據管理存在以下幾個問題:
一是試驗鑒定數(shù)據管理要求尚不明確。按照試驗鑒定管理工作新要求,目前一些航天裝備已有的原始觀測數(shù)據、業(yè)務處理數(shù)據、試驗評估數(shù)據等大多應該屬于性能試驗階段的數(shù)據,而在役考核和作戰(zhàn)試驗屬于新界定的工作要求,具體試驗項目尚待進一步明確,在役考核環(huán)節(jié)雖已采集相關試驗數(shù)據,但該方面的數(shù)據尚未能系統(tǒng)管理。
二是試驗鑒定數(shù)據分散在各單位,缺乏統(tǒng)一管理平臺。航天裝備試驗鑒定數(shù)據分散在各單位、各部門,未進行集中管理,型號抓總單位對型號試驗鑒定數(shù)據的全局情況掌握不全面,在對已有的試驗數(shù)據進行查詢時,需要通過多種渠道才可以收集完備,信息綜合查詢工作效率較低,難以實現(xiàn)試驗鑒定數(shù)據的全面對比。
三是試驗鑒定數(shù)據缺少規(guī)范化管理,不利于數(shù)據的共享傳遞。各部門間數(shù)據采集、數(shù)據分析等工作缺少統(tǒng)一的標準、規(guī)范,數(shù)據項內容和格式不一致,試驗數(shù)據在各部門間傳遞時不能直接使用,數(shù)據傳遞難以形成便捷暢通的渠道,數(shù)據共享困難造成各單位各部門信息不透明、不對等的情況嚴重,型號抓總單位難以進行信息匯總,給數(shù)據的宏觀分析和深度挖掘工作帶來了不便。
四是試驗鑒定數(shù)據缺乏綜合處理分析工具,自動化程度和信息利用效率低。當前,各單位設計開發(fā)的數(shù)據庫、信息系統(tǒng)一般僅是基于數(shù)據管理的需求,而非數(shù)據分析的需求,所以在此基礎上缺乏綜合統(tǒng)計分析和數(shù)據挖掘的工具、手段,信息分析工作往往需要采用人工統(tǒng)計的方式進行,自動化程度低,對型號性能試驗數(shù)據、作戰(zhàn)試驗數(shù)據和在役考核數(shù)據等分析不足,不利于型號和主管部門的決策管理。
航天裝備試驗鑒定應建設大數(shù)據管理與分析平臺,將各單位的試驗鑒定數(shù)據進行集中、規(guī)范與融合,在此基礎上設計開發(fā)大數(shù)據統(tǒng)計分析和數(shù)據挖掘工具,消除數(shù)據割裂的局面,充分發(fā)揮大數(shù)據分析挖掘數(shù)據的優(yōu)勢,實現(xiàn)基于全方位、全階段、海量數(shù)據的挖掘分析,最大化提高信息處理和分析效率。
基于當前主流的大數(shù)據平臺體系架構,結合試驗鑒定數(shù)據的特點,從數(shù)據的采集與預處理、數(shù)據存儲、數(shù)據分析、數(shù)據可視化展示4個方面設計開發(fā)大數(shù)據管理與分析平臺,如圖 1所示。
一是數(shù)據采集與預處理。
數(shù)據采集與預處理是大數(shù)據價值挖掘中的重要一環(huán),其后的分析挖掘都建立在數(shù)據采集與預處理的基礎上。試驗鑒定數(shù)據來源渠道廣、數(shù)據類型多,數(shù)據量大導致存在大量無用、不規(guī)范的雜質數(shù)據,需要對這部分數(shù)據進行預處理,其采集與預處理過程如圖2所示。根據數(shù)據存在形式不同,采用不同的方式進行數(shù)據采集與預處理,一部分是已經按照標準規(guī)范要求填報、無需清洗的數(shù)據,這部分數(shù)據如果沒有存在于任何信息系統(tǒng)或數(shù)據庫中,則需要建立新的數(shù)據庫,通過傳統(tǒng)的方式進行數(shù)據的增、刪、改、查及入庫,或可以從已有的數(shù)據庫中批量導入入庫;另一部分是存在于分布的、異構數(shù)據源中的不同種類和結構的數(shù)據,這部分數(shù)據根據離線和實時處理的需要,分別將數(shù)據送至批處理平臺Hadoop和流處理平臺Storm,通過ETL工具進行數(shù)據抽取和集成,從中提取關聯(lián)規(guī)則和實體,并對數(shù)據進行預處理,包括數(shù)據的解析、去重、篩選、清洗、合并、分類、轉換、增強等,以保證數(shù)據的質量及可信性,提高數(shù)據分析的準確性。這2個部分數(shù)據入庫后需要進行關聯(lián)適配、分類聚類融合,并采用統(tǒng)一定義的結構進行數(shù)據存儲。
二是數(shù)據存儲。
大數(shù)據管理與分析平臺的另一個重要環(huán)節(jié)是數(shù)據存儲,存儲系統(tǒng)的優(yōu)劣直接決定了大數(shù)據平臺的分析效率和可擴展性。傳統(tǒng)的直接采用關系型的分布式數(shù)據庫已不能適應大數(shù)據時代數(shù)據存儲的需要,從軟件和硬件2個方面考慮試驗鑒定數(shù)據存儲,其過程如圖3所示。硬件上,需要考慮大數(shù)據量的存儲空間,為了保證大數(shù)據平臺的可擴展性,考慮NAS+SAN的集群方式。軟件上,根據實時數(shù)據和離線數(shù)據的不同對存儲方式區(qū)別對待。實時數(shù)據需要流處理平臺實時處理,數(shù)據環(huán)境不斷變化,很難掌握整個數(shù)據的全貌,且對數(shù)據處理速度和響應時間要求極高,因此實時數(shù)據直接存入內存數(shù)據庫中。標準數(shù)據和離線數(shù)據需要針對不同類型的數(shù)據格式選擇相應的數(shù)據庫存儲,針對結構化的、有邏輯關系的試驗數(shù)據采用關系型數(shù)據庫ORACLE儲存;針對試驗文件采用分布式文件存儲數(shù)據庫MongoDB存儲;針對圖形數(shù)據采用分布式圖數(shù)據庫Neo4j存儲;對于其他半結構化和非結構化數(shù)據,采用HBase數(shù)據庫存儲。在數(shù)據庫的基礎上,將各類數(shù)據通過ETL工具進行加工與集成后,按照主題進行數(shù)據存儲,形成性能和狀態(tài)評估、壽命預測、效能分析等相關主題數(shù)據倉庫,為前端數(shù)據查詢、在線聯(lián)機分析(OLAP)和深度挖掘等數(shù)據分析提供條件。在數(shù)據倉庫的基礎上,還可以根據試驗鑒定不同部門的特殊需求,按照多維方式從數(shù)據倉庫某個特定主題中抽取試驗數(shù)據形成數(shù)據集市進行存儲,采用數(shù)據集市方式可以在一定程度上緩解訪問數(shù)據倉庫的瓶頸。
圖2 數(shù)據采集與預處理過程
圖3 數(shù)據存儲過程
三是數(shù)據分析。
數(shù)據分析是大數(shù)據管理與分析平臺建設的核心,因為大數(shù)據的價值產生于分析過程。從異構數(shù)據源抽取和集成的數(shù)據構成了數(shù)據分析的原始數(shù)據,建立的大數(shù)據平臺數(shù)據分析技術包括數(shù)理統(tǒng)計分析、利用分析工具分析、OLAP在線聯(lián)機分析和數(shù)據挖掘4個部分,如圖4所示。
數(shù)理統(tǒng)計分析。數(shù)理統(tǒng)計分析即傳統(tǒng)的數(shù)據綜合統(tǒng)計分析功能,根據大數(shù)據平臺收集的試驗鑒定性能試驗、作戰(zhàn)試驗和在役考核3個階段的數(shù)據,通過柱狀圖、餅圖、折線圖等形式進行航天裝備相關數(shù)據的綜合統(tǒng)計。例如,產品可靠性達標率統(tǒng)計、衛(wèi)星生命期內失效統(tǒng)計、衛(wèi)星/運載火箭發(fā)生故障次數(shù)統(tǒng)計等,可以為用戶對3個階段的試驗情況提供一個初步的綜合了解。
分析工具。大數(shù)據管理與分析平臺的建設將集成多種數(shù)據分析工具軟件,包括產品可靠性與壽命評估軟件、信號連續(xù)性與可用性評估軟件、成熟度評價軟件、成功數(shù)據包絡分析軟件、質量問題分析軟件等。產品可靠性與壽命評估軟件可以評估計算單機產品的可靠性與壽命,在此基礎上預測系統(tǒng)可靠性與壽命;信號連續(xù)性與可用性評估軟件可以利用單星在軌中斷數(shù)據及星座構型計算空間信號連續(xù)性與可用性;成熟度評價軟件可以依據航天產品成熟度評價模型,定量計算航天產品的成熟度等級值;成功數(shù)據包絡分析軟件可以判定待分析產品數(shù)據是否落在包絡范圍內,評估產品是否達到設計要求;質量問題分析軟件可以對試驗鑒定3個階段發(fā)生的質量問題進行分析,不斷積累各級各類產品的故障模式庫。
圖4 數(shù)據分析過程
OLAP在線聯(lián)機分析。OLAP以數(shù)據倉庫為基礎,從數(shù)據倉庫中抽取數(shù)據的一個子集,并經過必要的聚集存儲到OLAP存儲器中供前端分析工具讀取,基本多維分析操作有鉆取、切片、切塊和旋轉等。OLAP在線聯(lián)機分析可以從不同維度呈現(xiàn)航天裝備的質量和性能指標滿足度,分析鑒定試驗指標結果與大綱要求之間的差距,實時跟蹤掌握裝備使用、保障、維修的情況,以及驗證裝備作戰(zhàn)與保障效能等。例如,可以利用切片分析對同一裝備同一指標在性能試驗、作戰(zhàn)試驗、在役考核3個階段的試驗值進行對比分析,利用切塊分析多型號、多類別產品質量問題產生的原因等。
數(shù)據挖掘。數(shù)據挖掘通過關聯(lián)分析、聚類分析從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據中高度自動化地提取隱含在其中卻非常有價值的信息、模式(規(guī)則)和趨勢,挖掘數(shù)據之間的潛在關聯(lián)關系。利用試驗鑒定過程中海量基礎數(shù)據,可以從不同維度挖掘大綱要求的設計值與實際試驗值之間的差距和問題、各項指標參數(shù)變化與質量態(tài)勢之間的潛在關聯(lián)關系、產品壽命與性能退化之間的關系等,實現(xiàn)裝備整體作戰(zhàn)效能、保障效能的影響指數(shù)預測、任務滿足度預測、質量穩(wěn)定性趨勢預測等。
四是數(shù)據可視化展示。
雖然數(shù)據分析是大數(shù)據管理與平臺建設的核心部分,但是用戶往往更關注的是結果展示。如果分析結果正確,但是沒有采用適當?shù)慕忉尫椒ǎ瑒t所產生的結果很可能讓用戶難以理解。基于試驗鑒定大數(shù)據的海量特點,數(shù)據分析的結果也是海量的,傳統(tǒng)的以文本形式輸出結果或直接在電腦終端上顯示結果的方式基本不可行,需要采用可視化技術解釋試驗鑒定數(shù)據分析結果。大數(shù)據可視化技術主要利用大數(shù)據驅動可視化技術、多目標決策優(yōu)化技術,將星地一體化大系統(tǒng)、地面站、一至四級航天裝備產品的試驗鑒定狀況進行集中形象化展示,分為結構可視化、功能可視化、關聯(lián)關系可視化和發(fā)展趨勢可視化。例如,可以對航天裝備產品的結構圖實現(xiàn)3D多維效果可視化展示;對運載火箭發(fā)動機進行3D建模,清晰展示發(fā)動機運轉狀態(tài),實現(xiàn)試驗數(shù)據所對應功能的可視化;將數(shù)據挖掘得到的數(shù)據間關聯(lián)關系通過網絡圖等形式可視化展示。通過將數(shù)據可視化展示,可以深入展現(xiàn)數(shù)據中潛在的或復雜的模式和關系,幫助上級機關和型號管理部門更好地理解數(shù)據的內涵和關聯(lián)關系,實現(xiàn)數(shù)據價值利用的最大化,同時可以為上級機關和型號管理部門等提供決策支持服務。
試驗數(shù)據是結構化數(shù)據、半結構數(shù)據、非結構化數(shù)據的融合,數(shù)據類型的多樣性促使了數(shù)據存儲方式的變化,采用新的存儲方式要求數(shù)據在集成過程中進行數(shù)據轉換,而這種轉換操作是非常復雜和難以管理的。
試驗鑒定數(shù)據具有多源異構、分布廣泛、動態(tài)增長等特點,正是這些與傳統(tǒng)數(shù)據管理迥然不同的特點,使得大數(shù)據管理與分析平臺的建設面臨著如下挑戰(zhàn):
試驗數(shù)據是結構化數(shù)據、半結構數(shù)據、非結構化數(shù)據的融合,數(shù)據類型的多樣性促使了數(shù)據存儲方式的變化,采用新的存儲方式要求數(shù)據在集成過程中進行數(shù)據轉換,而這種轉換操作是非常復雜和難以管理的。此外,試驗數(shù)據量大導致數(shù)據價值密度低,垃圾、錯誤信息泛濫,數(shù)據集成過程中需要進行數(shù)據清洗以避免無用數(shù)據干擾后續(xù)數(shù)據分析過程。數(shù)據清洗過程必須謹慎,因為細微有用的信息混雜在龐大的數(shù)據量中,若信息清洗的粒度過細,很容易將有用信息過濾掉,但清洗粒度過粗,又無法達到真正的清洗效果。
目前,實時數(shù)據處理的模式主要有流處理模式、批處理模式以及兩者的融合,大數(shù)據管理與分析平臺采用Storm流處理平臺進行實時數(shù)據處理。雖然流處理模式天然適合實時處理系統(tǒng),但是仍未有一個通用的大數(shù)據實時處理框架,各種工具實現(xiàn)實時處理的方法不一致,支持的應用類型也相對有限,在對試驗數(shù)據進行實時處理分析時往往需要根據試驗鑒定業(yè)務的需求,并結合實際應用場景對現(xiàn)有的處理技術和工具進行改造才能滿足需要。
試驗數(shù)據涉及型號組成、尺寸、重量、功能、性能等具體指標信息,關系到國家軍事安全戰(zhàn)略層面,數(shù)據安全隱私保護極為重要。然而,試驗鑒定數(shù)據增長速度快,數(shù)據處于不斷動態(tài)更新的狀態(tài),而一般的數(shù)據隱私保護技術都是基于對靜態(tài)數(shù)據保護,這就給隱私保護帶來了新的挑戰(zhàn)。在復雜變化的條件下如何實現(xiàn)試驗鑒定數(shù)據隱私安全的保護,是大數(shù)據管理與分析平臺建設的重點研究方向之一。
試驗鑒定數(shù)據作為一個新興領域,具有典型的大數(shù)據特點,在大數(shù)據技術飛速發(fā)展的今天,試驗鑒定數(shù)據管理在面臨機遇的同時,也同樣需要應對數(shù)據集成、數(shù)據安全、數(shù)據實時分析與處理技術實現(xiàn)等方面的挑戰(zhàn)。我們仍需要深入研究航天裝備試驗鑒定過程及數(shù)據特征,借鑒大數(shù)據技術手段實現(xiàn)航天裝備性能試驗、作戰(zhàn)試驗、在役考核全生命周期海量數(shù)據采集、存儲、分析、預測和評估,使航天裝備試驗鑒定工作更加科學、規(guī)范、高效,不斷提升航天裝備的實戰(zhàn)適用性和高可靠性。