陳志毅
[摘? ? 要] 在大數據、人工智能、云計算、物聯網等新技術的推動下,人類文明進入智能時代。遙測數據是典型的“小數據”,大數據突破了傳統(tǒng)遙測數據處理的一系列觀念,開啟了許多新領域新應用。在對大數據技術現狀及發(fā)展趨勢分析的基礎上,對大數據時代的遙測數據處理技術的發(fā)展進行了展望。
[關鍵詞] 大數據;遙測;數據處理
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2019. 05. 060
[中圖分類號] TP311.5? ? [文獻標識碼]? A? ? ? [文章編號]? 1673 - 0194(2019)05- 0156- 02
0? ? ? 引? ? 言
當前,在大數據、人工智能、云計算、物聯網等新技術的推動下,人類文明進入智能時代。發(fā)展大數據已經上升為國家戰(zhàn)略,成為推動經濟社會發(fā)展的新引擎,如何獲取、存儲、分析、應用這些大數據將是這個時代最熱門的話題。在飛行器試驗中,遙測數據常用于其內部載荷狀態(tài)分析和故障診斷。傳統(tǒng)遙測數據是典型的“小數據”,隨著飛行器種類、試驗頻率、測量站點等的增多,遙測數據也在飛速增長,數據總量已經達到TB量級[1-2]。考慮到遙測數據本身的容量和應用價值,需要從大數據的角度來思考遙測數據處理的發(fā)展。
1? ? ? 大數據技術的現狀與發(fā)展趨勢
1.1? ?大數據技術現狀分析
1.1.1? ?大數據采集與預處理
數據收集是大數據分析和處理的第一步。大數據收集包含:系統(tǒng)日志收集,網絡數據收集(采用網絡爬蟲實現)和其他數據收集(通過特定的接口)。通過收集生成新數據集以提供數據的統(tǒng)一視圖,供后續(xù)查詢和分析處理。通過對收集來的大數據預處理,可以糾正錯誤或損壞的數據,移除冗余數據,選擇所需的數據,并執(zhí)行數據集成。數據清理、集成和轉換是數據預處理常用的方法。數據清理可視為一個包括兩個步驟的過程:檢測偏差和糾正偏差。檢查偏差可以使用現有的數據性質知識來查找需要檢查的噪聲,異常值和異常值。該知識或“關于數據的數據”稱為元數據。糾正偏差通常需要定義和使用一系列變換來糾正偏差。但是,這些工具僅支持有限的轉換,因此通常需要為數據清理過程的這一步驟編寫自定義程序。數據集成主要涉及模式集成和對象匹配,數據值沖突的檢測和處理。數據轉換是平滑,匯總或聚合數據,推廣數據和規(guī)范化數據,以及將數據轉換為適合挖掘的形式的過程。
1.1.2? ?大數據存儲與管理
大數據存儲技術有三種類型:第一種是采用Shared Nothing架構(MPP)的分布式數據庫。MPP (Massively Parallel Processing),大規(guī)模并行處理系統(tǒng),它是由許多松耦合的處理單元組成的,在每個單元內都有操作系統(tǒng)和管理數據庫的實例復本,且每個單元內的CPU都有自己私有的資源,如總線,內存,硬盤等。這種結構最大的特點在于不共享資源。它與傳統(tǒng)數據庫有巨大區(qū)別,針對行業(yè)大數據的新數據庫集群,通過列存儲,粗粒度索引和其他大數據處理技術,并結合高效分布式計算模式,完成了對PB級別的結構化數據分析應用程序的支持,適用于企業(yè)的新一代數據倉庫和結構化數據分析應用。第二種是基于Hadoop的技術。Hadoop實現了一個分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),HDFS具有高容錯性、高吞吐量、采用流形式訪問的特點。Hadoop平臺更適用于非結構化,半結構化數據處理,復雜數據挖掘和計算模型。第三種是大數據一體機,它是由一組集成的服務器,存儲設備,操作系統(tǒng),數據庫管理系統(tǒng)和軟件組成,這些軟件已預先安裝并針對數據查詢,處理和分析進行了優(yōu)化。新型數據庫將逐步與Hadoop生態(tài)系統(tǒng)結合混搭使用,用MPP處理PB級別的、高質量的結構化數據,同時為應用提供豐富的SQL和事務支持能力;用Hadoop實現半結構化、非結構化數據處理。這樣可同時滿足結構化、半結構化和非結構化數據的處理需求。
1.1.3? ?并行計算、分布式計算、云計算與虛擬化
并行計算,是指允許同時執(zhí)行多個指令的計算模式。時間并行使用多個管道同時工作。并行計算使用多個計算資源來解決計算問題。為了執(zhí)行并行計算,計算資源應該包括具有多處理器(并行處理)的計算機,連接到網絡的計算機專用號碼,或者兩者的組合。并行計算主要目的在于兩個方面:(1)加速求解問題的速度;(2)提高求解問題的規(guī)模。
分布式計算是需要非常大量的計算能力來解決的問題。最后,將這些計算結合起來得到最終結果。分布式計算和集中計算的概念。分布式計算是可以在同一臺計算機上運行的兩個或多個軟件之間的信息共享。它也可以在通過網絡連接的多臺計算機上運行。分布式計算與其他算法相比有幾個優(yōu)點:(1)稀有資源可以共享。(2)通過分布式計算可以在多臺計算機之間平衡計算負荷。(3)可以把程序放在最適合運行它的計算機上。其中,共享稀有資源和平衡負載是計算機分布式計算的核心思想之一。并行計算和分布式計算都是不同的和相關的。從解決問題的角度來看,無論是大任務還是小任務,都是他們的共同點。但并行計算強調及時性,而分布式計算則強調獨立性。
云計算則是通過互聯網提供動態(tài)、可擴展且虛擬化的資源。云計算是個概念,而不是具體技術。虛擬化是一種具體技術,指把硬件資源虛擬化,實現隔離性、安全性、資源可充分利用等?,F在云平臺的大部分軟件和硬件都對虛擬化有一定的支持,各種資源要素通過虛擬化設置放入云平臺虛擬資源池中進行統(tǒng)一管理,具有高靈活性、高可靠性和高性價比的特點。目前已有多家商業(yè)化云平臺,如微軟的Azure平臺、GoogleAppEngine、IBMCloud和國內的阿里云、騰訊云、百度云、華為云等。
1.1.4? ?數據挖掘與可視化
目前大量資源浪費在非有效計算上,如通信、等待和協(xié)調,而用戶真正關心的是大數據分析的結果,而這些結果通常以可視化的形式呈現。數據可視化技術是一種理論、方法和技術,它使用計算機圖形和圖像處理技術將數據轉換為圖形或圖像形式并將其顯示在屏幕上。它涉及計算機視覺,圖像處理,計算機輔助設計,計算機圖形學等許多領域,并成為研究數據表示,數據處理,決策分析等問題的綜合技術。目前,常用的數據可視化學品很多,這里不再一一介紹。
可視化技術與數據挖掘密切相關。大數據時代,大規(guī)模、高緯度、非結構化數據層出不窮,可視化與這些數據的結合是下一步研究的一個重要方向。
1.2? ?大數據技術發(fā)展趨勢
1.2.1? ?數據分析和挖掘成為大數據的核心
大數據的價值體現在通過大規(guī)模數據集合的智能處理獲取有用的信息,這就必須對數據進行分析和挖掘,而數據的采集、存儲和管理都是數據分析的基礎。數據挖掘技術可分為:統(tǒng)計方法(多元回歸、自回歸等)、機器學習、神經網絡和數據庫方法(多維數據分析或OLAP)等。
1.2.2? ?廣泛采用實時性的流處理方式
人們要求更快地獲取信息,因此大數據特別重視數據的實時性。實時流處理一般是將業(yè)務系統(tǒng)產生的數據進行實時收集,交由流處理框架進行數據清洗,統(tǒng)計,入庫,并可以通過可視化的方式對統(tǒng)計結果進行實時的展示。主流的框架和平臺有Flume、Logstash、kafka、Storm、SparkStreaming等。
1.2.3? ?基于云的數據分析平臺將更加完善
云計算為大數據提供了平臺和技術支持。云計算采用分布式計算方法更加靈活且可彈性擴展、存儲成本更加便宜。隨著云平臺的日益成熟將有利于促進大數據處理水平和效益的提升[3]。
2? ? ? 大數據時代的遙測數據處理技術
傳統(tǒng)意義上的遙測局限于對飛行器及其載荷狀態(tài)和環(huán)境的內部監(jiān)測,大數據時代的遙測應包括所有監(jiān)控手段獲取的飛行全過程、全系統(tǒng)的信息感知,包括:傳統(tǒng)遙測信息、外測信息、目標特征信息、飛行實況景象等。下面對可用于遙測數據處理的大數據技術進行探討。
2.1? ?實時數據庫技術
遙測處理軟件都是基于數據庫系統(tǒng)開發(fā)的,包括測量原始數據和處理結果、處理過程中的測試信息、各類參數信息和校準數據等需要存儲在數據庫。各型號間遙測數據格式差異很大,遙測數據處理的難度顯著增大,把數據格式固化在程序中或用簡單設計的數據庫描述數據格式的方式嚴重制約了處理軟件的通用性。
InSQL作為一款基于時間序列的高性能實時關系型數據庫,很適合處理過程數據。它具有高速采集、高效存儲壓縮、可內嵌事件系統(tǒng)、高速查詢、支持冗余和接口友好的優(yōu)點,使用基于InSQL的數據庫技術,可以滿足實時記錄,海量存儲和遙測數據快速讀取的要求,還可為后續(xù)數據可視化和數據提取分析等應用奠定基礎[4]。
2.2? ?遙測數據的知識挖掘
隨著遙測數據量和采樣的率增加,待分析的遙測數據量呈指數級增長,因此需要借鑒目前主流的大數據處理技術,如Hadoop以及HBase等大數據存儲及計算平臺實現遙測數據存儲及計算。另外由于遙測參數反映內部各系統(tǒng)的工作條件,通過有效集成分布式挖掘、流式挖掘、可擴展挖掘技術及方法,建立挖掘模型,實現對異常數據的快速有效識別。
2.3? ?多源融合的視景仿真技術
通過多站數據融合得到完整遙測數據后,有效地結合專家經驗和數據驅動方法進行建模,通過數據接口發(fā)送給可視化仿真系統(tǒng),場景模型在接收到數據后驅動三維模型開始實時仿真,得到的飛行器軌跡并實時顯示在可視化終端上。通過將多通道數據融合技術應用于遙測監(jiān)測視景仿真系統(tǒng),不僅能夠對飛行過程進行實時仿真,還能夠實現多視角多次數的重復播放,從真正意義上做到了實時再現飛行器飛行全過程,對滿足相關研究人員的分析需要和模擬訓練,具有重要的參考價值。
2.4? ?云平臺的多站虛擬資源池
目前遙測網絡的典型拓撲結構是“一對多”模式,一個數據處理中心對應多個分布在不同地方的遙測地面站,各站之間缺少互聯互通的功能。未來可考慮建設信息互通、配置靈活、可動態(tài)擴展、存儲計算能力更強的網絡化系統(tǒng),基于云平臺將多個站點虛擬成統(tǒng)一的資源池,將軟硬件資源以服務的方式通供,用戶通過終端申請各項資源。
3? ? ? 結? ? 語
面對大數據時代的挑戰(zhàn),應當建立大數據思想,改進各種數據的采集、存儲和處理方式,優(yōu)化多源數據融合技術,挖掘數據中包含的潛在價值,提高信息化服務能力和水平。數據化是信息化建設的高級階段,遙測數據處理需要根據自身行業(yè)特點考慮在大數據時代的發(fā)展。
主要參考文獻
[1]譚維熾.大數據時代給遙測遙控帶來什么——賀第十八屆中國遙測遙控科技大會[J].遙測遙控,2014(9):1-3.
[2]于志堅,侯金寶.大數據時代的航天靶場遙測思考[J].遙測遙控,2015(3):1-5.
[3]薛志東.大數據技術基礎[M].北京:人民郵電出版社,2018.
[4]朱瑪.基于InSQL數據庫的航天器遙測數據存儲方法研究[J].電子技術與軟件工程,2015(17):194-195.