李景山 溫雙燕 王 建 仲利華 張問一
①(中國科學院遙感與數(shù)字地球研究所 北京 100094)
②(中國科學院空間信息處理與應用系統(tǒng)技術(shù)重點實驗室 北京 100190)
③(中國科學院電子學研究所 北京 100190)
環(huán)境一號 C衛(wèi)星(HJ-1C衛(wèi)星)是我國首顆民用雷達衛(wèi)星,也是我國首顆 S波段合成孔徑雷達(SAR)衛(wèi)星,與已經(jīng)發(fā)射的HJ-1A/B形成2+1衛(wèi)星星座。中國科學院遙感與數(shù)字地球研究所負責該衛(wèi)星的數(shù)據(jù)接收、記錄和實時快視任務。遙感數(shù)據(jù)實時接收、全分辨圖像快視顯示是迅速獲取遙感信息的重要手段。特別對于災害觀測、軍事信息獲取有重要意義,也是日常運行過程中監(jiān)測衛(wèi)星數(shù)據(jù)接收質(zhì)量的重要手段。HJ-1C SAR衛(wèi)星原始數(shù)據(jù)下行碼速率為2×160 Mbps,回波數(shù)據(jù)經(jīng)過8:3 BAQ壓縮,解壓后數(shù)據(jù)速率約850 Mbps,對全分辨率實時快視具有很強的挑戰(zhàn)性。
本文設計和實現(xiàn)了基于高性能通用服務器機群高速并行處理系統(tǒng),完成了HJ-1C SAR圖像全分辨率實時快視處理。高性能機群內(nèi)部各服務器節(jié)點采用 Infiniband高速網(wǎng)絡互連,利用 OpenMP和MPI結(jié)合的并行處理技術(shù)實現(xiàn)了全分辨率快視成像處理。針對SAR成像條帶和掃描模式,分別采用 CS (Chirp Scaling)算法和 ECS (Extended Chirp Scaling)算法。此外,在分布式成像處理流程中構(gòu)建了SAR數(shù)據(jù)的非一致數(shù)據(jù)存儲訪問模型,采用高性能機群節(jié)點SAR數(shù)據(jù)本地化分布與多策略高速并行處理方案,提高了機群環(huán)境下的并行處理效率和性能。實際系統(tǒng)運行情況表明,本系統(tǒng)滿足HJ-1C SAR圖像全分辨率實時快視處理要求。
本文的章節(jié)安排如下:第2節(jié)簡要介紹SAR實時成像研究現(xiàn)狀,第 3節(jié)介紹系統(tǒng)設計,第 4節(jié)介紹系統(tǒng)實現(xiàn)和性能分析驗證,第5節(jié)介紹系統(tǒng)的應用情況,第6節(jié)總結(jié)全文。
傳統(tǒng)的 SAR實時成像處理系統(tǒng)大多基于專用DSP或者FPGA等硬件實現(xiàn)[1-4]。專用DSP數(shù)字芯片和FPGA單芯片處理能力較強、功耗較低,在對于體積和功耗有較為嚴格要求的領域如航天領域等有廣泛的應用。但由于DSP和FPGA屬于專用處理芯片,由這些硬件構(gòu)成的實時成像處理系統(tǒng)通用性較差,系統(tǒng)控制能力較弱,系統(tǒng)測試調(diào)試過程不夠靈活,同時還存在不方便后續(xù)系統(tǒng)擴展等缺點。
近幾年,隨著 GPU芯片技術(shù)的高速發(fā)展,基于GPU產(chǎn)品進行高性能計算得到了廣泛的應用?;?GPU設備推出的一套通用并行計算架構(gòu)統(tǒng)一計算設備架構(gòu)(Compute Unified Device Architecture, CUDA),該架構(gòu)使得GPU能夠解決復雜的大規(guī)模并行計算問題。但是該模式需要自己一套獨立的指令集,通用性稍差。
通用計算機設備內(nèi)存的增大、CPU性能的提高以及InfiniBand網(wǎng)絡數(shù)據(jù)交換速度提升為基于通用高性能機群的復雜運算提供了良好的硬件環(huán)境。同時,通用并行處理技術(shù)如OpenMP和MPI的使用日趨成熟為基于機群服務器完成 HJ-1C全分辨率實時快視處理提供了良好的基礎。
HJ-1C衛(wèi)星原始數(shù)據(jù)下行碼速率為 2×160 Mbps,解壓后數(shù)據(jù)速率約850 Mbps,全分辨率實時快視顯示需要系統(tǒng)處理的數(shù)據(jù)每秒約 107 MB(850 Mbps/8),對系統(tǒng)的處理能力和算法效率提出了很高的要求。本方案通過在體系結(jié)構(gòu)和算法方面的研究,設計了HJ-1C SAR全分辨率實時快視處理系統(tǒng)。
機群計算已經(jīng)成為高性能并行計算的主流[5],2012年 12月份公布最新全球高性能計算機TOP500排名中機群系統(tǒng)占到82.8%,如圖1所示。
采用infiniband網(wǎng)絡互聯(lián)的高性能計算系統(tǒng)達44.8%,如圖2所示。
SAR數(shù)據(jù)處理過程復雜,運算量大。主要表現(xiàn)在:第一,回波數(shù)據(jù)進行了 BAQ壓縮,需完成實時BAQ解碼。BAQ解碼主要包括數(shù)據(jù)解包、解碼和歸一化處理[6,7];第二,SAR原始回波成像過程常使用 2維匹配濾波的成像處理算法(如本文采用的Chirp Scaling (CS)算法或距離多普勒(RD)算法以及ω, κ算法等),需完成多步向量相乘、轉(zhuǎn)置、快速傅里葉變換(FFT)以及插值等運算,運算量大,尤其對 SAR數(shù)據(jù)實時處理提出了更高的要求。因此,在實時成像過程中,利用串行計算難以滿足實時處理的需求,必須在充分利用單一計算機節(jié)點資源的基礎上,采用機群并行處理。
研究和借鑒高性能遙感衛(wèi)星數(shù)據(jù)地面處理系統(tǒng)機群解決方案[8],該實時快視處理系統(tǒng)在2008年初即確定了基于infiniband互聯(lián)服務器機群架構(gòu)作為HJ-1C SAR實時處理基礎架構(gòu)的設計方案,并進行了大量理論分析和試驗測試,驗證了 HJ-1C SAR實時處理功能和性能的可行性。另外,根據(jù)TOP500網(wǎng)站[5]統(tǒng)計數(shù)據(jù)分析,2007年infiniband互聯(lián)網(wǎng)絡在全球TOP500高性能計算機使用量僅占26%,到2012年底使用量占44.8%,該事實也證明了本系統(tǒng)在2008年初選擇基于infiniband網(wǎng)絡互連的機群方案作為 SAR實時快視處理技術(shù)方案的決定是正確的,是符合新技術(shù)發(fā)展趨勢的。
圖1 TOP500高性能計算機中機群系統(tǒng)統(tǒng)計圖Fig.1 Statistical diagram of cluster in the TOP500 high performance computer
圖2 TOP 500高性能計算機中使用infiniband網(wǎng)絡統(tǒng)計圖Fig.2 Statistical diagram of the TOP500 high performance computer by using infiniband
(1) 機群單節(jié)點設計
條帶模式下,每個節(jié)點部署一個成像進程,利用OpenMP實現(xiàn)一“景”數(shù)據(jù)的并行處理。
掃描模式下,每個節(jié)點部署多個成像進程,每個進程完成一個Burst數(shù)據(jù)的處理。通過部署多個成像進程實現(xiàn)數(shù)據(jù)處理的并行。
(2) 機群網(wǎng)絡設計
機群節(jié)點之間通過40 Gbps Infiniband網(wǎng)絡連接,實現(xiàn)機群之間高速數(shù)據(jù)交換。機群與前端數(shù)據(jù)發(fā)送系統(tǒng)和后端顯示系統(tǒng)通過以太網(wǎng)絡連接,實現(xiàn)數(shù)據(jù)的接收和發(fā)送。
(3) 機群消息通信和并行處理設計
各個計算節(jié)點上的成像進程基于 MPI實現(xiàn)多進程的數(shù)據(jù)并行處理,它們之間通過MPI的消息傳遞函數(shù)實現(xiàn)信息交換。
HJ-1C全分辨率實時成像處理系統(tǒng)的主要功能包括:
(1) 數(shù)據(jù)幀同步、解擾處理和實時質(zhì)量監(jiān)測。衛(wèi)星下傳數(shù)據(jù)經(jīng)過 AOS格式編排,下傳過程中由于傳輸鏈路的問題,導致數(shù)據(jù)可能出現(xiàn)滑位,需要進行幀同步處理;下傳的數(shù)據(jù)經(jīng)過加擾,需要進行解擾處理;對數(shù)傳幀進行實時質(zhì)量監(jiān)測,為后續(xù)圖像的可利用價值提供依據(jù);
(2) SAR數(shù)據(jù)提取和雙通道拼接。數(shù)傳幀經(jīng)過幀同步和解擾以后,從中提取 SAR數(shù)據(jù)。兩路數(shù)據(jù)分別為回波數(shù)據(jù)的前半程和后半程,需要完成雙通道數(shù)據(jù)拼接;
(3) 實時輔助數(shù)據(jù)誤碼修正和回波數(shù)據(jù) BAQ解碼。利用雙通道輔助數(shù)據(jù)的一致性進行輔助數(shù)據(jù)誤碼的修正;
(4) 全分辨率實時成像處理。采用MPI并行架構(gòu),完成條帶模式和掃描模式全分辨率實時快視圖像的處理;
(5) 快視圖像格式化生成。根據(jù)輔助數(shù)據(jù)對快視圖像進行粗定位,將定位信息和快視圖像按照一定格式存儲;
(6) 快視圖像實時顯示。通過快視顯示終端實時播報快視圖像。
3.2.1 條帶模式快視處理設計 條帶模式是SAR成像中最常用的一種模式,綜合考慮成像處理精度與效率,本系統(tǒng)選擇 CS算法實現(xiàn)條帶模式成像。在CS算法中,需要對SAR數(shù)據(jù)進行4次FFT運算和大量的相位相乘運算(主要由三角函數(shù)計算和復數(shù)乘法運算構(gòu)成),這是影響算法實時實現(xiàn)的關(guān)鍵。
條帶模式的實時成像處理利用MPI和OpenMP相結(jié)合的技術(shù)實現(xiàn)實時處理。其處理流程如圖 3所示。
該單元總體架構(gòu)通過MPI實現(xiàn)。接收線程主要負責將收到的經(jīng)過雙路拼接的 SAR數(shù)據(jù)分成各個成像進程可以單獨處理的“景”數(shù)據(jù)。為了提高計算效率,“一景”圖像的方位向脈沖數(shù)量設置為 2的整數(shù)次冪?,F(xiàn)系統(tǒng)“一景”的方位向脈沖數(shù)量是16384。在成像過程中,成像進程會裁剪掉不完全孔徑內(nèi)的圖像,因此分“景”時保證相鄰“景”之間有一個合成孔徑時間數(shù)據(jù)的重疊。分“景”示意圖如圖4所示。
各個成像進程的處理是相同的,只是部署在不同的計算節(jié)點上。成像進程采用CS算法完成成像處理,同時,利用成像參數(shù)、GPS數(shù)據(jù)和衛(wèi)星姿態(tài)數(shù)據(jù)計算星下點經(jīng)緯度信息和每幀圖象近距端和遠距端的經(jīng)緯度信息,并將這些信息打入到快視圖像的輔助數(shù)據(jù)中。成像處理過程中調(diào)用Intel MKL庫函數(shù),并利用OpenMP完成FFT和IFFT的快速并行運算。成像進程將圖像數(shù)據(jù)及輔助數(shù)據(jù)信息發(fā)送給圖像發(fā)送進程。成像進程數(shù)可根據(jù)衛(wèi)星數(shù)據(jù)下傳碼率的變化靈活配置,以滿足實時性的要求。
圖3 條帶模式實時成像流程圖Fig.3 Flow chart of the real time imaging system of the stripmap mode
圖4 條帶模式分“景”示意圖Fig.4 Catalog operation of the stripmap mode
圖像發(fā)送進程依次從成像進程中接收快視數(shù)據(jù)存儲到本地,同時把數(shù)據(jù)發(fā)送給后端的快視顯示終端。
快視顯示終端一邊實時播報快視圖像數(shù)據(jù),一邊將從輔助數(shù)據(jù)中解析到的圖像定位信息顯示到地圖上。
3.2.2 掃描模式快視處理設計 掃描模式的成像處理算法選擇ECS算法,首先對單個Burst數(shù)據(jù)進行成像,然后對各個Burst圖像進行拼接,合成最終的成像結(jié)果。與條帶模式不同,掃描模式由大量的Burst數(shù)據(jù)構(gòu)成,除了需要進行FFT與相位相乘運算外,還需要對Burst圖像進行拼接,處理流程更加復雜。
掃描模式的實時成像處理通過MPI和OpenMP相結(jié)合的技術(shù)實現(xiàn)。其處理流程如圖5所示。
HJ-1C衛(wèi)星掃描模式具有3波束和4波束掃描兩種形式。其實時成像架構(gòu)設計與條帶模式基本一致。處理過程中的主要區(qū)別在于:
(1) 接收線程監(jiān)測條帶序號的變化,將每個Burst數(shù)據(jù)依次發(fā)送給成像進程。
(2) 由于每個 Burst的數(shù)據(jù)量很小,在成像處理過程中沒有利用OpenMP進行并行運算,而是通過增加成像進程數(shù)達到并行處理的要求。
(3) 在成像過程中,為了保證方位向和距離向分辨率的一致性,對距離向進行4倍多視。
(4) 圖像拼接進程完成對各個 Burst圖像的方位向和距離向的拼接。由于一個Burst數(shù)據(jù)量比較小(約為7~8 MB),這樣導致成像進程與拼接進程的數(shù)據(jù)傳遞頻繁。拼接進程必須在下次成像數(shù)據(jù)到達之前,將現(xiàn)有的圖像數(shù)據(jù)拼接完成。圖像拼接算法中加入OpenMP,提高處理效率,保證處理的實時性。
圖5 掃描模式實時成像流程圖Fig.5 Flow chart of the real time imaging system of the SCAN mode
HJ-1C SAR圖像全分辨率快視實時處理系統(tǒng)是“陸地觀測衛(wèi)星數(shù)據(jù)全國接收站網(wǎng)項目”中記錄分系統(tǒng)中的一個組成部分,在中國科學院遙感與數(shù)字地球研究所密云接收站、三亞接收站、喀什接收站各部署一套,每套系統(tǒng)主要由機群服務器和相應并行處理軟件構(gòu)成,負責每個接收站接收的 HJ-1C SAR數(shù)據(jù)的實時快視圖像處理和顯示,完成日常運行過程中對HJ-1C衛(wèi)星接收記錄數(shù)據(jù)質(zhì)量的實時定性監(jiān)測。
4.1.1 硬件組成 HJ-1C SAR全分辨率實時快視系統(tǒng)的硬件設備由幀同步服務器、實時快視圖像處理機群和快視圖像顯示終端組成。
(1) 幀同步服務器:單臺SMP服務器,完成原始碼流數(shù)據(jù)幀同步處理。
(2) 實時快視圖像處理機群:主要由 8節(jié)點刀片快視處理服務器機群及其刀片中心設備構(gòu)成,基于infiniband網(wǎng)路互聯(lián)的通用服務器(SMP服務器機群)實現(xiàn)SAR的全分辨率實時圖像生成。
(3) 快視圖像顯示設備:高性能圖形工作站,用于顯示快視處理設備生成的各種傳感器類型的快視圖像和輔助數(shù)據(jù)信息。
實時快視圖像處理機群節(jié)點之間通過 40 Gbps Infiniband網(wǎng)絡連接,實現(xiàn)機群之間高速數(shù)據(jù)交換。機群通過千兆以太網(wǎng)絡與前端幀同步服務器連接實現(xiàn)幀同步后數(shù)據(jù)的接收,通過千兆以太網(wǎng)絡與后端快視顯示設備連接實現(xiàn)快視圖像發(fā)送。硬件拓撲圖見圖6。硬件配置如表1所示。
4.1.2 軟件架構(gòu) 系統(tǒng)包括幀同步處理軟件、格式解析軟件、條帶模式快視處理軟件、掃描模式處理軟件和快視圖像顯示軟件。系統(tǒng)的軟件架構(gòu)圖如圖 7所示。
圖6 系統(tǒng)硬件架構(gòu)圖Fig.6 Architecture of the hardware system
圖7 系統(tǒng)軟件架構(gòu)圖Fig.7 Architecture of the software system
表1 主要硬件配置表Tab.1 Primary hardware configuration list
對于整個快視處理系統(tǒng)而言,成像處理部分是制約系統(tǒng)實時性的瓶頸。對于每一個成像進程,必須保證在下一次處理數(shù)據(jù)到來之前將本次數(shù)據(jù)處理完畢。假設系統(tǒng)包含N個成像進程,每個進程處理所處理數(shù)據(jù)的積累時間為 t,則每一個成像進程處理一次數(shù)據(jù)的時間必須小于 Nt。實際系統(tǒng)的 8臺計算節(jié)點中,1臺用于SAR數(shù)據(jù)的提取和拼接,1臺用于快視數(shù)據(jù)的拼接、發(fā)送和存儲。其余的6臺用于完成實時成像處理。
(1) 條帶模式系統(tǒng)實時性分析
對于條帶模式,每次成像處理任務積累 16384幀回波數(shù)據(jù),按照回波數(shù)據(jù)幀長10496 B(雙通道合成后的長度),合成孔徑時間為1.3 s, PRF為3700 Hz進行計算,16384幀的數(shù)據(jù)量為171966464 B,一個合成孔徑時間內(nèi)的數(shù)據(jù)量是50485760 B。按照單通道160 Mbps的下傳碼率計算,積累處理一次的數(shù)據(jù)量的時間是:
對于6臺成像處理節(jié)點而言,每個成像進程處理一次數(shù)據(jù)的時間必須小于17.4 s(2.9 s×6)。經(jīng)過HJ-1C真實數(shù)據(jù)驗證,每個成像進程處理16384幀的時間為11.0~13.5 s,占空比約為77.6%,滿足實時性能的要求。
(2) 掃描模式系統(tǒng)實時性分析
對于掃描模式,每個Burst單獨成像,按照每個Burst包含700幀回波,每幀長度10496 B計算,每個Burst的數(shù)據(jù)量是7347200 B。按照單通道160 Mbps的下傳碼率計算,積累一個Burst的數(shù)據(jù)量所需時間為:
6臺計算節(jié)點,每臺部署15個成像進程,則每個成像進程處理一次數(shù)據(jù)的時間必須小于 15.75 s(0.175 s×6×15)。經(jīng)過HJ-1C真實數(shù)據(jù)試驗,單個成像進程處理一個Burst 的時間為10~15 s,滿足實時性能的要求。
對于掃描模式快視處理,除了成像的實時性是保證系統(tǒng)實時性的關(guān)鍵,圖像拼接的實時性也是系統(tǒng)的一個瓶頸。根據(jù)上面的計算,即拼接進程需要在0.175 s內(nèi)完成一個Burst圖像數(shù)據(jù)的接收、拼接和發(fā)送。經(jīng)過對拼接算法采用OpenMP并行處理的優(yōu)化,時間指標可以滿足要求。
(3) FFT和IFFT并行計算效率分析
在SAR成像處理流程中,F(xiàn)FT運算占據(jù)了大量 的運算時間,對于長度為N點的FFT,其浮點運算量為:
以條帶模式為例,一景圖像距離向和方位向采樣點數(shù)均為16384,則進行一次FFT浮點運算量為18.8 GFlops,條帶模式一次成像需要進行 4次FFT,則總的運算量為75.2 GFlops。
以成像處理中進行一次距離向 FFT為例,對采用OpenMP并行處理效率提升效果進行說明,計算節(jié)點配備雙路4核處理器,共 8個 CUP,故在OpenMP中設置為8核并行計算,F(xiàn)FT參數(shù)及加速比如表2所示。
衛(wèi)星發(fā)射后,該系統(tǒng)在地面接收站第一時間成功完成第1軌SAR數(shù)據(jù)的全分辨實時快視處理。處理結(jié)果如圖8所示??煲晥D像為武漢二七長江大橋。
表2 采用OpenMP進行FFT加速比Tab.2 FFT accecelerating ratio operation using OpenMP
圖8 HJ-1C衛(wèi)星第1軌SAR數(shù)據(jù)實時快視圖像Fig.8 The real time imaging result of the first data get from HJ-1C satellite
經(jīng)過對系統(tǒng)的實時成像延遲性能測試,系統(tǒng)從第 1“景”數(shù)據(jù)積累完成到成像處理完成的時間優(yōu)于15 s。
利用快視圖像中的強點目標進行圖像質(zhì)量測試,條帶模式圖像的分辨率優(yōu)于5 m,掃描模式圖像的分辨率優(yōu)于 20 m,圖像峰值旁瓣比優(yōu)于-20 dB,圖像積分旁瓣比優(yōu)于-13 dB。
該快視處理系統(tǒng)現(xiàn)已在中國科學院遙感與數(shù)字地球研究所密云接收站、三亞接收站、喀什接收站日?;\行,每天完成HJ-1C SAR圖像全分辨率快視實時處理和顯示任務。
根據(jù)以上基于高性能機群的環(huán)境一號 C衛(wèi)星SAR圖像全分辨率快視實時處理系統(tǒng)設計與實現(xiàn)有關(guān)研究,可以得到以下結(jié)論:
(1) 通用服務器機群實現(xiàn) SAR實時處理是可行的,且具有較高的性價比;
(2) 合理分配計算資源和系統(tǒng)并行優(yōu)化設計,可同時實現(xiàn)原始數(shù)據(jù)格式解析、快視數(shù)據(jù)的實時處理和快視數(shù)據(jù)的實時顯示。
(3) 自衛(wèi)星發(fā)射之日,系統(tǒng)部署在在中國科學院遙感與數(shù)字地球研究所密云接收站、三亞接收站、喀什接收站,實現(xiàn)數(shù)據(jù)邊記錄邊實時瀏覽全分辨快視圖像,滿足接收站日常運行過程中對衛(wèi)星數(shù)據(jù)接收質(zhì)量監(jiān)測的要求。經(jīng)過實踐證明, 具有較高的應用價值。
[1]陳亮, 龍騰.星載合成孔徑雷達實時快視成像系統(tǒng)[J].北京理工大學學報, 2008, 28(6): 545-548.Chen Liang and Long Teng.Spaceborne SAR real-time qucik-look system[J].Transactions of Beijing Institute of Technology, 2008, 28(6): 545-548.
[2]董勇偉, 周良將, 唐波, 等.SAR實時成像處理平臺的設計與實現(xiàn)[J].系統(tǒng)工程與電子技術(shù), 2009, 31(8): 1882-1886.Dong Yong-wei, Zhou Liang-jiang, Tang Bo, et al..Design of real-time signal processing platform for airborne SAR imaging[J].Systems Engineerin g and Electronic, 2009, 31(8):1882-1886.
[3]呂守業(yè), 龍騰.機載合成孔徑雷達實時成像處理系統(tǒng)研究[J].北京理工大學學報, 2005, 25(2): 155-158.Lu Shou-ye and Long Teng.Study on the real-time imaging system for airborne synthetic aperture radar[J].Transactions of Beijing Institute of Technology, 2005, 25(2): 155-158.
[4]熊君君, 王貞松, 姚建平, 等.星載 SAR 實時成像處理器的FPGA實現(xiàn)[J].電子學報, 2005, 33(6): 1070-1072.Xiong Jun-jun, Wang Zhen-song, Yao Jian-ping, et al..The FPGA design of on board SAR real time imaging processor[J].Acta Electronic Sinica, 2005, 33(6): 1070-1072.
[5]TOP500 Supercomputer Sites[OL].http://www.top500.org/,2012.
[6]呂小微.基于成像的SAR原始數(shù)據(jù)壓縮算法研究[D].[碩士論文], 西安電子科技大學, 2011.Lu Xiao-wei.A SAR raw data compression algorithm based on imaging[D].[Master dissertation], Xidian University, 2011.
[7]張來勝.SAR原始數(shù)據(jù)壓縮算法研究[D].[碩士論文], 國防科學技術(shù)大學, 2010.Zhang Lai-sheng.Study on the algorithm of SAR raw data compression[D].[Master dissertation], National University of Defense Technology, 2010.
[8]Li Jing-shan and Liu Ding-sheng. Design and implementation of a scalable general high performance remote sensing satellite ground processing system on performance and function[J].LNCS, 2009, 5545: 367-374.