康旭輝 連劍 趙雪綱
(山東航天電子技術研究所,山東煙臺 264670)
隨著遙感、雷達等衛(wèi)星載荷技術的迅速發(fā)展,星上載荷數(shù)據(jù)的容量和速率快速提高。星上數(shù)據(jù)傳輸技術和存儲技術在不斷進步,僅靠把原始數(shù)據(jù)下傳不能滿足載荷數(shù)據(jù)的增長需求,嚴重制約載荷使用效率。同時,衛(wèi)星載荷數(shù)據(jù)實時應用需求越來越強,在現(xiàn)有體系下,用戶不能直接從衛(wèi)星獲得感興趣的業(yè)務數(shù)據(jù),難以滿足偵查、監(jiān)測等應用的時效性需求。因此對星載高性能實時處理平臺的需求越來越強烈。
目前,國內高速載荷數(shù)據(jù)處理工作主要由地面系統(tǒng)完成,星上高速實時處理技術還處于初級研究階段,已有的低速星載數(shù)據(jù)處理設備缺少統(tǒng)一規(guī)劃和標準,每個衛(wèi)星都根據(jù)各自需要和接口進行獨立設計,還沒有功能完善、標準化、通用化的高速星上實時處理系統(tǒng)。國外近幾年的光學、合成孔徑雷達(SAR)等遙感衛(wèi)星逐步展開衛(wèi)星在軌通用化、可擴展架構的在軌處理技術應用[1-3],在軌數(shù)據(jù)處理設備主要采用CPCI/VME總線架構,衛(wèi)星基本都具備了遙感圖像數(shù)據(jù)在軌實時/近實時處理能力,實現(xiàn)了在軌自動數(shù)據(jù)分析、多傳感器信息融合等技術。隨著載荷數(shù)據(jù)處理技術的迅猛發(fā)展,國外相關機構開展了新一代高速處理系統(tǒng)架構研究,相繼推出VPX總線架構[4]、OpenVPX標準[5-6]、SpaceVPX標準等,并已經逐步開始在軌應用。
本文針對高速載荷在軌處理和快速應用的需求,采用基于SpaceVPX標準的星上載荷數(shù)據(jù)高速數(shù)據(jù)處理設計方案,重點設計了“雙星”拓撲、多種功能映射、故障監(jiān)控系統(tǒng)和故障恢復方式等可靠性提升措施,使系統(tǒng)具備自主監(jiān)控、故障隔離、功能重構等能力,減少系統(tǒng)冗余規(guī)模、使系統(tǒng)具備更強的空間適應性。
根據(jù)星上原始數(shù)據(jù)特點、目標數(shù)據(jù)特點、處理時間要求等具體需求,基于SpaceVPX標準、Rapid IO協(xié)議等技術,本文設計了星載實時數(shù)據(jù)處理平臺,以解決面向快速數(shù)據(jù)處理的高速載荷數(shù)據(jù)接入、多路并行運算處理、海量數(shù)據(jù)存儲等技術問題。此外,針對空間應用系統(tǒng)故障監(jiān)測困難、故障不可更換維修等特點,處理平臺在SpaceVPX標準基礎上設計“雙星”控制和交換核心,保證不因控制模塊或交換模塊單模塊的故障而導致整機失效;處理模塊進行適當模塊備份,在處理模塊故障后,進行模塊替換和功能重構。同時,在設備內設計智能平臺管理(IPMC)監(jiān)控系統(tǒng),控制各模塊加斷電和工作模式,實時監(jiān)控系統(tǒng)工作狀態(tài)。針對高速載荷處理系統(tǒng)擴展性要求高、任務可在軌重構等特點,設計軟件上注通道、功能重構流程,保障功能的可擴展性。
本文設計的星載實時數(shù)據(jù)處理平臺由基礎功能部件和功能負載部件組成?;A功能部件包括公共管理模塊、交換控制模塊和電源模塊,功能負載部件可擴展各種功能單元,如高速數(shù)據(jù)接口模塊、數(shù)據(jù)處理模塊、高速存儲模塊等。為提高系統(tǒng)可靠性,基礎功能部件采用備份設計,保障系統(tǒng)穩(wěn)定可靠。數(shù)據(jù)處理平臺內部基礎功能部件采用雙機冷備份,功能負載部件根據(jù)數(shù)據(jù)接口和處理需要進行靈活配備,雙機交叉連接。高速數(shù)據(jù)處理平臺硬件組成如圖1所示。
圖1 數(shù)據(jù)處理平臺硬件組成圖Fig.1 Data processing platform hardware composition diagram
高速數(shù)據(jù)處理平臺各模塊內部接口標準化、通用化,方便模塊擴展和功能擴展,采用嵌入式處理器、數(shù)字信號處理器(DSP)和大規(guī)模現(xiàn)場可編程門陣列(FPGA)構建通用的管理模塊、計算模塊、高速接口模塊、數(shù)據(jù)交換模塊等,以適應各種載荷數(shù)據(jù)接口及數(shù)據(jù)處理算法的需求。數(shù)據(jù)處理平臺以數(shù)據(jù)交換為核心,可以通過多模塊并行處理提高數(shù)據(jù)處理能力;通過狀態(tài)監(jiān)控、冗余容錯等技術,提高系統(tǒng)的可管理性、任務可靠性;通過標準化高速數(shù)據(jù)互連技術,完成高速信號傳輸和數(shù)據(jù)處理;通過網絡拓撲實現(xiàn)良好的擴展性,支持設備規(guī)模的變化及數(shù)據(jù)處理復雜性的增加。
針對高速數(shù)據(jù)處理平臺對通用化、組合化、高性能,支持容錯、重構和互連擴展能力,及支持通用的高性能商用貨架產品模塊的需求,處理平臺依據(jù)SpaceVPX總線標準設計。在SpaceVPX數(shù)據(jù)雙星交換拓撲的基礎上,增加控制雙星拓撲結構,設置控制交換,提升系統(tǒng)可靠性。系統(tǒng)控制和數(shù)據(jù)交換兩個核心都采用雙冗余交換開關式互連體系架構設計。設備拓撲結構如圖2所示,拓撲結構中的主要節(jié)點或所有節(jié)點采取冗余備份措施,各節(jié)點模塊之間采用點對點數(shù)據(jù)路徑,而不是總線路徑,以提高數(shù)據(jù)處理系統(tǒng)容錯能力,并避免單模塊失效影響整個系統(tǒng)。
圖2 “雙星”高速拓撲圖Fig.2 Dual-satellites high-speed topology
數(shù)據(jù)處理平臺有兩種類型的槽位接口定義:基礎功能槽及功能負載槽。其中基礎功能槽的位置是固定的,除此之外,其它所有的槽位都歸結為功能負載槽,即數(shù)據(jù)接口模塊、數(shù)據(jù)處理模塊、高速儲存模塊等都采用統(tǒng)一的負載槽接口定義,各負載模塊對所插的槽位不做限制,可隨意插換。這種架構設計不僅增強了系統(tǒng)可操作性和通用性,而且兼顧高性能的同時降低了系統(tǒng)研發(fā)成本。
處理平臺由多個數(shù)據(jù)處理模塊組成分布式多處理機系統(tǒng),交換控制模塊作為分布式網絡系統(tǒng)綜合管理角色,以處理模塊為粒度進行管理,通過對數(shù)據(jù)流的控制實現(xiàn)任務分配、調度和處理流程控制。當某一模塊出現(xiàn)故障時,實現(xiàn)系統(tǒng)資源的重分配和處理任務的動態(tài)遷移。在單個處理模塊內部采用相似的架構,以處理芯片為粒度進行管理,實現(xiàn)對模塊級處理任務更細致的調配和管理。
在高速數(shù)據(jù)處理平臺的體系結構中,可將系統(tǒng)分成兩部分:一部分為用于任務調度和管理的控制管理單元;另一部分為通過數(shù)據(jù)鏈路互聯(lián)的分布式嵌入式集群。所有數(shù)據(jù)的交換和流轉,都以交換管理模塊為核心,在交換模塊內完成數(shù)據(jù)路徑和處理流程的規(guī)劃。各信息處理層之間通過串行高速輸入輸出接口(SRIO)標準建立數(shù)據(jù)流,某個信息處理層如果采用多個處理模塊,模塊間的處理流程可以并行化處理,也可以串行流水處理,每層的數(shù)據(jù)處理流程設置由每層配置管理單元來完成。根據(jù)不同任務的復雜程度、任務對計算資源的需求等,對每一級處理流程配備相關的平臺資源,典型數(shù)據(jù)處理過程如圖3所示。
注:Mx表示x號處理模塊。
圖3 典型數(shù)據(jù)處理過程圖
Fig.3 Typical data processing flow
為提高系統(tǒng)可靠性,結合本文設計的雙控制核心的特點,系統(tǒng)內部通過智能平臺管理接口(IPMI)實現(xiàn)各功能模塊的故障監(jiān)測和狀態(tài)管理[7]。IPMI是一種開放標準的硬件管理接口規(guī)格,定義了嵌入式管理子系統(tǒng)進行通信的特定方法,用以檢測數(shù)據(jù)處理平臺的物理健康特征[8]。系統(tǒng)內IPMI組成如圖4所示。
圖4 系統(tǒng)內IPMI組成圖Fig.4 IPMI composition in system
IPMI系統(tǒng)主要由位于公共管理模塊的機架管理控制器(ShMC),位于各功能模塊的智能平臺管理器(IPMC)以及內部冗余的智能平臺管理總線(IPMB)組成。IPMB選擇I2C總線實現(xiàn)。其中ShMC負責整個數(shù)據(jù)處理平臺的監(jiān)測和狀態(tài)管理,IPMC負責對各功能模塊的監(jiān)測、狀態(tài)管理、現(xiàn)場記錄和加斷電控制,監(jiān)測狀態(tài)包括功能模塊處理器運行狀態(tài)、工作溫度、工作電壓等。IPMC通過冗余雙總線IPMB_A和IPMB_B與ShMC通信,將各功能模塊狀態(tài)信息匯總至ShMC,同時接收并執(zhí)行ShMC轉發(fā)的指令。ShMC除具備IPMC所有功能外,還具備故障判斷、定位和隔離能力。ShMC判斷出某一模塊出現(xiàn)故障時,可以根據(jù)故障情況控制問題模塊斷電,實現(xiàn)故障隔離。同時ShMC將所有的平臺監(jiān)測信息匯總,發(fā)送給上一級管理設備和平臺的公共管理模塊,為實現(xiàn)系統(tǒng)容錯重構提供決策依據(jù)。
光學載荷在軌圖像處理系統(tǒng)是高速實時處理平臺的典型應用。相機獲得數(shù)據(jù)后,在通過識別算法提取某一關注目標時,需要生成0~3級信息數(shù)據(jù)(其中0級信息代表接收的原始數(shù)據(jù)及簡單預處理,3級信息對應于關注目標的核心數(shù)據(jù)及目標切片圖像),而1級和2級信息生成過程需要進行復雜的圖像識別和比對算法,算法復雜度高、運算量大,需要分別配置多個數(shù)據(jù)處理模塊。
以典型圖像處理系統(tǒng)設計高速數(shù)據(jù)處理平臺,平臺配置1個接口模塊、5個處理模塊、1個存儲模塊、1個公共管理模塊(含主備)、2個交換模塊。接口模塊完成載荷的高速數(shù)據(jù)流接收;通過多個數(shù)據(jù)處理模塊構成并行計算環(huán)境,完成載荷數(shù)據(jù)的實時處理;存儲模塊用于存儲目標數(shù)據(jù),實現(xiàn)目標特征數(shù)據(jù)庫,支持重點目標分析判別;交換控制模塊為模塊間互聯(lián)提供數(shù)據(jù)傳輸通路,各處理節(jié)點通過交換模塊形成靈活的星型拓撲結構;公共管理模塊負責平臺系統(tǒng)管理,實現(xiàn)故障容錯、資源管理和任務調度,完成數(shù)據(jù)處理模塊算法的動態(tài)變更。數(shù)據(jù)處理平臺內部采用I2C控制總線和4×SRIO數(shù)據(jù)總線連接,所有模塊接口形式統(tǒng)一。數(shù)據(jù)處理平臺單模塊數(shù)據(jù)帶寬為40 Gbit/s,預留24路交換端口,最多可外設12個高速模塊,設備內部總帶寬可達240 Gbit/s,可以滿足常規(guī)高速數(shù)據(jù)處理的需求。
處理平臺的架構具有支持串并行混合處理、支持多級應用層信息同時獲取、支持故障容錯重構及支持任務動態(tài)重構等特點。按照在軌數(shù)據(jù)變化檢測、目標判別和跟蹤等信息處理需求,處理平臺內配置多個信息處理層,信息處理層之間采用流水線處理過程,大大提高系統(tǒng)的處理能力。處理模塊可自由組合,并配置5套被選處理軟件,滿足不同衛(wèi)星的需求,也可根據(jù)處理任務的要求,對每個處理模塊進行軟件重配、重新編組劃分,實現(xiàn)硬件和軟件系統(tǒng)在軌重配置和在軌重構。
在系統(tǒng)設備配置滿足在軌目標提取與信息生成等數(shù)據(jù)處理能力的情況下,系統(tǒng)需要具備在軌任務更新的要求。系統(tǒng)內需對信息處理層進行重新組合和任務分配,可由地面注入配置信息,也可以交換控制模塊自主進行。地面通過總線注入應用軟件的配置信息或重新注入處理算法,由交換控制模塊向特定的信息處理層加載處理。
當?shù)孛嫘枰R別提取其他關注目標時,對原有處理流程進行重新規(guī)劃。根據(jù)新任務的處理需求,假設只有2級信息生成過程需要進行更高的處理能力,需要配置3個數(shù)據(jù)處理模塊。控制模塊控制各處理模塊重新加載處理軟件,交換模塊根據(jù)配置需求更改數(shù)據(jù)流路徑,完成整機功能重新配置。經過實測,任務重配置時間約為2.7 s。根據(jù)任務動態(tài)重構的過程如圖5所示。
圖5 任務動態(tài)重構過程示意Fig.5 Dynamic reconfiguration process diagram
數(shù)據(jù)處理平臺通過IPMI監(jiān)測和管理臺各功能模塊的工作狀態(tài),平臺的5個處理模塊硬件電路完全相同。當系統(tǒng)設備啟動后,由交換控制模塊根據(jù)任務特性,對各信息處理層的數(shù)據(jù)處理模塊進行配置和軟件加載,其中備份模塊5處于斷電備份狀態(tài)。
當某個處理模塊出現(xiàn)故障時,控制模塊起用備份模塊,立即加載相應的處理軟件,交換控制模塊重新分配數(shù)據(jù)流,由備份模塊接替故障模塊工作。數(shù)據(jù)處理平臺在單模塊故障情況下,硬件功能遷移過程如圖6所示。
經過實測,故障檢測到任務自動重構的時間約為2.5 s。由于數(shù)據(jù)處理模塊間的交互是通過高速網絡交叉開關進行的,在平臺進行功能遷移時,非故障模塊的軟件不用更改,只需由交換控制模塊通過交換網絡加載故障層的軟件給備份模塊即可,從而確保數(shù)據(jù)處理和信息生成流程的順利執(zhí)行。
圖6 故障狀態(tài)下任務遷移流程圖Fig.6 Tasks migration flow under the fault state
SpaceVPX標準應用于星載數(shù)據(jù)實時處理,可有效提升性能和處理能力,針對宇航應用的系統(tǒng)可靠性提高、功能重構、故障隔離、功能恢復等問題,文章從系統(tǒng)整體出發(fā),設計了“雙星”拓撲、多種功能映射、故障監(jiān)控系統(tǒng)和故障恢復方式等可靠性提升措施,實現(xiàn)了星上數(shù)據(jù)處理平臺在設備級、功能模塊級、重要元器件級故障實時檢測,故障及時準確識別定位,按照故障預案對故障進行隔離和功能恢復處理,保證在出現(xiàn)故障時,系統(tǒng)仍能處于安全狀態(tài)。
基于SpaceVPX標準的高速數(shù)據(jù)處理平臺的設計方法,以數(shù)據(jù)系統(tǒng)為核心,各處理模塊之間數(shù)據(jù)交換帶寬高,拓撲路徑調整靈活,監(jiān)控體系完善,有效解決了設備速率提高、功能重構、故障隔離、功能恢復問題,減少設備內備份數(shù)量,為星上高速率載荷數(shù)據(jù)實時處理、數(shù)據(jù)快速應用提供了一種新的高效途徑。