楊永常,趙 蔚,蔣彥超,徐 榮
(上海宇航系統(tǒng)工程研究所,上海201109)
隨著航天技術(shù)的發(fā)展,復(fù)雜空間機(jī)構(gòu)產(chǎn)品在航天領(lǐng)域應(yīng)用得越來(lái)越廣泛,如航天器大型太陽(yáng)電池翼、對(duì)接機(jī)構(gòu)以及機(jī)械臂等,且它們往往為航天器上的關(guān)鍵設(shè)備[1]。復(fù)雜空間機(jī)構(gòu)的運(yùn)行出現(xiàn)急停、誤動(dòng)作等故障可能會(huì)造成航天器機(jī)械損傷,甚至?xí)斐烧魅蝿?wù)失敗等災(zāi)難性后果[2]。在外太空環(huán)境中,空間機(jī)構(gòu)控制系統(tǒng)CPU模塊中的處理器(如DSP)、程序存儲(chǔ)器(ROM)以及數(shù)據(jù)存儲(chǔ)器(RAM)等受到空間環(huán)境的影響,發(fā)生電離總劑量[3]、位移損傷效應(yīng)[4]以及單粒子效應(yīng)[5]等導(dǎo)致元器件失效,致使控制系統(tǒng)運(yùn)行中斷而最終導(dǎo)致所驅(qū)動(dòng)機(jī)構(gòu)急停,或致使控制系統(tǒng)運(yùn)行錯(cuò)誤而最終導(dǎo)致機(jī)構(gòu)產(chǎn)生誤動(dòng)作。
現(xiàn)今,空間機(jī)構(gòu)控制系統(tǒng)常見的冗余模式為雙機(jī)備份[6],包含:雙機(jī)冷備份、雙機(jī)熱備份、雙機(jī)溫備份以及雙機(jī)雙工等實(shí)現(xiàn)架構(gòu)。相對(duì)于單機(jī)非冗余形式,雙機(jī)冗余的可靠性有很大提高,但由于其依賴主、備份切換實(shí)現(xiàn)冗余,用于復(fù)雜空間機(jī)構(gòu)控制系統(tǒng)仍存在以下不足:
1)無(wú)論軟切換還是硬件切換,切換的判別和切換過程均需要一定時(shí)間,需要中斷系統(tǒng)運(yùn)行,實(shí)時(shí)性不高。而復(fù)雜空間機(jī)構(gòu)產(chǎn)品在運(yùn)行時(shí),需保證系統(tǒng)工作的連續(xù)性和穩(wěn)定性;
2)對(duì)于雙機(jī)備份系統(tǒng),班機(jī)工作時(shí)如出現(xiàn)元器件失效,往往會(huì)輸出錯(cuò)誤的控制信號(hào),最終導(dǎo)致機(jī)構(gòu)產(chǎn)生誤動(dòng)作;
3)配置繼電器等硬件切換電路的雙機(jī)備份系統(tǒng),切換電路是一個(gè)薄弱環(huán)節(jié),其故障往往導(dǎo)致電路系統(tǒng)冗余失控,甚至危及整個(gè)電路系統(tǒng)。
傳統(tǒng)雙機(jī)備份的架構(gòu)適用于對(duì)系統(tǒng)可靠性有一定要求、但對(duì)系統(tǒng)連續(xù)執(zhí)行能力要求不高的電氣系統(tǒng)[7],而大型太陽(yáng)電池翼、對(duì)接機(jī)構(gòu)以及機(jī)械臂等復(fù)雜空間機(jī)構(gòu),對(duì)系統(tǒng)運(yùn)行的實(shí)時(shí)性、連續(xù)性和平穩(wěn)性要求都非常高,須在系統(tǒng)設(shè)計(jì)上采取相應(yīng)措施來(lái)保證系統(tǒng)具有高可靠的連續(xù)、正確運(yùn)行能力。為滿足復(fù)雜空間機(jī)構(gòu)對(duì)控制系統(tǒng)的無(wú)中斷、無(wú)錯(cuò)誤運(yùn)行要求,本文提出一種采用三機(jī)熱備份的控制系統(tǒng)方案,并對(duì)方案的架構(gòu)原理、信息流、冗余設(shè)計(jì)及可靠性設(shè)計(jì)指標(biāo)等進(jìn)行設(shè)計(jì)與分析。
三機(jī)熱備份控制系統(tǒng)設(shè)計(jì)的關(guān)鍵在于如何使控制系統(tǒng)自主、及時(shí)發(fā)現(xiàn)并定位故障,從而剔除故障,以實(shí)現(xiàn)實(shí)時(shí)輸出正確的控制信號(hào)。為實(shí)現(xiàn)上述目的,本文提出了一種以“三取二”仲裁表決為核心的設(shè)計(jì)方案,即三個(gè)CPU模塊同時(shí)運(yùn)行,實(shí)時(shí)將三機(jī)運(yùn)行結(jié)果進(jìn)行“三取二”仲裁表決,以及時(shí)發(fā)現(xiàn)錯(cuò)誤數(shù)據(jù)并確認(rèn)故障模塊。根據(jù)復(fù)雜空間機(jī)構(gòu)所含的執(zhí)行機(jī)構(gòu)類型不同,機(jī)構(gòu)所需的控制、驅(qū)動(dòng)信號(hào)可以分為模擬量和數(shù)字量?jī)煞N。雖然模擬量參數(shù)可以通過模數(shù)轉(zhuǎn)換電路轉(zhuǎn)換為數(shù)字量,但由于模擬量參數(shù)為有一定誤差范圍的區(qū)間值,而不是某一固定的數(shù)據(jù)值,所以難以實(shí)現(xiàn)“三取二”仲裁表決。而且,由模擬量轉(zhuǎn)換為數(shù)字量會(huì)導(dǎo)致數(shù)據(jù)量增大。
綜上所述,當(dāng)控制系統(tǒng)處理及輸出的控制信號(hào)為較少數(shù)字量信號(hào)時(shí),考慮將三機(jī)同時(shí)運(yùn)行且將三機(jī)所有運(yùn)行結(jié)果進(jìn)行“三取二”仲裁表決,將表決結(jié)果作為控制輸出,此種方案的控制系統(tǒng)可以自動(dòng)容忍故障錯(cuò)誤數(shù)據(jù),此類系統(tǒng)為三機(jī)容錯(cuò)模式架構(gòu)的控制系統(tǒng)。當(dāng)控制系統(tǒng)所處理及輸出的控制信號(hào)為模擬量信號(hào)或數(shù)據(jù)量較大時(shí),考慮將三機(jī)備份系統(tǒng)設(shè)計(jì)為三機(jī)同時(shí)運(yùn)行,但僅其中一機(jī)作為當(dāng)班機(jī)進(jìn)行控制輸出,三機(jī)交換關(guān)鍵數(shù)據(jù)進(jìn)行“三取二”仲裁表決,將表決結(jié)果作為判斷當(dāng)班機(jī)是否正常工作的依據(jù)。此種方案的控制系統(tǒng)可以及時(shí)發(fā)現(xiàn)故障,實(shí)現(xiàn)無(wú)縫軟切換,此類系統(tǒng)為三機(jī)冗余模式架構(gòu)的控制系統(tǒng)。
2.1.1 架構(gòu)原理
控制系統(tǒng)三個(gè)CPU模塊電路上相互獨(dú)立,邏輯上相互平等。在工作時(shí)三個(gè)CPU模塊均運(yùn)行,三機(jī)同步措施可采用任務(wù)同步方式。三機(jī)運(yùn)行結(jié)果均送入表決器中,表決器通過“三取二”的仲裁表決方式,將結(jié)果分別送往串并聯(lián)的OC門電路進(jìn)行數(shù)據(jù)整合輸出。需下傳到地面進(jìn)行監(jiān)控的三機(jī)遙測(cè)數(shù)據(jù)分別被送入兩個(gè)遙測(cè)下傳通道,每個(gè)遙測(cè)下傳通道分別將三機(jī)遙測(cè)數(shù)據(jù)進(jìn)行輪流下傳。三機(jī)容錯(cuò)模式架構(gòu)原理見圖1。
此種架構(gòu)模式的控制系統(tǒng)如出現(xiàn)某一CPU模塊故障輸出錯(cuò)誤數(shù)據(jù),系統(tǒng)通過仲裁模塊對(duì)接收到的三機(jī)運(yùn)算結(jié)果進(jìn)行“三取二”表決,屏蔽故障CPU模塊輸出的錯(cuò)誤結(jié)果。通過仲裁模塊表決,可保證即使某一CPU模塊出現(xiàn)故障,系統(tǒng)也可以正確、連續(xù)運(yùn)行。當(dāng)某一仲裁模塊故障輸出錯(cuò)誤結(jié)果時(shí),采用串并聯(lián)形式的OC門控制信號(hào)輸出電路屏蔽故障仲裁模塊輸出的錯(cuò)誤數(shù)據(jù)。OC門輸出模塊由于采用串并聯(lián)設(shè)計(jì),可自動(dòng)容忍、屏蔽自身故障。
2.1.2 信息流
三機(jī)容錯(cuò)模式架構(gòu)的控制系統(tǒng)以自檢測(cè)、地面判別、三機(jī)結(jié)果比對(duì)等方式作為系統(tǒng)降級(jí)與重構(gòu)、升級(jí)與恢復(fù)的依據(jù),控制系統(tǒng)的降級(jí)與重構(gòu)、升級(jí)與恢復(fù)均由地面監(jiān)控人員決策后,通過發(fā)送遙控指令實(shí)現(xiàn)。如根據(jù)下傳的遙測(cè)參數(shù)發(fā)現(xiàn)兩CPU模塊同時(shí)出現(xiàn)故障,則由監(jiān)控人員通過發(fā)送遙控指令指定某一正常CPU模塊工作,當(dāng)故障模塊通過重啟等方式恢復(fù)正常工作后,則由監(jiān)控人員決策是否發(fā)送遙控指令恢復(fù)三機(jī)工作模式。該架構(gòu)以三機(jī)結(jié)果比對(duì)作為系統(tǒng)降級(jí)與重構(gòu)、升級(jí)與恢復(fù)的最重要和最常用的依據(jù),流程設(shè)計(jì)為:首先四個(gè)仲裁表決模塊分別對(duì)三機(jī)運(yùn)算結(jié)果進(jìn)行“三取二”表決,然后將各自表決結(jié)果送入串并聯(lián)輸出電路進(jìn)行數(shù)據(jù)整合,最后將整合后的關(guān)鍵數(shù)據(jù)部分回傳至各模塊,作為各模塊判定各自是否出現(xiàn)故障的依據(jù)。該過程的信息流示意如圖2。
2.1.3 冗余設(shè)計(jì)
控制系統(tǒng)三路CPU單元、多路仲裁表決輸出單元、串并聯(lián)OC門輸出控制單元以及串并聯(lián)關(guān)鍵數(shù)據(jù)整合單元等整個(gè)系統(tǒng)各部分均進(jìn)行熱冗余設(shè)計(jì),系統(tǒng)無(wú)單點(diǎn)失效環(huán)節(jié)。當(dāng)某一模塊故障,系統(tǒng)自動(dòng)屏蔽故障點(diǎn)的錯(cuò)誤輸出,不需要切換,以保持良好的整機(jī)時(shí)序工作連續(xù)性。當(dāng)兩模塊同時(shí)出現(xiàn)故障,系統(tǒng)切換至健康模塊執(zhí)行,降級(jí)為單機(jī)工作模式。
2.2.1 架構(gòu)原理
控制系統(tǒng)三個(gè)CPU模塊在邏輯上相互平等,在工作時(shí)均運(yùn)行,但只有一個(gè)CPU模塊作為當(dāng)班機(jī)進(jìn)行控制輸出,其余模塊為熱備份工作狀態(tài)。當(dāng)班機(jī)接收全部數(shù)據(jù),并進(jìn)行相應(yīng)計(jì)算,輸出計(jì)算結(jié)果。備份模塊接收來(lái)自外部的數(shù)據(jù)及當(dāng)班機(jī)的關(guān)鍵數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行相應(yīng)運(yùn)算但不進(jìn)行控制輸出,三機(jī)同步措施同樣可采用任務(wù)同步方式。架構(gòu)原理示意如圖3。
2.2.2 信息流
控制系統(tǒng)各CPU模塊通過自檢測(cè)、“三取二”健康管理措施以及地面判別等方式作為系統(tǒng)降級(jí)與重構(gòu)、升級(jí)與恢復(fù)的依據(jù)。其中,“三取二”健康管理措施為:三個(gè)CPU模塊均設(shè)置仲裁子模塊并各自進(jìn)行運(yùn)算,通過內(nèi)總線將各自運(yùn)算的關(guān)鍵數(shù)據(jù)送至另外兩個(gè)CPU模塊的仲裁子模塊。當(dāng)某一CPU模塊的仲裁子模塊接收到另外兩CPU模塊數(shù)據(jù)后,與本機(jī)運(yùn)算結(jié)果進(jìn)行“三取二”表決,將表決結(jié)果作為判別本模塊是否出錯(cuò)的依據(jù)。各模塊通過自檢測(cè)、“三取二”等健康管理措施,實(shí)時(shí)檢測(cè)三個(gè)CPU模塊是否正常工作,并將結(jié)果送至兩控制輸出接口模塊作為切機(jī)依據(jù)。如當(dāng)班機(jī)故障,由輸出接口模塊控制,在用戶數(shù)據(jù)采集、處理和輸出的周期內(nèi)平穩(wěn)切換至健康模塊執(zhí)行。出現(xiàn)故障的模塊進(jìn)行離線處理,系統(tǒng)進(jìn)入雙機(jī)工作模式,故障模塊恢復(fù)后,重新恢復(fù)三機(jī)冗余方式。如果在兩機(jī)工作情況下,通過自檢測(cè)發(fā)現(xiàn)當(dāng)班機(jī)故障,則進(jìn)入單機(jī)工作模式,根據(jù)兩故障模塊恢復(fù)情況決定恢復(fù)兩機(jī)或三機(jī)冗余工作模式。系統(tǒng)信息流示意如圖4。
控制系統(tǒng)控制信號(hào)輸出通道為熱冗余備份工作模式,默認(rèn)a通道工作,當(dāng)班通道模塊或三個(gè)CPU模塊檢測(cè)到當(dāng)班通道故障時(shí),在數(shù)據(jù)處理周期內(nèi)自動(dòng)切換到另一通道工作,三個(gè)CPU模塊分別與兩個(gè)通道通信。CPU模塊當(dāng)班機(jī)將CPU模塊當(dāng)班機(jī)和控制輸出通道選擇情況及輸出的控制信號(hào)實(shí)時(shí)送往兩通道,另外兩機(jī)將當(dāng)班機(jī)和通道選擇情況分別送往兩通道作為判斷的輔助依據(jù)。兩控制信號(hào)輸出通道模塊將三個(gè)CPU模塊傳送的當(dāng)班機(jī)和通道選擇情況進(jìn)行“三取二”表決,將表決結(jié)果作為確認(rèn)CPU當(dāng)班機(jī)和當(dāng)班通信模塊的依據(jù),從而建立本通道與當(dāng)班機(jī)的通信。當(dāng)通信模塊最終判定本通信模塊工作正常時(shí),向被控對(duì)象輸出有效的心跳信號(hào)以及CPU產(chǎn)生的通道選擇標(biāo)志作為判定本通信是否有效的依據(jù)。
系統(tǒng)三個(gè)CPU模塊與兩個(gè)通信通道之間的通信關(guān)系默認(rèn)為CPU模塊A與控制信號(hào)輸出通道a模塊通信。當(dāng)班CPU模塊故障并檢測(cè)到下一模塊正常時(shí),按照CPU模塊A—CPU模塊B—CPU模塊C—CPU模塊A……的順序進(jìn)行當(dāng)班機(jī)切換。當(dāng)工作的通信通道故障并檢測(cè)到另一通道正常時(shí),按照通道a—通道b—通道a……進(jìn)行通信通道的切換。當(dāng)A\B\C三個(gè)CPU模塊均故障時(shí),系統(tǒng)停止控制相關(guān)工作并通過遙測(cè)下傳報(bào)CPU故障。當(dāng)a\b兩個(gè)通道均故障時(shí),系統(tǒng)停止控制通道工作并通過遙測(cè)下傳報(bào)通信故障。三個(gè)CPU模塊及雙通信通道工作及通信狀態(tài)關(guān)系如圖5所示。
2.2.3 冗余設(shè)計(jì)
控制系統(tǒng)三路CPU模塊單元、多路仲裁表決輸出單元及輸出接口等均進(jìn)行熱冗余設(shè)計(jì),同時(shí)由仲裁表決模塊輔助判斷當(dāng)班CPU選擇情況,由心跳信號(hào)以及CPU產(chǎn)生的通道選擇標(biāo)志告知被控對(duì)象輸出通道的選擇,系統(tǒng)無(wú)單點(diǎn)失效環(huán)節(jié)。當(dāng)某一模塊故障,系統(tǒng)自動(dòng)識(shí)別故障并在用戶數(shù)據(jù)采集、處理和輸出的周期內(nèi)平穩(wěn)切換至健康模塊執(zhí)行,以保持較好的整機(jī)時(shí)序工作連續(xù)性。當(dāng)兩模塊同時(shí)出現(xiàn)故障,系統(tǒng)切換至健康模塊執(zhí)行,降級(jí)為單機(jī)工作模式。
由于具體設(shè)計(jì)細(xì)節(jié)不同會(huì)影響可靠性指標(biāo)的計(jì)算[8],本文對(duì)可靠性指標(biāo)不進(jìn)行定量分析,僅通過與傳統(tǒng)雙機(jī)備份系統(tǒng)的可靠性指標(biāo)進(jìn)行定性比對(duì)分析,來(lái)驗(yàn)證三機(jī)備份架構(gòu)控制系統(tǒng)的可靠性設(shè)計(jì)情況。
前述介紹的幾種兩機(jī)備份架構(gòu)的控制系統(tǒng),其基本工作原理類似且其硬件組成同樣可以采用類似的電路實(shí)現(xiàn),所以兩機(jī)備份的可靠性分析也可以采用相同的模型,兩機(jī)備份的控制系統(tǒng)可靠性模型見圖6。
因此,兩機(jī)備份情況下,可靠性指標(biāo)為式(1):
根據(jù)前述分析,三機(jī)容錯(cuò)架構(gòu)控制系統(tǒng)和三機(jī)冗余架構(gòu)控制系統(tǒng)的差異主要存在于軟件和信息處理方式中,其系統(tǒng)工作原理類似且硬件組成可以采用類似的電路實(shí)現(xiàn),所以其可靠性分析時(shí)可采用相同的模型[9],三機(jī)備份可靠性模型見圖7,可靠性指標(biāo)如式(2)。
三機(jī)CPU模塊相較于兩機(jī)CPU模塊設(shè)計(jì)主要多了三機(jī)CPU模塊之間的內(nèi)通信總線。假設(shè)當(dāng)三機(jī)系統(tǒng)指定某一機(jī)工作時(shí),其內(nèi)總線不再參與運(yùn)算工作。因此,其單機(jī)工作模式的可靠性與雙機(jī)系統(tǒng)某一機(jī)的可靠性一致。可見指定單機(jī)工作模式下的三機(jī)冗余CPU的可靠性要高于雙機(jī)冗余CPU的可靠性。另外,三機(jī)的仲裁模塊相較于兩機(jī)輸出模塊在功能上多出了控制信號(hào)、CPU當(dāng)班機(jī)參數(shù)以及通道選擇標(biāo)志等信號(hào)的“三取二”表決功能,新增功能僅為簡(jiǎn)單的邏輯判斷。以信號(hào)輸出模塊采用FPGA為例,新增功能僅占用幾百門邏輯單元,相較于現(xiàn)今常用作信號(hào)輸出模塊的10萬(wàn)門量級(jí)的FPGA芯片來(lái)說,其對(duì)可靠性的影響可以忽略。因此,三機(jī)仲裁表決模塊與兩機(jī)輸出模塊可靠性可假設(shè)為一致。兩種模式下的驅(qū)動(dòng)電路采用相同的電路形式,則可得式(3)所示不等式:
從分析結(jié)果可以看出,采用三機(jī)備份架構(gòu)控制系統(tǒng)的可靠性設(shè)計(jì)指標(biāo)要高于采用兩機(jī)備份架構(gòu)的控制系統(tǒng)。
采用三機(jī)容錯(cuò)模式架構(gòu)的控制系統(tǒng),一個(gè)模塊故障時(shí)不需要切機(jī)等任何動(dòng)作即可自動(dòng)屏蔽故障,對(duì)所有的控制輸出信號(hào)均進(jìn)行仲裁表決和串并聯(lián)整合,可以在輸出前保證了每個(gè)控制參數(shù)的正確性。但由于其對(duì)所有輸出信號(hào)均進(jìn)行仲裁表決和數(shù)據(jù)整合,資源占用量大,且難以實(shí)現(xiàn)模擬量參數(shù)的“三取二”表決。因此,三機(jī)容錯(cuò)模式架構(gòu)的控制系統(tǒng)適用于對(duì)系統(tǒng)運(yùn)行平穩(wěn)性、連續(xù)性要求非常高,但驅(qū)動(dòng)系統(tǒng)輸入僅為少量數(shù)字量的空間機(jī)構(gòu)系統(tǒng)。國(guó)內(nèi)某型號(hào)空間對(duì)接機(jī)構(gòu)產(chǎn)品采用了此類架構(gòu)的控制系統(tǒng),并已成功通過在軌驗(yàn)證。
采用三機(jī)冗余模式架構(gòu)的控制系統(tǒng),通過自主、實(shí)時(shí)檢測(cè)故障的方式,能夠在檢測(cè)到當(dāng)班機(jī)出現(xiàn)故障時(shí),由仲裁及輸出接口模塊在用戶數(shù)據(jù)采集、處理和輸出的周期內(nèi)平穩(wěn)切換至健康模塊執(zhí)行。由于同一時(shí)間僅有當(dāng)班機(jī)的運(yùn)算結(jié)果作為控制信號(hào)輸出,相對(duì)于三機(jī)容錯(cuò)模式的控制系統(tǒng),其資源占用少且易于實(shí)現(xiàn)輸出模擬量參數(shù)的控制信號(hào)。但其僅對(duì)關(guān)鍵參數(shù)進(jìn)行“三取二”表決,且軟件實(shí)現(xiàn)較為復(fù)雜以及需要軟件切換當(dāng)班機(jī)進(jìn)行故障處理等不利因素。因此,三機(jī)冗余模式架構(gòu)的控制系統(tǒng)適用于驅(qū)動(dòng)系統(tǒng)輸入包含較多數(shù)字量或模擬量的復(fù)雜空間機(jī)構(gòu)系統(tǒng)。國(guó)內(nèi)某型號(hào)太陽(yáng)翼系統(tǒng)采用了此類架構(gòu),且經(jīng)過原理樣機(jī)聯(lián)試驗(yàn)證了方案的可行性。
本文為滿足復(fù)雜空間機(jī)構(gòu)對(duì)控制系統(tǒng)的無(wú)錯(cuò)誤、無(wú)中斷運(yùn)行要求提出的包括三機(jī)容錯(cuò)和三機(jī)冗余兩種架構(gòu)的三機(jī)熱備份控制系統(tǒng)方案,經(jīng)定性分析與原理驗(yàn)證,具有保證系統(tǒng)連續(xù)、無(wú)誤運(yùn)行的優(yōu)點(diǎn),比傳統(tǒng)雙機(jī)冗余系統(tǒng)可靠性更高,更適用于復(fù)雜空間機(jī)構(gòu)的控制。