胡正偉 焦芳芳 汪麗娜
(合肥市軌道交通集團(tuán)有限公司運(yùn)營(yíng)分公司,230041,合肥∥第一作者,高級(jí)工程師)
某地鐵TCMS(列車控制與管理系統(tǒng))采用分布式控制技術(shù),通信總線采用MVB(多功能車輛總線)[1]。IO(輸入輸出)模塊是列車控制網(wǎng)絡(luò)中TCMS的關(guān)鍵設(shè)備之一,是TCMS與列車非智能模塊的網(wǎng)絡(luò)接口,可以實(shí)現(xiàn)TCMS對(duì)控制開(kāi)關(guān)、傳感器和繼電器等大部分車載非智能模塊的監(jiān)視、控制和診斷[2]。本文針對(duì)該城市地鐵列車IO模塊的典型故障問(wèn)題,深入分析故障原因,并給出有效的解決對(duì)策。
IO模塊采用機(jī)箱式設(shè)計(jì),各功能單元采用可插拔式板卡設(shè)計(jì),包括電源板卡、CPU(中央處理器)板卡、MVB接口板卡、DI(數(shù)字量輸入板卡)、DO(數(shù)字量輸出板卡)和AX(模擬量輸入輸出板卡)。除電源板卡外,其他板卡在機(jī)箱內(nèi)部采用背板CAN(控制器局域網(wǎng))總線進(jìn)行通信。IO模塊采用DSP(數(shù)字信號(hào)處理)+FPGA(現(xiàn)場(chǎng)可編程門陣列)結(jié)構(gòu),通過(guò)將DSP作為主控芯片、FPGA作為邏輯控制核心,來(lái)控制外圍設(shè)備。
IO模塊硬件架構(gòu)及連接示意如圖1所示。
圖1 IO模塊硬件架構(gòu)及連接示意圖Fig.1 The hardware architecture and connection schematic diagram of IO modules
對(duì)某地鐵列車IO模塊在試驗(yàn)和運(yùn)營(yíng)過(guò)程中出現(xiàn)的硬件故障和軟件故障進(jìn)行剖析,并給出解決對(duì)策。
2.1.1 電源板卡故障
2.1.1.1 電源板卡故障描述及分析
列車自開(kāi)始運(yùn)營(yíng)2個(gè)月內(nèi),共發(fā)生3起IO模塊電源板卡故障,導(dǎo)致該IO模塊供電失效,IO模塊與TCMS出現(xiàn)通信故障,TCMS對(duì)與該模塊連接的非智能設(shè)備的監(jiān)視和控制功能失效,故障率高達(dá)1%。
發(fā)生電源故障后,對(duì)故障電源板卡進(jìn)行調(diào)查分析,主要分析流程如下:
1)在確認(rèn)輸入輸出無(wú)短路故障的情況下,進(jìn)行上電測(cè)試,確定DC 110 V轉(zhuǎn)DC 5 V電源模塊無(wú)輸出。
2)拆除電源模塊測(cè)試發(fā)現(xiàn),電源模塊輸出端阻抗偏離正常值達(dá)6 kΩ,輸出電壓為0.7 V。
3)更換新的電源模塊并上電,結(jié)果電源輸出正常,因此確定該故障為電源模塊故障。
4)為進(jìn)一步定位故障原因,對(duì)IO模塊電源板卡前端濾波電路設(shè)計(jì)進(jìn)行分析,排除故障是前端濾波電路的問(wèn)題,確定電源模塊故障是導(dǎo)致電源板卡故障的直接原因。
5)將電源模塊拆解,并對(duì)模塊實(shí)施失效分析,結(jié)果表明,模塊故障與助焊劑殘留有關(guān)。
為了確定助焊劑殘留對(duì)模塊故障造成的影響,選取正常水洗的11個(gè)模塊和表面涂抹助焊劑后未經(jīng)水洗的12個(gè)模塊進(jìn)行對(duì)比試驗(yàn)驗(yàn)證。試驗(yàn)結(jié)果如下:
11個(gè)經(jīng)過(guò)水洗的模塊功能運(yùn)行正常(400 h測(cè)試)。在未經(jīng)水洗的12個(gè)模塊中,11個(gè)模塊停止工作。其中,1例在40 h時(shí)失效,2例在120 h時(shí)失效,1例在160 h時(shí)失效,6例在200 h時(shí)失效,1例在250 h時(shí)失效。
由此可見(jiàn),IO模塊電源板卡故障的根本原因?yàn)殡娫茨K中助焊劑殘留導(dǎo)致模塊失效。助焊劑本身不具備導(dǎo)電性,但助焊劑會(huì)吸收水分,且吸收水分后具有弱導(dǎo)電性。這種弱導(dǎo)電性可導(dǎo)致模塊失效。導(dǎo)致助焊劑殘留的根本原因是助焊劑清洗不徹底。
2.1.1.2 電源板卡故障解決對(duì)策
1)控制助焊劑殘留風(fēng)險(xiǎn)點(diǎn)和生產(chǎn)過(guò)程,升級(jí)電源模塊清洗工藝。
2)升級(jí)質(zhì)量管控措施,進(jìn)行解剖檢查,增加清洗潔凈度驗(yàn)證質(zhì)量流程。
經(jīng)驗(yàn)證,實(shí)施上述措施后,未再發(fā)生因電源板卡故障導(dǎo)致IO模塊故障的案例。
2.1.2 負(fù)載采集故障
2.1.2.1 負(fù)載采集故障描述及分析
在列車?yán)性囼?yàn)中發(fā)現(xiàn),IO模塊的DI板卡無(wú)法正確采集門開(kāi)關(guān)檢測(cè)傳感器信號(hào)。針對(duì)該問(wèn)題,深入分析其原因。主要分析流程如下:
1)在確認(rèn)負(fù)載、電氣線路及DI板卡均正常工作的情況下,對(duì)門開(kāi)關(guān)檢測(cè)傳感器負(fù)載進(jìn)行分析,發(fā)現(xiàn)該負(fù)載為感性負(fù)載。
2)結(jié)合規(guī)范對(duì)該故障進(jìn)行分析可知,DI板卡的采集周期為10 ms,其中開(kāi)通1 ms、關(guān)斷9 ms,采集占空比為10%;因感性負(fù)載的負(fù)載電流滯后負(fù)載電壓一個(gè)相位差,導(dǎo)致感性負(fù)載的反應(yīng)時(shí)間較慢,某些感性負(fù)載無(wú)法在1 ms之內(nèi)完全導(dǎo)通,再疊加光耦的導(dǎo)通延時(shí)、器件的傳輸延時(shí)等因素,有效信號(hào)的維持時(shí)間較短,造成DI板卡處理器芯片的采樣出現(xiàn)問(wèn)題。
因此,IO模塊無(wú)法有效采集感性負(fù)載的根本原因?yàn)榘蹇ㄓ布O(shè)計(jì)不合理。
2.1.2.2 負(fù)載采集故障解決對(duì)策
針對(duì)IO板卡感性負(fù)載無(wú)法采集的問(wèn)題,理論上可以從以下3個(gè)方面進(jìn)行優(yōu)化。
方案1:增加DI板卡的采集占空比和導(dǎo)通時(shí)間,以彌補(bǔ)感性負(fù)載反應(yīng)時(shí)間較慢的不足。
方案2:在感性負(fù)載下端增加繼電器,即門開(kāi)關(guān)檢測(cè)傳感器信號(hào)直接驅(qū)動(dòng)繼電器,并由DI采集繼電器輔助觸點(diǎn)信號(hào),如圖2所示。
圖2 方案2示意圖Fig.2 The schematic diagram of scheme 2
方案3:在DI采樣電路前端增加電阻,即在門傳感器輸出端設(shè)計(jì)1個(gè)15 000Ω的功率電阻,這樣可以在門開(kāi)時(shí)使電路時(shí)刻導(dǎo)通,以解決感性負(fù)載采集問(wèn)題,如圖3所示。
圖3 方案3示意圖Fig.3 The schematic diagram of scheme 3
對(duì)以上3種方案進(jìn)行綜合分析,結(jié)果如下:
1)方案1會(huì)帶來(lái)散熱的問(wèn)題,影響板卡的穩(wěn)定性,因此未選用該方案。
2)方案2受繼電器本身壽命周期限制,且需要對(duì)車輛感性負(fù)載使用情況作全面排查,并針對(duì)性地更改列車電氣線路,更改較為復(fù)雜,因此未被采納。
3)方案3可以從根本上解決因DI板卡硬件設(shè)計(jì)缺陷造成的感性負(fù)載無(wú)法正確采集的故障問(wèn)題。經(jīng)綜合評(píng)估后,選用方案3解決該類故障。
經(jīng)驗(yàn)證,方案3能有效解決IO板卡無(wú)法正確采集感性負(fù)載的問(wèn)題。
2.2.1 DO復(fù)位異常故障
2.2.1.1 DO復(fù)位異常故障描述及分析
列車試運(yùn)營(yíng)階段,列車觸發(fā)嚴(yán)重故障后,蜂鳴器能按照1 s間隔正常報(bào)警;但嚴(yán)重故障復(fù)位后,偶發(fā)蜂鳴器報(bào)警聲音復(fù)位異?,F(xiàn)象,即蜂鳴器持續(xù)報(bào)警一段時(shí)間后才復(fù)位。
發(fā)生DO板卡輸出指令復(fù)位異常故障后,針對(duì)該故障進(jìn)行調(diào)查分析,主要分析流程如下:
1)實(shí)車模擬故障,使用CAN分析儀和示波器等設(shè)備采集IO板卡輸入端和輸出端信號(hào)狀態(tài)。結(jié)果表明,雖TCMS發(fā)給IO板卡的控制指令已復(fù)位,但DO板卡輸出至蜂鳴器的報(bào)警指令異常,持續(xù)輸出高電平達(dá)70 s才復(fù)位。由此可知,該故障是由DO板卡自身問(wèn)題導(dǎo)致輸出高電平,控制蜂鳴器產(chǎn)生異常報(bào)警。
2)對(duì)DO板卡內(nèi)部控制指令進(jìn)行分析,捕捉DO板卡內(nèi)部程序發(fā)給蜂鳴器的控制信號(hào)。結(jié)果表明,DO板卡底層軟件未執(zhí)行TCMS指令,一直維持TCMS上一個(gè)周期的控制,持續(xù)輸出高電平造成報(bào)警指令復(fù)位異常。
3)對(duì)DO板卡底層軟件進(jìn)行分析,發(fā)現(xiàn)IO模塊的CPU板卡將外部時(shí)鐘源產(chǎn)生的信號(hào)直接傳給了FPGA,并將該信號(hào)作為調(diào)試信號(hào),F(xiàn)PGA內(nèi)部使用60 MHz時(shí)鐘采樣該調(diào)試信號(hào)。這種跨時(shí)鐘域操作,在理論上會(huì)造成程序運(yùn)行不穩(wěn)定,具有隨機(jī)性。當(dāng)TCMS發(fā)送的DO指令發(fā)生變化,即出現(xiàn)上升沿或下降沿時(shí),程序會(huì)輪詢到特定狀態(tài)。在該狀態(tài)下要等待4個(gè)時(shí)鐘頻率為60 MHz的時(shí)鐘周期,即66.7 ns。當(dāng)計(jì)數(shù)器計(jì)數(shù)到3(計(jì)數(shù)范圍為0~3)時(shí)轉(zhuǎn)移到下一個(gè)狀態(tài),DO正常接收TCMS發(fā)送的DO指令。由于誤將此計(jì)數(shù)器設(shè)計(jì)成32位變量,當(dāng)時(shí)鐘未捕捉到計(jì)數(shù)值3時(shí),則繼續(xù)進(jìn)行計(jì)數(shù),數(shù)據(jù)溢出時(shí)再?gòu)?開(kāi)始計(jì)數(shù),直到計(jì)數(shù)值再次出現(xiàn)3,才會(huì)轉(zhuǎn)移到下一個(gè)狀態(tài);在此期間DO無(wú)法執(zhí)行TCMS的控制指令,并持續(xù)輸出上一時(shí)刻控制指令,造成蜂鳴器異常持續(xù)報(bào)警約70 s,該值與現(xiàn)場(chǎng)實(shí)測(cè)數(shù)據(jù)吻合。
由此可見(jiàn),發(fā)生DO板卡輸出指令復(fù)位異常故障的根本原因是IO板卡底層軟件存在跨時(shí)鐘操作,該操作對(duì)程序的穩(wěn)定運(yùn)行有一定的隨機(jī)性。在數(shù)字系統(tǒng)中,0和1的判斷在于電壓,在判決電壓閾值之間存在跨時(shí)鐘域操作時(shí),新的時(shí)鐘域在采樣時(shí)刻落在該判決閾值之間時(shí),程序可能出現(xiàn)亞穩(wěn)態(tài)情況,結(jié)果會(huì)導(dǎo)致邏輯混亂或復(fù)位失敗。
2.2.1.2 DO復(fù)位異常故障解決對(duì)策
對(duì)于單比特信號(hào),業(yè)界公認(rèn)的模型是:第一級(jí)寄存器產(chǎn)生亞穩(wěn)態(tài)后,第二級(jí)寄存器穩(wěn)定輸出的概率為90%,第三級(jí)寄存器穩(wěn)定輸出的概率為99%,使用內(nèi)部時(shí)鐘打4拍的處理方式,理論上穩(wěn)定輸出概率可達(dá)到100%。本項(xiàng)目將外部的調(diào)試信號(hào),在FPGA內(nèi)部使用60 MHz時(shí)鐘寄存4拍,將不同時(shí)鐘源的信號(hào)進(jìn)行同源處理。具體解決方案如圖4所示。
圖4 FPGA內(nèi)部對(duì)外部調(diào)試信號(hào)的處理模型Fig.4 The processing model of external debug signal inside FPGA
通過(guò)對(duì)DO板卡底層軟件進(jìn)行優(yōu)化,經(jīng)驗(yàn)證,未再發(fā)生DO板卡輸出指令復(fù)位異常故障。
2.2.2 DO異常輸出故障
2.2.2.1 DO異常輸出故障描述及分析
正常情況下,TCMS給IO模塊發(fā)送受電弓切除指令,控制受電弓切除。列車試運(yùn)營(yíng)階段,在TCMS未給IO板卡發(fā)送受電弓切除指令的情況下,偶發(fā)受電弓異常切除故障。
因故障偶發(fā),且長(zhǎng)時(shí)間嘗試故障復(fù)現(xiàn)均未能成功,采用實(shí)驗(yàn)室模擬與對(duì)DO板卡底層軟件分析相結(jié)合的方式對(duì)故障進(jìn)行調(diào)查分析。
調(diào)查分析發(fā)現(xiàn),IO板卡的DSP使用外部總線訪問(wèn)FPGA的內(nèi)存,如果DSP的地址總線、寫使能信號(hào)和片選信號(hào)相較數(shù)據(jù)總線變化不一致,疊加外界因素影響,則在DSP寫使能信號(hào)剛起效時(shí),由于DSP的數(shù)據(jù)總線未能及時(shí)更新,DSP會(huì)將上一個(gè)地址內(nèi)存的數(shù)據(jù)寫入當(dāng)前地址中。此時(shí)如果在當(dāng)前CAN通信周期FPGA正好輪詢讀到這個(gè)地址的數(shù)據(jù),則FPGA會(huì)立即將其發(fā)送給DO板卡,造成DO出現(xiàn)誤動(dòng)作。但在DSP寫使能趨于穩(wěn)定的過(guò)程中,DSP的數(shù)據(jù)總線也會(huì)逐漸穩(wěn)定,即在下一個(gè)CAN輪詢時(shí)刻,F(xiàn)PGA讀到正確的數(shù)據(jù)并發(fā)送給DO板卡,DSP的寫數(shù)據(jù)誤操作在理論上只存在1個(gè)CAN輪詢周期(20 ms)。
2.2.2.2 DO異常輸出故障解決對(duì)策
經(jīng)分析,可從以下兩方面對(duì)IO板卡底層軟件進(jìn)行優(yōu)化:
1)使用FPGA軟件對(duì)DSP的外部總線進(jìn)行處理,防止DSP在外部總線的邊界時(shí)刻訪問(wèn)FPGA內(nèi)部RAM(隨機(jī)存取存儲(chǔ)器)。DSP通過(guò)配置內(nèi)部寄存器,增加DSP外部總線寫控制信號(hào)的脈寬;FPGA對(duì)DSP外部總線寫使能信號(hào)進(jìn)行寄存處理,在該信號(hào)充分穩(wěn)定時(shí),允許DSP寫訪問(wèn)FPGA內(nèi)部RAM 1次。
2)升級(jí)DO程序,使IO模塊底層軟件內(nèi)部對(duì)TCMS控制指令實(shí)施20 ms濾波處理。該方案可濾除1個(gè)CAN通信周期內(nèi)的數(shù)據(jù)異常,增加DO板卡數(shù)據(jù)輸出的可靠性和穩(wěn)定性。
通過(guò)對(duì)DO板卡底層軟件實(shí)施優(yōu)化,經(jīng)驗(yàn)證,現(xiàn)場(chǎng)未再發(fā)生DO板卡異常輸出故障。
IO模塊的工作穩(wěn)定性和可靠性直接關(guān)系到TCMS對(duì)列車非智能設(shè)備監(jiān)視、控制和診斷的有效性。本文列舉的IO板卡典型故障問(wèn)題,涵蓋了工藝處理、硬件設(shè)計(jì)及底層軟件設(shè)計(jì)等方面的內(nèi)容,為業(yè)界研發(fā)設(shè)計(jì)和檢修技術(shù)人員處理該類問(wèn)題提供了故障處理思路。