梁明治 李 宣 南京地下鐵道有限責(zé)任公司
COM機(jī)系統(tǒng)近年的故障率開始呈現(xiàn)上升趨勢(shì),特別是近期,COM機(jī)歸檔問題以及COM機(jī)備機(jī)掉線問題尤為突出,對(duì)我們運(yùn)營(yíng)效率和服務(wù)質(zhì)量造成了一定的影響。
由于COM機(jī)系統(tǒng)是建立在西門子專有軟件基礎(chǔ)上運(yùn)行的,涉及計(jì)算機(jī)軟件的知識(shí)產(chǎn)權(quán),所以西門子對(duì)于軟件的保護(hù)尤為突出,對(duì)于維護(hù)人員的培訓(xùn)僅僅局限于操作和簡(jiǎn)單的維護(hù),每一次的軟件升級(jí)完全通過(guò)我們與德國(guó)的一個(gè)專用網(wǎng)絡(luò)直接控制COM系統(tǒng)升級(jí),操作系統(tǒng)采用SOLARIS系統(tǒng),而軟件語(yǔ)言大多數(shù)采用德語(yǔ)縮寫,使得我們幾乎無(wú)法深入了解軟件的內(nèi)部結(jié)構(gòu)。
西門子公司規(guī)模和結(jié)構(gòu)決定了他們對(duì)于故障的反應(yīng)時(shí)間不會(huì)很快,而對(duì)于我們這種服務(wù)性質(zhì)的公司來(lái)說(shuō),保證運(yùn)營(yíng)的服務(wù)質(zhì)量和效率就是第一位的,而如果設(shè)備出現(xiàn)問題得不到及時(shí)修復(fù)自然也就影響了運(yùn)營(yíng)服務(wù),所以能夠在最大程度上降低故障時(shí)間,減小故障的影響就是我們需要做的。
在上述背景下,通過(guò)我們自身的努力,深入研究其內(nèi)在原理、規(guī)律,部分?jǐn)[脫對(duì)西門子的依賴,對(duì)于保證運(yùn)營(yíng)效率,縮減運(yùn)營(yíng)成本,積蓄技術(shù)力量甚至為將來(lái)的替代產(chǎn)品做自主研發(fā),具有深遠(yuǎn)的意義。
前些年當(dāng)COM機(jī)出現(xiàn)故障后,我們做的僅僅是把故障的報(bào)文發(fā)送給西門子,由他們的專業(yè)人員分析結(jié)果并反饋給我們,由于故障率不高,沒有造成太大影響,在故障反應(yīng)的時(shí)間上,也沒有太多要求,但隨著今年故障率的直線上升,這種模式已經(jīng)不能適應(yīng)現(xiàn)在的趨勢(shì),在這種情況下,我們開始對(duì)于COM機(jī)的報(bào)文進(jìn)行自主的分析,并取得了不小的收獲。
COM機(jī)歸檔功能是將前一天的行車運(yùn)行圖進(jìn)行存儲(chǔ),并通過(guò)磁帶機(jī)保存在磁帶中。
前一天的行車運(yùn)行圖存儲(chǔ)在COM機(jī)文件夾/home/s/daba_FA/backup中,并被命名為臨時(shí)文件archive1.dat和archive2.dat。臨時(shí)文件 archive1.dat和archive2.dat的內(nèi)容包含了當(dāng)天行車運(yùn)行的所有信息,該信息以文字形式進(jìn)行存儲(chǔ),可通過(guò)運(yùn)圖編輯器還原成圖形化運(yùn)圖文件。
經(jīng)過(guò)研究我們發(fā)現(xiàn),手動(dòng)歸檔的過(guò)程是在雙COM機(jī)重啟之前,通過(guò)調(diào)用腳本SaveArc,將歸檔臨時(shí)文件archive1.dat和archive2.dat保存到臨時(shí)生成的文件夾中,當(dāng)COM機(jī)重啟完成后,通過(guò)調(diào)用腳本RestoreArc,將臨時(shí)文件夾中的archive1.dat和archive2.dat文件,還原到/home/s/daba_FA/backup文件夾中,當(dāng)?shù)?:30,系統(tǒng)開始執(zhí)行自動(dòng)歸檔過(guò)程。我們從過(guò)程中查找手動(dòng)歸檔失敗的原因,主要從兩個(gè)執(zhí)行腳本SaveArc和RestoreArc著手。因兩個(gè)執(zhí)行腳本SaveArc和RestoreArc為加密文件,無(wú)法讀取具體內(nèi)容。只能從腳本執(zhí)行過(guò)程中進(jìn)行判斷。經(jīng)過(guò)多次試驗(yàn),發(fā)現(xiàn),在執(zhí)行腳本SaveArc的過(guò)程中,歸檔臨時(shí)文件能成功保存在臨時(shí)文件夾中,可以判斷出SaveArc腳本不是造成手動(dòng)歸檔失敗的原因,所以可以判斷出腳本Restore-Arc在手動(dòng)歸檔的過(guò)程中出現(xiàn)了問題。至此可以總結(jié)出手動(dòng)歸檔失敗的根本原因?yàn)槟_本RestoreArc的編寫錯(cuò)誤。
下面2段報(bào)文是我們截取的COM機(jī)掉線報(bào)文的一段說(shuō)明原因的報(bào)文
Feb 2 05:56:45 co2nj tmt:[ID 272515 user.error]coreE_co2nj_tmt.2280
Feb 2 05:56:46 co2njDUMPCORE:[ID 516730 user.info]co2nj tmt-set project specific parameters
Feb 2 05:56:58 co2nj mcs:[ID 535221 user.alert]missing objecttmt 56:58.00
Feb 2 05:56:58 co2nj mcs:[ID 422886 user.warning]emergency message received:Feb 2 05:56:58 co2nj mcs : [ID 535221 user.alert]missing object tmt 56:58.00 56:58.01
Feb 2 05:56:58 co2nj mcs:[ID 739810 user.notice]defect:emergency message received,restartin 10s 56:58.01
這個(gè)報(bào)文的字面意思在我們自己分析看來(lái),應(yīng)該是屬于TMT的進(jìn)程出錯(cuò),也就是列車追蹤和監(jiān)督功能出現(xiàn)錯(cuò)誤,屬于導(dǎo)致COM2掉線的原因。
而按照西門子的技術(shù)資料看來(lái),COM2出現(xiàn)進(jìn)程錯(cuò)誤導(dǎo)致不具備熱備SB功能,應(yīng)該是可以自行檢測(cè)并重新恢復(fù)熱備狀態(tài)的,而最近幾個(gè)月的COM2掉線后,并沒有成功的自動(dòng)恢復(fù)熱備,在報(bào)文中我們又找到了如下的報(bào)文信息:
Feb 2 05:58:44 co2nj mcs:[ID 637711 user.error]SbSignal(sedi,SoftInit):flag=-9 58:44.00
Feb 2 05:58:44 co2nj mcs:[ID 832503 user.error] SbSignal(sedi,ReleRece):flag=-9 58:44.00
Feb 2 05:58:44 co2nj zwvw:[ID 403579 user.error] 3101 pdpDat-TableLoad:/home/s/daba_FA/btt58.dat-Unable to open the file,Error Number 2
Feb 2 05:58:44 co2nj zwvw:[ID 315195 user.error]3713 In zwvwUpdatePdpBttAreas()::pdpDatTableLoad()Fail,
Feb 2 05:58:44 co2nj zwvw:[ID 848649 user.crit] 4801 In main()::zwvwUpdatePdpBttAreas()Failed,cannot continue'zwvw'
Feb 2 05:58:44 co2nj zwvw:[ID 844366 user.crit] 4703 Regular End of Prog 58:44.02
Feb 2 05:58:47 co2nj trpr:[ID 149008 user.debug] * swPdsSta RTU 14 STW XH BP 16 Alpha BET
Feb 2 05:58:48 co2nj mcs:[ID 213814 user.alert]missing object zwvw 58:48.00
Feb 2 05:58:48 co2nj mcs:[ID 957549 user.warning]emergency message received:Feb 2 05:58:48 co2nj mcs : [ID 213814 user.alert]missing object zwvw 58:48.00 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 297604 user.notice]restart required because emergency message indicates a defect 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 637879 user.notice]Spectrum willbe killed now 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 200928 user.notice]Spectrum willbe changed now:COM Pr 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 106251 user.notice]terminated.
在COM2出現(xiàn)故障后開始自動(dòng)熱備的過(guò)程中,會(huì)重新啟動(dòng)Spectrum系統(tǒng)3次,每次在COM2狀態(tài)成為SB并即將熱備COM1時(shí),報(bào)文就會(huì)報(bào)告一個(gè)錯(cuò)誤信息,也就是紅字標(biāo)注的zwvw的一個(gè)進(jìn)程錯(cuò)誤,根據(jù)我們自己的分析,此進(jìn)程應(yīng)該是COM2在每次啟動(dòng)程序時(shí)向COM1同步歸檔數(shù)據(jù)的一個(gè)進(jìn)程,而當(dāng)它出現(xiàn)問題時(shí)Specturm系統(tǒng)將無(wú)法打開,也就無(wú)法熱備COM1,從報(bào)文中,我們還發(fā)現(xiàn),在COM2出現(xiàn)TMT進(jìn)程錯(cuò)誤導(dǎo)致掉線的時(shí)候,并沒有進(jìn)行聯(lián)鎖測(cè)試,而聯(lián)鎖測(cè)試都是發(fā)生在COM2第一次嘗試自動(dòng)恢復(fù)熱備沒有成功后才開始。
于是我們進(jìn)行了一個(gè)試驗(yàn),試驗(yàn)的結(jié)果證明了報(bào)文的信息,也就是COM2掉線不會(huì)引起聯(lián)鎖測(cè)試,而引起聯(lián)鎖測(cè)試的原因是,COM2掉線后自動(dòng)嘗試恢復(fù)熱備狀態(tài)失敗。
根據(jù)以上的報(bào)文分析,一方面加強(qiáng)我們自己對(duì)于設(shè)備的認(rèn)知度,不再一味的受制于供應(yīng)商的說(shuō)法。另一方面,更是能給西門子提供出我們的分析結(jié)果而幫助他們更快的找到故障點(diǎn)來(lái)幫我們解決掉故障,降低了故障處理時(shí)間,COM機(jī)歸檔問題就是在這種情況下得到了很快的解決。
2009年2 月份的一次備用COM機(jī)硬盤損壞給我們敲響了警鐘,我們聯(lián)系了西門子,他們給我們的答復(fù)要么我們提供一塊空硬盤給德國(guó)方面他們幫我們安裝,這樣最少的處理時(shí)間也是半個(gè)月,或者最快的方法他們聯(lián)系德國(guó)西門子技術(shù)人員過(guò)來(lái),但也要1周時(shí)間,如果這個(gè)期間主用COM機(jī)掉線,對(duì)我們運(yùn)營(yíng)的影響將是非常大的,最終在這次故障的處理過(guò)程中,我們?nèi)谈?,看到了西門子技術(shù)人員對(duì)COM機(jī)硬盤重新安裝的過(guò)程,掌握了SOLARIS系統(tǒng)的硬盤備份技術(shù),并對(duì)我們所有的OC501和OC101系統(tǒng)的服務(wù)器進(jìn)行了硬盤備份,確保了這種系統(tǒng)故障的影響范圍縮小到最低,并在我們二號(hào)線的西門子培訓(xùn)中特別加入了這一項(xiàng)硬盤備份技術(shù)的培訓(xùn)要求。
在故障處理過(guò)程中,并沒有受到西門子技術(shù)保護(hù)原因的影響,而是通過(guò)自己能夠觸及到的地方,來(lái)盡可能的分析故障原因與解決方法,而不再是單純的聽取西門子給我們的故障原因分析,并提出我們對(duì)于故障處理的分析和見解,從而達(dá)到更好更快更高效的解決故障,來(lái)提高我們運(yùn)營(yíng)的效率和服務(wù)質(zhì)量。
這種故障的自主分析處理也提高了員工的信心,并讓我們更深刻的了解到掌握先進(jìn)的技術(shù)是完成和保障地鐵暢通運(yùn)營(yíng)的重要手段,這也正符合了公司提出的自主化維修的精神,從學(xué)習(xí),到提升個(gè)人技能,從而為自主化維修的進(jìn)程提供更好的保障。