滕繼明 中國(guó)鐵路上海局集團(tuán)有限公司杭州北車輛段
就目前而言,動(dòng)態(tài)檢測(cè)設(shè)備車間自主維修能力明顯偏弱,當(dāng)TFDS(鐵路貨車運(yùn)行故障動(dòng)態(tài)圖像檢測(cè)系統(tǒng))服務(wù)器出現(xiàn)故障時(shí),自主完成服務(wù)器的維修、配置有很大的難度,這也是一直困擾動(dòng)態(tài)維修部門的一大技術(shù)瓶頸。如服務(wù)器出現(xiàn)故障請(qǐng)廠方技術(shù)人員到現(xiàn)場(chǎng)進(jìn)行處理,又會(huì)出現(xiàn)設(shè)備長(zhǎng)時(shí)間停機(jī)情況,對(duì)運(yùn)行部門的作業(yè)組織會(huì)造成極大的影響。針對(duì)以上問題,嘗試優(yōu)化服務(wù)器雙機(jī)熱備配置模式來實(shí)現(xiàn)TFDS服務(wù)器遠(yuǎn)程切換管理,以提高動(dòng)態(tài)部門對(duì)TFDS設(shè)備故障應(yīng)急處置能力,以及日常維護(hù)保障。
目前TFDS服務(wù)器一般都采用雙機(jī)熱備共享磁盤的模式,兩臺(tái)節(jié)點(diǎn)服務(wù)器同時(shí)接入磁盤陣列柜,共享一個(gè)Oracle數(shù)據(jù)庫(kù)中的圖片及其他程序,兩臺(tái)機(jī)器組成群集,利用集群管理軟件對(duì)節(jié)點(diǎn)服務(wù)器進(jìn)行管理,實(shí)現(xiàn)主從服務(wù)器與磁盤陣列連接切換,兩臺(tái)服務(wù)器交替讀寫同一個(gè)Oracle數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)。雙機(jī)熱備共享磁盤陣列模式拓?fù)鋱D見圖1。
圖1 雙機(jī)熱備共享磁盤陣列模式拓?fù)鋱D
數(shù)據(jù)存放在共享存儲(chǔ)設(shè)備上,當(dāng)某節(jié)點(diǎn)服務(wù)器連接集群運(yùn)行時(shí),直接在存儲(chǔ)設(shè)備上進(jìn)行讀寫(列車數(shù)據(jù)、車號(hào)信息、圖片信息、故障信息等)。而當(dāng)主從機(jī)進(jìn)行切換后,另節(jié)點(diǎn)服務(wù)器同樣讀寫該存儲(chǔ)設(shè)備上的數(shù)據(jù),確保數(shù)據(jù)不丟失。該種模式對(duì)數(shù)據(jù)存儲(chǔ)具有較好的連貫性,對(duì)使用部門查閱歷史數(shù)據(jù)較為便利。
(1)如一旦磁盤陣列出現(xiàn)硬件故障、宕機(jī)以及Oracle數(shù)據(jù)庫(kù)出現(xiàn)問題,也就意味著整組服務(wù)器集群崩潰,沒有有效的補(bǔ)救措施來進(jìn)行應(yīng)急處置,需長(zhǎng)時(shí)間進(jìn)行維修。
(2)當(dāng)一臺(tái)服務(wù)器出現(xiàn)故障,另一臺(tái)服務(wù)器可以短期內(nèi)繼續(xù)運(yùn)行。但如果故障機(jī)器需要重新安裝系統(tǒng),整個(gè)群集系統(tǒng)也要重新部署,不但會(huì)丟失Oracle數(shù)據(jù)庫(kù)原有存儲(chǔ)的數(shù)據(jù),也會(huì)造成整套服務(wù)器長(zhǎng)時(shí)間停機(jī)的問題。
(3)兩臺(tái)服務(wù)器共享一臺(tái)磁盤陣列,磁盤陣列必須處于不間斷運(yùn)行狀態(tài),勢(shì)必給維護(hù)人員對(duì)磁盤陣列、Oracle數(shù)據(jù)庫(kù)的日常維護(hù)帶來極大的困難和風(fēng)險(xiǎn)。在實(shí)際工作中,維護(hù)人員為了減少風(fēng)險(xiǎn),往往會(huì)采取不檢、不查的方式來應(yīng)對(duì),也就造成了磁盤陣列長(zhǎng)期處于脫檢脫修的狀態(tài)。
所以說,這種只注重?cái)?shù)據(jù)存儲(chǔ)連續(xù)性的配置方式,給設(shè)備日常維護(hù)、運(yùn)行風(fēng)險(xiǎn)以及出現(xiàn)故障后的快速處置都存在較大的弊端。
圖2 服務(wù)器優(yōu)化方案-1拓?fù)鋱D
選用IBM-X系列服務(wù)器,主服務(wù)器連接磁盤陣列,從服務(wù)器不與磁盤陣列相連,而采用增加磁盤的方式來增大存儲(chǔ)容量。主從服務(wù)器單獨(dú)配置Oracle數(shù)據(jù)庫(kù),兩臺(tái)服務(wù)器運(yùn)行軟件與Oracle數(shù)據(jù)庫(kù)配置信息完全一致,日常兩臺(tái)機(jī)器熱備運(yùn)行,其中一臺(tái)連接探測(cè)站設(shè)備與三級(jí)聯(lián)網(wǎng)運(yùn)行,另一臺(tái)空載運(yùn)行。服務(wù)器優(yōu)化方案-1拓?fù)鋱D見圖2。
如需節(jié)約設(shè)備投入經(jīng)費(fèi),可取消磁盤陣列配置,主從服務(wù)器都采用增加磁盤的方式來增大存儲(chǔ)容量,單獨(dú)配置大容量存儲(chǔ)盤。主從服務(wù)器單獨(dú)配置Oracle數(shù)據(jù)庫(kù),兩臺(tái)服務(wù)器運(yùn)行軟件與Oracle數(shù)據(jù)庫(kù)配置信息完全一致,日常兩臺(tái)機(jī)器熱備運(yùn)行,其中一臺(tái)連接探測(cè)站設(shè)備與三級(jí)聯(lián)網(wǎng)運(yùn)行,另一臺(tái)空載運(yùn)行。該配置方案取消了磁盤陣列的配置,一是降低了設(shè)備投入的成本;二是降低故障節(jié)點(diǎn),有效防止因磁盤陣列而引起的服務(wù)器故障,提高設(shè)備運(yùn)行穩(wěn)定性。服務(wù)器優(yōu)化方案-2拓?fù)鋱D見圖3。
圖3 服務(wù)器優(yōu)化方案-2拓?fù)鋱D
因目前技術(shù)條件限制兩套服務(wù)器不能同時(shí)并網(wǎng)運(yùn)行,主從服務(wù)器運(yùn)行切換都需和工作網(wǎng)絡(luò)進(jìn)行分別隔離,如采用物理隔離法,切換時(shí)則需要人工到服務(wù)器機(jī)房插拔網(wǎng)線端口實(shí)施??紤]到人工到現(xiàn)場(chǎng)切換操作的不便,如杭州北車輛段喬司TF服務(wù)器機(jī)房離動(dòng)態(tài)車間有將近一個(gè)小時(shí)的路程,一旦出現(xiàn)故障需轉(zhuǎn)換工作服務(wù)器將會(huì)耗時(shí)較長(zhǎng),同時(shí)也會(huì)加大出行風(fēng)險(xiǎn)。針對(duì)該問題,采用遠(yuǎn)程切換管理是較為科學(xué)可行的方法。
華為S1720二層網(wǎng)管交換機(jī)具備網(wǎng)內(nèi)遠(yuǎn)程Web登錄功能,授權(quán)用戶可遠(yuǎn)程管理交換機(jī)上所有電口、光口的開啟、關(guān)閉以及限速。我們可利用這一功能,把各臺(tái)服務(wù)器的主從機(jī)分別接入交換機(jī)的電口,并在管理配置中設(shè)置好管理組,定義好各電口的名稱,就可采用遠(yuǎn)程管理手段輕松解決主從機(jī)間的切換問題。
該交換機(jī)帶有四個(gè)光口,地面設(shè)備傳輸光纖直接接入交換機(jī),廢除原使用的光電轉(zhuǎn)換模塊。這樣配置可減少故障節(jié)點(diǎn),提升傳輸速率,提高系統(tǒng)運(yùn)行的穩(wěn)定性。
主從服務(wù)器采用雙網(wǎng)卡配置,主用網(wǎng)卡上配置與地面設(shè)備相連的內(nèi)網(wǎng)IP以及與三級(jí)聯(lián)網(wǎng)連接的局域網(wǎng)IP,副用網(wǎng)卡上則只配置一個(gè)局域網(wǎng)(內(nèi)網(wǎng))IP。當(dāng)某臺(tái)服務(wù)器空載運(yùn)行時(shí),主用網(wǎng)卡已和網(wǎng)絡(luò)隔離,副用網(wǎng)卡依舊能和網(wǎng)絡(luò)相連,便于對(duì)服務(wù)器的遠(yuǎn)程維護(hù)和數(shù)據(jù)的調(diào)閱。
因主從兩臺(tái)服務(wù)器Oracle數(shù)據(jù)庫(kù)等程序單獨(dú)配置、運(yùn)行,數(shù)據(jù)的存儲(chǔ)讀寫將獨(dú)立進(jìn)行,列車信息、故障信息則分別存入兩臺(tái)服務(wù)器的硬盤,打破了數(shù)據(jù)存儲(chǔ)的連續(xù)性,給設(shè)備使用部門調(diào)閱列車信息以及統(tǒng)計(jì)相關(guān)報(bào)表帶來困難。
(1)應(yīng)對(duì)措施一:一是利用服務(wù)器副用網(wǎng)卡一直并網(wǎng)運(yùn)行的這一功能,在Oracle數(shù)據(jù)庫(kù)監(jiān)聽中添加附用網(wǎng)卡IP,增加一個(gè)3.0平臺(tái)訪問地址。如用戶需訪問調(diào)閱該服務(wù)器列車數(shù)據(jù)時(shí),可登陸備用3.0平臺(tái)網(wǎng)址瀏覽。二是根據(jù)運(yùn)用部門全部使用集中平臺(tái)進(jìn)行動(dòng)態(tài)檢車的現(xiàn)狀,主從服務(wù)器切換運(yùn)行后數(shù)據(jù)都需集中平臺(tái)連續(xù)處理的技術(shù)特性,以及集中平臺(tái)能獨(dú)立存儲(chǔ)生成各項(xiàng)統(tǒng)計(jì)報(bào)表的這一功能,運(yùn)用部門可查閱由集中平臺(tái)存儲(chǔ)生成的各項(xiàng)報(bào)表,只在必要時(shí)登錄備用3.0平臺(tái)調(diào)取空載服務(wù)器中的過車圖片。
(2)應(yīng)對(duì)措施二:方案優(yōu)化后,每臺(tái)服務(wù)器G盤的存儲(chǔ)空間都達(dá)到了2.4T左右,列車存儲(chǔ)量也增至6 000列。以滬昆線過車探測(cè)量進(jìn)行統(tǒng)計(jì),數(shù)據(jù)庫(kù)已達(dá)到90 d以上探測(cè)列車的存儲(chǔ)能力。根據(jù)這一特性,我們可按固定周期對(duì)主從服務(wù)器進(jìn)行倒切并網(wǎng)運(yùn)行,并做好切換運(yùn)行記錄。如運(yùn)用部門需要查閱哪個(gè)時(shí)間段的列車數(shù)據(jù),可根據(jù)切換記錄方便的定位數(shù)據(jù)在哪臺(tái)服務(wù)器上,利用瀏覽備用3.0平臺(tái)進(jìn)行查閱。
主從兩臺(tái)服務(wù)器的Oracle數(shù)據(jù)庫(kù)等程序單獨(dú)配置,也就是完全獨(dú)立運(yùn)行,數(shù)據(jù)不存在共享。當(dāng)一臺(tái)服務(wù)器出現(xiàn)故障后,可迅速切換至另一臺(tái)服務(wù)器,極大的保證了TF系統(tǒng)運(yùn)行的可靠性。
因兩臺(tái)服務(wù)器按固定的時(shí)間周期并網(wǎng)運(yùn)行,在日常維護(hù)時(shí),可大膽的對(duì)空載服務(wù)器做徹底維護(hù),也可要求廠家技術(shù)人員利用遠(yuǎn)程手段對(duì)空載服務(wù)器做全面的維護(hù)清理。這就極大地提高了服務(wù)器運(yùn)行穩(wěn)定性,將服務(wù)器故障發(fā)生率降至最低。
因配置了遠(yuǎn)程切換管理功能,極大地提高了應(yīng)急故障處置能力,更有效地降低故障處置時(shí)間。
通過對(duì)TFDS設(shè)備雙機(jī)服務(wù)器Oracle數(shù)據(jù)庫(kù)配置方式在應(yīng)用方面的分析,闡明了采用獨(dú)立設(shè)置Oracle數(shù)據(jù)庫(kù)的配置方式更適用現(xiàn)場(chǎng)需求。通過定期對(duì)兩臺(tái)服務(wù)器聯(lián)網(wǎng)運(yùn)行切換,有效地解決了原有配置方式給檢修維護(hù)帶來的困難,也極大地提高了服務(wù)器運(yùn)行穩(wěn)定性和應(yīng)急故障處置能力。