葛學(xué)仁 桑 宇 李亞菲
路由器是一種網(wǎng)絡(luò)互聯(lián)設(shè)備,具備判斷網(wǎng)絡(luò)地址和選擇路徑的功能,工作于OSI 七層協(xié)議中的第三層,其主要任務(wù)是接收來(lái)自網(wǎng)絡(luò)接口的數(shù)據(jù)包,根據(jù)其中所包含的目的地址,實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)發(fā)。
核心路由器是TDCS/CTC 系統(tǒng)連通中心和車站進(jìn)行信息交互的關(guān)鍵基礎(chǔ)設(shè)備。太原局普速TDCS/CTC 系統(tǒng)中心核心路由器型號(hào)為Cisco 7609,2G 內(nèi)存,雙套冗余,2012 年5 月上道使用,24 h 不停機(jī)運(yùn)行,設(shè)備上道以來(lái)運(yùn)行一直穩(wěn)定。2019 年四季度巡檢發(fā)現(xiàn),核心路由器A 內(nèi)存占用率已高達(dá)89.11%,網(wǎng)絡(luò)服務(wù)出現(xiàn)質(zhì)量變差、數(shù)據(jù)丟包率明顯增加等現(xiàn)象,造成TDCS/CTC 整體系統(tǒng)運(yùn)行不穩(wěn)定。2020 年開(kāi)始,電務(wù)部組織對(duì)該隱患產(chǎn)生的原因進(jìn)行逐項(xiàng)分析、排查和測(cè)試,采取了一系列緊急措施,降低了核心路由器的內(nèi)存占用率,消除了安全隱患。
內(nèi)存占用率是指系統(tǒng)進(jìn)程所開(kāi)銷的內(nèi)存數(shù)占設(shè)備總體內(nèi)存的比例。核心路由器的內(nèi)存占用率是判斷該設(shè)備是否穩(wěn)定工作的重要參數(shù),占用率越高,設(shè)備的穩(wěn)定性越差。通過(guò)數(shù)據(jù)分析發(fā)現(xiàn),核心路由器A 機(jī)內(nèi)存占用率呈逐級(jí)遞增趨勢(shì),由2017 年1 月份的31.03% 逐漸升高至2019 年12 月份的89.11%(見(jiàn)表1),漲幅58.08%,其中2017 年二季度幅值最大,為17.51%,持續(xù)升高的內(nèi)存占用率給TDCS/CTC 系統(tǒng)穩(wěn)定運(yùn)行增加了隱患。
2020 年2 月,電務(wù)部組織召開(kāi)專題分析會(huì)議,重點(diǎn)對(duì)設(shè)備硬件運(yùn)用、網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整及軟件功能拓展等造成核心路由器工作異常的原因進(jìn)行深入剖析,總結(jié)如下。
1)設(shè)備存在老化現(xiàn)象,長(zhǎng)時(shí)間運(yùn)行未進(jìn)行重啟操作?!惰F路列車調(diào)度指揮系統(tǒng)(TDCS)和調(diào)度集中系統(tǒng)(CTC) 維護(hù)管理辦法》(鐵總運(yùn)〔2014〕 330 號(hào)) 文件規(guī)定:“TDCS/CTC 系統(tǒng)中心網(wǎng)絡(luò)設(shè)備使用年限為5 年”。該設(shè)備已超期使用且該型號(hào)也已被淘汰,按照產(chǎn)品使用壽命推測(cè),隨著設(shè)備運(yùn)行時(shí)間的增加,元器件老化程度會(huì)迅速加劇,設(shè)備性能劣化指數(shù)也會(huì)呈幾何倍數(shù)增長(zhǎng);此外,核心路由器自上道使用后由于受“天窗”時(shí)間和作業(yè)影響范圍過(guò)大等多種因素限制,已不停機(jī)運(yùn)行超67 680 h,期間未進(jìn)行過(guò)任何重啟操作,偶發(fā)的錯(cuò)誤信息一直滯留在內(nèi)存中得不到釋放,導(dǎo)致內(nèi)存占用率持續(xù)非正常增長(zhǎng)。
表1 內(nèi)存占用率數(shù)值變化
2)部分車站的特殊顯示需求多,跨網(wǎng)交互信息量大。一是由于在建設(shè)初期TDCS/CTC 系統(tǒng)整體網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)缺乏前瞻性,部分相鄰車站所處的網(wǎng)絡(luò)位置不在同一個(gè)環(huán)網(wǎng)內(nèi),鄰站透明信息數(shù)據(jù)需經(jīng)核心路由器進(jìn)行二次轉(zhuǎn)發(fā),才能從一個(gè)子網(wǎng)傳輸?shù)搅硪粋€(gè)子網(wǎng),增大了核心路由器的計(jì)算負(fù)荷;二是因運(yùn)輸組織的特殊需要,本站需掌握相鄰多個(gè)車站的列車運(yùn)行情況,TDCS/CTC 數(shù)據(jù)交換需跨越3~4 個(gè)不同環(huán)網(wǎng),此現(xiàn)象在樞紐地區(qū)車站尤其明顯;三是專用線車站一般采用單網(wǎng)設(shè)計(jì),路由器只單獨(dú)從A 網(wǎng)接入,也增大了核心路由器A 機(jī)的工作負(fù)載。
3)雙路傳輸方式實(shí)施不當(dāng),交換數(shù)據(jù)大幅增加。TDCS/CTC 系統(tǒng)原有的雙網(wǎng)信息傳輸機(jī)制為A/B 網(wǎng)隨機(jī)傳送,即信息數(shù)據(jù)流只會(huì)從A 網(wǎng)或B 網(wǎng)其中1 條通道傳遞回中心和相鄰車站,通道存在誤碼時(shí)不進(jìn)行切換。這種傳輸機(jī)制在由于通道誤碼造成信息數(shù)據(jù)幀丟失時(shí),會(huì)產(chǎn)生TDCS/CTC 系統(tǒng)信息遲滯、中斷、車次號(hào)不正常跟蹤等問(wèn)題,進(jìn)而產(chǎn)生占用丟失、誤報(bào)警現(xiàn)象,影響正常的運(yùn)輸組織秩序。為規(guī)避此風(fēng)險(xiǎn),2017 年6 月起組織在韓原線、太中線CTC 系統(tǒng)實(shí)施雙路傳輸改造,即通過(guò)優(yōu)化路由器、自律機(jī)配置,阻斷路由器A—交換機(jī)A/B—路由器B 的路由鄰居關(guān)系,使數(shù)據(jù)流的傳輸方式由原來(lái)的單網(wǎng)傳輸變?yōu)锳、B 網(wǎng)同時(shí)傳輸。實(shí)現(xiàn)雙路傳輸功能后,對(duì)TDCS/CTC 系統(tǒng)的穩(wěn)定性起到了極大的提升作用,偶發(fā)的通道質(zhì)量變差、誤差丟包現(xiàn)象不再干擾系統(tǒng)的正常運(yùn)行。但經(jīng)數(shù)據(jù)比對(duì)發(fā)現(xiàn),此項(xiàng)技術(shù)改造也增大了車站與車站間、車站與中心間的數(shù)據(jù)交互量,核心路由器內(nèi)存占用增長(zhǎng)率由每季2%增長(zhǎng)至5%。
4)新建車站的不斷接入,中心負(fù)載逐步增大。一方面,隨著運(yùn)輸組織結(jié)構(gòu)的調(diào)整、新建車站的不斷接入、既有車站TDCS3.0/CTC3.0 升級(jí)改造,TDCS/CTC 系統(tǒng)中心設(shè)備的運(yùn)算負(fù)荷越來(lái)越重;另一方面,相關(guān)站段查詢終端直接接入生產(chǎn)系統(tǒng),也增加了與中心交互的數(shù)據(jù)量,進(jìn)而增加了核心路由器的計(jì)算負(fù)荷。據(jù)估算,每新建一個(gè)車站,核心路由器進(jìn)路表至少增加8 條,內(nèi)存使用量約增加2M,只進(jìn)行車站設(shè)備改造而中心設(shè)備不進(jìn)行配套升級(jí),也是造成核心路由器計(jì)算負(fù)荷明顯加重的重要原因。
1)更換引擎板卡,提升設(shè)備性能。設(shè)備長(zhǎng)時(shí)間運(yùn)行導(dǎo)致老化程度嚴(yán)重,核心路由器的問(wèn)題主要體現(xiàn)在設(shè)備引擎板卡方面。由于受多方面因素限制,在已明確解決措施的前提下,為降低施工風(fēng)險(xiǎn),減小施工影響,結(jié)合實(shí)際制定了仿真測(cè)試項(xiàng)目,為整改方案的順利實(shí)施打下良好的基礎(chǔ)。
Cisco7609 路由器引擎板卡最高支持內(nèi)存為4G,由于無(wú)法使用既有設(shè)備做試驗(yàn),只能在實(shí)驗(yàn)室采用同類產(chǎn)品搭建模擬環(huán)境,使負(fù)載盡量貼近實(shí)際。經(jīng)試驗(yàn)驗(yàn)證,模擬環(huán)境中4G 引擎板卡工作正常、運(yùn)行參數(shù)穩(wěn)定,路由器整體也未發(fā)生宕機(jī)現(xiàn)象,主備引擎板卡支持熱插拔且切換時(shí)間小于1 s,對(duì)既有業(yè)務(wù)的正常執(zhí)行不造成影響,具備了現(xiàn)場(chǎng)更換板卡的條件。2020 年3 月26 日,路局組織對(duì)核心路由器A 機(jī)做了升級(jí)引擎板卡的處理,內(nèi)存卡更換為4G。更換完成后,核心路由器計(jì)算性能得到大幅提升,數(shù)據(jù)丟包率明顯降低,內(nèi)存占用率降為54.87%。為規(guī)避核心路由器引擎內(nèi)存量不一致的風(fēng)險(xiǎn),后期又對(duì)路由器B 的引擎板卡也做了同樣升級(jí)處理,提升了硬件整體性能。
2)廣域網(wǎng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。針對(duì)全局部分車站的網(wǎng)絡(luò)結(jié)構(gòu)存在不利于數(shù)據(jù)交互的情況,對(duì)TDCS/CTC 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了適當(dāng)調(diào)整,優(yōu)化了路由算法,原則上嚴(yán)格按照技術(shù)條件規(guī)定的車站數(shù)量組網(wǎng),盡量避免采用將鄰站透明顯示需求通過(guò)核心路由器計(jì)算并傳遞的方式。經(jīng)合理組織實(shí)施,網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整共18 處,減少靜態(tài)路由表40 條,很大程度上降低了核心路由器的計(jì)算負(fù)荷。網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整完畢后,核心路由器的內(nèi)存占用率降至49.67%。
3)雙路傳輸硬件連接方式優(yōu)化。TDCS/CTC系統(tǒng)數(shù)據(jù)雙路傳輸方式,是解決傳輸通道誤碼故障的有效手段。針對(duì)實(shí)施雙路傳輸后傳輸數(shù)據(jù)量變大,進(jìn)而引起核心路由器負(fù)載變大的問(wèn)題進(jìn)行了討論,并完成了技術(shù)整改。一是對(duì)車站網(wǎng)絡(luò)設(shè)備硬件連接方式進(jìn)行了調(diào)整,即:將車站A、B 路由器與A、B 交換機(jī)之間交叉連接的2 根線拆除(見(jiàn)圖1),實(shí)現(xiàn)A、B 網(wǎng)絡(luò)完全隔離,同時(shí)對(duì)軟件數(shù)據(jù)流傳輸機(jī)制進(jìn)行優(yōu)化,A、B 自律機(jī)計(jì)算出的數(shù)據(jù)只通過(guò)各自的網(wǎng)絡(luò)向中心服務(wù)器傳送,避免了數(shù)據(jù)交叉?zhèn)鬟f帶來(lái)的網(wǎng)絡(luò)影響,實(shí)現(xiàn)了真正意義的雙路傳輸;二是對(duì)中心通信前置機(jī)軟件進(jìn)行優(yōu)化,采用車站數(shù)據(jù)先到先用、雙重比較的方式,確保獲取數(shù)據(jù)的有效性、完整性和準(zhǔn)確性。
圖1 硬件連接方式變化圖
通過(guò)以上優(yōu)化方式,核心路由器的內(nèi)存占用率季增長(zhǎng)率重新降低為2%,消除了內(nèi)存占用率漲幅過(guò)大的風(fēng)險(xiǎn)。
4)減少查詢終端在生產(chǎn)網(wǎng)內(nèi)的接入數(shù)量。由于前期未建設(shè)查詢子系統(tǒng),站段層級(jí)的查詢終端全部接入既有系統(tǒng),終端設(shè)備陳舊、數(shù)量繁多,給系統(tǒng)運(yùn)行造成了嚴(yán)重的負(fù)擔(dān)。為有效解決此類問(wèn)題,一是將具備移設(shè)條件的站段查詢終端移到TDCS/CTC 查詢子系統(tǒng),根據(jù)相關(guān)技術(shù)條件規(guī)定的查詢終端接入范圍和接入流程,共調(diào)整完成11 處38 臺(tái)終端移設(shè)工作;二是督促不具備移設(shè)條件的相關(guān)站段,做好設(shè)備硬件養(yǎng)護(hù)工作,定期對(duì)設(shè)備進(jìn)行重啟、殺毒等工作,確保將系統(tǒng)運(yùn)行影響降到最低。項(xiàng)目實(shí)施完成后,核心路由器內(nèi)存占用率降至47.32%。
上述改造工程實(shí)施完成后,太原局TDCS/CTC系統(tǒng)核心路由器A 內(nèi)存占用率大幅下降,現(xiàn)階段設(shè)備運(yùn)行穩(wěn)定,內(nèi)存占用率基本保持在48%左右,隱患得到有效消除。TDCS/CTC 系統(tǒng)的穩(wěn)定運(yùn)行為優(yōu)質(zhì)高效的運(yùn)輸指揮提供了良好的支撐。