丁大為
(中國移動通信集團上海有限公司 上海市 200233)
運營商移動承載網(wǎng)經(jīng)過多年建設(shè),呈現(xiàn)融合組網(wǎng)狀態(tài),廣泛采用MPLS VPN 進行部署,各類承載CE 間進行互聯(lián)或通過反射器互聯(lián),各業(yè)務(wù)VPN 間互通及隔離控制異常關(guān)鍵;面對潛在的跨網(wǎng)流量繞行、網(wǎng)絡(luò)環(huán)路等維護痛點如何進行防范,并在網(wǎng)絡(luò)架構(gòu)優(yōu)化、防護措施梳理、承載質(zhì)量提升、運維手段強化等方面如何通過深入研究及落實舉措,既保障各類承載業(yè)務(wù)平穩(wěn)高效運作,又使得組網(wǎng)架構(gòu)清晰、安全、易于運維,是當(dāng)前亟需解決的問題。
IPRAN 是一種面向多業(yè)務(wù)綜合承載的IP 化解決方案,具有良好的擴展性和可維護性。當(dāng)前,運營商3G/4G/5G數(shù)據(jù)、語音、自營平臺類業(yè)務(wù)均以融合后的IPRAN 網(wǎng)絡(luò)為主要載體,移動融合承載組網(wǎng)架構(gòu)(如圖1 所示)由以下四個層次組成
圖1: 移動融合承載組網(wǎng)示意拓撲
1.1.1 IPRAN MCE 層
由 區(qū) 域 中 心MCE、EPC CE、5GC CE 分 別 接 入3G/4G/5G 各類核心網(wǎng)網(wǎng)元,CE 側(cè)通過MPLS VPN 進行部署,并作為一級RR 的Client 端,實現(xiàn)各成員組網(wǎng)內(nèi)相同業(yè)務(wù)VPN 路由互通及數(shù)據(jù)傳遞,不同VPN 間的相互隔離。
1.1.2 IPRAN 區(qū)域中心層
區(qū)域內(nèi)一個MPLS 域,采用相同AS,區(qū)域中心ER作為一級RR,只需具備MPLS 轉(zhuǎn)發(fā)能力,不維護各業(yè)務(wù)VPN。
1.1.3 IPRAN 區(qū)域核心層
區(qū)域ER 作為二級RR,反射并傳遞核心網(wǎng)路由且具備MPLS 轉(zhuǎn)發(fā)能力,將接收自B 的基站路由通過兩層反射器傳遞給核心網(wǎng)側(cè)。
1.1.4 IPRAN 匯聚層
B 設(shè)備作為基站側(cè)接入網(wǎng)關(guān),采用PW 技術(shù)對接A 設(shè)備實現(xiàn)基站接入,在將基站路由傳遞給區(qū)域ER 的同時,接收核心網(wǎng)路由,實現(xiàn)核心網(wǎng)對基站信令面控制及媒體流傳輸。
(1)IPRAN 技術(shù)是一種基于IP/MPLS 協(xié)議的技術(shù),區(qū)域設(shè)立一個MPLS 域,均采用相同AS,開啟MP-BGP 功能。
(2)區(qū)域中心ER 作為一級RR、區(qū)域ER 作為二級RR,與各類CE 及B 設(shè)備形成Server-Client 星型全互聯(lián)結(jié)構(gòu)。
(3)各類CE 與城域網(wǎng)骨干出口D 及骨干承載網(wǎng)PE 之間,均采用MP-eBGP Option A 方式對接。
以4G/5G 融合組網(wǎng)為例,存在若干網(wǎng)間相同業(yè)務(wù)VPN路由互通和需嚴格控制互通的場景,其中最重要的是公網(wǎng)業(yè)務(wù)VPN 。
某運營商早期城域網(wǎng)骨干出口D 存在兩個核心平面,老平面包含所有國內(nèi)訪問路由和國際訪問路由,公網(wǎng)新平面建成后暫僅承接國內(nèi)路由部分。
5G 承載網(wǎng)5GC CE 由于建網(wǎng)較晚,根據(jù)規(guī)劃僅接入新平面,由于新平面僅有國內(nèi)明細路由,5G 用戶訪問國際流量或新平面缺少的少量國內(nèi)路由時,就存在選擇出口問題。解決方式有兩種,方式一為依賴4G 承載網(wǎng)EPC CE 至公網(wǎng)出口;方式二為5G 承載網(wǎng)新建至城域網(wǎng)CR 鏈路,由CR傳遞老平面默認路由;
如果采用方式一,4G/5G 承載網(wǎng)CE 在不做任何策略防護情況下,兩類CE 均可學(xué)習(xí)來自區(qū)域中心ER 反射的公網(wǎng)路由,雖然根據(jù)BGP 選路原則,兩類CE 會優(yōu)先選擇來自城域網(wǎng)的EBGP 路由,優(yōu)于通過區(qū)域中心ER 反射的IBGP路由,但可能存在如下風(fēng)險:
2.1.1 流量擁塞及網(wǎng)絡(luò)癱瘓
4G/5G 任何一側(cè)CE 至城域網(wǎng)鏈路由于傳輸故障或其他因素全部中斷,通過區(qū)域中心ER 反射的公網(wǎng)路由將成為優(yōu)選路由,4G 流量將全部被跨網(wǎng)引導(dǎo)至5G 網(wǎng)絡(luò),反之亦相同,造成網(wǎng)絡(luò)擁塞甚至癱瘓,影響面涉及兩張承載網(wǎng)。
2.1.2 轉(zhuǎn)發(fā)面不通導(dǎo)致業(yè)務(wù)中斷
除路由層面需要做到跨網(wǎng)隔離或選擇性放通外,至城域網(wǎng)出口側(cè)還會設(shè)置虛假源地址防護等安全策略,繞行流量可能在轉(zhuǎn)發(fā)層面受到阻斷,從而影響業(yè)務(wù)。
某運營商啟動首批5G SA 組網(wǎng)建設(shè)試點工程,5GC CE作為SA 組網(wǎng)下核心網(wǎng)重要承載接入設(shè)備,需率先入網(wǎng)對接骨干承載網(wǎng)PE 并打通各業(yè)務(wù)VPN。
5GC CE 入網(wǎng)操作完成后,監(jiān)控收到多條區(qū)域外部至4G核心網(wǎng)DRA 網(wǎng)元不可達及VoLTE 注冊成功率下降告警。
2.2.1 背景
如圖2 所示。
圖2: 4G/5G 融合組網(wǎng)拓撲及環(huán)路示意圖
2.2.2 原因分析
(1)在骨干承載網(wǎng)PE 側(cè)查看DRA 路由地址段學(xué)習(xí)情況,發(fā)現(xiàn)路由產(chǎn)生過震蕩。
(2)EPC CE 和5GC CE 的AS 號均為650XX,正常情況下,EPC CE 引入DRA 所在VPN 靜態(tài)路由地址段,發(fā)布給骨干承載網(wǎng)PE,攜帶AS 650XX,PE 在接收后,為避免路由環(huán)路,不會再向AS 號同為650XX 的5GC CE 進行傳遞。
(3)經(jīng)核實,由于在配合PE 側(cè)各業(yè)務(wù)VPN 電路開通環(huán)節(jié),通過自動配置模板生腳本錯誤套用了政企電路開通模板,使得PE 側(cè)配置僅使能AS-OVERRIDE 功能,沒有加載SOO 配置。
(4)PE 在 接 收 到EPC CE 發(fā) 布 帶AS 號650XX 的DRA 路由后,經(jīng)轉(zhuǎn)發(fā)又回至5GC CE,經(jīng)區(qū)域中心ER 反射后再回到EPC CE,形成環(huán)路并引發(fā)路由震蕩。
如今4G/5G 正在互聯(lián)網(wǎng)領(lǐng)域共同發(fā)展,而相互合作已成為當(dāng)前的發(fā)展趨勢,融合承載組網(wǎng)架構(gòu)下,需要高度重視跨網(wǎng)流量繞行控制。網(wǎng)絡(luò)建設(shè)之初,因?qū)I(yè)務(wù)開通時間節(jié)點有嚴格要求,網(wǎng)絡(luò)建設(shè)規(guī)劃牽頭部門、項目建設(shè)方均會受到種種壓力,可能會以先搶通業(yè)務(wù)可用為優(yōu)先;由于5G 業(yè)務(wù)全新的承載要求且需要滿足后續(xù)4G/5G 諸多網(wǎng)元間互通要求,隨著時間的推移,如流量繞行隔離等需要優(yōu)化和嚴格控制的細節(jié)可能被忽視。
運維人員需重點規(guī)避因網(wǎng)絡(luò)架構(gòu)、路由組織、安全防護層面疏漏產(chǎn)生網(wǎng)絡(luò)環(huán)路隱患。隨著網(wǎng)絡(luò)規(guī)模不斷擴大,維護量工作量也隨之加大,在尋求一些自動化手段減少重復(fù)工作量,提升運維效率的同時,有一些稽核問題可能會被忽略;同時,以太網(wǎng)交換機的大規(guī)模使用也會增加環(huán)路風(fēng)險,防環(huán)配置是否部署也是重中之重。
路由組織不統(tǒng)一,帶來的問題是業(yè)務(wù)流量流向的不可控;需要以全局、宏觀的視野去看待整張網(wǎng)絡(luò)的穩(wěn)定性、安全性,關(guān)注網(wǎng)與網(wǎng)之間的關(guān)聯(lián);由于成員網(wǎng)絡(luò)之間有互通的需求,也有隔離的需求,那么全網(wǎng)路由組織的統(tǒng)一性,直接決定了各類業(yè)務(wù)流量流向的合理性。
4.1.1 杜絕跨網(wǎng)流量繞行
在同一個AS 域內(nèi)的多張承載網(wǎng)絡(luò),必須仔細分析和研究各業(yè)務(wù)VPN 互通需求。對于需要互通的同類業(yè)務(wù)VPN,路由反射器傳遞路由時,應(yīng)按照規(guī)劃路由,嚴格做好路由策略過濾;對于不需要互通的同類業(yè)務(wù)VPN,可通過各自CE 規(guī)劃不通的RD,通過RD-LIST 進行過濾。
在依托承載網(wǎng)組網(wǎng)規(guī)范作為組網(wǎng)基礎(chǔ)參考的同時,需要結(jié)合自身實際情況進行靈活運用;流量流向的精確控制不僅考驗維護人員對整張網(wǎng)絡(luò)的熟悉程度,更考驗異常緊急狀態(tài)下的綜合判斷能力。
4.1.2 降低環(huán)路發(fā)生概率
高冗余度網(wǎng)絡(luò)設(shè)計及二三層交換機的大規(guī)模使用增加了環(huán)路故障發(fā)生概率;廣播風(fēng)暴產(chǎn)生的原因是多方面的,網(wǎng)絡(luò)成環(huán)具有潛伏性,在不作擴容或調(diào)整且各項業(yè)務(wù)正常運作時不易被發(fā)現(xiàn),當(dāng)進行如新設(shè)備入網(wǎng)工程調(diào)測、網(wǎng)絡(luò)優(yōu)化改造等操作時,一個微小的開啟現(xiàn)網(wǎng)設(shè)備對接調(diào)試端口的操作,都可能成為一個導(dǎo)火索,引發(fā)連鎖反應(yīng);融合承載組網(wǎng)下,二層以太網(wǎng)交換機設(shè)備如不做好防環(huán)配置,均可能成為傳播媒介;三層交換機或路由器雖然作為二層廣播報文的終結(jié),但不斷擴散的廣播風(fēng)暴最終會消耗掉受影響網(wǎng)絡(luò)設(shè)備的CPU資源,使得正常業(yè)務(wù)的處理資源被過度剝奪,網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)面轉(zhuǎn)發(fā)能力受到嚴重影響,可能會導(dǎo)致整張網(wǎng)絡(luò)癱瘓。
某運營商某業(yè)務(wù)平臺進行工程調(diào)測,用于服務(wù)器接入的二層交換機存在環(huán)路,在承載網(wǎng)CE 側(cè)打開對接端口后,觸發(fā)廣播風(fēng)暴,承載網(wǎng)及辦公網(wǎng)均受到波及,由于辦公網(wǎng)基本由二層和三層以太網(wǎng)交換機組成,開通專有業(yè)務(wù)VPN,經(jīng)骨干承載網(wǎng)實現(xiàn)省際互通,廣播風(fēng)暴傳播范圍最終波及骨干承載網(wǎng)PE 設(shè)備,導(dǎo)致PE 設(shè)備CPU 資源耗盡,無法正常進行業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)發(fā)。
借由此次環(huán)路問題啟發(fā),具體舉措為組織制定了交換機防環(huán)配置規(guī)范,具體到運營商所使用的各類主流廠商交換機,全網(wǎng)全量進行篩查,關(guān)閉現(xiàn)網(wǎng)交換機、現(xiàn)網(wǎng)新擴容業(yè)務(wù)板卡、待入網(wǎng)交換機所有未使用端口,并將端口配置為Trunk 模式,規(guī)避交換機出廠端口默認配置均為VLAN 1 的風(fēng)險。按計劃分批次對城域網(wǎng)、承載網(wǎng)、辦公網(wǎng)全部在網(wǎng)交換機進行整治優(yōu)化,并配合自動化手段,實現(xiàn)常態(tài)化定期稽核或不定期抽查,有效降低網(wǎng)絡(luò)環(huán)路發(fā)生概率。
4.1.3 規(guī)范路由組織
(1)充分摸排各成員網(wǎng)基礎(chǔ)架構(gòu)、關(guān)鍵技術(shù)、路由組織明細,形成體系化的基礎(chǔ)材料。
(2)分析機構(gòu)現(xiàn)網(wǎng)的網(wǎng)絡(luò)拓撲結(jié)構(gòu)及訪問需求,明確各個分支節(jié)點與總點以及各分支節(jié)點之間的訪問需求。
(3)總結(jié)提煉路由組織層面風(fēng)險規(guī)避紅線,對引發(fā)流量繞行、環(huán)路等高風(fēng)險關(guān)鍵路由組織技術(shù)條目,需逐條進行分析及評估,保障網(wǎng)絡(luò)最大限度的安全,降低重大故障發(fā)生概率。
4.2.1 優(yōu)化網(wǎng)管告警內(nèi)容
對各類已納入網(wǎng)管監(jiān)控的重要網(wǎng)絡(luò)告警,通過創(chuàng)新手段將告警類型分為不同重要等級并標(biāo)注不同顏色,對于重要程度很高的告警使用如紅色、橙色等活躍色進行關(guān)鍵內(nèi)容標(biāo)注,在發(fā)生故障時,監(jiān)控人員面對大量次生關(guān)聯(lián)告警,可以快速、準(zhǔn)確的篩選關(guān)注并處理重要告警。
由局方技術(shù)骨干牽頭,詳盡梳理廠家各型號網(wǎng)絡(luò)設(shè)備告警類型,將原有告警類型字段進行中文化翻譯,將晦澀難懂的英文字符串轉(zhuǎn)換為中文告警注釋,并標(biāo)注告警分類,并固化到告警字段中去,提升告警呈現(xiàn)內(nèi)容可讀性,即使對于外包監(jiān)控人員或新進員工,也可根據(jù)指導(dǎo)手冊快速上手。
4.2.2 拓展預(yù)警維度和思路
集中自有人員力量開發(fā)了端到端先于客戶(故障)發(fā)現(xiàn)系統(tǒng)(如圖3 所示),并組織成立專項工作虛擬團隊,筆者擔(dān)任數(shù)據(jù)專業(yè)牽頭人;在專項工作開展期間,積極梳理城域網(wǎng)、承載網(wǎng)中用戶感知明顯的業(yè)務(wù)種類,根據(jù)不同網(wǎng)絡(luò)層次進行分類,新增如端口流量超限、端口光功率異常、端口誤碼增長等監(jiān)控預(yù)警內(nèi)容,根據(jù)各廠家設(shè)備特性,制定不同的告警派單規(guī)則,并根據(jù)告警重要程度及介入處理緊急程度,細化派單區(qū)域、立即派單、延遲派單等功能;按月導(dǎo)出分析報表,觀察工單處理及時率等重要指標(biāo),并制定和推行考核制度。
圖3: 先于客戶(故障)發(fā)現(xiàn)系統(tǒng)整體運作架構(gòu)示意圖
該系統(tǒng)后續(xù)也逐步從數(shù)據(jù)專業(yè)推廣至交換、傳輸、動環(huán)、平臺等各專業(yè),實際運行情況和使用體驗良好,做到了對影響業(yè)務(wù)感知關(guān)鍵指標(biāo)的實時監(jiān)控和態(tài)勢分析,在隱患面未加深和影響面未擴散的情況下,提前進行預(yù)檢預(yù)修,切實達到了先于客戶(故障)發(fā)現(xiàn)的預(yù)期效果,具有良好的推廣性。
運營商后端生產(chǎn)及運維部門在面對日益擴大的網(wǎng)絡(luò)規(guī)模、數(shù)以千計的硬件設(shè)備、紛繁復(fù)雜的考核要求時,一套行之有效、簡明清晰的運維手段必不可少。如果能在建設(shè)及運維階段,從不同維度全面把控基礎(chǔ)維護要點,有效組織生產(chǎn)支撐保障,使得前端部門能夠順利推廣現(xiàn)有成熟業(yè)務(wù)并放心大膽引入新市場商機,就能扮演好“基石”的角色。
4.3.1 運維管理人員明確角色職能
運維管理人員站在縱向管理的角度,一方面需響應(yīng)領(lǐng)導(dǎo)的管理要求,一方面需管控專業(yè)部門工作具體落實情況,但必須深刻認識到自身不僅是一個公司業(yè)務(wù)發(fā)展思路、領(lǐng)導(dǎo)工作要求的傳遞者,還是一個決策者。運維管理人員遇到重要網(wǎng)絡(luò)建設(shè)及調(diào)整中疑難問題時,應(yīng)當(dāng)具備打破爭執(zhí)、化混亂為有序、拿捏要點、排除干擾的能力,從更為宏觀的視野、更為開闊的思路去完成即將開展的短期網(wǎng)絡(luò)改造任務(wù)或長期推進項目。
4.3.2 技術(shù)維護人員改變維護觀念和提升綜合能力
維護人員需要從根本的思想觀念上進行改變,網(wǎng)絡(luò)維護不能脫離技術(shù),但不能被技術(shù)束縛,“躺平”的心態(tài)不能有,應(yīng)積極發(fā)揮主觀能動性和自身綜合能力,調(diào)動周邊可協(xié)調(diào)資源,快速解決問題,降低扯皮推諉的時間和精力成本。
4.3.3 尋求新方法節(jié)省運維成本
積極推廣自主開發(fā),通過公司內(nèi)部開展IT 化培訓(xùn),培養(yǎng)IT 開發(fā)梯隊人才,讓有自主開發(fā)潛力的年輕力量通過邊學(xué)習(xí)、邊實踐的方式,帶著手頭運維、專項工作投身于體系化的學(xué)習(xí)中,通過理論和實操的充分結(jié)合,將學(xué)習(xí)到的開發(fā)技能靈活運用于實際工作場景,從開發(fā)各類小工具逐步累積經(jīng)驗到逐步梳理出一套成熟的、可推廣的運維自動化輔助手段;企業(yè)可根據(jù)個人或團隊自主開發(fā)項目工作量及具體成效,授予榮譽稱號及給予相應(yīng)的激勵。
對于整個通信行業(yè)來說,網(wǎng)絡(luò)融合無疑會成為未來的主要發(fā)展趨勢。本文從移動融合承載組網(wǎng)架中部分典型維護痛點出發(fā),抽絲剝繭拓展并提煉網(wǎng)絡(luò)運維工作關(guān)鍵要素,結(jié)合自身主導(dǎo)或參與的專項工作或重大網(wǎng)絡(luò)調(diào)整項目,體系化梳理了當(dāng)前及未來網(wǎng)絡(luò)運維面臨的難點以及突破思路,提出了網(wǎng)絡(luò)優(yōu)化研究方案及具體舉措,其中也包含了對網(wǎng)絡(luò)運維管理思路轉(zhuǎn)變方面的個人見解。
希望筆者的一些思考和總結(jié),可以點燃廣大通信后端工作者對行業(yè)未來發(fā)展將無限可能的信念之火;運維并不簡單,必須腳踏實地做好基礎(chǔ)維護工作,在一個個不眠之夜的平凡中產(chǎn)生屬于通信行業(yè)的專屬優(yōu)勢和自信,從而體現(xiàn)通信運維工作的規(guī)范性、專業(yè)性。