許皓皓,關(guān)興民
1(寧波市氣象網(wǎng)絡與裝備保障中心,寧波 315012)
2(黑龍江省氣象數(shù)據(jù)中心,哈爾濱 150001)
氣象通信網(wǎng)絡用于氣象信息的采集,傳遞,分發(fā)和應用,是氣象業(yè)務開展的重要基礎(chǔ)設(shè)施載體,一旦運行不穩(wěn)定或者出現(xiàn)重大故障,不但會影響全市氣象業(yè)務的正常開展,對當?shù)貧庀鬄暮Ψ烙?人民生命財產(chǎn)安全,經(jīng)濟社會健康發(fā)展都會產(chǎn)生一定影響.以寧波市為例,“十三五”以來,氣象大數(shù)據(jù)業(yè)務的持續(xù)開展,服務器虛擬化等云計算技術(shù)在地市級數(shù)據(jù)中心的應用都對氣象網(wǎng)絡系統(tǒng)的交換處理能力提出了更高要求[1–4],目前網(wǎng)絡中,核心,匯聚,接入層設(shè)備的使用年限大都比較長,在突發(fā)異常數(shù)據(jù)或攻擊時,網(wǎng)絡設(shè)備極易出現(xiàn)負載過重或宕機現(xiàn)象,已經(jīng)無法高效承載當前氣象業(yè)務需要,當前網(wǎng)絡核心和接入層通過VRRP+MSTP方式組網(wǎng),這種網(wǎng)絡架構(gòu)不夠穩(wěn)定,容易引起環(huán)路問題,且結(jié)構(gòu)復雜不易維護.此外現(xiàn)網(wǎng)中使用了多種不同廠商,不同型號,不同定位的網(wǎng)絡設(shè)備,認證系統(tǒng),安全系統(tǒng),路由交換系統(tǒng)之間無法產(chǎn)生協(xié)同性,設(shè)備故障不易發(fā)現(xiàn),導致網(wǎng)絡運維效率低,運維成本高.基于上述背景,對氣象核心網(wǎng)絡進行改造,提升網(wǎng)絡處理能力,穩(wěn)定性和運維效率已經(jīng)勢在必行.
針對寧波市氣象核心網(wǎng)絡存在的網(wǎng)絡結(jié)構(gòu)不合理,設(shè)備性能和網(wǎng)絡效率不足,缺乏整體運維手段等一系列問題,基于交換設(shè)備虛擬化技術(shù),對現(xiàn)有網(wǎng)絡進行升級改造,組建扁平化大二層網(wǎng)絡,簡化網(wǎng)絡結(jié)構(gòu),提升網(wǎng)絡傳輸性能和運行穩(wěn)定性,增強網(wǎng)絡運維管理效率,以滿足當前氣象業(yè)務對網(wǎng)絡運行的要求.
寧波市氣象核心網(wǎng)絡采用核心,匯聚,接入三層網(wǎng)絡組網(wǎng)架構(gòu),網(wǎng)絡拓撲如圖1所示.其中核心層使用兩臺華為S9312交換設(shè)備基于VRRP+MSTP技術(shù)組建冗余網(wǎng)絡,MSTP技術(shù)提供二層的負載均衡及故障切換,VRRP在三層實現(xiàn)網(wǎng)關(guān)冗余,兩臺核心交換機路由表保持一致;匯聚層交換機用來為接入層設(shè)備做端口擴充和鏈路延伸.除中心機房服務器接入交換機外,主要業(yè)務匯聚層交換機也采用雙鏈路的冗余架構(gòu),連接寧波市 9 個區(qū)縣 (市)氣象局,同時為環(huán)保,國土,水利,海事,民航等部門提供網(wǎng)絡接入用于部門數(shù)據(jù)共享業(yè)務.由于氣象行業(yè)的特點,市氣象局需要與省氣象局,國家氣象局之間進行通信,現(xiàn)網(wǎng)中通過路由器實現(xiàn)與上級部門的互聯(lián),啟用OSPF協(xié)議進行路由學習實現(xiàn)網(wǎng)絡互通.接入層設(shè)備主要用來為樓層用戶PC等終端設(shè)備提供網(wǎng)絡接入服務,通過匯聚層交換機接入核心交換機.當前網(wǎng)絡主要存在如下幾方面不足:① 網(wǎng)絡結(jié)構(gòu)不夠簡潔,組網(wǎng)模式存在環(huán)路問題,可靠性不足;②網(wǎng)絡傳輸和處理能力不足,設(shè)備陳舊,運行風險性大;③ 網(wǎng)絡缺乏融合運行管理能力,運維效率低.
圖1 網(wǎng)絡現(xiàn)狀拓撲圖
通過對地市級氣象核心網(wǎng)絡現(xiàn)狀進行分析和研究,本次改造立足當前和未來數(shù)年全市氣象業(yè)務發(fā)展需要,力求補齊當前網(wǎng)絡短板,有效承載市縣兩級計算存儲資源池和應用系統(tǒng)網(wǎng)絡通信需求,實現(xiàn)省市縣三級氣象部門數(shù)據(jù)高效傳輸和共享.本次改造需求分析描述如下:
1)優(yōu)化網(wǎng)絡結(jié)構(gòu).改變核心和接入層通過VRRP技術(shù)部署雙核心交換機,通過MSTP來解決二層環(huán)網(wǎng)的組網(wǎng)模式,采用扁平化,無環(huán)路的網(wǎng)絡架構(gòu),保證網(wǎng)絡的可靠性,簡化網(wǎng)絡結(jié)構(gòu),同時具備良好的擴展性.
2)提升設(shè)備性能和網(wǎng)絡效率.更新現(xiàn)網(wǎng)核心和匯聚層設(shè)備,提升背板帶寬和包轉(zhuǎn)發(fā)率,升級網(wǎng)絡干道帶寬,全面提升核心網(wǎng)絡處理和傳輸能力.
3)構(gòu)建網(wǎng)絡運維管理體系.建設(shè)一套融合網(wǎng)絡運維平臺,具備可視化分析呈現(xiàn)能力,對網(wǎng)絡等設(shè)備進行集中運維,提供網(wǎng)絡質(zhì)量分析,流量監(jiān)控,故障診斷定位等功能.
現(xiàn)網(wǎng)環(huán)境中通過VRRP+MSTP實現(xiàn)核心交換機雙節(jié)點冗余備份.冗余結(jié)構(gòu)雖然提高了網(wǎng)絡的可靠性,但也使得網(wǎng)絡結(jié)構(gòu)和互聯(lián)關(guān)系更復雜,增加網(wǎng)絡協(xié)議的部署難度.本次改造更換了核心和匯聚層設(shè)備,實現(xiàn)雙機虛擬化堆疊,組建大二層網(wǎng)絡架構(gòu),改造后拓撲見圖2.主要改造內(nèi)容和改造方式如下:① 按照用途和接入類型將匯聚交換機分為服務器接入,區(qū)縣(市)氣象局接入和外聯(lián)單位接入三種類型.服務器接入和區(qū)縣(市)氣象局接入作為關(guān)鍵氣象業(yè)務,采用iStack雙機虛擬化堆疊方式提供服務;將外部門通訊線路分離出來統(tǒng)一接入外聯(lián)單位接入交換機,根據(jù)業(yè)務功能不同做到區(qū)域分開,提高網(wǎng)絡規(guī)劃合理性和安全性.② 核心交換機替換為兩臺華為S12712,采用虛擬化堆疊方式組建CSS2(第二代集群交換機系統(tǒng))集群,構(gòu)建無環(huán)路網(wǎng)絡,核心交換機配置全網(wǎng)設(shè)備網(wǎng)關(guān)和靜態(tài)路由.③ 整合氣象部門上下行設(shè)備,寧波市區(qū)縣(市)氣象局,省局路由器,國家局路由器通過iStack雙機虛擬化堆疊交換機接入核心交換機,全部采用雙鏈接冗余,保障核心業(yè)務穩(wěn)定性.④ 部署融合網(wǎng)絡運維平臺,對現(xiàn)有網(wǎng)絡設(shè)備和關(guān)鍵服務器做統(tǒng)一監(jiān)控和風險實時報警,提高網(wǎng)絡系統(tǒng)的運行監(jiān)控和自動運維能力.⑤ 核心層和匯聚層網(wǎng)絡設(shè)備改造后全部采用光纖連接,組建萬兆全光骨干網(wǎng).
改造完畢后網(wǎng)絡結(jié)構(gòu)更加扁平化,核心網(wǎng)絡采用低延時,大帶寬,高可靠的 CSS2 集群,網(wǎng)絡結(jié)構(gòu)更加層次分明,互聯(lián)關(guān)系更簡單,網(wǎng)絡各層之間通過鏈路聚合,自然消除環(huán)路,不需要再部署 xSTP,VRRP 等協(xié)議;跨設(shè)備的鏈路均衡實現(xiàn)了100%的網(wǎng)絡鏈路和帶寬利用率;網(wǎng)絡虛擬化使得登陸集群系統(tǒng)對所有成員設(shè)備進行統(tǒng)一配置管理成為可能,搭配融合網(wǎng)絡運維平臺可以全面簡化網(wǎng)絡運維工作,構(gòu)建高效網(wǎng)絡運維管理體系.和原有的華為S9312冗余核心交換機相比,兩臺華為S12712核心交換機堆疊后集群背板帶寬達到74.5 Tbps,包轉(zhuǎn)發(fā)率為 9120 Mbps,核心層網(wǎng)絡背板帶寬提升了6倍,包轉(zhuǎn)發(fā)率性能提升了7倍;新的S5720匯聚交換機堆疊后較原先的S5700交換機性能提升了4至5倍,網(wǎng)絡整體性能得到明顯提升,滿足氣象業(yè)務高可靠性和性能要求.
圖2 改造后網(wǎng)絡拓撲圖
鑒于氣象行業(yè)的特殊性,氣象探測報文,天氣預報和預警信息等重要氣象數(shù)據(jù)需要24小時不間斷通過網(wǎng)絡傳輸.而實施核心網(wǎng)絡的升級改造,受機柜空間等機房環(huán)境限制,涉及到原設(shè)備摘除下架,新設(shè)備上架,啟動,線纜連接等一系列過程,如果因為割接過程設(shè)計不合理導致長時間斷網(wǎng),將造成嚴重的后果.因此,我們根據(jù)業(yè)務重要程度將網(wǎng)絡設(shè)備分為非常重要,比較重要,一般重要 3 類,采用分步實施方案,將網(wǎng)絡割接風險點有效分離,實現(xiàn)最短時間斷網(wǎng),盡可能減小對重要氣象業(yè)務影響.核心交換機和區(qū)縣(市)氣象局接入?yún)R聚交換機作為“非常重要”網(wǎng)絡設(shè)備,對氣象業(yè)務影響最大,割接難度最高,兩者實施均安排在業(yè)務量最小的凌晨時段進行.
(1)區(qū)縣(市)氣象局接入?yún)R聚交換機割接步驟:
① 新匯聚交換機進行離線預配置,配置內(nèi)容包括Vlan,上聯(lián)口,下聯(lián)口,虛擬化等,原交換機在不斷電情況下架,新交換機上架,此時業(yè)務不中斷.
② 新交換機用Trunk方式和核心交換機連通,測試新設(shè)備接入端口通往省氣象局業(yè)務連通性;逐一將各區(qū)縣(市)氣象局線路割接到新交換機上,割接過程保持長Ping不中斷,一條線路測試完成后再割接第二條.
③ 區(qū)縣(市)氣象局線路切換完畢后,將剩余外聯(lián)單位線路依次割接至外聯(lián)單位匯聚專用交換機,此交換機保留原始架構(gòu)和配置,完成設(shè)備更換.
(2)核心交換機割接步驟:
① 先對現(xiàn)有2臺核心交換機進行網(wǎng)絡精簡,將備用核心交換機關(guān)機,保證所有業(yè)務在單核心狀態(tài)下正常工作.
② 2臺新核心交換機完成預配置,放置在機柜外加電啟動,和老核心交換機之間不做互聯(lián)打通;優(yōu)先割接區(qū)縣(市)氣象局匯聚交換機線路,保持業(yè)務連通性測試,出現(xiàn)問題立即回退,保證業(yè)務斷網(wǎng)時間在1分鐘內(nèi),同樣步驟將其他線路逐一割接到新核心交換機上.
③ 線路割接完畢后,將老核心交換機下架,新核心交換機上架,考慮到意外情況發(fā)生可能,設(shè)備割接過程中,新老核心都必須保持開機狀態(tài),這樣可以保證在任意時間段都有回退的余地.
隨著云計算的迅猛發(fā)展,虛擬化技術(shù)在信息化領(lǐng)域被廣泛應用.除了服務器虛擬化和存儲虛擬化之外,網(wǎng)絡虛擬化技術(shù)2012年開始在軟件定義網(wǎng)絡及OpenFlow的發(fā)展推動下應運而生并迅速發(fā)展,正在顛覆當下的網(wǎng)絡架構(gòu)領(lǐng)域[5,6].本次改造使用的華為CSS(Cluster Switch System,集群交換系統(tǒng))和 iStack(Intelligent Stack,智能堆疊)都是網(wǎng)絡虛擬化的一種形態(tài),是指將幾臺交換設(shè)備通過專用的堆疊線纜連接起來,對外呈現(xiàn)為一臺邏輯交換機[7–9].
3.1.1 CSS 堆疊
CSS是一種將多臺支持集群特性的交換機設(shè)備虛擬化為一臺交換機設(shè)備的技術(shù).本次改造采用的S12712核心交換機是在CSS的基礎(chǔ)上推出的第二代硬件集群系統(tǒng),集群系統(tǒng)的控制平面與轉(zhuǎn)發(fā)平面分離,具有低延時,大帶寬,高可靠等特點.目前 CSS2 集群只支持兩臺設(shè)備,主交換機為經(jīng)過集群競爭后,角色為主的交換機,負責管理整個集群系統(tǒng);備交換機是主交換機的備份交換機,當主交換機發(fā)生故障時,備交換機接管主交換機的所有業(yè)務.CSS2集群建立過程如下:
1)通過專用堆疊線纜連接集群成員交換機交換網(wǎng)板上的集群卡,每塊集群卡上有8個10GE集群接口,按照面板接口順序的方式一對一進行連接,為保證堆疊冗余可靠性,每臺交換機至少使用兩塊集群卡.
2)集群交換機加電,最先完成啟動,并進入單框集群運行狀態(tài)的交換機成為主交換機;如設(shè)備同時完成啟動,集群優(yōu)先級高的設(shè)備成為主交換機;如果設(shè)備同時完成啟動,并且集群優(yōu)先級又相同時,MAC地址小的成為主交換機.
3)集群中的備交換機在啟動時,會將主交換機的當前配置文件同步到本地.集群正常運行后,用戶所進行的任何配置,都會記錄到主交換機的當前配置文件中,并同步到備交換機.通過即時同步,集群中的所有交換機均保存相同的配置,即使主交換機出現(xiàn)故障,備交換機仍能按照相同的配置執(zhí)行各項功能[10].
3.1.2 iStack 堆疊
iStack堆疊就是將多臺設(shè)備通過專用堆疊口或業(yè)務口連接起來形成一臺虛擬的邏輯設(shè)備,用戶對這臺虛擬設(shè)備進行管理,來實現(xiàn)對堆疊中的所有設(shè)備的管理.iStack 堆疊具有簡化網(wǎng)絡配置,高可靠性,網(wǎng)絡擴展能力強,堆疊模式靈活等諸多優(yōu)點.堆疊建立過程如下:
1)首先根據(jù)業(yè)務需求進行堆疊物理連接,可以使用專用堆疊線纜連接堆疊卡上專用堆疊口,主要優(yōu)點是無需配置;也可以通過光纖線連接業(yè)務口堆疊,優(yōu)點是無需專用堆疊卡,支持長距離堆疊.
2)堆疊角色選舉,角色由堆疊成員運行時間,優(yōu)先級大小,MAC地址大小等因素決定.堆疊系統(tǒng)一共有Master,Standby 及 Slave 三種不同角色,Master設(shè)備負責管理整個堆疊,Standby設(shè)備是Master設(shè)備的備用設(shè)備,Master設(shè)備故障時Standby設(shè)備會自動接替業(yè)務,Slave設(shè)備主要用于業(yè)務轉(zhuǎn)發(fā),一個堆疊中同時只能存在一臺Master設(shè)備和一臺Standby設(shè)備,其他設(shè)備都是Slave設(shè)備.
3)堆疊角色選取完畢后進行拓撲收集,堆疊設(shè)備通過報文交換連接關(guān)系,設(shè)備編號,優(yōu)先級,MAC,運行狀態(tài)等拓撲信息,成員設(shè)備會向Master設(shè)備主動發(fā)送本機收集到的拓撲信息,Master設(shè)備會收集到所有設(shè)備的拓撲信息,根據(jù)拓撲信息計算出堆疊轉(zhuǎn)發(fā)表項和破環(huán)點信息下發(fā)給堆疊中的所有成員設(shè)備,并向所有成員設(shè)備分配堆疊ID.
4)堆疊建立完畢,Master設(shè)備將整個堆疊系統(tǒng)的拓撲信息同步給所有成員設(shè)備,成員設(shè)備同步Master設(shè)備的系統(tǒng)軟件和配置文件,進入穩(wěn)定運行狀態(tài).
可視化融合運維技術(shù)提供了所見即所得的故障監(jiān)控和易用的運維工具,具備多類型設(shè)備統(tǒng)一資源,性能,告警,拓撲以及配置管理,網(wǎng)絡質(zhì)量,流量等監(jiān)控和快速診斷,IT資源實時,歷史數(shù)據(jù)分析等特點,通過一套系統(tǒng),對所有的設(shè)備進行統(tǒng)一監(jiān)控,故障關(guān)聯(lián)定位,以及業(yè)務的一站式配置,是提高運維效率的有效手段.本次改造部署了一套融合運維平臺,引入組件化,WEB化等關(guān)鍵技術(shù),提供統(tǒng)一的告警和性能管理等全網(wǎng)狀態(tài)監(jiān)控和恢復手段,以及豐富的可選業(yè)務組件,平臺技術(shù)特性包括:① 提供統(tǒng)一監(jiān)控,診斷和恢復解決方案,包括性能管理,故障管理,網(wǎng)絡診斷和配置備份等功能;② 組件化模式,可按需構(gòu)建運維平臺集成到統(tǒng)一的 WEB 界面;③ B/S 架構(gòu),系統(tǒng)輕量級,管理人員可通過瀏覽器完成所有運維操作;④ 支持多種廠商設(shè)備,可實現(xiàn)全網(wǎng)設(shè)備統(tǒng)一管理;⑤ 具備開放集成能力,提供Restful和SNMP兩種接口,支持第三方應用系統(tǒng)將運維平臺集成到業(yè)務流程中.
本次地市級氣象核心網(wǎng)絡升級改造工程于2017年11月初開始,歷時約一個月時間全部完成并投入氣象業(yè)務實時運行,改造利用了CSS,iStack虛擬化堆疊,可視化融合運維等技術(shù),組建了大二層網(wǎng)絡.改造后網(wǎng)絡結(jié)構(gòu)更加扁平化,同時消除了網(wǎng)絡環(huán)路;核心層和匯聚層網(wǎng)絡帶寬和包轉(zhuǎn)發(fā)率性能提升了4-7倍,關(guān)鍵氣象業(yè)務系統(tǒng)和數(shù)據(jù)庫訪問速度有效改善,網(wǎng)絡整體性能得到明顯提升;可視化平臺使網(wǎng)絡系統(tǒng)運維管理更加簡單高效;網(wǎng)絡系統(tǒng)改造完畢半年以來運行穩(wěn)定,實現(xiàn)了零故障運行,為氣象系統(tǒng)各類業(yè)務的有效運轉(zhuǎn)提供了良好的網(wǎng)絡保障.