吳舜 ,張輝 ,邢寧哲 ,宋偉 ,黃天琳 ,唐亞哲
(1.國網(wǎng)冀北電力有限公司信息通信分公司,北京 100053;2.西安交通大學,陜西 西安 710049)
基于SDN的網(wǎng)絡運維系統(tǒng)設計與開發(fā)
吳舜1,張輝1,邢寧哲1,宋偉1,黃天琳2,唐亞哲2
(1.國網(wǎng)冀北電力有限公司信息通信分公司,北京 100053;2.西安交通大學,陜西 西安 710049)
電力系統(tǒng)計算機網(wǎng)絡運維管理存在功能弱、粒度粗及業(yè)務支撐能力不夠等問題。試圖以SDN技術解決上述問題,提出了SDN網(wǎng)絡運維管理框架,構建了跨域的SDN,研發(fā)了運維管理系統(tǒng),部署了拓撲發(fā)現(xiàn)、故障檢測與切換等典型運維功能。測試表明,該系統(tǒng)克服了傳統(tǒng)網(wǎng)絡運維管理系統(tǒng)的缺點,達到了設計目標。
SDN;網(wǎng)絡運維管理系統(tǒng);拓撲發(fā)現(xiàn);故障檢測與切換
電力系統(tǒng)計算機網(wǎng)絡的運維管理系統(tǒng)屬于電力IT系統(tǒng)的重要組成部分,在保障電力系統(tǒng)的正常高效運行中起著重要的支撐作用。當前,電力系統(tǒng)計算機網(wǎng)絡大部分還是基于 TCP/IP[1]網(wǎng)絡技術,其運維和管理也主要是基于傳統(tǒng)網(wǎng)絡管理,存在管理功能偏弱、管理粒度粗和業(yè)務支撐能力有限等問題。
新型SDN[4-6]網(wǎng)絡技術提出了控制層面和數(shù)據(jù)層面相分離的思想,將網(wǎng)絡的控制集中到控制器上,可以實現(xiàn)全網(wǎng)路由、配置的集中優(yōu)化。同時,交換機端也可以針對全部網(wǎng)絡協(xié)議層次進行細粒度流表配置和轉發(fā)計數(shù),使得SDN下控制器對網(wǎng)絡業(yè)務的配置部署和監(jiān)控大大增強。這些特點都為解決傳統(tǒng)網(wǎng)絡管理運維系統(tǒng)的缺點提供了新的思路。
本文提出了SDN網(wǎng)絡管理運維的框架,并結合國網(wǎng)SDN試點項目,研發(fā)部署了跨域的SDN,在此基礎上開發(fā)了新型SDN網(wǎng)絡運維管理系統(tǒng),實現(xiàn)了簡單高效的網(wǎng)絡拓撲發(fā)現(xiàn)、網(wǎng)絡鏈路故障檢測和快速切換、服務器故障檢測和切換以及特定業(yè)務網(wǎng)絡帶寬保證的QoS。并結合視頻點播業(yè)務,對所開發(fā)系統(tǒng)進行了測試。測試表明,SDN網(wǎng)絡運維管理系統(tǒng)具有細粒度、管理功能強大和能夠有效支撐業(yè)務部署的優(yōu)點。
當前電力網(wǎng)絡基于傳統(tǒng) TCP/IP[1]網(wǎng)絡技術,其運維和管理的主要方法是通過傳統(tǒng)網(wǎng)絡管理機制(例如簡單網(wǎng)絡管理協(xié)議 (simple network management protocol,SNMP)[2]),由管理者從被管設備(例如交換機、路由器、服務器等)中獲取設備運行數(shù)據(jù),進行相關的數(shù)據(jù)分析后呈現(xiàn)給網(wǎng)絡管理員,再由網(wǎng)絡管理員實施網(wǎng)管操作。從網(wǎng)絡管理的角度看,當前電力網(wǎng)絡系統(tǒng)運維存在兩個不足:網(wǎng)絡管理功能偏弱,存在對網(wǎng)管數(shù)據(jù)的分析處理能力不足以及不能區(qū)分不同的流和應用并進行細粒度的問題;網(wǎng)管系統(tǒng)對網(wǎng)絡的配置能力不足,因為MIBⅡ中大量的變量是只讀變量,只有少數(shù)變量是可寫變量,通過SNMP對網(wǎng)絡設備的配置能力有限。因此,網(wǎng)管系統(tǒng)更多地表現(xiàn)為一個網(wǎng)絡的監(jiān)視系統(tǒng),而不是“控制”系統(tǒng)。這樣,網(wǎng)絡業(yè)務部署等需要對網(wǎng)絡設備進行大量繁瑣的配置工作,加大了實施難度。
近年來快速發(fā)展的SDN技術為網(wǎng)絡管理提供了新的解決方案,也為電力網(wǎng)絡運維提出了新思路。SDN采用集中式管理機制,通過配置流表實施業(yè)務部署,并且在全部協(xié)議層次上進行流的區(qū)分和計數(shù)的能力,有助于解決傳統(tǒng)網(wǎng)絡管理運維系統(tǒng)的各種缺陷。
傳統(tǒng)網(wǎng)絡管理系統(tǒng)存在的主要問題是監(jiān)控粒度太粗和對交換機和路由器的配置能力太弱,不能實施各種網(wǎng)絡業(yè)務的部署。從監(jiān)控粒度來說,SDN交換機可以在全部協(xié)議層次上進行流的區(qū)分和計數(shù),理論上說,就有進行每流計數(shù)和監(jiān)控的能力。網(wǎng)管系統(tǒng)也就具備每流區(qū)分管理的能力。而傳統(tǒng)網(wǎng)管對交換設備配置能力偏弱的問題,在SDN下得到了徹底的解決。因為SDN控制器實際上擁有全網(wǎng)所有交換設備的流表項配置能力,不僅能完成傳統(tǒng)網(wǎng)管系統(tǒng)做不到的路由表的配置,還可以通過路由表(流表)中流表項的配置來實施各種網(wǎng)絡業(yè)務的配置和部署。
本文提出了基于SDN的網(wǎng)絡運維管理系統(tǒng)的框架,該框架主要由3部分組成:圖形用戶接口 (graphic user interface,GUI)部分、控制器部分以及控制器和被管SDN的交互部分。其中,GUI部分是用戶和運維系統(tǒng)的人機界面部分,用戶通過操控GUI來啟動對網(wǎng)絡的配置、管理和運維;控制器部分是系統(tǒng)的核心部分,真正的控制邏輯是在控制器端實現(xiàn)的。從系統(tǒng)動態(tài)執(zhí)行流程來看,用戶通過GUI啟動運維功能,該操作通過 RESTful[7]接口傳遞到控制器,控制器根據(jù)用戶配置的參數(shù),運行真正的控制邏輯,形成SDN中各個相關交換機的流表項,并通過OpenFlow協(xié)議下發(fā)。同時,運維系統(tǒng)通過OpenFlow協(xié)議從交換機中獲取交換機的運行狀態(tài)信息,并通過RESTful接口傳遞到前臺GUI顯示給網(wǎng)絡管理員。
圖1 SDN網(wǎng)絡運維管理系統(tǒng)框架、功能和交互方式
研發(fā)了一個SDN網(wǎng)絡運維管理系統(tǒng),具體的功能和交互方式如圖1所示。圖1中,左邊部分是控制器部分,主要的控制邏輯在控制器內(nèi)建應用中實現(xiàn),內(nèi)建應用通過OpenFlow協(xié)議和相關的交換設備通信配置這些設備的流表,通過RESTful接口與前臺GUI通信,獲取前臺的用戶操作信息,并且把從內(nèi)建應用獲取到的交換設備的狀態(tài)信息顯示在前臺GUI上。
試點項目的SDN運維管理平臺中,確定了幾個經(jīng)典的網(wǎng)絡運維管理功能,包括網(wǎng)絡拓撲顯示功能、服務器故障檢測及切換功能、鏈路故障檢測及路徑切換功能以及QoS保證等功能,每個功能的具體內(nèi)容如下所示。
網(wǎng)絡拓撲發(fā)現(xiàn)及顯示功能:對于網(wǎng)絡運維管理系統(tǒng)來說,網(wǎng)絡拓撲發(fā)現(xiàn)及顯示是一個非常重要和基本的功能。傳統(tǒng)網(wǎng)絡中,由于各個交換機的標準不一,不少企業(yè)還在使用不同的網(wǎng)絡管理系統(tǒng)管理來自于不同廠商的交換機,因為只有這樣,拓撲發(fā)現(xiàn)功能才能正常工作。而在SDN中,由于交換機的標準化,網(wǎng)絡拓撲發(fā)現(xiàn)卻有非常簡單標 準 的 實 現(xiàn) 方 式 ,即 通 過 LLDP[9](link layer discovery protocol)消息、packet-out和packet-in消息的協(xié)作使控制器得到所有交換機的鄰居關系,進而構造出整個網(wǎng)絡的拓撲。本文中將使用這種方式進行網(wǎng)絡拓撲發(fā)現(xiàn)。
服務器故障動態(tài)處理功能:控制器能夠自動監(jiān)聽各個服務器與交換機的連接狀態(tài),一旦正在工作的服務器出現(xiàn)故障,便將業(yè)務流導到健康的服務器,保障客戶的服務不受影響。如圖2所示,一旦服務器因為關機或網(wǎng)線松落等原因離開網(wǎng)絡,那么控制器后臺應用會接收到OpenFlow協(xié)議中的端口狀態(tài)變化消息(port status message)。通過對該消息解析可以定位到故障服務器。即可更新該服務器的健康狀態(tài),并且對舊規(guī)則進行刪除,重新構造包含新服務器MAC地址的ARP回復給客戶端,為客戶端和新的服務器之間建立一條最短路徑的連接。
鏈路狀態(tài)監(jiān)測和切換功能:控制器能夠監(jiān)聽網(wǎng)絡中各個鏈路的連接狀態(tài),一旦某條鏈路斷開連接,則將此路徑上的數(shù)據(jù)流切換到另外一條冗余路徑,保障客戶的請求不受干擾。如圖3所示,控制器根據(jù)維護的全局拓撲,可計算出點對之間的所有路徑。并且根據(jù)實時拓撲更新路徑健康狀態(tài)。當收到端口改變消息,定位到故障路徑,控制器掃描點對之間的所有路徑,將所有包含該故障路徑的路徑健康狀態(tài)設為false。并且為受到影響的當前工作路徑,重新選擇一條健康的最短路徑,動態(tài)更新規(guī)則。
圖2 服務器故障處理流程
圖3 鏈路故障處理流程
QoS保證功能:由于OpenFlow協(xié)議提供隊列管理的消息接口,因此可對交換機的隊列進行配置 (如open vSwitch的隊列),設置其最大速率及最小速率,最小速率即可實現(xiàn)帶寬保障。并且可設置流表將一條流與對應的隊列關聯(lián),如HTTP流保障其帶寬為10 kbit/s,那么可以先配置某個隊列,將其最小速率設為 10 kbit/s,再配置流表的匹配域為 tcp_dst_port=80,action為將該流轉發(fā)至相應隊列,即可完成流表到隊列的映射。具體流程如圖 4所示。
本文研發(fā)實現(xiàn)了上述的所有功能,并在國網(wǎng)某2個分公司進行了跨域的SDN部署。部署拓撲如圖 5所示。數(shù)據(jù)中心-1部署在其中一個分公司,數(shù)據(jù)中心-2部署在另外一個分公司。整個系統(tǒng)中部署一個SDN控制器(Ryu控制器)在數(shù)據(jù)中心-1。網(wǎng)絡中存在多條冗余路徑,可用作鏈路故障快速切換。并且有兩個視頻服務器,數(shù)據(jù)中心-1的視頻服務器1是主服務器,只有在其出現(xiàn)故障時,才會自動切換到數(shù)據(jù)中心-2的備用的視頻服務器2用作測試服務器故障處理。背景流量發(fā)生器能夠產(chǎn)生流量造成網(wǎng)絡擁塞,則可以測試在擁塞時,用戶對視頻流進行QoS配置,能否成功保障帶寬。
圖4 QoS保證功能
圖5 SDN物理拓撲
當全局拓撲搭建好之后,控制器通過循環(huán)發(fā)送、接受交換機的LLDP分組,通過LLDP構建全局拓撲,并且學習從各個終端發(fā)來的數(shù)據(jù)分組,進行主機發(fā)現(xiàn)的過程。在較短的收斂時間內(nèi),運維平臺GUI便能夠顯示到全網(wǎng)的全局拓撲,如圖6所示。
從圖6可以看到,網(wǎng)絡中存在備用的服務器二 (位于最右邊,編號為6),當服務器發(fā)生故障離開網(wǎng)絡時,控制器會監(jiān)聽到端口狀態(tài)改變事件,解析事件發(fā)來的消息便能夠定位到故障的服務器,將其從終端集合中移除、將流切換到另一個健康的服務器,并且進行流表規(guī)則的更新。
在服務器一上運行:ifconfig eth0 down或者拔掉網(wǎng)線、關機等操作,此時可以看到,控制器對流表規(guī)則進行了更新,建立了新的雙向流用于客戶端與備用服務器的交互。
圖6 全局拓撲GUI顯示
從圖7可以看到:編號為8的主服務器一從頁面消失,表示終端的維護也是實時更新的;當前的工作路徑已從原來視頻客戶端—視頻服務器1切換為了視頻客戶端—視頻服務器2;程序動態(tài)對規(guī)則進行了更新,重新挑選了健康服務器提供服務,并且在該服務器與客戶端之間建立了一條最短路徑:11-9-12,客戶端視頻正常播放,切換過程對其是透明的。
從圖6可以看到,本拓撲連接在終端之間都存在冗余鏈路可以進行切換。
如圖8所示,在視頻服務器2提供服務的情況下,路由設置為兩個終端之間的最短路徑之一:11-9-12,此時將9號交換機與11號交換機之間的網(wǎng)線拔掉,后臺程序監(jiān)聽到9、11兩個交換機發(fā)出的端口改變消息,定位到兩者之間的鏈路斷開。更新全路徑表,選擇另外一條健康的、最短路徑提供服務,對比圖8、圖9可以看到:“綠色路徑”已經(jīng)發(fā)生改變,改由11-10-12號交換機提供服務。并且9-11號交換機之間的連接已經(jīng)消失,表明GUI全局拓撲的顯示是實時進行的。
圖7 服務器故障處理—視頻服務器1出現(xiàn)故障
圖8 服務器2提供服務
QoS保證功能目前主要是通過配置優(yōu)先級隊列的最小速率并且配置流表完成流到隊列的映射來保證視頻擁有足夠的帶寬播放視頻,測試時選取1080P(最高碼流54 Mbit/s)類型的視頻進行測試。測試中,首先設置QoS保障值為10 Mbit/s,并通過iperf發(fā)出背景干擾流量。此時,背景流量的存在使得網(wǎng)絡發(fā)生擁塞,導致設置的10 Mbit/s帶寬不夠,視頻會出現(xiàn)較為嚴重的卡幀現(xiàn)象。對比試驗中,設置QoS保障值為200 Mbit/s,仍舊通過 iperf發(fā)出背景干擾流量。此時,背景流量的存在使得網(wǎng)絡擁塞。但由于該高清視頻的最高碼流是54 Mbit/s,因此給該高清視頻保障200 Mbit/s的帶寬時,視頻帶寬絕對夠用。因此背景流量不管多大,都不會影響視頻服務,實現(xiàn)了QoS帶寬保證。
圖9 鏈路故障處理
傳統(tǒng)電力系統(tǒng)網(wǎng)絡運維管理系統(tǒng)存在管理粒度粗放、業(yè)務配置能力低下等缺陷,新型SDN具有控制層面和數(shù)據(jù)層面分離、集中優(yōu)化控制、通過配置流表實施業(yè)務部署,并且可以在全部協(xié)議層次上進行流的區(qū)分和計數(shù)的能力,為SDN的管理運維提供了新的方法。
本文介紹了SDN的新型運維管理框架和典型管理功能,在部署的跨域SDN上研發(fā)了新型運維管理系統(tǒng),實現(xiàn)了相關的功能,并進行了實際的測試。測試表明,SDN技術為網(wǎng)絡運維管理的自動化、集中化和便利化提供了優(yōu)秀的技術手段,具有廣闊的應用前景。
[1]STEVENS W R.TCP/IP 協(xié)議詳解(卷 1:協(xié)議)[M]. 范建華,胥光輝,張濤,等譯.北京:機械工業(yè)出版社,2014.STEVENS W R.TCP/ICP illustrated volume 1:the protocols[M].Translated by FAN J H,XU G H,ZHANG T, et al.Beijing:China Machine Press,2014.
[2]CASE J,F(xiàn)EDOR M,SCHOFFSTALL M,et al.Simple network management protocol:RFC 1157:1990[S].1990.
[3]MCCLOGHRIE K,ROSE M.Management information base for network management of TCP/IP-based internets:MIB-II :RFC 1213:1991[S].1991.
[4]MCKEOWN N,ANDERSON T,BALAKRISHNAN H,et al.OpenFlow:enabling innovation in campus networks [J].ACM SIGCOMM Computer Communication Review,2008,38 (2):69-74.
[5]左青云,陳鳴,趙廣松,等.基于 Open Flow的 SDN技術研究[J].軟件學報,2013,24 (5):1078-1097.ZUOQY,CHENM,ZHAOGS,etal.Researchon OpenFlow-based SDN technologies[J].Journal of Software,2013,24(5):1078-1097.
[6]VAUGHAN-NICHOLS S J.OpenFlow:the next generation of the network[J].Computer,2011,44 (8):13-15.
[7]LEONARD R,SAM R.RESTful web services [M].California:OˊReilly Media,2007:96-102.
[8] Iperf[Z/OL]. [2015-05-01].https://iperf.fr/.
[9]Open Networking Foundation.OpenFlow switch specification,version 1.4.0 :wire protocol 0x05:2013[S].2013.
Design and development of the network OA&M system based on SDN
WU Shun1,ZHANG Hui1,XING Ningzhe1,SONG Wei1,HUANG Tianlin2,TANG Yazhe2
1.State Grid Jibei Information&Telecommunication Company,Beijing 100053,China 2.Xi’an Jiaotong University,Xi’an 710049,China
The OA&M systems of network infrastructure in electric power companies have drawbacks such as weak functions,coarse-grained monitor and control on the underlying networks and bad support on service deployment.SDN technology was used to solve these problems.An SDN-based OA&M framework was presented,a cross-domain SDN network was built and the corresponding OA&M system was developed,which could perform functions like topology discovery and fault detecting along with backup components switching.The experiments results prove that the OA&M system can overcome the above drawbacks and achieve the design goal.
SDN,network OA&M system,topology discovery,fault detecting and switching
TN92
A
10.11959/j.issn.1000-0801.2016077
2015-09-08;
2016-01-29
吳舜(1983-),男,國網(wǎng)冀北電力有限公司信息通信分公司工程師、高級技師,主要研究方向為電力企業(yè)信息系統(tǒng)運檢技術、用戶體驗監(jiān)測技術、軟件定義網(wǎng)絡技術。
張輝(1979-),男,國網(wǎng)冀北電力有限公司信息通信分公司主任,主要從事電力企業(yè)通信專業(yè)技術管理工作。
邢寧哲(1978-),男,博士,國網(wǎng)冀北電力有限公司信息通信分公司副總工程師,主要從事電力企業(yè)通信專業(yè)技術管理工作。
宋偉(1983-),男,國網(wǎng)冀北電力有限公司信息通信分公司工程師、中級技師,主要研究方向為電力企業(yè)信息通信系統(tǒng)工程建設、計算機網(wǎng)絡安全技術及項目高級管理。
黃天琳(1991-),女,西安交通大學碩士生,主要從事網(wǎng)絡測量、軟件定義網(wǎng)絡、計算機網(wǎng)絡相關研發(fā)工作。
唐亞哲(1970-),男,博士,西安交通大學副教授、博士生導師,主要研究方向為計算機網(wǎng)絡、網(wǎng)絡管理和網(wǎng)絡安全。