曹繼軍
(國防科技大學計算機學院,湖南 長沙 410073)
目前,高性能計算HPC(High Performance Computing)技術正處于從100P級向E級跨越發(fā)展的關鍵階段,國際上首臺E級系統(tǒng)將會在2021年~2022年實現(xiàn)。同時,隨著云計算、大數(shù)據(jù)應用等技術的不斷發(fā)展,用戶數(shù)目和數(shù)據(jù)量也呈現(xiàn)快速爆炸增長態(tài)勢,這對數(shù)據(jù)中心DC(Data Center)的海量數(shù)據(jù)存儲、處理和傳輸提出了更高要求。高速互連網(wǎng)絡是HPC系統(tǒng)和DC的重要組成部分和全局性基礎設施,也是決定計算系統(tǒng)和服務平臺整體性能的關鍵因素之一。為了追求更高的計算性能以獲得更優(yōu)的應用加速效果,盡量降低網(wǎng)絡通信開銷成為HPC應用和DC業(yè)務對高速互連網(wǎng)絡提出的基本需求,因此高帶寬和低延遲成為互連網(wǎng)絡設計和選擇的首要目標,也是HPC系統(tǒng)和高性能DC互連網(wǎng)絡區(qū)別于普通局域網(wǎng)的顯著特征。同時,為了獲得較高的HPC聚合通信帶寬或DC“東西向”流量帶寬,高等分帶寬也成為HPC系統(tǒng)和DC互連網(wǎng)絡設計的重要指標。然而,高等分帶寬意味著高成本,即構建互連網(wǎng)絡需要使用更多的交換機和網(wǎng)絡端口及鏈路。對于超大規(guī)模HPC系統(tǒng)和DC而言,如果采用常用的無帶寬收縮的胖樹互連結構,其成本代價和工程難度都是難以接受的。同時,高等分帶寬也意味著網(wǎng)絡資源利用率較低。因為就應用通信模式和流量特征而言,絕大部分應用的計算規(guī)模在較小的節(jié)點范圍內(nèi)。例如,相關研究表明,超過80%應用的計算規(guī)模不超過4 096個計算核數(shù)[1]。預期的E級HPC系統(tǒng)單機柜計算性能為10~20 PFlops,已經(jīng)遠超過TH-1A整個計算系統(tǒng)的峰值計算性能(4.701 PFlops)[2],這足夠為大部分并行計算應用提供支撐。
高等分帶寬網(wǎng)絡所帶來的網(wǎng)絡資源整體利用率較低而代價較高的問題被稱為網(wǎng)絡過供問題(Overprovisioned Problem)。但是,如果單純采用成比例縮減匯聚層和核心層帶寬的方法,盡管可以降低成本代價和工程難度,提高網(wǎng)絡資源整體利用率,但是可能導致網(wǎng)絡出現(xiàn)通信瓶頸和性能顯著下降,從而造成網(wǎng)絡過載問題(Oversubscribed Problem)。解決網(wǎng)絡過載問題通常有2種方法:一種是負載適配網(wǎng)絡的方法,即設計優(yōu)化的負載分配算法或進程映射算法,盡量避免嚴重的網(wǎng)絡擁塞或通信瓶頸出現(xiàn);另一種是網(wǎng)絡適配負載的方法,即為工作負載較重的節(jié)點或部件動態(tài)調(diào)度更多的網(wǎng)絡帶寬資源,從而緩解網(wǎng)絡部分鏈路負載過重的問題。目前,光交換網(wǎng)絡技術能較好地應對上述網(wǎng)絡過供或者過載問題帶來的挑戰(zhàn)。光交換網(wǎng)絡能夠按照通信需求在物理層實現(xiàn)網(wǎng)絡資源重新分配和調(diào)度,從而允許以較少的資源構建能夠靈活滿足用戶通信需求的互連網(wǎng)絡。
因此,對于未來HPC和DC系統(tǒng)的互連網(wǎng)絡,過分追求高等分帶寬的拓撲結構設計難以滿足成本要求,而根據(jù)應用通信模式和流量特征實現(xiàn)網(wǎng)絡拓撲結構重構的互連網(wǎng)絡,將是一種能夠降低工程難度并提高網(wǎng)絡資源利用率的最佳選擇。當前,可重構光互連網(wǎng)絡已成為高性能大規(guī)模網(wǎng)絡技術研究的熱點,本文對其研究現(xiàn)狀進行了綜述。
在傳輸帶寬方面,在基于100 Gbps偏振復用四相相移鍵控PM-QPSK(Polarization-Multiplexed Quadrature Phase Shift Keying)調(diào)制相干接收器高密度波分復用DWDM(Dense Wavelength Division Multiplexing)技術條件下,單模光纖的傳輸帶寬就可達12 Tbps[3]。在交換容量方面,由于高速光信號的損耗和串擾遠低于電信號,并且通過波分復用技術,單一光波導內(nèi)承載的信道數(shù)目可以實現(xiàn)數(shù)十倍增長,所以光交換架構可以實現(xiàn)較大的交換容量。在成本方面,采用光互連交換技術不僅可以減少電交換機端口數(shù)量,而且還可以降低用電和制冷成本。在能耗方面,由于光信號具有更低損耗和更長傳輸距離,因此光鏈路可以使用更低的發(fā)送功率。同時,由于光交換架構可以采用無源或低能耗光器件,因此可進一步降低網(wǎng)絡能耗。隨著硅光和光集成技術的快速發(fā)展,光互連交換設備成本日益降低,這更促進了光互連交換技術在互連網(wǎng)骨干網(wǎng)和高端數(shù)據(jù)中心的應用和部署??傊啾扔陔娀ミB交換技術,光互連交換技術具有高帶寬、大交換容量、低成本和低能耗等技術特點。將光互連交換技術引入到HPC和DC中,對于有效應對系統(tǒng)在成本和能耗等方面面臨的挑戰(zhàn)具有重要意義。
各種光互連網(wǎng)絡體系結構差異性較大,其首要原因是它們所采用的光交換器件的功能和結構等方面存在差異。下面將對本文涉及的主要光交換器件的原理、性能和適用場景進行簡單描述。
(1)MEMS(Micro Electro Mechanical System)光交換機:一種采用微電子機械技術MEMS的光交換機,它通過靜電或磁力控制微鏡陣列的鏡面角度來改變光束在自由空間的傳播方向,從而將從N條輸入光纖進入的不同光束交換至N條不同輸出光纖,實現(xiàn)N×N的交換。MEMS光交換機控制簡單,插入損耗低,功耗較低,但是交換速度通常在毫秒級,因此適用于對交換延遲不敏感的場景。
(2)陣列波導光柵路由器AWGR(Arrayed Waveguide Grating Router):一種根據(jù)光波長信息進行路由選擇的陣列波導光柵路由器。在N×N的AWGR中,由端口i輸入的波長編號為w的光束將被路由至[(i+w-2)modN]+1端口。同一輸出端口可以接收不同波長的多個光信號,并復用在一條光纖上輸出。AWGR功耗較低,交換延遲僅為納秒至皮秒級,而且當前512端口的AWGR器件已經(jīng)成熟[4]。AWGR通常需要與可調(diào)波長光調(diào)制器TWC(Tunable Wavelength Converters)和光通道適配器OCA(Optical Channel Adapter)等光器件一起構成光交換系統(tǒng)。
(3)可調(diào)波長光調(diào)制器TWC:可將輸入的光信號變換成給定波長輸出,目前160 Gbps的波長轉換帶寬的TWC已經(jīng)商用,其重構時間低至納秒級[5]。
(4)光通道適配器OCA:可將光信號轉換為電信號,通常具有1∶N的多路解復用器,將光纖中混合光信號分離成多束單波長的光信號,并由后端的接收陣列將這N個光信號轉換為電信號。
(5)波長選擇開關WSS(Wavelength Selective Switch):對于1×K結構的WSS,可以將單個端口輸入的光信號分配到K個輸出端口中的任意端口輸出。目前主流的WSS采用硅基液晶LCoS(Liquid Crystal on Silicon)方式實現(xiàn)。
近年來SIGCOMM(Special Interest Group on data COMMunication)[6]等重要國際會議和期刊公布了多種系統(tǒng)級可重構光互連網(wǎng)絡方面的研究成果。例如,2010年的c-Through[7]和OSA[8],2011年的Helios[9],2013年的Mordia[10],2014年的FireFly[11],2016年的ProjecToR[12]、Optical Dragonfly[13]和Ace-net[14],2017年的RotorNet[15]和2020年的Sirius[16]等,本節(jié)將對這些可重構光互連網(wǎng)絡的工作原理及技術特點進行介紹與分析。
c-Through[7]是在2010年SIGCOMM國際會議上公開的一種光電混合網(wǎng)絡架構。在該架構中,每個柜頂ToR(Top of Rack)交換機同時連接至一個電交換網(wǎng)絡和一個光交換網(wǎng)絡。電交換網(wǎng)絡為傳統(tǒng)的層次式樹形結構。光交換網(wǎng)絡采用單一的微機電系統(tǒng)MEMS光交換機連接所有ToR交換機的方式構建。在同一時刻,該網(wǎng)絡可為每個源機柜到另一個目的機柜分配一條高帶寬的光傳輸鏈路。根據(jù)上層應用的通信需求,通過重配MEMS光交換機可以改變高帶寬光鏈路在機柜間的分布,從而為數(shù)據(jù)量大的網(wǎng)絡流在機柜間構造一條相對持續(xù)的光鏈路,而數(shù)據(jù)量較小的網(wǎng)絡流則直接基于電交換網(wǎng)絡進行通信。c-Through互連結構與流量管理方法如圖1所示。
Figure 1 Interconnection structure and trafficmanagement of the c-Through圖1 c-Through互連結構與流量管理
在網(wǎng)絡控制平面,c-Through中各個服務器實時監(jiān)測每條Socket隊列所緩存的分組數(shù)目,并將該信息周期性地報告給集中式的光路管理器。通過收集所有服務器的Socket緩存狀態(tài),光路管理器可以計算出系統(tǒng)的流量矩陣,該矩陣反映了任意源機柜和目的機柜間等待發(fā)送的分組數(shù)目總和。對于根據(jù)流量矩陣分配MEMS最優(yōu)配置的問題,光路管理器將該問題視為二分圖的最大權重匹配問題,并使用經(jīng)典Edmonds算法[17]求解。最后,光路管理器將配置下發(fā)到MEMS并通知服務器通過光網(wǎng)絡傳輸,而未獲得光連接的服務器仍采用電網(wǎng)絡傳輸。在網(wǎng)絡數(shù)據(jù)平面,c-Through對ToR進行基于端口的VLAN劃分,并采用基于VLAN的路由算法將網(wǎng)絡從邏輯上分離為電網(wǎng)絡VLAN-s和光網(wǎng)絡VLAN-c。每個服務器配置2個具有相同MAC和IP地址的虛擬網(wǎng)絡接口,并分屬于VLAN-s和VLAN-c。
c-Through通過VLAN劃分方式隔離光網(wǎng)絡和電網(wǎng)絡,降低了拓撲重構對電網(wǎng)絡穩(wěn)定性造成的影響。該網(wǎng)絡還通過增大服務器上每條流Socket緩沖區(qū),對應用的通信流量進行存儲和調(diào)度,這樣既避免了頭阻塞,又提高了通信需求評估的準確性,而且不會影響延遲敏感型應用的通信延遲?;赩LAN的光電網(wǎng)絡隔離方法,保持了混合網(wǎng)絡架構對上層應用的透明性。但是,由于采用了慢速MEMS光交換機,網(wǎng)絡拓撲重構的延遲較大。此外,由于要求為每條流分配較大的Socket緩沖區(qū),所以當通信連接數(shù)較大時,會對服務器系統(tǒng)的內(nèi)存容量造成壓力。
Helios[9]是在2011年SIGCOMM國際會議上公開的新型光電混合網(wǎng)絡架構,是一種面向數(shù)據(jù)中心模塊PoD(Point of Delivery,通常包括250~1 000個服務器的具有獨立網(wǎng)絡和制冷系統(tǒng)等模塊的高度模塊化數(shù)據(jù)中心[18])之間互連的網(wǎng)絡結構。如圖2所示,Helios為2層多根樹(Multi-rooted Tree)結構,其2層分別由底層的PoD交換機和上層的核心交換機構成。核心交換機既包含傳統(tǒng)的電交換機,也包含基于MEMS的光交換機。PoD內(nèi)的服務器通過銅纜連接至PoD交換機,同一PoD內(nèi)的服務器通過PoD交換機通信,而不同PoD之間通過核心層交換機進行通信。核心層的電交換機和光交換機分別用于處理All-to-All的突發(fā)流量和具有高帶寬和長持續(xù)時間需求的流量。在圖2的互連結構示意中,PoD交換機的一半上行鏈路端口與電交換機相連,另外一半上行鏈路端口通過無源的波分復用器WDM復用后連接到光交換機。
Figure 2 Interconnection structure andcontrol loop of the Helio圖2 Helio互連結構與控制回路
用于拓撲重構的管理控制軟件包含3個子模塊,分別是拓撲管理器TM(Topology Manager)、電路交換管理器CSM(Circuit Switch Manager)和PoD交換管理器PSM(PoD Switch Manager),如圖2所示。PSM運行在每個PoD交換機上,用于初始化交換機硬件,管理流表(Flow Table),和維護用于記錄從本PoD發(fā)往不同PoD的流量計數(shù)器(按字節(jié)計數(shù))。集中式的TM周期性地通過遠程進程調(diào)用RPC(Remote Procedure Call)方式獲得系統(tǒng)中各個PSM維護的流量計數(shù)器信息,并計算出記錄任意PoD之間的流量計數(shù)的字節(jié)計數(shù)矩陣。通過當前周期和前一周期2個字節(jié)計數(shù)矩陣可以計算出PoD之間的流速率矩陣。為了實現(xiàn)只為具有高帶寬需求的流量分配光交換鏈路,TM從流速率矩陣中過濾掉速率較低(即低于15 Mbps)的元素得到修改后的流速率矩陣。同時,為了獲得真正反映通信需求的流量需求矩陣TDM(Traffic Demand Matrix),TM進一步采用Max-Min公平帶寬分配算法由修改后的流速率矩陣生成PoD間的流量需求矩陣。以最大化光鏈路利用率為目標,TM再使用經(jīng)典Edmonds算法[17]計算出最優(yōu)的光鏈路連接關系。最后,TM通知CSM配置MEMS光交換機從而在PoD之間建立光鏈路,并通知PSM修改PoD交換機的路由表。
通過使用商用的全光交換機和WDM收發(fā)器實現(xiàn)了帶寬和交換吞吐率的聚合,Helios網(wǎng)絡降低了網(wǎng)絡成本和能耗。與c-Through相比,Helios的優(yōu)點是不需要對服務器軟件棧進行任何修改。但是,由于仍然采用了MEMS光交換機,Helios也存在網(wǎng)絡拓撲重構延遲較大的問題。
OSA[8]是于2010年HotNet(Hot Topit in Network)會議提出(也稱為proteus[19])并在2016年TON (IEEE/ACM Transactions on Networking)國際期刊上正式公開的一種光互連網(wǎng)絡。不同于c-Through和Helios等光電混合互連,OSA采用全光互連結構。如圖3所示,OSA由ToR、MEMS和波長選擇開關WSS 3種光交換機互連而成。每個ToR交換機配置多個工作在不同波長的光收發(fā)器,其發(fā)送的多波長光信號經(jīng)過復用器(MUX)遠程傳輸?shù)絎SS,WSS根據(jù)配置將波長重新分組,并通過多個端口將光信號輸入MEMS光交換機。通過MEMS交叉開關矩陣,每個ToR交換機可以與其它多個ToR交換機直連通信。對于非直連ToR交換機之間的通信,需要借助中間節(jié)點通過光電轉換識別報文頭部信息并轉發(fā)到目的ToR交換機,從而實現(xiàn)多跳步路由。
Figure 3 Interconnection structure and control step of the OSA圖3 OSA互連結構與控制步驟
集中式的OSA管理器(OSA Manager)負責流量需求評估、拓撲計算、路由計算和波長分配等,并通過配置MEMS、WSS和ToR交換機等網(wǎng)絡部件完成拓撲的建立與重構。OSA的拓撲控制步驟如圖3所示:流量需求評估過程周期性地收集機柜間通信流量信息,利用TCP流的Max-Min公平帶寬分配算法獲得機柜間的流量矩陣。拓撲計算過程采用帶權值的b-Matching問題求解算法[20],根據(jù)流量矩陣和ToR間的連接關系,生成MEMS光交換機的配置信息。路由計算過程優(yōu)先保證具有高通信量的ToR交換機之間通過單跳步直接通信,而非高通信量的ToR交換機之間采用多跳步路由通信。波長分配過程采用多圖的邊著色算法為ToR交換的收發(fā)器分配波長。通過上述控制步驟,OSA實現(xiàn)了網(wǎng)絡吞吐率的最大化。
與c-Through和Helios等早期提出的光電混合網(wǎng)絡相比,OSA由于采用了全光交換架構并引入WSS等新型交換器件,具備較高的拓撲和帶寬靈活性,提高了網(wǎng)絡的利用率。OSA的缺點主要體現(xiàn)在:(1)多跳步路由的實現(xiàn)需要光電轉換過程,因此增加了交換延遲并且要求中間ToR節(jié)點對報文進行緩存,實現(xiàn)難度增大;(2)仍然使用MEMS光交換機作為頂層交換機,而且沒有電交換去平滑延遲敏感型應用的通信需求,導致其業(yè)務的適應性受到限制。
Optical Dragonfly[13]網(wǎng)絡是在2016年的OFC(Optical Fiber Communication)會議上公開的以Dragonfly網(wǎng)絡[21]為基礎的拓撲可重構光電混合網(wǎng)絡。Dragonfly(p,a,b)網(wǎng)絡的互連結構分為3層:最底層的路由節(jié)點連接p個端節(jié)點,中間層每個局部組內(nèi)的每個路由節(jié)點與組內(nèi)的a-1個路由節(jié)點相連,最高層每個局部組內(nèi)共(b×a)條全局通道與其余局部組互連。Dragonfly網(wǎng)絡中用于組內(nèi)連接的電鏈路被稱為L-Link,用于實現(xiàn)組間互連的鏈路被稱為D-Link。Dragonfly拓撲結構的網(wǎng)絡直徑較小,其實現(xiàn)代價比胖樹等具有高等分帶寬的網(wǎng)絡低,因此被Cray[22]和PERCS(Productive, Easy-to-use, Reliable Computing System)[23]等實際HPC系統(tǒng)所使用。Optical Dragonfly網(wǎng)絡改變了傳統(tǒng)Dragonfly網(wǎng)絡中D-Link所采用的固定鏈路連接,而采用根據(jù)網(wǎng)絡流量需求可動態(tài)調(diào)整組間互連關系可重構光互連網(wǎng)絡。圖4所示為包含4個組的Optical Dragonfly網(wǎng)絡互連結構,即將網(wǎng)絡的D-Link連接在光交換機(例如基于MEMS的光交換機),而通過重配光交換機可以實現(xiàn)網(wǎng)絡拓撲重構。
Optical Dragonfly網(wǎng)絡的控制平面包括:檢測組間流量特征的監(jiān)測模塊(Monitoring Module)、確定組間優(yōu)化連接關系的網(wǎng)絡優(yōu)化器(Network Optimizer)和使用OpenFlow修改網(wǎng)絡拓撲的拓撲管理器(Topology Manager)。該網(wǎng)絡中用于重配組間光網(wǎng)絡的軟件結構如圖4所示,上層采用ODL(OpenDayLight)作為網(wǎng)絡控制器,底層路由節(jié)點支持OpenFlow協(xié)議,組內(nèi)和組間通信使用不同的轉發(fā)規(guī)則集。監(jiān)測模塊通過ODL REST API接口獲取組間通信的流量特征?;诹髁刻卣骱途W(wǎng)絡拓撲結構圖,并采用最大加權匹配MWM(Maximum Weight Matching)算法,優(yōu)化模塊得出全局鏈路分配方案。拓撲管理器根據(jù)全局鏈路分配方案產(chǎn)生出流規(guī)則并更新路由節(jié)點的流表和光交換機的端口連接關系。
Figure 4 Interconnection structure and controltechnique of the Optical Dragonfly圖4 Optical Dragonfly互連結構與控制技術
Optical Dragonfly網(wǎng)絡的優(yōu)點主要體現(xiàn)在:(1)采用動態(tài)重構全局光鏈路的方法,緩解了傳統(tǒng)Dragonfly網(wǎng)絡等分帶寬低引發(fā)的相關問題。在傳統(tǒng)Dragonfly網(wǎng)絡中,如果2個組間通信的流量較大,則采用直接和間接路由同時存在的多路徑路由方法提高通信的吞吐率,但間接路由增加了網(wǎng)絡跳步數(shù),而且也可能會對其它組間通信性能造成影響。Optical Dragonfly網(wǎng)絡采用可重構的光鏈路作為組間通信的全局鏈路,任意組間通信都采取直接路由,因此降低了網(wǎng)絡跳步數(shù)和通信延遲。(2)在網(wǎng)絡的控制平面采用成熟的軟件定義網(wǎng)絡SDN(Software-Defined Network)技術監(jiān)測網(wǎng)絡流量并對其進行配置,提高了Optical Dragonfly網(wǎng)絡的可實現(xiàn)性。
Figure 5 Measurement schematic diagram of flow requirements for the Ace-net圖5 Ace-net流量需求測量原理
Ace-net[14]是由中國科學院計算技術研究所在2016年提出的一種面向DC的光電混合網(wǎng)絡。在該網(wǎng)絡中,機柜內(nèi)的每臺服務器使用電鏈路連接到本機柜內(nèi)的ToR交換機上,機柜之間分別使用電網(wǎng)絡和光網(wǎng)絡互連。電網(wǎng)絡可以使用任意拓撲結構,而光網(wǎng)絡中所有ToR交換機都連接到同一個陣列波導光柵路由器AWGR。電網(wǎng)絡在任意服務器間并行傳輸數(shù)量較小的網(wǎng)絡流,而光網(wǎng)絡在各組源和目的機柜間建立光鏈路從而傳輸數(shù)據(jù)量較大的網(wǎng)絡流。
Ace-net通過仲裁控制系統(tǒng)完成服務器通信需求信息收集、光鏈路的調(diào)度、可調(diào)波長激光器TWC和ToR交換機的控制、數(shù)據(jù)傳輸過程的啟動和停止等工作。在流量測量方面,如圖5所示,通過在操作系統(tǒng)內(nèi)核中監(jiān)控Socket緩沖區(qū)的占用情況,將緩沖區(qū)的占用值按照目的地址聚合到虛擬隊列中,虛擬隊列中的每一表項記錄本機與其對應機柜間的網(wǎng)絡流信息,各個服務器虛擬隊列中的信息構成整個網(wǎng)絡的通信需求表征。在集中仲裁方面,中央控制器通過被動通告方式獲得每臺服務器的虛擬隊列信息,并為每個機柜維護一個向量,向量的每一項分別記錄本機柜與其對應機柜之間的累積流量需求。中央控制器根據(jù)不斷接收服務器發(fā)送來的流量通知控制報文攜帶的流量需求信息,保持累積流量需求的實時性。在拓撲控制方面,通過掃描每個向量,獲得與本機柜累積流量需求最多的機柜,然后控制對應的TWC進行波長變化,從而在2機柜之間建立一條持續(xù)的光鏈路。
Ace-net的擴展性取決于AWGR路由器所能支持的最大端口數(shù)。目前,512×512端口的AWGR光器件已經(jīng)問世,因此Ace-net網(wǎng)絡可以實現(xiàn)512服務器機柜間的超大規(guī)?;ミB;由于采用了納秒級波長變換特性的TWC和波長路由器AWGR,并設計了高效的網(wǎng)絡重構控制平面,其延遲和吞吐率等性能優(yōu)于采用MEMS光交換機的c-Through網(wǎng)絡。但是,由于采用UDP協(xié)議傳輸控制報文,并且控制報文傳輸延遲也影響虛擬隊列管理的時效,所以拓撲重構的仲裁會產(chǎn)生“輪空現(xiàn)象”,這在一定程度上會影響光網(wǎng)絡的利用率。
Mordia[10]是在2013年SIGCOMM國際會議上公開的面向DC的光交換網(wǎng)絡。與之前提出的c-Through和Helios等網(wǎng)絡結構類似,Mordia也采用了基于ToR的互連結構。為了避免同一源ToR到不同目的ToR流量出現(xiàn)頭阻塞,Mordia的每個ToR需要為其它所有的ToR建立報文緩沖隊列,從而實現(xiàn)基于虛擬輸出隊列VOQ(Virtual Output Queue)的數(shù)據(jù)交換。為了克服早期的光電混合網(wǎng)絡采用MEMS光交換機所存在的鏈路切換速度過慢問題,Mordia選用了具有微秒級配置延遲的波長選擇交換機WSS構建光互連網(wǎng)絡,從而實現(xiàn)快速的拓撲重構。圖6所示為Mordia網(wǎng)絡的原型系統(tǒng),該系統(tǒng)將WSS連接成環(huán)形構成24×24交換結構并實現(xiàn)與24個ToR交換機端口的互連,通過波長分配及相關配置,可以實現(xiàn)任意源ToR與目的ToR之間的通信,而改變配置引起的鏈路切換時間可以低至11.5 μs。
Figure 6 Prototype system and connection scheduling schematic diagram of the Mordia圖6 Mordia原型系統(tǒng)與連接調(diào)度原理
在光鏈路調(diào)度方面,不同于傳統(tǒng)光電混合網(wǎng)絡采用的熱點調(diào)度HSS(HotSpot Scheduling)方法,Mordia使用了一種流量矩陣調(diào)度TMS(Traffic Matrix Scheduling)方法。HSS方法可概括為:在每個時間槽內(nèi),首先測量機柜間的流量矩陣并以此計算流量需求矩陣,然后在流量需求矩陣中識別流量需求熱點并通過重配光交換機為熱點的源和目的機柜間建立光鏈路。TMS方法的調(diào)度原理如圖6所示,在測量并評估獲得流量需求矩陣TDM后,考慮光鏈路的實際帶寬情況,使用Sinkhorn算法[24]可將該矩陣變換成為帶寬分配矩陣BAM(Bandwidth Allocation Matrix),然后使用BvN(Birkhoff-von Neumann)算法[25]計算出該BAM對應的完美調(diào)度。
Mordia具有多方面優(yōu)點:首先,使用的TMS流量調(diào)度方法克服了HSS調(diào)度方法存在的預測失真和局部最優(yōu)等問題,提高了光網(wǎng)絡的利用率;其次,由于采用配置時間非常短的光器件,光鏈路調(diào)度的時間槽可以設計得更短,這將降低ToR交換機的VOQ緩沖區(qū)的容量需求。Mordia的主要缺點是缺乏擴展性,Mordia原型系統(tǒng)實現(xiàn)了24×24的無阻塞光交換,沿用其所采用的C-band DWDM和單環(huán)技術,只能擴展到44×44的光交換規(guī)模。采用多環(huán)結構也只能將其擴展到數(shù)百端口,而且該結構是一種阻塞的交換結構。通過增加TWC可以提高其擴展性并解決阻塞交換問題,但這是以增加光器件和調(diào)度算法的復雜性為代價的。
Firefly[11]是在2014年SIGCOMM國際會議上公開的一種基于ToR互連的新型網(wǎng)絡架構。Firefly采用了自由空間光通信FSO(Free-Space Optical Communications)技術,其互連結構如圖7所示。Firefly網(wǎng)絡主要由部署在天花板的反射鏡面(Ceiling Mirror)、配置在機柜頂部的可調(diào)FSO(Steerable FSO)設備和網(wǎng)絡帶外控制器等部件構成。Firefly光鏈路如圖7所示,源機柜發(fā)送端將光信號直接從光纖輸出到自由空間,并經(jīng)過天花板鏡面反射進入目標區(qū)域,目的機柜接收端也采用直接耦合方式將光信號輸入光纖。為了解決光束從光纖進入自由空間時的散射問題和從自由空間耦合到光纖時的聚焦問題,在光信號的發(fā)送端和接收端都設置了透鏡。Firefly提供了2種技術途徑實現(xiàn)光鏈路的可重構,即分別是基于開關鏡面SM(Switchable Mirrors)[26]和Galvo鏡面GM(Galvo Mirrors)[27],在源和目的ToR之間建立可重配的光鏈路。
Figure 7 Interconnection structure and link design of the Firefly圖7 Firefly互連結構與鏈路設計
SM的特點是能夠在電信號的控制下實現(xiàn)反射和透射2種狀態(tài)的轉換。SM類型的網(wǎng)絡可重構控制原理是:為每個光信號發(fā)送端配置多個SM,每個SM在預配置(Pre-Configuration)階段預先通過天花板反射鏡面的反射點對準固定接收端。在鏈路配置和重配階段,發(fā)送端的某個SM被設置為反射狀態(tài)而其余SM被設置為透射狀態(tài),從而建立源機柜到目的機柜的光鏈路。改變SM的狀態(tài)組合就可以建立任意機柜間的光鏈路。GM的特點是能夠在電信號的控制下繞固定軸轉動,從而借助天花板發(fā)射鏡面將發(fā)送端的光信號傳輸?shù)藉F形目標區(qū)域。GM類型的網(wǎng)絡可重構控制原理是:通過配置GM的角度,從源機柜發(fā)送端發(fā)射的光束可以到達指定接收區(qū)域的目的機柜。在運行之前的預配置階段,預配置靈活拓撲PCFT(Pre-Configured Flexible Topology)設計需要設計每個SM鏡面的反射點或GM鏡面的覆蓋區(qū)域,以形成多條備選網(wǎng)絡光鏈路,并使得網(wǎng)絡動態(tài)等分帶寬最大化。分別采用隨機圖算法和基于塊的啟發(fā)式算法可以解決PCFT設計問題。在實時運行階段,需要根據(jù)流量需求評估情況周期性地或由特定事件(大負載遷移或大流量生成等事件)觸發(fā)性地重構網(wǎng)絡鏈路,以使得網(wǎng)絡流量最大化。采用貪婪匹配算法可有效解決周期性拓撲重構問題。
Firefly的優(yōu)點體現(xiàn)在:采用了自由空間光技術實現(xiàn)互連,降低了光纖互連的實現(xiàn)代價和復雜性。該網(wǎng)絡實現(xiàn)了分布式光互連,與集中式光互連網(wǎng)絡相比,避免了需要內(nèi)部結構復雜的核心光交換機實現(xiàn)光交換,因此提高了網(wǎng)絡的擴展性和可靠性。利用SDN技術,F(xiàn)irefly不僅實現(xiàn)了數(shù)據(jù)平面重配,而且ToR交換機可以向網(wǎng)絡控制器主動報告觀測到的網(wǎng)絡流量需求。Firefly的缺點主要體現(xiàn)在:(1)該網(wǎng)絡采用的是自由空間光通信技術,空間的潔凈程度會影響通信誤碼率,因此如何建立和維護具有高潔凈度的數(shù)據(jù)中心空間成為了需要考慮的現(xiàn)實問題。(2)受限于所采用的光器件的屬性,該網(wǎng)絡的重配時間較長(20 ms),而且網(wǎng)絡預配置后每個源ToR能夠連接到的目的ToR數(shù)量有限(10),因此降低了網(wǎng)絡的實用性。
ProjecToR[12]是由Microsoft 研究院在2016年SIGCOMM國際會議上提出的面向DC的拓撲可重構光互連網(wǎng)絡。與Firefly類似,ProjecToR也采用自由空間光通信技術來實現(xiàn)ToR間的可重構互連。如圖8所示,每個ToR上集成若干個激光發(fā)射及接收裝置和數(shù)字微鏡設備DMD(Digital Micromirror Device)。DMD是集成了數(shù)十萬個10 μm大小的鏡片陣列,通過改變配置可以調(diào)整每個微鏡片的方向。懸掛在數(shù)據(jù)中心上方空間的球狀多面鏡用來向目的ToR反射從源ToR發(fā)射來的激光,從而可以建立用于ToR間通信的光鏈路。ProjecToR把任意ToR間的所有可能的光鏈路分為2類:專用連接(Dedicated Link)和機會連接(Opportunistic Link)。專用連接支持單跳或多跳步通信,重配周期較大,主要用于傳輸數(shù)據(jù)量較小的流量;機會連接只支持單跳通信,重配周期較短,主要用于傳輸數(shù)據(jù)量較大的流量。
Figure 8 Interconnection structure and link planning method of the ProjecToR圖8 ProjecToR互連結構與鏈路規(guī)劃方法
ProjecToR使用了大量的激光器作為數(shù)據(jù)發(fā)送和接收器件,如何根據(jù)流量需求調(diào)整MDM微鏡方向,動態(tài)建立激光發(fā)射器與接收器之間不同類型的連接并分配流量,成為了該網(wǎng)絡需要解決的關鍵問題。在專用拓撲劃分方面,首先根據(jù)每天的流量歷史信息計算每個ToR每5 min的最大發(fā)送和接收速率,然后在約束最小值為2且最大值為ToR激光發(fā)送器數(shù)目減2的情況下為每個ToR計算出用于專用連接的發(fā)送器和接收器數(shù)目。再根據(jù)任意2個ToR間通信的概率排序為ToR間分配激光發(fā)送器和接收器對構成相對固定的連接。最后基于專用拓撲為每個ToR對計算一組最短路徑,并在下發(fā)轉發(fā)規(guī)則后開始傳輸數(shù)據(jù)。對于機會拓撲的連接調(diào)度問題,采用兩階異步穩(wěn)定婚配(Tow-tier and Asynchronous Stable Matching)算法在每個時間槽啟動時計算激光發(fā)送器和接收器之間的匹配關系。
ProjecToR的優(yōu)點體現(xiàn)在:(1)實現(xiàn)了ToR的高扇出,例如對于具有1×105個服務器且每個機柜配置50個服務器的數(shù)據(jù)中心而言,使用768×1 024的MDM構建的網(wǎng)絡可以保證每個源激光發(fā)射器平均與每個ToR的9個激光接收器建立連接關系。(2)參數(shù)重配改變MDM微鏡角度的速度較快,可達到12 μs,因此拓撲重構的延遲較低,靈活性較高。但是,ProjecToR也存在明顯的缺點:(1)該網(wǎng)絡采用的自由空間光通信技術本身具有一定的缺點且尚不成熟(如前所述)。(2)基于現(xiàn)有商品化的MDM構建的光鏈路信號失真大約10.41 dB,仍然需要進一步提高信號傳輸質量。
RotorNet[15]是在2017年SIGCOMM國際會議上公布的一種基于ToR互連的光交換網(wǎng)絡。與傳統(tǒng)的基于ToR光交換網(wǎng)絡Folded-Clos拓撲結構互連方案類似,RotorNet采用報文交換ToR交換機與機柜內(nèi)服務器節(jié)點實現(xiàn)電互連,并通過光鏈路連接到Rotor光交換機,其互連結構如圖9所示。Rotor光交換機由一組光交換機構成,而且每個光交換機都連接到系統(tǒng)中的任何一個ToR交換機。作為RotorNet網(wǎng)絡的變種,ToR交換機的部分上行鏈路還可以連接到電交換機,從而形成與Helios網(wǎng)絡[9]相類似的一種光電混合網(wǎng)絡架構。
Figure 9 Interconnection structure and optical link scheduling of the RotorNet圖9 RotorNet互連結構與光鏈路調(diào)度
不同于先前研究所提出的Helios[9]等光交換網(wǎng)絡采用的光鏈路調(diào)度方法,即依據(jù)周期性測量和評估的通信流量需求集中式地對光鏈路進行重配,RotorNet網(wǎng)絡的Rotor光交換機不考慮瞬時流量需求變化,也沒有集中式的光鏈路調(diào)度控制,而是以Round-Robin循環(huán)方式在輸入與輸出端口之間實現(xiàn)預先確定的連接模式。Rotor光交換機的光鏈路調(diào)度基本原理如圖9所示。從宏觀上講,Rotor光交換機在給定的時間間隔內(nèi)能夠為任意一對ToR交換機提供直接光鏈路連接。RotorNet網(wǎng)絡采用2種路由策略,即單跳步直接轉發(fā)和兩跳步間接轉發(fā)。單跳步直接轉發(fā)在源和目的節(jié)點之間通過單個Rotor光交換機建立光鏈路,適用于均勻(Uniform)流量。兩跳步間接轉發(fā)在源和目的節(jié)點之間選擇一個中間節(jié)點,源節(jié)點到中間節(jié)點和中間節(jié)點到目的節(jié)點間均采用單跳步直接轉發(fā)。兩跳步間接轉發(fā)采用VLB variant算法[28],適用于非均勻的稀疏(Sparse)流量。為了自適應選擇上述兩種路由策略,RotorNet網(wǎng)絡實現(xiàn)了一種全分布式的RotorLB協(xié)議,即默認采用單跳步直接轉發(fā),在空閑光鏈路上發(fā)送兩跳步間接轉發(fā)流量,并采用帶內(nèi)(in-Band)協(xié)議發(fā)現(xiàn)空閑鏈路。
RotorNet的優(yōu)點體現(xiàn)在:由于采用了簡單的Round-Robin交換模型,其控制實現(xiàn)較為簡單,因此單個Rotor光交換機具有超過1 000個端口的擴展能力,而且交換延遲(20 μs)遠低于同等規(guī)模交叉開關(Crossbar)的重配時間。同時,由于實現(xiàn)了兩跳步間接轉發(fā)策略,因此具備一定的路由容錯能力。RotorNet的缺點主要體現(xiàn)在:對于非均勻流量,盡管RotorLB協(xié)議可以提高光交換鏈路的利用率,但是該協(xié)議破壞了數(shù)據(jù)流中報文序列到達目的節(jié)點的時間先后順序,從而需要端節(jié)點增加報文重定序(Reordering)處理,這為端節(jié)點通信性能和通信代價有一定程度的影響。此外,相對于單跳步直接轉發(fā),兩跳步間接轉發(fā)增加了延遲并降低了整體吞吐率。
Sirius[16]是在2020年SIGCOMM國際會議上公布的一種面向服務器或柜頂ToR交換機的光交換網(wǎng)絡。Sirius采用扁平的高階光互連結構,從而降低了傳統(tǒng)低階電互連多層結構帶來的擴展代價(Scale Tax)。Sirius網(wǎng)絡主要由可調(diào)諧激光器和AWGR連接而成,其中可調(diào)諧激光器由多波長光源和基于半導體光放大器SOA(Semiconductor Optical Amplifier)的波長選擇器構成,固定激光體、可調(diào)激光體和組合激光器等方式均可產(chǎn)生多波長光源。如圖10所示為一個由4個節(jié)點和4個AWGR構成的小規(guī)模Sirius網(wǎng)絡,通過配置AWGR開關狀態(tài),每個源節(jié)點可以到達任意目的節(jié)點。
Figure 10 Interconnection structure and routing method of the Sirius圖10 Sirius互連結構與路由方法
與RotorNet[15]網(wǎng)絡類似,Sirius網(wǎng)絡采用了基于VLB variant算法[28]的擴展算法,即任意源節(jié)點與目的節(jié)點之間都統(tǒng)一借助于某個中間節(jié)點進行路由。這種間接路由將數(shù)據(jù)中心的流量需求矩陣轉換為較為均勻的流量需求矩陣,即任何節(jié)點發(fā)送到系統(tǒng)中其他節(jié)點的流量需求基本相同,從而能夠較好地與Sirius網(wǎng)絡拓撲特征相匹配。網(wǎng)絡節(jié)點按照預定義的步驟周期性地改變光鏈路連接,即節(jié)點上的每個收發(fā)器周期性地調(diào)制到所有波長范圍,從而以Round-Robin循環(huán)方式將報文發(fā)送到AWGR輸出端口所連接到的所有節(jié)點。為了與基于時間槽的光鏈路調(diào)度相適應,注入到Sirius網(wǎng)絡的報文采用固定長度。
Sirius的優(yōu)點體現(xiàn)在:(1)可擴展性高。假設每個機柜的ToR交換機有256個上行鏈路且AWGR為100端口,則其最大互連規(guī)模可以支持25 600(100×256)個機柜,這是現(xiàn)有大型數(shù)據(jù)中心規(guī)模的6倍。(2)重構速度快。由于將單步調(diào)制技術替換為多步調(diào)制技術,從而將激光器調(diào)諧時間從毫秒級降低為納秒級,大大降低了光網(wǎng)絡鏈路的重構時間。(3)延遲較低。Sirius光網(wǎng)絡內(nèi)部采用無緩沖設計,只在端節(jié)點上設置了緩沖區(qū)。并且通過擁塞控制機制,使得緩沖區(qū)較小,從而保證獲得可預測的低延遲通信。假設時間槽設置為100 ns,報文長度為576 B,則16節(jié)點規(guī)模的Sirius網(wǎng)絡的報文排隊延遲最高為1.6 us,端端通信延遲較低。Sirius的缺點體現(xiàn)在:(1)需要精度高于100 ps的細粒度全局時間同步,實現(xiàn)難度較大;(2)需要接收端進行報文重定序,增加了通信開銷;(3)任何通信報文都需要中間節(jié)點轉發(fā),其效率可能會低于RotorNet[15]網(wǎng)絡的RotorLB路由協(xié)議。
除了上述幾種典型的光電混合網(wǎng)絡體系結構外,近年來研究者還提出了HFA(Hybrid Accelerating Architecture)[29]、OpticV(Optical Viaduct network)[30]和FlyCast[31]等。下面具體介紹這3種可重構光互連網(wǎng)絡的特點:
(1)HFA是由IBM公司提出的光電混合網(wǎng)絡,其結構與c-Through類似。其特點主要體現(xiàn)在該網(wǎng)絡支持2種工作模式:①周期性地監(jiān)視實時業(yè)務及配置光路,以適應業(yè)務模式需求;②支持應用直接通過API訪問控制器,從而根據(jù)應用自身需要配置光鏈路。此外,該網(wǎng)絡支持多跳步和多路徑路由,多跳步可以減少對機柜間鏈路重構的需求,而多路徑可以提高機柜間的吞吐率。通過OpenFlow對網(wǎng)絡進行重構控制,與采用VLAN分配方式相比,具有更低的網(wǎng)絡重構延遲。
(2)OpticV光電混合網(wǎng)絡的電網(wǎng)絡部分采用較為常用的3層網(wǎng)絡結構(即接入層、匯聚層和核心層)方式構建。區(qū)別于c-Through和Helios網(wǎng)絡所采用的光網(wǎng)絡與電網(wǎng)絡相對分離的傳統(tǒng)混合模式,OpticV將3層中的所有交換機連接到基于MEMS的光交換機。該網(wǎng)絡使更多的報文可以通過光網(wǎng)絡交換,因此具有更高的能效比。但是,將系統(tǒng)中所有電交換機連接到MEMS光交換機,將使得系統(tǒng)可擴展性受到限制,所以其較為適合中小規(guī)模的系統(tǒng)級互連。
(3)FlyCast網(wǎng)絡結構與FireFly較為相似,其改進之處是為網(wǎng)絡增加了分光鏡BS(Beam Splitter),從而配合開關鏡面SM支持反射、透射和混合3種工作模式。其中,混合模式下原始光束被分為反射和透射2部分,從而可將數(shù)據(jù)從發(fā)送者組播到多個目的接收者,這對于提高組播聚合通信效率具有優(yōu)勢。
表1綜合比較了上述幾種典型的可重構光互連網(wǎng)絡。就網(wǎng)絡架構類型而言,目前的設計方案主要包括光電混合互連網(wǎng)絡和全光互連網(wǎng)絡。其中,光電混合互連網(wǎng)絡在傳統(tǒng)的電報文交換網(wǎng)絡架構的基礎上額外增加了光線路交換互連網(wǎng)絡,因此這種架構對傳統(tǒng)互連網(wǎng)絡具有較強的兼容性。但是,與純電互連網(wǎng)絡相比,光電混合互連網(wǎng)絡無法在設備開銷、能耗和網(wǎng)絡管理等方面做出顯著改進,因此全光互連網(wǎng)絡架構將更具有技術發(fā)展優(yōu)勢,也逐漸成為近期光互連網(wǎng)絡研究的焦點,該研究發(fā)展趨勢從表1中也可以看出來。
Table 1 Comprehensive comparison of typical reconfigurable optical interconnection networks
隨著“光進電退”趨勢的不斷演進,光互連網(wǎng)絡技術將最有希望成為解決傳統(tǒng)電互連網(wǎng)絡技術發(fā)展所面臨問題的關鍵技術。目前,光互連技術發(fā)展主要體現(xiàn)在2方面,(1)在模塊級方面,隨著工藝的進步,光電子集成特別是硅基光電集成與共模封裝CPO(Co-Packaged Optical)將成為未來面向HPC和DC互連網(wǎng)絡技術發(fā)展的重要使能技術。(2)在系統(tǒng)級方面,尋求光電混合或全光互連等新型高速網(wǎng)絡架構,突破當前以電互連為主要特征的網(wǎng)絡體系結構,將從根本上解決電互連網(wǎng)絡發(fā)展所面臨的問題??芍貥嫻饣ミB網(wǎng)絡是SDN技術在光網(wǎng)絡控制層面上的擴展應用,有希望在未來較大規(guī)模的HPC和DC系統(tǒng)互連中得到實際應用。
不同于現(xiàn)有電網(wǎng)絡的SDN技術,可重構光互連網(wǎng)絡需要進一步考慮光網(wǎng)絡的特殊性,包括物理傳輸損傷、網(wǎng)絡性能的約束和按需分配帶寬的需求等,以滿足光網(wǎng)絡的特殊需求。具體而言,可重構光互連網(wǎng)絡需要動態(tài)管理和控制光調(diào)制、光層路由、波長分配和波長轉換等任務,從而實現(xiàn)根據(jù)上層通信應用需求對各種光層資源進行統(tǒng)一且靈活的調(diào)度和控制。目前,隨著大數(shù)據(jù)和云服務等新興技術的快速發(fā)展,數(shù)據(jù)中心業(yè)務與應用的通信帶寬需求出現(xiàn)快速增長的態(tài)勢,正推動著光網(wǎng)絡資源向著開放性以及支持軟件定義的方向發(fā)展。支持軟件定義的可重構光互連網(wǎng)絡不僅可以緩解光網(wǎng)絡和多種網(wǎng)絡技術融合背景下的網(wǎng)絡業(yè)務調(diào)度、網(wǎng)絡資源管理和網(wǎng)絡運營成本控制的難度,而且還可以提高網(wǎng)絡資源利用率。