彭曉平
(云南電網有限責任公司信息中心,昆明 650217)
目前,數字密集型應用如電子科學,電子商務,電話會議等的出現(xiàn),使我們進入了“大數據”時代。不同于傳統(tǒng)大數據應用可以產生大量的數據,傳統(tǒng)的系統(tǒng)很難捕獲、管理、存儲和分析。云計算的最新進展表明,在多數據中心(multi-DC)系統(tǒng)上運行的大數據應用可以為終端用戶提供低延遲、高質量、無中斷的服務。最近,一些大企業(yè)建立了多DC系統(tǒng),并投入研發(fā)力量進行高效的數據遷移技術;例如,Google已經部署了Effingo ,用于在其DC中遷移大規(guī)模數據[1-3]。然而,與數據遷移和備份相關的巨大吞吐量仍然是連接多個DC系統(tǒng)的底層網絡的一個公開挑戰(zhàn)[4-6]。
通過靈活的光譜層管理,柔性網格彈性光學網絡(EONs)可以在幾千兆赫甚至更小的粒度上分配光譜[7-8]。因此,EON中的光層可以直接對來自客戶端的可變帶寬需求做出反應,因此EON被認為是支持多DC系統(tǒng)和運行在其上的大數據應用的有前景的底層網絡基礎設施。本文討論了實現(xiàn)彈性光學跨網絡中大數據應用高效數據遷移和備份的技術[9-10]。首先描述大數據應用和云計算的特點,并解釋它們對底層DC間網絡的影響。然后介紹一下柔性網格彈性光學互連網絡的概念,并將其數據遷移模型化為動態(tài)選播問題。提出了多種有效的選播算法,并引入聯(lián)合資源碎片整理技術,進一步提高網絡性能。為了實現(xiàn)高效的數據備份,我們利用相互備份模型,研究如何通過最小化DC備份窗口來避免對DC正常運行的負面影響。
大數據應用可以有不同的實現(xiàn)方式,但是從一些角度來看,它們通常具有共同的特征,例如音量,速度和多樣性,著名的“3V”。在這里,卷描述了數據的大小,隨著大數據應用的發(fā)展,數據量變得巨大,需要更多的計算、備份資源以及更高效的網絡系統(tǒng)。速度反映了數據生成、處理和傳輸的頻率。為了適應速度要求,需要大規(guī)模,分布式的業(yè)務架構和高容量的底層網絡[11-12]。數據是指數據的格式和類型。由于需要處理和傳輸各種類型的結構化和非結構化數據,大數據應用不僅需要高效的數據存儲系統(tǒng),還需要靈活的網絡基礎設施。
云計算利用資源虛擬化,分布式處理等先進技術,利用互聯(lián)網中的數據中心和網絡設備構建一個集成平臺,以可擴展和按需的方式支持大數據應用。已經為云計算提出了幾種編程模型和文件系統(tǒng)體系結構。例如,Google設計的MapReduce就是一個編程模型來簡化大型數據中心的數據處理。具體而言,它將海量數據映射到數百甚至數千個服務器或虛擬機(VM),并以并行方式執(zhí)行數據處理。為了配合MapReduce,開發(fā)Google文件系統(tǒng)(GFS)來管理每個服務器或虛擬機的數據存儲、備份[13-14]。
為了適應電信和數據通信應用的巨大流量增長,由于光纖帶寬巨大,光網絡在互聯(lián)網中扮演著不可替代的角色。當今的光網絡采用密集波分復用(DWDM)系統(tǒng),在帶寬固定的波長信道/網格內運行。然而,固定網格DWDM系統(tǒng)僅在光層上提供有限的可擴展性和靈活性,這使得傳輸基礎設施過于僵化,無法適應跨DC間網絡的流量的不確定性和異構性。例如,50 GHz國際電信聯(lián)盟(ITU)的波長網格將光譜劃分為固定的50 GHz頻率時隙,但400 Gb / s或更高的比特率很難適應該方案。
固定網格DWDM系統(tǒng)的另一個問題是它們用于數據傳輸的單載波方案。即使ITU波長網格可以升級到更寬的網格,由于物理損傷,相應的高速(例如,400Gb / s和更高)數據傳輸與單個載波幾乎不能全光支持長的傳輸距離。因此,為了攜帶地理分布的多DC系統(tǒng),底層的光網絡需要重復的光電到光(O / E / O)再生。然而,由于設備成本和功耗的原因,這些O / E/ O再生與較高的資本支出(CAPEX)和運營支出(OPEX)相關聯(lián)。
最后,也是最重要的一點,固定網格DWDM網絡難以為大數據應用提供無縫,高效的支持,而這些大數據應用的帶寬需求是巨大的,而且能夠以細粒度快速變化。DWDM網絡只能根據粗波長網格建立光路并分配帶寬。不幸的是,這個方案只在傳輸的業(yè)務是高度動態(tài)時才提供低的頻譜效率。
為了妥善解決固定網格DWDM網絡的問題,需要配備帶寬可變(BV)轉發(fā)器和交換機的“彈性”光網絡,以更細的粒度分配帶寬,并根據實際的業(yè)務需求自適應地建立光路徑DC網絡[15-16]。對于EON來說,四個要素是必不可少的:BV轉發(fā)器(BV-T),BV波長選擇開關(BV-WSS),靈活的波長網格和智能控制平面。
圖1a顯示了數據傳輸過程中BV-Ts和BVWSS的工作原理。BV-Ts用足夠的帶寬資源為客戶端流量設置光路,而BV-WSS允許靈活的光譜從輸入到輸出端口正確切換。圖1b比較了現(xiàn)有的固定網格波長方案和柔性網格方案。EON的靈活性使得智能控制平臺成為具有成本效益的資源管理的“必備條件”。例如,在EON中,DWDM網絡中著名的路由和波長分配(RWA)問題轉化為路由和頻譜分配(RSA),RSA必須處理靈活的頻譜,因此需要更復雜的算法[9]。
柔性電網EON與固定網格DWDM網絡的主要區(qū)別在于EON可以提供低和超高比特率要求分別有效的亞波長頻隙(FS)和超級通道。這里,子波長FS是指比全波長信道少的頻譜占用,而超級信道包含多個緊密壓縮的FS。而且,BV-Ts可以自適應地選擇調制格式來適應不同的傳輸質量,這帶來了另一個層次的彈性。
用于彈性光網絡的啟用技術多載波傳輸技術,例如相干光正交頻分復用(CO-OFDM)和Nyquist-WDM 已經被提出并被證明用于實現(xiàn)BV-Ts。這些技術使得BV-Ts可以培養(yǎng)幾個頻譜連續(xù)的FS的容量并實現(xiàn)對它們的高速傳輸[17-18]。然后,BV-Ts可以通過調整分配的FS的數量來改變光路的帶寬分配。同時,由于液晶硅波長選擇開關(LCOS-WSS)的技術進步,BV-WSS可以實現(xiàn)6.25 GHz或更低的切換粒度。
圖1 柔性網格彈性光纖網絡
由于EON為光路分配可變尺寸的頻譜片段,因此動態(tài)網絡操作隨著時間的推移會出現(xiàn)頻譜碎片。如圖2a所示,帶寬碎片會在光譜中產生不對齊的、孤立的、小尺寸的未使用的頻譜片段,這與計算機硬盤中的存儲器碎片相似。由于這些頻譜切片很難用于未來需求,因此分段導致EON中的頻譜利用率低。為了減輕分裂,我們需要一種機制來定期重新配置EON中的頻譜分配(如圖2b),即所謂的碎片整理。請注意,為了最大限度地減少流量中斷,碎片整理需要將受影響的光路精確地協(xié)調BV-Ts和BV-WSS的頻譜重新分配?;谔l調諧的頻譜重調技術已經被提出并且在中被實驗證明,其可以支持在1μs內的全頻譜重調。
圖2 帶寬碎片和碎片整理示例
圖3說明了一個彈性光學內部DC網絡的架構。我們有幾個DC在本地連接到交換節(jié)點,而交換節(jié)點與光纖互連。底層光網絡采用柔性網格彈性光網絡,每個光纖上的帶寬資源被劃分為固定大小的FSs,以提供子波長帶寬分配粒度。對于本地連接到DC的每個節(jié)點,我們考慮DC的計算/存儲容量。然后,為了提供需要一定帶寬和計算/存儲資源的U2D或D2D需求,我們確定目的地DC,在其上保留足夠的計算/存儲資源,然后解決路由和頻譜分配(RSA)問題來建立光路。
圖3 彈性光學互連DC網絡的示例
彈性光學互連網絡中的數據遷移可以被表述為選播問題。根據BV-Ts和BV-WSSs的工作原理,假設在每條光纖鏈路上都有BFS。交換節(jié)點的一個子集在本地連接到DC,并被認為是DC節(jié)點。每個DC節(jié)點用一個屬性來表示可用的屬性在本地DC計算/存儲容量。請注意,DC可以具有單獨的屬性來描述其計算和存儲容量,但是為了簡單起見,我們假定計算和存儲容量是相關的,因此可以用一個屬性來建模。U2D或D2D對數據遷移的需求可以建模為任意播請求R(s,b,c),其中s是源節(jié)點,b是FS中所需的帶寬,c是計算/存儲要求。
用于數據遷移的動態(tài)選播
在彈性光互連DC網絡中,我們提供了三個步驟的數據遷移需求R(s,b,c)
1)選擇DC節(jié)點作為目的地。
2)確定要在每個目標DC上分配的計算/存儲容量以滿足c。
3)執(zhí)行RSA以建立從s到目的地DC的光路以滿足b。
由于需求可以動態(tài)地離開,我們在這里有一個動態(tài)的選播問題。如果在需求到達時不能分配足夠的資源(即b或c不能滿足),它就會被阻塞。我們的目標是盡量減少阻塞概率,因為阻塞的需求越多,網絡的效率就越低。
首先考慮一個簡單的情景,其中每個需求由一個DC服務。然后設計一個最短路徑路由的貪心選播算法如下:
步驟1:查找具有最大可用計算/存儲容量的DC,并將其選為需求的目標DC。
步驟2:計算從s到目標DC的最短路由路徑。
步驟3:在路由路徑上執(zhí)行FS分配以滿足b。
我們將此算法表示為對于單個目的地DC(G-Anycast-SP-Single-DC)具有最短路徑的貪婪選播。G-Anycast-SP-Single-DC很簡單,但只考慮目的地DC選擇的計算/存儲資源。盡管在第一步中選擇具有最大可用容量的DC可以使計算/存儲負載在DC之間均勻分配,但在隨后的步驟中可能找不到有效的RSA解決方案。
因此,在選擇目的DC時,希望Anycast算法能夠共同考慮計算/存儲和帶寬資源。這可以通過將度量定義為DC上的可用容量與相關路由路徑上的可用帶寬的乘積來完成。基本上,對于網絡中的每個源-目的地對,我們預先計算K個最短路由路徑,然后設計具有K-最短路徑路由(BL-Anycast-KSP-Single-DC)的均衡負載選播算法如下:
步驟1:找到所有具有足夠的計算/存儲容量以容納c的DC。
步驟2:枚舉所有可行的到DC的路由路徑,并計算每個路徑-DC對的度量。
步驟3:選擇具有最大度量的路徑-直流對,并在路徑上執(zhí)行FS分配以滿足b。
需要注意的是,DC備份窗口定義為在DC間網絡中備份DC上的所有新數據所需的時間,這是評估DC備份計劃的關鍵參數。由于DC備份通常需要傳輸大量的數據,因此會占用大量的帶寬,長時間的DC備份窗口會影響數據中心的正常運行,造成網絡擁塞。因此,我們研究如何通過聯(lián)合優(yōu)化備份DC的選擇以及在彈性光學跨DC網絡中的對應路徑來減少DC備份窗口。
我們假設網絡在離散時間間隔operatesT上運行。在每個時間間隔開始時,每個生產DC選擇其備用DC,并根據網絡狀況找到備用路徑;那么DC備份過程將相應地運行。同時,還有兩個限制:
1)每個生產DC只能選擇一個備用DC,而備用DC只能接收一個生產DC的數據。
2)生產和備用DC應該在地理上分散,而不會落入同一災難區(qū)域。
第一個約束是在DC備份期間簡化數據索引,而第二個約束確保單個災難不能同時破壞DC。當生產DC上的所有數據都已備份時,DC備份過程結束; 那么總備份時間就是DC備份窗口。為了最大限度地減少直流備份窗口,我們優(yōu)化每個backupT的備份過程,即確定生產-阻塞概率阻塞率(%)建立DC對并為每個DC對建立光路以傳輸數據。請注意,為了充分發(fā)掘網絡的吞吐量,我們允許生產DC同時為其備份DC設置多條光路。
本文討論如何在彈性光學跨網絡中實現(xiàn)高效的大數據應用數據遷移和備份。我們首先描述大數據應用對底層DC間網絡的影響,并介紹可適當解決這些問題的柔性網格彈性光學互連網絡的概念。然后將這些網絡中的數據遷移建模為動態(tài)選播問題,并提出了幾種有效的算法。對于這些網絡中的數據備份,我們利用相互備份模型并討論如何最小化DC備份窗口。