特約通訊員 鄒瑩 本刊編輯 余健儀
二十世紀(jì)末的網(wǎng)絡(luò)主要是為了實現(xiàn)靜態(tài)應(yīng)用和電子郵件應(yīng)用而設(shè)計的,往往只是針對某一特殊的應(yīng)用需求。而目前隨著承載業(yè)務(wù)的變化和交換技術(shù)的發(fā)展,網(wǎng)絡(luò)應(yīng)用呈現(xiàn)出動態(tài)的、可預(yù)測的新特點,如云網(wǎng)絡(luò)。云網(wǎng)絡(luò)根據(jù)各種應(yīng)用對資源的實時需要,動態(tài)地供應(yīng)資源,以滿足多種應(yīng)用需求。顯然,云網(wǎng)絡(luò)的出現(xiàn)遠遠超越了傳統(tǒng)網(wǎng)絡(luò)的設(shè)計理念和服務(wù)范疇,傳統(tǒng)網(wǎng)絡(luò)固有的高傳輸延遲成為了網(wǎng)絡(luò)發(fā)展的最大障礙,云計算網(wǎng)絡(luò)交換將迎來黃金時代。
縱觀數(shù)據(jù)中心的發(fā)展,它正呈現(xiàn)出從物理領(lǐng)域遷移到虛擬領(lǐng)域并且最終過渡到云網(wǎng)絡(luò)的發(fā)展趨勢。在傳統(tǒng)的數(shù)據(jù)中心中,客戶服務(wù)器是基于傳統(tǒng)萬維網(wǎng)、郵件傳輸或文件傳輸?shù)囊笤O(shè)計的;新的數(shù)據(jù)中心云網(wǎng)絡(luò)與之不同,它必須具有更高的性能。
當(dāng)今的應(yīng)用要求更有針對性,對網(wǎng)絡(luò)性能的要求更“苛刻”,如大容量存儲設(shè)備或者虛擬機映像的大量數(shù)據(jù)傳輸,或是web2.0大規(guī)模數(shù)據(jù)分析,這些應(yīng)用既要求低延遲無阻塞,又要求高速傳輸數(shù)據(jù)。要迎合這些新的應(yīng)用,對于數(shù)據(jù)中心云網(wǎng)絡(luò)來說,具有能使可擴展性、可預(yù)測性、低延遲、無阻塞傳輸、以太網(wǎng)與高速以太網(wǎng)快速互連等多種性能達到一種平衡的能力,顯得至關(guān)重要。
而相應(yīng)地,這就要求新一代數(shù)據(jù)中心級交換架構(gòu)的一個設(shè)計關(guān)鍵就是實現(xiàn)物理機和虛擬機的應(yīng)用性能的匹配和統(tǒng)一,讓所有的交換節(jié)點具有相同的無阻塞帶寬和可預(yù)測的延遲。
目前數(shù)據(jù)中心常用的交換方式主要有兩種:一種是直通交換,即當(dāng)輸入端口檢測到一個數(shù)據(jù)包時,檢查該包的包頭并獲取包的目的地址,然后啟動內(nèi)部的動態(tài)查找表轉(zhuǎn)換成相應(yīng)的輸出端口,接通輸入與輸出交叉處,把數(shù)據(jù)包直通到相應(yīng)的端口,從而實現(xiàn)交換功能。由于它只檢查數(shù)據(jù)包的包頭(通常只檢查14個字節(jié)),不需要存儲,所以切入方式具有延遲小、交換速度快的優(yōu)點,適用于高性能計算集群(HPC)應(yīng)用;另一種是具有深度緩存結(jié)構(gòu)和虛擬輸出隊列機制(VOQ)的存儲轉(zhuǎn)發(fā)交換,它為數(shù)據(jù)中心應(yīng)用提供了必要的緩沖(如圖1),在轉(zhuǎn)發(fā)數(shù)據(jù)前先對數(shù)據(jù)進行接收和存儲以進行校驗。
Arista發(fā)布的業(yè)界領(lǐng)先的數(shù)據(jù)中心級系列交換機——Arista 7100系列和Arista 7048交換機就分別采用了這兩種交換方式以應(yīng)對不同的性能要求。其中,Arista 7100系列設(shè)備采用了直通交換,是具有高性能、極低延時的以太網(wǎng)數(shù)據(jù)中心交換機,專為低延遲、兩層的高性能計算(HPC)網(wǎng)絡(luò)而設(shè)計。而對于使用不對稱的1&10Gb以太網(wǎng)連接來支持存儲的下一代高負載數(shù)據(jù)中心來說,采用存儲轉(zhuǎn)發(fā)方式的Arista7048系列則是最佳選擇。
圖1(1) 低延遲,高性能網(wǎng)絡(luò)(HCP)應(yīng)用
圖1(2)大規(guī)模,不對稱數(shù)據(jù)中心設(shè)計
過去一年,高性能計算領(lǐng)域的發(fā)展速度突飛猛進,也為高性能計算系統(tǒng)提出了新的要求。其中,極低延遲是實現(xiàn)高性能集群的必要因素。目前,在金融服務(wù)項目上最常聽到的一個詞語就是高頻交易(HFT),它是一種要求高性能計算的新應(yīng)用,它運用計算速度極快的超強計算機建立高通量的光線網(wǎng)絡(luò),直通股票交易市場,利用監(jiān)管漏洞和其它交易者相對較慢的反應(yīng)速度來獲取利潤。根據(jù)實時市場數(shù)據(jù)來進行高頻交易的應(yīng)用都要求采用直通交換和共享存儲器交換技術(shù),以保證超低延遲。這種場合的延遲是用幾微秒甚或是幾百納秒來度量的。對于高性能計算、高頻率交易等具有穩(wěn)定及對稱的數(shù)據(jù)傳輸模式應(yīng)用中,直通交換對終端用戶來說是非常理想的交換方式。尤其是在網(wǎng)速只占用了不到一半、網(wǎng)絡(luò)傳輸并不擁堵的情況下,此時對低延遲的要求尤為關(guān)鍵。直通交換可以使延遲減少好幾微秒,特別是在傳輸大型和超大幀數(shù)據(jù)包時更能節(jié)約時間。Arista作為一家發(fā)展勢頭迅猛的新興高性能計算公司,其發(fā)布的7100系列高性能萬兆以太網(wǎng)交換機非常適合于要求超低延遲的系統(tǒng),它采用了直通交換方式,數(shù)據(jù)包接收后可直接被轉(zhuǎn)發(fā),無需緩存在存儲器中。它能在最小隊列和串行延遲時提供快速多點傳送,使得傳輸速度加快,其傳輸速率高達960Gbps每秒,延遲低至600納秒(如圖2)。7100系列交換機可將現(xiàn)有的基于千兆以太網(wǎng)的服務(wù)器,以無縫遷移路徑方式遷移至基于萬兆以太網(wǎng)的高性能服務(wù)器上,同還可實現(xiàn)虛擬化環(huán)境過渡,有力推動了千兆到萬兆以太網(wǎng)的過渡。
對于如骨干網(wǎng)絡(luò)應(yīng)用、存儲區(qū)無縫接入、數(shù)據(jù)中心等高負載、高運算度的網(wǎng)絡(luò),特別是針對大聚簇數(shù)據(jù)處理,分布式搜索和數(shù)據(jù)庫查詢系統(tǒng)等要求大量數(shù)據(jù)的應(yīng)用,負載平衡和流量管理是任何云數(shù)據(jù)中心的關(guān)鍵服務(wù)。
圖2 高性能計算機集群中的低延遲直通交換
圖3需要大容量緩沖區(qū)和VOQ存儲轉(zhuǎn)發(fā)交換機來進行不對稱傳輸?shù)拇笠?guī)模數(shù)據(jù)中心
在一個設(shè)計優(yōu)良的存儲轉(zhuǎn)發(fā)系統(tǒng)中,每個端口要求好幾兆的傳輸速度,交換機必須提供更多的緩沖區(qū)來保證足夠快的傳輸速度。當(dāng)今的存儲轉(zhuǎn)發(fā)交換機利用虛擬輸出隊列(VOQ)來更好地協(xié)調(diào)“任意點到任意點(any to any)”的通信傳輸。虛擬輸出隊列避免了交換路線阻塞和經(jīng)常困擾老式交換機的“隊頭阻塞”問題。將虛擬輸出隊列技術(shù)與可擴展的緩沖寄存區(qū)結(jié)合起來,將使得整個網(wǎng)絡(luò)性能更加靈活。
當(dāng)網(wǎng)絡(luò)傳輸遇上網(wǎng)絡(luò)高峰或者服務(wù)器同時登陸導(dǎo)致網(wǎng)絡(luò)負荷過重時,大容量緩存區(qū)能有效緩解網(wǎng)絡(luò)擁堵,因此交換機就必須有足夠的緩存區(qū)來及時地存儲這些數(shù)據(jù)并保證沒有數(shù)據(jù)丟失。采用具有大容量緩沖區(qū)和VOQ存儲轉(zhuǎn)發(fā)方式的Arista 7048交換機能夠很好地解決這一問題。Arista 7048是一款線速多層交換機,具有48個RJ-45千兆以太網(wǎng)接口和4個1/10Gb以太網(wǎng)上行鏈路,為骨干網(wǎng)提供了高達40G的互聯(lián)容量。而且Arista 7048是首款集成Citrix NetScaler系統(tǒng)的交換機,提供負載均衡和應(yīng)用安全功能。其每個端口都有極大的緩沖能力,并具有特制的擁塞管理架構(gòu)來應(yīng)對高流量負荷。
隨著數(shù)據(jù)中心從1 Gbps向10 Gbps的遷移,實現(xiàn)以太網(wǎng)和高速以太網(wǎng)的不對稱連接需求十分急迫。對于像10G到1G網(wǎng)絡(luò)系統(tǒng)的不對稱傳輸來說,深度緩沖區(qū)非常重要,它用于支持不同速度端口間的轉(zhuǎn)換,保持高速端口和低速端口間協(xié)同工作。因此,Arista 7048交換機能夠?qū)崿F(xiàn)不對稱速率以太網(wǎng)之間的連接(如圖3)。
以著名的Facebook社交網(wǎng)站為例,當(dāng)你登錄到Facebook時,你會獲得大量動態(tài)的數(shù)據(jù),或者當(dāng)你發(fā)送一個請求到Facebook網(wǎng)站時,你會獲得一個響應(yīng)。但是,為了獲得這個響應(yīng),內(nèi)部的服務(wù)器必須進行大量的計算和數(shù)據(jù)庫查詢的動作,如最近哪些朋友加入了網(wǎng)絡(luò),哪些朋友更新了他們的資料。所有這些數(shù)據(jù)都必須真實快速地實時回復(fù)。因此,數(shù)據(jù)中心需要高性能的連接。
對于這種應(yīng)用需求,在典型的網(wǎng)絡(luò)設(shè)計方案中,一般會設(shè)置訪問層、分布層和核心層。如果數(shù)據(jù)流量要從一個服務(wù)器到達另一個服務(wù)器,那么就是從訪問層到分布層再到核心層,然后返回分布層,最后重回到訪問層。而Arista的解決方案則是基于“云”設(shè)計的思想模式,它使用了云干(CS)—云葉(CL)構(gòu)筑的流量二層設(shè)計(如圖4)。CS負責(zé)沿第2層或第3層節(jié)點間的優(yōu)化路徑轉(zhuǎn)發(fā)流量,CL則控制服務(wù)器間的流量。這樣,大多數(shù)流量都在這兩層上。此處有一個核心設(shè)備,但是它主要是用于傳輸流出數(shù)據(jù)中心外的流量。這一方案可以結(jié)合Arista7100系列和Arista7048交換機來搭建,CS采用Arista7100系列交換機,CL采用Arista7048交換機,這樣可以同時發(fā)揮兩者的優(yōu)勢,提供一個具備無阻塞、低延遲、高密度的萬兆級交換云網(wǎng)絡(luò)。
資料顯示目前Facebook已經(jīng)組建了一個由30000個服務(wù)器組成的基于Arista交換方案的云網(wǎng)絡(luò),該網(wǎng)絡(luò)系統(tǒng)能夠?qū)?shù)據(jù)檢索時間降低。傳統(tǒng)的數(shù)據(jù)庫檢索方案需要五微秒的應(yīng)答時間,而Facebook能將應(yīng)答時間減少至半微秒,減少了轉(zhuǎn)發(fā)中繼產(chǎn)生的延遲,增加了連接穩(wěn)定性。
大多數(shù)網(wǎng)絡(luò)在最初設(shè)計時,只用于適應(yīng)老一代交換機和路由器有限的吞吐量、端口密度以及客戶服務(wù)器應(yīng)用模式。今后的網(wǎng)絡(luò)不再需要圍繞這些缺陷改進設(shè)計。目前大部分數(shù)據(jù)中心以優(yōu)化延遲性、可預(yù)測性、通信模式作為設(shè)計核心要素。借助新交換結(jié)構(gòu),可以實現(xiàn)動態(tài)、實時的應(yīng)用接入,滿足當(dāng)今網(wǎng)絡(luò)動態(tài)性的需求。而Arista交換產(chǎn)品的“閃亮登場”在新一代數(shù)據(jù)中心領(lǐng)域的引發(fā)了強大的明星效應(yīng),它優(yōu)化了云網(wǎng)絡(luò)解決方案,博得了業(yè)界的熱烈掌聲。
圖4 基于Arista7000產(chǎn)品系列的云網(wǎng)絡(luò)設(shè)計
參考資料:
1.http://www.aristanetworks.com/
en/SwitchingArchitecture_wp.pdf
2.http://www.aristanetworks.com/
3.http://www.sinogrid.com/Default.aspx
4.http://networking.ctocio.com.cn/tips/153/9177653.shtml
5.http://tech.sina.com.cn/b/2009-08-04/10573321231.shtml