李猛
中通服咨詢?cè)O(shè)計(jì)研究院有限公司
云計(jì)算采用虛擬化、分布式計(jì)算、分布式存儲(chǔ)、資源管理等技術(shù),將彈性、可共享、可伸縮性的軟硬件資源池池化,再通過(guò)網(wǎng)絡(luò)等方式向客戶提供按需自助、可計(jì)量的服務(wù)。云計(jì)算作為一種IT 基礎(chǔ)設(shè)施交付和使用模式,具有靈活、按需自服務(wù)、高擴(kuò)展性、低成本等特點(diǎn),能有效降低企業(yè)的運(yùn)營(yíng)成本,節(jié)省投資。
三層網(wǎng)絡(luò)架構(gòu)起源于園區(qū)網(wǎng)絡(luò),傳統(tǒng)的大型數(shù)據(jù)中心網(wǎng)絡(luò)將其沿用了下來(lái)。這個(gè)模型包含以下三層。在以往的數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)時(shí),關(guān)注的重點(diǎn)都是指接口層服務(wù)器前的網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)模型包含以下三層
傳統(tǒng)的三層網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,其中的匯聚層作為服務(wù)器網(wǎng)關(guān),可以增加防火墻、負(fù)載均衡和應(yīng)用加速等應(yīng)用優(yōu)化設(shè)備。
圖1 傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu)
通常情況下,匯聚交換機(jī)是二層(L2)和三層(L3)網(wǎng)絡(luò)的分界點(diǎn),匯聚交換機(jī)以下的是二層網(wǎng)絡(luò),以上是三層網(wǎng)絡(luò)。每組匯聚交換機(jī)管理一個(gè)PoD,每個(gè)PoD 內(nèi)都是獨(dú)立的VLAN。服務(wù)器在PoD 內(nèi)遷移不必修改IP 地址和默認(rèn)網(wǎng)關(guān),因?yàn)橐粋€(gè)PoD 對(duì)應(yīng)一個(gè)二層廣播域。
三層網(wǎng)絡(luò)架構(gòu)以其實(shí)現(xiàn)簡(jiǎn)單、配置工作量低、廣播控制能力較強(qiáng)等優(yōu)勢(shì)在傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)中大量應(yīng)用,但是在當(dāng)前云計(jì)算背景下,傳統(tǒng)的三層網(wǎng)絡(luò)架構(gòu)已經(jīng)無(wú)法滿足云數(shù)據(jù)中心對(duì)網(wǎng)絡(luò)的訴求,無(wú)法支撐大二層網(wǎng)絡(luò)構(gòu)建和流量的無(wú)阻塞轉(zhuǎn)發(fā)。
三層網(wǎng)絡(luò)架構(gòu)的一個(gè)優(yōu)勢(shì)是對(duì)廣播的有效控制,其可以在匯聚層設(shè)備上通過(guò)VLAN 技術(shù)將廣播域控制在一個(gè)PoD 內(nèi),但是在云計(jì)算背景下,計(jì)算資源被資源池化,根據(jù)計(jì)算資源虛擬化的要求,VM(虛擬機(jī))需要在任意地點(diǎn)創(chuàng)建、遷移,而不需要對(duì)IP 地址或者默認(rèn)網(wǎng)關(guān)進(jìn)行修改,這從根本上改變了數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)。為了滿足計(jì)算資源虛擬化的要求,必須構(gòu)建一個(gè)大二層網(wǎng)絡(luò)來(lái)滿足VM 的遷移訴求。針對(duì)傳統(tǒng)的三層網(wǎng)絡(luò)架構(gòu),必須將二三層網(wǎng)絡(luò)的分界點(diǎn)設(shè)置在核心交換機(jī),核心交換機(jī)以下均為二層網(wǎng)絡(luò),這樣一來(lái),匯聚層作為網(wǎng)關(guān)的作用就不復(fù)存在,網(wǎng)絡(luò)架構(gòu)逐漸向沒(méi)有匯聚層的二層架構(gòu)演進(jìn)。
在云數(shù)據(jù)中心,業(yè)務(wù)的架構(gòu)逐漸從單體模式轉(zhuǎn)變?yōu)椤癢eb-App-DB”模式,分布式技術(shù)開(kāi)始在企業(yè)應(yīng)用中流行。一個(gè)業(yè)務(wù)的多個(gè)組件通常分布在多個(gè)虛擬機(jī)/容器中。業(yè)務(wù)的運(yùn)行不再由單臺(tái)或幾臺(tái)物理服務(wù)器來(lái)完成,而是多臺(tái)服務(wù)器協(xié)同完成,這就導(dǎo)致了東西向流量規(guī)模的快速增長(zhǎng)。在為南北向流量設(shè)計(jì)的三層網(wǎng)絡(luò)架構(gòu)中,某些類(lèi)型的東西向流量(如跨PoD 的二層流量及三層流量)必須經(jīng)過(guò)匯聚層和核心層進(jìn)行轉(zhuǎn)發(fā),數(shù)據(jù)經(jīng)過(guò)了許多不必要的節(jié)點(diǎn),也會(huì)因?yàn)槭諗勘葘?dǎo)致網(wǎng)絡(luò)性能下降。同時(shí),東西向流量經(jīng)過(guò)的設(shè)備層級(jí)變多可能會(huì)導(dǎo)致流量的來(lái)回路徑不一致,不同路徑的時(shí)延不同,使得整體流量的時(shí)延難以預(yù)測(cè),這對(duì)于大數(shù)據(jù)這類(lèi)對(duì)時(shí)延非常敏感的業(yè)務(wù)來(lái)說(shuō)是不可接受的。
可見(jiàn),在云計(jì)算數(shù)據(jù)中心里面Ethernet(以太網(wǎng))網(wǎng)絡(luò)規(guī)模擴(kuò)大,流量帶寬需求增加,因此不會(huì)在網(wǎng)絡(luò)中間位置再插入安全和優(yōu)化設(shè)備了,轉(zhuǎn)發(fā)性能低。再加上帶寬收斂比的問(wèn)題,短期內(nèi)大型云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)里面不會(huì)出現(xiàn)匯聚層的概念。
隨著云計(jì)算的蓬勃發(fā)展,云計(jì)算基礎(chǔ)設(shè)施IaaS 越發(fā)重要,其可用性和可靠性備受關(guān)注。隨著數(shù)據(jù)中心規(guī)?;逃靡约靶录夹g(shù)的迅猛發(fā)展,云計(jì)算對(duì)大數(shù)據(jù)中心網(wǎng)絡(luò)的主要需求如下
(1)流量增大,流量變化需要網(wǎng)絡(luò)改變。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,應(yīng)用軟件的數(shù)量呈現(xiàn)爆發(fā)式增長(zhǎng),數(shù)據(jù)中心的業(yè)務(wù)量激增,大數(shù)據(jù)需要大管道。隨著大量應(yīng)用遷入數(shù)據(jù)中心,數(shù)據(jù)中心流量模型也在發(fā)生變化。數(shù)據(jù)中心的東西向流量(內(nèi)部服務(wù)器之間的流量)已占總流量的90%以上。傳統(tǒng)數(shù)據(jù)中心的樹(shù)狀網(wǎng)絡(luò)架構(gòu)已難以滿足業(yè)務(wù)訴求,需要構(gòu)建新的分布式網(wǎng)絡(luò)架構(gòu),將三層網(wǎng)關(guān)下沉,以求最大限度地優(yōu)化流量路徑,滿足業(yè)務(wù)對(duì)帶寬及時(shí)延的要求。
(2)業(yè)務(wù)快速上線,網(wǎng)絡(luò)需要池化與自動(dòng)化。傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)割裂,無(wú)法滿足云數(shù)據(jù)中心構(gòu)建大規(guī)模資源池的訴求網(wǎng)絡(luò)呈現(xiàn)“煙囪式”,計(jì)算資源被限定在模塊內(nèi)部,無(wú)法統(tǒng)一調(diào)度,導(dǎo)致冷熱不均。同時(shí),網(wǎng)絡(luò)間采用分布式路由決策,路由難以優(yōu)化,網(wǎng)絡(luò)利用率低。傳統(tǒng)數(shù)據(jù)中心的自動(dòng)化程度較低,無(wú)法滿足業(yè)務(wù)快速?gòu)椥陨暇€的訴求;應(yīng)用部署按月粒度開(kāi)通,無(wú)法支撐新業(yè)務(wù)的發(fā)展;應(yīng)用擴(kuò)容困難。
(3)安全、穩(wěn)定、智能化要求增高。云計(jì)算中心安全服務(wù)化層級(jí)低,營(yíng)運(yùn)資本高。威脅不斷升級(jí),人工分析效率低,調(diào)查處置難。安全威脅可視化分析差,無(wú)法指導(dǎo)安全運(yùn)維。網(wǎng)絡(luò)配置變化頻繁,流量激增,云計(jì)算中心內(nèi)應(yīng)用策略及互訪關(guān)系日益復(fù)雜,傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維手段已無(wú)法適應(yīng)數(shù)據(jù)中心網(wǎng)絡(luò)的發(fā)展。
基于Clos 架構(gòu)的兩層Spine-Leaf 架構(gòu)中每個(gè)Leaf 交換機(jī)的上行鏈路數(shù)等于Spine 交換機(jī)的數(shù)量,每個(gè)Spine 交換機(jī)的下行鏈路數(shù)等于Leaf 交換機(jī)的數(shù)量??梢哉f(shuō),Spine 交換機(jī)和Leaf 交換機(jī)之間是以full-mesh(全網(wǎng)狀)方式連接的。具體網(wǎng)絡(luò)拓?fù)涫疽鈭D如圖2 所示。
圖2 Spine-Leaf 架構(gòu)
Spine-Leaf 在架構(gòu)上是可以輕松實(shí)現(xiàn)無(wú)阻塞。在所有端口速率一致的情況下,如果能夠使用一半的端口作為上行端口,則理論上帶寬的收斂比可以做到11。但是實(shí)際上,即使是在云數(shù)據(jù)中心,服務(wù)器的利用率也不可能達(dá)到100%,即不可能所有的服務(wù)器均隨時(shí)保持滿速發(fā)送流量。實(shí)際情況中,設(shè)備的上行帶寬和下行帶寬之間的比例會(huì)設(shè)計(jì)為13 左右,這個(gè)比例的設(shè)計(jì)被認(rèn)為大體上可以支撐無(wú)阻塞轉(zhuǎn)發(fā)。
在Spine-Leaf 架構(gòu)中,Leaf 交換機(jī)相當(dāng)于傳統(tǒng)三層架構(gòu)中的接入交換機(jī),直接連接物理服務(wù)器,并通常作為網(wǎng)關(guān)設(shè)備。Spine 交換機(jī)相當(dāng)于核心交換機(jī),是整個(gè)網(wǎng)絡(luò)的轉(zhuǎn)發(fā)核心。Spine 和Leaf 交換機(jī)之間通過(guò)ECMP(Equal Cost Multi Path,等價(jià)多路徑)實(shí)現(xiàn)多路徑轉(zhuǎn)發(fā)。和傳統(tǒng)三層網(wǎng)絡(luò)中的核心交換機(jī)不同的是,Spine 交換機(jī)是整個(gè)網(wǎng)絡(luò)流量的轉(zhuǎn)發(fā)核心,相當(dāng)于Clos 架構(gòu)中的中間級(jí)。由Clos 架構(gòu)可以看出,南北向流量可以不再通過(guò)Spine 發(fā)送至網(wǎng)絡(luò)外部,而是可以通過(guò)Leaf 交換機(jī)完成這一任務(wù),這樣Spine 交換機(jī)可以專(zhuān)注于流量的轉(zhuǎn)發(fā)而不再需要關(guān)注其他一些輔助功能。
Spine-Leaf架構(gòu)相對(duì)于傳統(tǒng)的三層網(wǎng)絡(luò)架構(gòu)的優(yōu)勢(shì)如下(見(jiàn)圖3)
圖3 多級(jí)別的Spine-Leaf 架構(gòu)
第一,支持無(wú)阻塞轉(zhuǎn)發(fā)。Spine-Leaf 架構(gòu)對(duì)于東西向和南北向流量的處理模式是完全一致的,在設(shè)計(jì)合理的情況下,可以實(shí)現(xiàn)流量的無(wú)阻塞轉(zhuǎn)發(fā)。無(wú)論何種類(lèi)型的流量都只需要經(jīng)過(guò)Leaf-Spine-Leaf 3 個(gè)節(jié)點(diǎn)即可完成轉(zhuǎn)發(fā)。
第二,彈性和可擴(kuò)展性好。Spine-Leaf 擁有很好的橫向擴(kuò)展能力,只需要保證Spine 和Leaf 在一個(gè)比例范圍內(nèi),不需要重新設(shè)計(jì),將原有的結(jié)構(gòu)復(fù)制一份即可。一般來(lái)說(shuō),基于3 級(jí)Clos 的Spine-Leaf 架構(gòu)可以滿足當(dāng)前大部分?jǐn)?shù)據(jù)中心網(wǎng)絡(luò)的帶寬訴求。針對(duì)超大型的數(shù)據(jù)中心,可采用5級(jí)的SpineLeaf架構(gòu),即每個(gè)PoD 部署一個(gè)3 級(jí)Clos 的Spine-Leaf 網(wǎng)絡(luò),不同PoD之間再增加一層Core 交換機(jī)進(jìn)行互聯(lián),跨PoD 流量可以通過(guò)Leaf-Spine-Core-Spine-Leaf,5 跳可達(dá)。Spine 和Core 之間進(jìn)行full-mesh 連接。另外,網(wǎng)絡(luò)設(shè)計(jì)可以非常靈活,在數(shù)據(jù)中心運(yùn)行初期網(wǎng)絡(luò)流量較少時(shí),可以適當(dāng)減少Spine 交換機(jī)的數(shù)量,后續(xù)流量增長(zhǎng)后再靈活地增加Spine 交換機(jī)即可。
第三,網(wǎng)絡(luò)可靠性高。傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu)中,盡管匯聚層和核心層都做了高可用設(shè)計(jì),但是匯聚層的高可用由于是基于STP(Spanning Tree Protocol,生成樹(shù)協(xié)議)的,并不能充分利用多個(gè)交換機(jī)的性能,并且,如果所有的匯聚交換機(jī)(一般是兩個(gè))都出現(xiàn)故障,那么整個(gè)匯聚層PoD 網(wǎng)絡(luò)就會(huì)癱瘓。但是在Spine-Leaf 架構(gòu)中,跨PoD 的兩個(gè)服務(wù)器之間有多條通道,不考慮極端情況時(shí),該架構(gòu)的可靠性比傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu)高。
大規(guī)模數(shù)據(jù)中心內(nèi)云計(jì)算網(wǎng)絡(luò)的物理組網(wǎng)架構(gòu)建議采用Spine-Leaf 架構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)可以提供接入節(jié)點(diǎn)間的無(wú)差異互訪,具有高帶寬、大容量和低網(wǎng)絡(luò)時(shí)延等特點(diǎn)。由于采用了Spine-Leaf 的扁平結(jié)構(gòu),整體網(wǎng)絡(luò)東西向流量轉(zhuǎn)發(fā)路徑較短,轉(zhuǎn)發(fā)效率較高。擴(kuò)展性上,當(dāng)服務(wù)器數(shù)量增加時(shí),增加Leaf數(shù)量即可實(shí)現(xiàn)彈性擴(kuò)縮。當(dāng)Leaf 數(shù)量增加導(dǎo)致Spine 轉(zhuǎn)發(fā)帶寬不足時(shí),可相應(yīng)增加Spine 節(jié)點(diǎn)的個(gè)數(shù)。
Spine 節(jié)點(diǎn)主要負(fù)責(zé)Leaf 節(jié)點(diǎn)之間流量的高速轉(zhuǎn)發(fā)。推薦多臺(tái)單機(jī)部署,數(shù)量根據(jù)Leaf 到Spine 的收斂比(Leaf 的下行總帶寬和Leaf 的上行總帶寬的比值,不同的行業(yè)及不同的客戶有各自的要求)來(lái)決定。一般來(lái)說(shuō),收斂比為1∶9~1∶2。
Leaf 節(jié)點(diǎn)主要負(fù)責(zé)Server 的接入(業(yè)務(wù)服務(wù)器和VAS 服務(wù)器)和作為南北向網(wǎng)關(guān)。Leaf 可使用多種靈活的組網(wǎng)方式,推薦使用M-LAG 雙活方式部署,如果對(duì)可靠性或升級(jí)丟包時(shí)間等要求不高,也可以使用虛擬機(jī)框類(lèi)技術(shù)。每個(gè)Leaf 節(jié)點(diǎn)與所有Spine 節(jié)點(diǎn)相連,構(gòu)建全連接拓?fù)湫螒B(tài)。
Leaf 和Spine 之間建議通過(guò)三層路由接口互聯(lián),通過(guò)配置動(dòng)態(tài)路由協(xié)議實(shí)現(xiàn)三層互聯(lián)。路由協(xié)議推薦OSPF 或BGP,采用ECMP 實(shí)現(xiàn)等價(jià)多路徑負(fù)載分擔(dān)和鏈路備份。從Leaf 通過(guò)多條等價(jià)路徑轉(zhuǎn)發(fā)數(shù)據(jù)流量到Spine,在保證可靠性的同時(shí)也能提升網(wǎng)絡(luò)的帶寬。如圖4 所示。
圖4 Spine-Leaf 架構(gòu)物理組網(wǎng)
根據(jù)服務(wù)器接入帶寬和Leaf 到Spine 的收斂比選定Server Leaf 硬件設(shè)備。硬件形態(tài)主要考慮接入帶寬、收斂比和特殊業(yè)務(wù)訴求。服務(wù)器接入帶寬一般來(lái)說(shuō)為10GE 或者25GE。收斂比則是Leaf 下行帶寬和上行帶寬的比例情況,可以根據(jù)客戶要求來(lái)進(jìn)行設(shè)計(jì),一般為1 ∶9~1 ∶2。
除了一般的服務(wù)器接入的Server leaf 之外,還有Border Leaf 和Service Leaf。Border Leaf 主要用作數(shù)據(jù)中心網(wǎng)絡(luò)的南北向網(wǎng)關(guān),負(fù)責(zé)將南北向流量發(fā)送給對(duì)端的PE及從PE接收發(fā)往數(shù)據(jù)中心內(nèi)部的流量。Service Leaf 主要用作接入防火墻、負(fù)載均衡器等VAS 設(shè)備。Service Leaf 和Border Leaf 可以合設(shè)也可以分設(shè)。
隨著云計(jì)算技術(shù)的快速發(fā)展和數(shù)據(jù)中心內(nèi)業(yè)務(wù)激增,傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu)無(wú)法支撐大二層網(wǎng)絡(luò)構(gòu)建和流量的無(wú)阻塞轉(zhuǎn)發(fā),Spine-Leaf 架構(gòu)網(wǎng)絡(luò)逐漸開(kāi)始出現(xiàn),其擁有高可靠、高智能、低延時(shí)的特性,可以很好地滿足大規(guī)模數(shù)據(jù)中心內(nèi)云計(jì)算的組網(wǎng)需求,不過(guò)對(duì)于規(guī)模較的數(shù)據(jù)中心,傳統(tǒng)的三層網(wǎng)絡(luò)架構(gòu)擁有實(shí)現(xiàn)簡(jiǎn)單、配置工作量低、廣播控制能力較強(qiáng)的特點(diǎn),所以也仍然適用。