亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)和底層協(xié)議演進(jìn)

        2021-11-28 00:58:27魏月華陳曉張征
        中興通訊技術(shù) 2021年3期

        魏月華 陳曉 張征

        摘要:受計(jì)算規(guī)模的驅(qū)動(dòng),數(shù)據(jù)中心物理拓?fù)鋸慕尤?匯聚-核心三級(jí)網(wǎng)絡(luò)架構(gòu)演進(jìn)到基于Clos的Spine-and-Leaf架構(gòu)。計(jì)算資源的基本單位經(jīng)歷了物理服務(wù)器、虛擬機(jī)、容器化3個(gè)階段。數(shù)據(jù)中心底層(underlay)連接協(xié)議逐步從以二層協(xié)議為主演進(jìn)到以IP路由協(xié)議為主。但傳統(tǒng)路由協(xié)議存在可擴(kuò)展性、拓?fù)淇梢娦?、自?dòng)化部署能力等諸多問題。結(jié)合鏈路狀態(tài)和距離矢量的胖樹路由協(xié)議,解決了超大規(guī)模數(shù)據(jù)中心部署的痛點(diǎn)問題,有望逐漸成為超大規(guī)模數(shù)據(jù)中心底層網(wǎng)絡(luò)的主流技術(shù)。

        關(guān)鍵詞:Spine-and-Leaf;路由;數(shù)據(jù)中心

        Abstract: Driven by the scale of computing, the physical topology of the data center has evolved from an access-aggregation-core three-level network architecture to a Closbased Spine-and-Leaf architecture. The basic unit of computing resources has gone through three stages: physical server, virtual machine, and containerization. The underlay connection protocol of the data center has gradually evolved from layer 2 protocol to IP routing protocol. However, traditional routing protocols have many problems, such as scalability, topology visibility, and automated provision capabilities. The fat-tree routing protocol, which combines link state and distance vector, solves the pain points of ultralarge-scale data center deployment, and is expected to gradually become the mainstream technology for ultra-large-scale data center underlay networks.

        Keywords: Spine-and-Leaf; routing; data center

        1 接入-匯聚-核心三級(jí)網(wǎng)絡(luò)架構(gòu)協(xié)議方案演進(jìn)

        受計(jì)算規(guī)模的驅(qū)動(dòng),數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)和解決方案,在過去20年里發(fā)生了很大變化??偟膩碚f,數(shù)據(jù)中心物理拓?fù)鋸慕尤?匯聚-核心三級(jí)網(wǎng)絡(luò)架構(gòu)演進(jìn)到基于Clos的Spine-and-Leaf架構(gòu)。計(jì)算資源的基本單位經(jīng)歷了從物理服務(wù)器到虛擬機(jī)再到容器化3個(gè)階段。

        在物理服務(wù)器階段,應(yīng)用直接在物理服務(wù)器上運(yùn)行,數(shù)據(jù)中心物理拓?fù)錇榻?jīng)典的接入-匯聚-核心三級(jí)網(wǎng)絡(luò)架構(gòu),整張網(wǎng)絡(luò)采用二層協(xié)議互聯(lián),應(yīng)用訪問模式為客戶端-服務(wù)器模式,并且南北向流量遠(yuǎn)大于東西向流量。其中,南北向流量在核心交換機(jī)處理,數(shù)據(jù)中心內(nèi)跨網(wǎng)段需要經(jīng)過核心交換機(jī),內(nèi)部子網(wǎng)的網(wǎng)關(guān)一般也配置在核心。在這種模型中,由于節(jié)點(diǎn)之間的通信都可能經(jīng)過核心,因此核心交換機(jī)需要記錄所有節(jié)點(diǎn)的互聯(lián)網(wǎng)協(xié)議(IP)和介質(zhì)訪問控制(MAC)地址信息。在這種網(wǎng)絡(luò)方案中,與計(jì)算節(jié)點(diǎn)規(guī)模相關(guān)的瓶頸最可能出現(xiàn)在核心交換機(jī)中。

        2008年,傳統(tǒng)的數(shù)據(jù)中心逐步演進(jìn)到云計(jì)算時(shí)代的數(shù)據(jù)中心。云計(jì)算時(shí)代計(jì)算資源的基本單位從物理機(jī)變成了虛擬機(jī)。計(jì)算資源的數(shù)量和密度都有數(shù)量級(jí)的提高。應(yīng)用廣泛采用微服務(wù)訪問模式。這種模式帶來的網(wǎng)絡(luò)變化是:東西向流量超過南北向流量,成為數(shù)據(jù)中心的主要流量。

        隨后,網(wǎng)絡(luò)虛擬化應(yīng)運(yùn)而生。數(shù)據(jù)中心網(wǎng)絡(luò)中的每個(gè)宿主機(jī)都運(yùn)行一個(gè)虛擬交換機(jī)(vSwitch)。虛擬交換機(jī)向上連接物理交換機(jī),向下連接多個(gè)虛擬機(jī)。網(wǎng)絡(luò)的邊界從原來的接入交換機(jī)(置頂交換機(jī))層,下沉到宿主機(jī)內(nèi)部。這使得整張網(wǎng)絡(luò)變成一個(gè)大的二層網(wǎng)絡(luò)。在這個(gè)大二層網(wǎng)絡(luò)內(nèi),虛擬機(jī)生命周期內(nèi)的IP地址和MAC地址均保持不變。對(duì)于同網(wǎng)段的虛擬機(jī),不管它們是否在同一臺(tái)宿主機(jī)上,彼此都能夠通過二層(MAC地址)訪問對(duì)方。此時(shí),核心交換機(jī)不僅需要記錄宿主機(jī)的IP/MAC信息,還需要記錄所有虛擬機(jī)的IP/MAC信息,以便支持虛擬機(jī)全網(wǎng)可遷移。

        2016年以后,數(shù)據(jù)中心進(jìn)入大規(guī)模容器時(shí)代。容器也被稱為輕量級(jí)虛擬機(jī),可進(jìn)一步提高部署密度。虛擬機(jī)與容器的最大區(qū)別在于:虛擬機(jī)平臺(tái)交付的是虛擬機(jī)實(shí)例,抽象的是計(jì)算資源,而容器平臺(tái)交付的是服務(wù),訪問入口為服務(wù)的IP地址,同時(shí)服務(wù)屏蔽了計(jì)算資源的細(xì)節(jié)(如虛擬機(jī)實(shí)例的IP地址或MAC地址)。

        當(dāng)把虛擬機(jī)換成容器后,考慮到容器的部署密度,如果繼續(xù)采用大二層模型,交換機(jī)轉(zhuǎn)發(fā)表容量將會(huì)成為網(wǎng)絡(luò)瓶頸。為此,在每個(gè)服務(wù)器節(jié)點(diǎn)內(nèi)可用虛擬路由器(vRouter)替換虛擬交換機(jī)。一個(gè)虛擬路由器管理一個(gè)網(wǎng)段。服務(wù)器域內(nèi)是一個(gè)二層網(wǎng)絡(luò)。服務(wù)器節(jié)點(diǎn)運(yùn)行邊界網(wǎng)關(guān)協(xié)議(BGP) 代理,并負(fù)責(zé)節(jié)點(diǎn)之間或者節(jié)點(diǎn)和數(shù)據(jù)中心網(wǎng)絡(luò)之間的路由同步。核心交換機(jī)只需要記錄服務(wù)器節(jié)點(diǎn)本身的IP和它所管理的網(wǎng)段。表項(xiàng)與服務(wù)器的數(shù)量保持同一量級(jí),但與容器的數(shù)量沒有關(guān)系。

        因此,數(shù)據(jù)中心網(wǎng)絡(luò)擁有一個(gè)在三層網(wǎng)絡(luò)下有無數(shù)個(gè)小二層網(wǎng)絡(luò)的架構(gòu),如圖1所示。這種以三層路由為主的數(shù)據(jù)中心協(xié)議架構(gòu),可以滿足現(xiàn)代數(shù)據(jù)中心規(guī)模不斷擴(kuò)大和服務(wù)器數(shù)量不斷增加的需求。

        2 帶寬與流量模型的變化

        傳統(tǒng)數(shù)據(jù)中心的流量主要是進(jìn)出數(shù)據(jù)中心的流量,通常被稱為南北向流量。即使在網(wǎng)絡(luò)層之間存在很高的收斂比,傳統(tǒng)的“樹”拓?fù)湟沧阋匀菁{這樣的流量。如果需要更多的帶寬,則可以通過“擴(kuò)展”網(wǎng)絡(luò)元素來增加帶寬。例如,升級(jí)設(shè)備的線路板,或者采用端口密度更高的設(shè)備。

        如今,許多大型數(shù)據(jù)中心承載著大量服務(wù)器到服務(wù)器的流量。這些流量并不會(huì)離開數(shù)據(jù)中心,通常被稱為東西向流量。例如,某些應(yīng)用程序需要集群之間的海量數(shù)據(jù)進(jìn)行復(fù)制,或者需要虛擬機(jī)進(jìn)行遷移。由于受到物理限制(例如交換機(jī)的端口密度低),采用擴(kuò)展傳統(tǒng)的樹形拓?fù)鋪頋M足帶寬需求的方式,不僅成本很高,而且難以實(shí)現(xiàn)。

        3基于Clos的Spine-and-Leaf結(jié)構(gòu)演進(jìn)

        東西向流量的增加使三層數(shù)據(jù)中心架構(gòu)中的帶寬成為瓶頸。此外,服務(wù)器到服務(wù)器的延遲會(huì)隨著流量路徑的不同而不同。為了解決這兩個(gè)問題,基于Clos網(wǎng)絡(luò)的Spine-and-Leaf架構(gòu)被提出。

        在如圖2所示的三級(jí)Clos架構(gòu)中,每個(gè)低層級(jí)的leaf交換機(jī)都與所有高層級(jí)的spine交換機(jī)相連,并形成全網(wǎng)狀連接拓?fù)?。leaf交換機(jī)用于連接服務(wù)器等設(shè)備,spine層則負(fù)責(zé)將所有的leaf連接起來。當(dāng)leaf 層的接入端口和上行鏈路都沒有瓶頸時(shí),這個(gè)架構(gòu)就實(shí)現(xiàn)了無阻塞連接。

        在Spine-and-Leaf架構(gòu)中,任意一個(gè)服務(wù)器到另一個(gè)服務(wù)器的連接,都需要相同數(shù)量的設(shè)備(除非這兩個(gè)服務(wù)器都在同一個(gè)leaf下)。這使得延遲可以被預(yù)測(cè)。由于東西向帶寬更高,因此它更適合現(xiàn)代微服務(wù)的場(chǎng)景。

        當(dāng)Spine-and-Leaf中任意一層存在帶寬瓶頸時(shí),只需要添加一臺(tái)新設(shè)備,并將其和另外一層的所有設(shè)備相連即可。這種橫向擴(kuò)展的方法比較容易實(shí)施。

        4 數(shù)據(jù)中心協(xié)議的選擇與設(shè)計(jì)

        4.1 選擇三層路由的Spine-and-Leaf架構(gòu)

        Spine-and-Leaf結(jié)構(gòu)相當(dāng)于傳統(tǒng)網(wǎng)絡(luò)架構(gòu)中的“接入層-匯聚層”。如果采用二層交換技術(shù),則生成樹協(xié)議(STP)生成的無環(huán)樹形結(jié)構(gòu)會(huì)大大減少活躍可用的鏈路。

        如果采用三層路由,Spine-andLeaf則可以充分利用spine和leaf之間的全網(wǎng)狀連接,并選擇最短路徑。如果為了獲得更高的整體利用率,該架構(gòu)也可以選擇特定的路徑。

        4.2 BGP路由協(xié)議部署技術(shù)與特征[1-2]

        BGP在應(yīng)用于數(shù)據(jù)中心之前,主要用于運(yùn)營(yíng)商網(wǎng)絡(luò)。BGP數(shù)據(jù)中心與運(yùn)營(yíng)商網(wǎng)絡(luò)最大的區(qū)別在于連接的密度:超大型數(shù)據(jù)中心的連接密度遠(yuǎn)大于運(yùn)營(yíng)商網(wǎng)絡(luò)的連接密度。因此,BGP協(xié)議在應(yīng)用于數(shù)據(jù)中心之前需要經(jīng)過適當(dāng)?shù)摹案脑臁薄?/p>

        BGP協(xié)議具有一些突出優(yōu)勢(shì),主要包括:

        (1)作為距離矢量協(xié)議,BGP采用傳輸控制協(xié)議(TCP),互操作性好,總體上很成熟,目前已經(jīng)獲得廣泛應(yīng)用。設(shè)備商和各種開源平臺(tái)都實(shí)現(xiàn)了BGP部署,并獲得了良好的測(cè)試結(jié)果。

        (2)由于BGP本身在廣域通信網(wǎng)絡(luò)上是一個(gè)廣泛部署的路由協(xié)議,因此,從技術(shù)和運(yùn)維的角度上看,將BGP應(yīng)用于超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)具有很高的接受度;

        (3)相比于其他內(nèi)部網(wǎng)關(guān)路由協(xié)議,BGP具有較高的可擴(kuò)展性;

        (4)BGP協(xié)議有諸多前綴過濾、路由標(biāo)記和流量工程的能力選項(xiàng),在過濾、修改路由參數(shù)和控制流量方面具有優(yōu)勢(shì);

        (5)BGP可以同時(shí)用于底層(underlay)網(wǎng)絡(luò)和疊加(overlay)網(wǎng)絡(luò)。通常在這種情況下,底層網(wǎng)絡(luò)使用外部BGP(eBGP)對(duì)等體,疊加網(wǎng)絡(luò)使用內(nèi)部BGP(iBGP)對(duì)等體。這使得網(wǎng)絡(luò)的整體配置變得更簡(jiǎn)單。

        BGP協(xié)議作為數(shù)據(jù)中心的底層也面臨一些挑戰(zhàn),具體包括:

        (1)由于BGP協(xié)議具有易于擴(kuò)展的特性,BGP上逐步增加的多地址族、以太網(wǎng)虛擬專用網(wǎng)(EVPN)、虛擬專用局域網(wǎng)業(yè)務(wù)(VPLS)、 BGP鏈路狀態(tài)(BGP-LS)等能力,使得BGP協(xié)議變得非常復(fù)雜。雖然可以通過一些開關(guān)來關(guān)閉這些功能,但是實(shí)際上仍無法避免實(shí)現(xiàn)BGP功能的軟件代碼漏洞和錯(cuò)誤配置等問題;

        (2)BGP協(xié)議在自動(dòng)化能力方面不足以滿足大規(guī)模數(shù)據(jù)中心的需求;

        (3)在數(shù)據(jù)中心fabric中的高密度拓?fù)渲?,需要大量專業(yè)的手動(dòng)配置來使BGP快速收斂。例如,當(dāng)流量從fabric上的一個(gè)位置移動(dòng)到另一位置,或者當(dāng)由anycast地址代表的一個(gè)服務(wù)實(shí)例從fabric上被刪除時(shí),BGP收斂時(shí)間會(huì)很長(zhǎng)。這將影響在fabric上正常運(yùn)行的應(yīng)用。

        4.3鏈路狀態(tài)路由協(xié)議的演進(jìn)[3]

        自RFC 7938(在大規(guī)模數(shù)據(jù)中心路由中使用BGP的標(biāo)準(zhǔn))發(fā)布起, BGP幾乎成了大規(guī)模數(shù)據(jù)中心的缺省選擇??紤]到標(biāo)準(zhǔn)和部署的多種因素(如收斂速度、數(shù)據(jù)遙測(cè)等),業(yè)界提出在數(shù)據(jù)中心fabric中采用鏈路狀態(tài)路由協(xié)議來代替BGP協(xié)議。

        在超大規(guī)模數(shù)據(jù)中心采用鏈路狀態(tài)路由協(xié)議的最大的挑戰(zhàn)是,存在用于可達(dá)性計(jì)算和拓?fù)溆?jì)算的路由信息洪泛?jiǎn)栴}。目前,國(guó)際互聯(lián)網(wǎng)工程任務(wù)組(IETF)正在針對(duì)中間系統(tǒng)到中間系統(tǒng)(IS-IS)開展洪泛優(yōu)化和集中計(jì)算優(yōu)化泛洪樹的工作。

        在數(shù)據(jù)中心fabric中,與BGP協(xié)議相比,鏈路狀態(tài)協(xié)議具有收斂速度快的優(yōu)點(diǎn)。當(dāng)一個(gè)可達(dá)目的地在fabric中從一個(gè)地方移動(dòng)到另一個(gè)地方,或者完全從fabric上斷開時(shí),鏈路狀態(tài)協(xié)議的收斂速度將遠(yuǎn)快于BGP的收斂速度。從IS-IS的角度來看,任何可達(dá)目標(biāo)的更改都只是葉子連接的更改。這意味著系統(tǒng)無須運(yùn)行最短路徑優(yōu)先(SPF)算法。這種方法被稱為部分SPF。它的速度非常快,并且每個(gè)交換矩陣設(shè)備只需要進(jìn)行最少量的處理。

        與數(shù)據(jù)中心結(jié)構(gòu)中的BGP相比,鏈路狀態(tài)協(xié)議的第二個(gè)優(yōu)勢(shì)是拓?fù)淇梢娦浴f溌窢顟B(tài)協(xié)議要求每個(gè)設(shè)備都擁有維護(hù)拓?fù)涞耐暾晥D。該拓?fù)洌ǚQ為鏈接狀態(tài)數(shù)據(jù)庫)必須與網(wǎng)絡(luò)洪泛域中的每個(gè)路由器同步。在使用控制器時(shí),為了獲得鏈路狀態(tài)數(shù)據(jù)庫的副本,鏈路狀態(tài)協(xié)議僅需要連接光纖網(wǎng)絡(luò)中的一個(gè)路由器。鏈接狀態(tài)數(shù)據(jù)庫對(duì)于流量工程和流量導(dǎo)流很有用,也有利于做數(shù)據(jù)遙測(cè)。

        數(shù)據(jù)中心結(jié)構(gòu)中鏈路狀態(tài)協(xié)議面臨的第一個(gè)挑戰(zhàn)是擴(kuò)展問題,這主要與消息洪泛有關(guān)。由于消息量大,鏈路狀態(tài)協(xié)議會(huì)在大型結(jié)構(gòu)中造成嚴(yán)重的洪泛。

        此外,鏈路狀態(tài)協(xié)議還面臨另外兩個(gè)挑戰(zhàn):存在可達(dá)目的地?cái)?shù)量的擴(kuò)展性問題和計(jì)算無環(huán)路徑集SPF算法所需的時(shí)間較長(zhǎng)的問題。通過更快的處理器和SPF優(yōu)化,雖然不能使鏈路狀態(tài)協(xié)議的擴(kuò)展性達(dá)到BGP的級(jí)別,但是足以支持運(yùn)營(yíng)商構(gòu)建大部分的數(shù)據(jù)中心結(jié)構(gòu)。

        4.4胖樹路由協(xié)議特征分析[4-6]

        業(yè)界對(duì)數(shù)據(jù)中心fabric中路由技術(shù)的探索從未停止。針對(duì)基于Clos網(wǎng)絡(luò)的Spine-and-Leaf結(jié)構(gòu),IETF啟動(dòng)了結(jié)合距離矢量路由與鏈路狀態(tài)路由的胖樹路由協(xié)議的標(biāo)準(zhǔn)化工作。

        胖樹路由協(xié)議可將鏈路狀態(tài)協(xié)議和距離矢量協(xié)議的優(yōu)點(diǎn)結(jié)合起來,以最大程度地實(shí)現(xiàn)網(wǎng)絡(luò)路由配置自動(dòng)化和故障管理自動(dòng)化,并用于Spineand-Leaf結(jié)構(gòu)的大規(guī)模數(shù)據(jù)中心中。胖樹路由協(xié)議支持多線程,可匹配多核CPU的處理能力。因此,胖樹路由協(xié)議可以極大地節(jié)省操作和運(yùn)維成本,并減少人為錯(cuò)誤。

        4.4.1拓?fù)溥m用性分析

        如前所述,在數(shù)據(jù)中心進(jìn)入云計(jì)算時(shí)代以后,東西向流量就超過了南北向流量,成為數(shù)據(jù)中心的主要流量。東西向流量在虛擬服務(wù)器與虛擬服務(wù)器之間,以及容器與容器之間的轉(zhuǎn)發(fā),本質(zhì)上還是在胖樹的北向與南向運(yùn)動(dòng)。只不過東西向流量的轉(zhuǎn)發(fā)是最大程度的就近轉(zhuǎn)發(fā)。

        流量從Spine-and-Leaf結(jié)構(gòu)底部的leaf節(jié)點(diǎn)向北到達(dá)結(jié)構(gòu)的頂部,然后向南回到leaf節(jié)點(diǎn)。從所需的可達(dá)性信息角度來看,這種服務(wù)器到服務(wù)器的流量模式,所需的可達(dá)信息很少。例如,在三級(jí)Clos中,leaf節(jié)點(diǎn)流量?jī)H需要默認(rèn)路由即可到達(dá)spine節(jié)點(diǎn)。同時(shí)spine節(jié)點(diǎn)流量不需要整個(gè)路由表即可到達(dá)leaf節(jié)點(diǎn),只需要向南一級(jí)的節(jié)點(diǎn)可達(dá)信息。因此,胖樹路由協(xié)議具有方向特性,具體表現(xiàn)為:向北為鏈路狀態(tài)協(xié)議,向南則為距離矢量協(xié)議。

        胖樹結(jié)構(gòu)(Spine-and-Leaf結(jié)構(gòu))天然分層:結(jié)構(gòu)頂部的節(jié)點(diǎn)保持在最高級(jí)別,而底部節(jié)點(diǎn)(leaf節(jié)點(diǎn))保持在最低級(jí)別。胖樹路由協(xié)議用方向性來描述拓?fù)渲胁煌?jí)別之間的關(guān)系,并利用拓?fù)涞倪@種特性,通過零接觸部署(ZTP)功能進(jìn)行錯(cuò)誤布線檢測(cè)。另外,這種協(xié)議在設(shè)計(jì)時(shí)也考慮了容錯(cuò)性,因此能夠應(yīng)對(duì)胖樹結(jié)構(gòu)的變異,比如同一層節(jié)點(diǎn)之間的水平鏈路或跨層的垂直直連鏈路。

        4.4.2 拓?fù)浒l(fā)現(xiàn)

        胖樹路由協(xié)議通過交換鏈路信元(LIE)自動(dòng)發(fā)現(xiàn)鄰居,協(xié)商ZTP,并檢測(cè)錯(cuò)誤布線。LIE交換采用用戶數(shù)據(jù)報(bào)協(xié)議(UDP),并且將互聯(lián)網(wǎng)協(xié)議第4版(IPv4)報(bào)文中的生存時(shí)間值(TTL)(或互聯(lián)網(wǎng)協(xié)議第6版報(bào)文中的Hoplimit)設(shè)置為1。LIE包含的關(guān)鍵信息有本地鏈路ID、SystemID、最大傳輸單元(MTU)、本地節(jié)點(diǎn)的交付點(diǎn)(PoD)值、所屬層值等。

        胖樹路由協(xié)議通過交換拓?fù)湫旁獊頂y帶一個(gè)節(jié)點(diǎn)連接的鄰居、前綴和能力等信息。由于胖樹路由協(xié)議具有方向特性,拓?fù)湫旁煞譃楸蓖負(fù)湫旁湍贤負(fù)湫旁?/p>

        無論是南拓?fù)湫旁€是北拓?fù)湫旁?,拓?fù)湫旁及?種類別:節(jié)點(diǎn)拓?fù)湫旁⑶熬Y拓?fù)湫旁?、積極解聚合拓?fù)湫旁?、消極解聚合拓?fù)湫旁?、外部前綴拓?fù)湫旁玩I值拓?fù)湫旁?/p>

        拓?fù)湫旁粨Q(洪泛)采用UDP協(xié)議,具有方向性。所有的北拓?fù)湫旁际窍虮焙榉旱模康脑谟跒楦邔犹峁┮阅暇W(wǎng)絡(luò)的完整拓?fù)湟晥D。這可以保證從特定層節(jié)點(diǎn)(或低于特定層節(jié)點(diǎn))收到的流量始終采用最具體的路由來到達(dá)目的節(jié)點(diǎn)。

        所有南節(jié)點(diǎn)拓?fù)湫旁急煌戏汉椋渌愋偷哪贤負(fù)湫旁獌H往南泛洪本節(jié)點(diǎn)為發(fā)起者的拓?fù)湫旁?。這樣,低一級(jí)的節(jié)點(diǎn)就會(huì)擁有去往上層節(jié)點(diǎn)所需要的路由信息。這些信息也可以到達(dá)fabric的其他地方。

        胖樹路由協(xié)議采用類似IS-IS協(xié)議的方式來保持鏈路狀態(tài)數(shù)據(jù)庫的同步。在計(jì)算最短路徑時(shí),胖樹路由協(xié)議也是基于南向或北向的。兩個(gè)方向的最短路徑算法都不會(huì)產(chǎn)生環(huán)路:往北向的最短路徑算法只利用北向(和東西向)鄰居來計(jì)算“北拓?fù)湫旁?,往南向的最短路徑算法只利用南向鄰居來?jì)算“南拓?fù)湫旁?/p>

        4.4.3負(fù)載均衡

        IP網(wǎng)絡(luò)中的負(fù)載均衡一直是個(gè)難題。BGP負(fù)載均衡實(shí)施困難,而內(nèi)部網(wǎng)關(guān)協(xié)議(IGP)僅能做到等價(jià)路徑負(fù)載均衡。在胖樹路由協(xié)議中,負(fù)載均衡只需要在北向的缺省路由上來實(shí)現(xiàn)(也可以在解聚合前綴和南向路由上實(shí)現(xiàn))。胖樹路由協(xié)議自動(dòng)計(jì)算并繼續(xù)使用所有可用最短路徑上的可用帶寬,使流量不會(huì)在fabric中迂回打轉(zhuǎn)。

        在正常情況下,每個(gè)前綴都帶有一個(gè)關(guān)聯(lián)的距離值(相當(dāng)于典型的度量值)。當(dāng)鏈路發(fā)生故障時(shí),SPF計(jì)算必須考慮當(dāng)前不可用的帶寬,并計(jì)算帶寬調(diào)整后的距離(BAD),然后使用BAD值來代替初始距離值,以評(píng)估可用鏈接上的流量。

        4.4.4 南向反射與路由解聚合

        這種反射機(jī)制是指,只有節(jié)點(diǎn)的南向拓?fù)湫旁獣?huì)被往北反射到上一層。因此,同一層的所有節(jié)點(diǎn)都能夠相互感知對(duì)方。

        反射機(jī)制可以觸發(fā)積極解聚合。為了解決流量黑洞問題,路由解聚合在發(fā)布缺省路由的基礎(chǔ)上,會(huì)再發(fā)布一個(gè)更詳細(xì)的路由。

        解聚合包括兩種類型:積極的解聚合和消極的解聚合。節(jié)點(diǎn)發(fā)布積極路由表示它可以到達(dá)某個(gè)前綴。而當(dāng)節(jié)點(diǎn)不能到達(dá)某個(gè)前綴時(shí),則通告消極路由。不管是哪種情況,解聚合的路由總是被通告為前綴或外部南拓?fù)湫旁?,并且永遠(yuǎn)不會(huì)被重發(fā)。同時(shí),其他節(jié)點(diǎn)不需要知道哪個(gè)節(jié)點(diǎn)正在發(fā)布解聚合的路由。

        積極解聚合很簡(jiǎn)單。它是一種額外的路由通告。這樣,南方的節(jié)點(diǎn)可以根據(jù)典型的最長(zhǎng)匹配原則來進(jìn)行路由布置,即胖樹路由在默認(rèn)路由中為部分連接的前綴打一個(gè)洞。

        積極解聚合是非傳遞性的,以免給節(jié)點(diǎn)增加無用的路由信息。對(duì)于未解聚合的前綴,默認(rèn)路由將為其提供可達(dá)性。

        消極解聚合相對(duì)比較復(fù)雜。當(dāng)fabric包含多個(gè)平面時(shí),消極解聚合就是必需的。當(dāng)某個(gè)節(jié)點(diǎn)失去某前綴的可達(dá)性時(shí),該平面中所有上一層的節(jié)點(diǎn)都會(huì)觸發(fā)消極解聚合。與積極路由不同,消極路由是可傳遞的。消極路由可以一直向南廣播,直到解除流量黑洞。

        4.4.5 零接觸部署

        胖樹路由協(xié)議內(nèi)置了零接觸部署模式。除了ToF節(jié)點(diǎn)之外(ToF節(jié)點(diǎn)需要預(yù)先設(shè)定一個(gè)層值),其他節(jié)點(diǎn)無需任何初始化配置就可以自動(dòng)接入fabric中。每個(gè)節(jié)點(diǎn)都以競(jìng)爭(zhēng)在fabric中的最高點(diǎn)為原則。層決策算法利用相鄰節(jié)點(diǎn)之間的位置信息進(jìn)行運(yùn)算,以確保所有節(jié)點(diǎn)找到在fabric中的穩(wěn)定位置,從而自動(dòng)完成一個(gè)穩(wěn)定的胖樹拓?fù)錁?gòu)建,并自動(dòng)實(shí)現(xiàn)南向和北向路由策略。零接觸部署能力能夠有效消除可能的由錯(cuò)誤布線對(duì)fabric構(gòu)建產(chǎn)生的干擾。

        零接觸部署是胖樹路由協(xié)議最突出的特性之一,對(duì)于提升超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)構(gòu)建的效率意義重大。

        5 結(jié)束語

        在未來,BGP將繼續(xù)成為數(shù)據(jù)中心架構(gòu)底層的重要選擇。它最終會(huì)具備一些鏈路狀態(tài)協(xié)議功能,例如更快的收斂和更接近自動(dòng)化的部署。然而,BGP很難復(fù)制鏈路狀態(tài)協(xié)議的某些功能,例如從一個(gè)位置獲取整個(gè)拓?fù)涞耐暾晥D。同時(shí),BGP的收斂速度很可能總是落后于鏈路狀態(tài)協(xié)議。對(duì)此,IETF已經(jīng)啟動(dòng)改進(jìn)鏈路狀態(tài)協(xié)議的標(biāo)準(zhǔn)化工作。但由于改動(dòng)較大,同時(shí)協(xié)議復(fù)雜度較高,因此協(xié)議應(yīng)用前景不明。胖樹路由協(xié)議可將鏈路狀態(tài)和距離矢量相結(jié)合:當(dāng)數(shù)據(jù)報(bào)文沿fabric向上傳遞到ToF時(shí),可采用類似鏈路狀態(tài)的操作;當(dāng)數(shù)據(jù)報(bào)文向fabric的邊緣傳遞可達(dá)性和拓?fù)湫畔r(shí),可采用類似距離矢量的操作。胖樹路由協(xié)議解決了現(xiàn)有路由協(xié)議在Spine-andLeaf IP結(jié)構(gòu)中面臨的諸多問題,具有擴(kuò)展性好、運(yùn)維簡(jiǎn)單的優(yōu)點(diǎn),可有效節(jié)省部署開銷。

        中興通訊在IETF深入?yún)⑴c了胖樹路由協(xié)議的標(biāo)準(zhǔn)化工作。我們認(rèn)為,胖樹路由協(xié)議有望成為超大規(guī)模數(shù)據(jù)中心底層網(wǎng)絡(luò)的主流技術(shù)。

        參考文獻(xiàn)

        [1] IETF. Use of BGP for routing in large-scale data centers: RFC 7938 [S]. 2016

        [2] Dinesh G D. BGP in the data center [M]. California: OReilly Media, Inc. 2017

        [3] IETF. Dynamic flooding on dense graphs: draftietf-lsr-dynamic-flooding-08 [S]. 2020

        [4] IETF. RIFT: routing in fat trees: draft-ietf-riftrift-12 [S]. 2021

        [5] IETF. RIFT applicability: draft-ietf-rift-applicability-06 [S]. 2021

        [6] IETF. A YANG data model for Routing in Fat Trees(RIFT): draft-ietf-rtgwg-policy-model-27 [S]. 2021

        作者簡(jiǎn)介

        魏月華,中興通訊股份有限公司承載網(wǎng)標(biāo)準(zhǔn)預(yù)研總工;擁有15年以上數(shù)據(jù)網(wǎng)絡(luò)產(chǎn)品研發(fā)、設(shè)計(jì)及新技術(shù)預(yù)研經(jīng)驗(yàn);從事以太網(wǎng)、IP路由、云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)、SDN等技術(shù)和標(biāo)準(zhǔn)研究;發(fā)表論文3篇,獲授權(quán)專利40余項(xiàng)。

        陳曉,中興通訊股份有限公司有線架構(gòu)部部長(zhǎng);長(zhǎng)期從事電信產(chǎn)品和相關(guān)技術(shù)的研究規(guī)劃。

        張征,中興通訊股份有限公司標(biāo)準(zhǔn)專家;擁有20年的數(shù)據(jù)網(wǎng)絡(luò)產(chǎn)品研發(fā)與設(shè)計(jì)經(jīng)驗(yàn);從事IP單播/組播路由、數(shù)據(jù)中心網(wǎng)絡(luò)、SDN等技術(shù)與標(biāo)準(zhǔn)研究;主持多個(gè)IETF工作組標(biāo)準(zhǔn)的制定和RFC的發(fā)布;申請(qǐng)發(fā)明專利40余項(xiàng)。

        亚洲18色成人网站www| 国产一区二区亚洲一区| 阴唇两边有点白是怎么回事| 国产精品186在线观看在线播放| 日本黄页网站免费观看| 亚洲国产夜色在线观看| 国产精品一区二区三区蜜臀| 国产高清精品一区二区| 未满十八勿入av网免费| 亚洲性无码av在线| 久久久国产精品粉嫩av| 丝袜美腿人妻第一版主| 精品无码av一区二区三区| 久久天天躁夜夜躁狠狠躁2022| 日本视频精品一区二区| 白白色发布免费手机在线视频观看| 亚洲熟妇久久精品| 中文字幕av日韩精品一区二区| 男女激情床上视频网站| 久久精品国产亚洲av性瑜伽| 久久成人国产精品免费软件| 国内免费AV网站在线观看| 免费在线观看视频专区| 亚洲一区二区三区乱码在线中国| 熟女体下毛毛黑森林| 中文 国产 无码免费| 水蜜桃在线观看一区二区国产 | 人妻熟妇乱又伦精品视频app| 日韩精品欧美激情国产一区| 丝袜美腿精品福利在线视频| 欧美日韩亚洲中文字幕二区| 久久香蕉国产线看观看网| 国产亚洲一区二区三区成人| 免费在线观看av不卡网站| 精品淑女少妇av久久免费| 国产精品高清视亚洲乱码有限公司| 一区二区在线观看视频亚洲| 久久精品亚洲精品国产色婷 | av一区二区三区有码| 免费观看交性大片| 极品尤物高潮潮喷在线视频 |