[肖洪 胡兆烜 李松根 高博 蘇水軍]
隨著2019 年5G 在我國正式商用,各大云服務商、運營商、設備商等都紛紛以自身優(yōu)勢為切入點,加碼布局邊緣計算領域。經(jīng)過2 年多時間的發(fā)展,MEC 作為助力垂直行業(yè)政企客戶數(shù)智化轉型的重要抓手,已逐漸融入千行百業(yè)。5G MEC 業(yè)務已從單個地市、省份的試點驗證,逐步進入全國規(guī)模部署階段,同時,近年來,不斷有企業(yè)因重要業(yè)務中斷、業(yè)務數(shù)據(jù)丟失等系統(tǒng)事故,影響企業(yè)信譽、形象,甚至威脅企業(yè)生存,造成這一系列系統(tǒng)災難的事故原因包括自然災害、基礎設施故障、系統(tǒng)故障和人為等各種因素。
針對不同行業(yè)不同規(guī)模的企業(yè)調(diào)研發(fā)現(xiàn),33%的企業(yè)曾因數(shù)據(jù)中心發(fā)生故障而丟失過數(shù)據(jù),超42%的企業(yè)經(jīng)歷過停機事件,而這些企業(yè)中,60%以上都使用云作為數(shù)據(jù)保護的一部分,超過半數(shù)的企業(yè)都有從云上恢復數(shù)據(jù)的經(jīng)歷。大中型企業(yè)普遍要求業(yè)務不中斷,特別是一些特殊行業(yè),例如金融、電力和政府等業(yè)務系統(tǒng),容災能力與業(yè)務連續(xù)保障能力都有嚴格的要求,本身就要求具備同城異地等多種備份方案來抵御突發(fā)性災難。
災難備份主要是為了減少災難發(fā)生后造成的業(yè)務中斷和數(shù)據(jù)丟失而采取的一系列防范措施,當IT 系統(tǒng)出現(xiàn)故障,硬件設備因意外損壞的時候,企業(yè)可通過災難備份和快速的恢復能力避免長時間停機帶來的損失。在應用部署的同時,如何通過合理的組網(wǎng)架構、全面的數(shù)據(jù)安全保護方案和應急預案,使得企業(yè)面臨意外的時可以做到有備無患,對于企業(yè)至關重要。因此,企業(yè)對于應用云化部署在MEC 上時業(yè)務連續(xù)性和數(shù)據(jù)安全保障,存在強烈的需求。
MEC 平臺的架構可分為硬件層、平臺層和應用層3個層面,傳統(tǒng)的服務器部署的應用主要依賴應用層進行備份,應用上云之后,安全容災備份方案變得更加靈活和多樣。本文針對MEC 上平臺、應用和硬件三個方面,設計了冗余備份架構,并對目前的現(xiàn)狀進行了總結,對未來發(fā)展提出了新的方向。
隨著新一代通信技術的發(fā)展,企業(yè)對于柔性生產(chǎn)、聯(lián)網(wǎng)設備的需求越來越多,移動網(wǎng)絡接入的終端數(shù)量快速增長,對大帶寬、低時性的要求越來越高,傳統(tǒng)移動通信技術和云計算的架構,無法滿足業(yè)務的需要。MEC(多接入邊緣計算)是5G 網(wǎng)絡低時延、大帶寬等關鍵能力實現(xiàn)的原因之一,借助5G SA 服務化架構,將用戶面和控制面分離,用戶面網(wǎng)元與MEC 下沉,解決了迂回路由、網(wǎng)絡擁塞、帶寬浪費等問題,為新業(yè)務提供低時延、大帶寬和本地化的邊緣云網(wǎng)環(huán)境。
MEC 是5G 網(wǎng)絡的重要組成部分,可以針對各行業(yè)多樣化的需求特點靈活按需提供定制化服務能力。針對文旅、教育、娛樂類場景,MEC 作為云的邊緣擴展,通過將內(nèi)容及業(yè)務能力下沉到MEC 節(jié)點,動態(tài)按需部署,用戶就近接入,改善用戶體驗。針對制造業(yè)、交通物流業(yè)、醫(yī)療行業(yè)場景,MEC 能夠保障工業(yè)控制、遠程駕駛等業(yè)務對極低時延要求,以移代固,同時從生產(chǎn)數(shù)據(jù)安全角度出發(fā),滿足的業(yè)務本地化要求。因此,MEC 在承載不同行業(yè)核心業(yè)務的同時,還需滿足業(yè)務對可靠性、健壯性、容災備份的差異化要求。一般來說,單個節(jié)點的MEC 支持虛機熱遷移、存儲熱遷移,當組件出現(xiàn)故障時,業(yè)務能夠快速通過熱遷移進行恢復,確保業(yè)務不中斷。MEC 采用獨立的計算、存儲、網(wǎng)絡資源,以安全域進行劃分,并與其他資源池隔離。在組網(wǎng)架構上,服務器雙路上行接入不同的交換機,交換機集群堆疊,并通過多路冗余上聯(lián)至承載網(wǎng)和核心網(wǎng),在鏈路上實現(xiàn)備份。
當單節(jié)點的容災備份方案難以滿足業(yè)務需求時,還可以通過節(jié)點級備份、硬件級備份以及基于云邊協(xié)同、邊邊協(xié)同的他云異地備份方案,為行業(yè)客戶提供不同等級的備份方案。
主要指2 個或多個MEC 平臺節(jié)點之間的互為備份,一般包括獨享MEC 節(jié)點與共享節(jié)點間備份、獨享MEC之間的備份。主要方案為獨享MEC 與共享/其他獨享節(jié)點間依靠專線連通。節(jié)點級備份實現(xiàn)前提與部署的客戶應用架構強相關,應用需支持負載均衡/多活等運行及數(shù)據(jù)自動同步,當發(fā)生故障時依靠UPF 進行業(yè)務數(shù)據(jù)流切換,如圖1 所示。
圖1 三種MEC 健壯性組網(wǎng)方案示意圖
以上三種方案具體組網(wǎng)情況如下:
(1)企業(yè)園區(qū)不同機房MEC 節(jié)點異地備份:如圖2所示,將主備2 套MEC 平臺及硬件部署在客戶不同機房位置,實現(xiàn)平臺及硬件備份效果,防止單點故障而導致的業(yè)務中斷。適用于對數(shù)據(jù)隔離安全和時延要求高,但成本不敏感的客戶。
圖2 企業(yè)園區(qū)不同機房獨享MEC 異地備份網(wǎng)絡圖
保護方式:當主用MEC 節(jié)點故障時,業(yè)務數(shù)據(jù)流切換至備用MEC 節(jié)點。保障應用和業(yè)務的連續(xù)性,提供數(shù)據(jù)可靠性,業(yè)務質(zhì)量(如延時等指標)切換前后保持一致,客戶感知最高。
(2)企業(yè)不同園區(qū)MEC 節(jié)點異地備份:如圖3 所示,將主備2 套MEC 平臺及硬件部署在客戶不同園區(qū)機房,實現(xiàn)平臺及硬件備份效果,防止單點故障與網(wǎng)絡故障等導致的業(yè)務中斷。適用于對數(shù)據(jù)隔離安全要求高,但時延要求不苛刻、成本不敏感的客戶。
圖3 不同園區(qū)機房獨享MEC 異地備份網(wǎng)絡圖
保護方式:當企業(yè)園區(qū)1 主用MEC 節(jié)點故障時,業(yè)務數(shù)據(jù)流切換至園區(qū)2 的備用MEC 節(jié)點。保障應用業(yè)務的連續(xù)性,提高數(shù)據(jù)可靠性,業(yè)務質(zhì)量(如延時等指標)因路由距離有所降低,切換后客戶感知有輕微影響。
(3)園區(qū)機房與運營商機房MEC 節(jié)點異地備份:如圖4 所示,將主備2 套MEC 平臺及硬件分別部署在客戶園區(qū)機房與運營商機房,實現(xiàn)平臺及硬件備份效果,防止單點故障與網(wǎng)絡故障等導致的業(yè)務中斷。適用于對數(shù)據(jù)隔離安全要求不高、時延要求不苛刻,成本相對敏感的客戶。
圖4 園區(qū)機房獨享MEC 與運營商機房(共享)MEC 異地備份網(wǎng)絡圖
保護方式:當企業(yè)園區(qū)主用MEC 節(jié)點故障時,可手動或自動切換至運營商機房的備用MEC 節(jié)點。保障應用業(yè)務的連續(xù)性,提供數(shù)據(jù)可靠性,業(yè)務質(zhì)量(如延時等指標)因路由距離有所降低,切換后客戶感知有輕微影響。
主要指部署單個獨享型MEC 平臺,但在不同機房里部署2 套MEC 硬件實現(xiàn)平臺及硬件備份效果,兩套MEC硬件作為一個集群,由MEC 平臺統(tǒng)一管理。機房可為運營商機房或客戶機房,節(jié)點之間以專線相連。如圖5 所示。
圖5 跨機房MEC 硬件級健壯性組網(wǎng)
此種組網(wǎng)方式與節(jié)點級備份中的同園區(qū)/不同園區(qū)獨享型MEC 組網(wǎng)基本相同,同一客戶園區(qū)可拉通客戶內(nèi)網(wǎng)線路,跨園區(qū)需要開通點對點專線。MEC 內(nèi)網(wǎng)一般以10GE 以上線路互聯(lián),與節(jié)點級備份的主要差異為僅部署1 套MEC 平臺對2 套MEC 硬件跨機房管理。特點為集群管理節(jié)點(大于三個)可均勻分布在兩個機房,客戶應用無需考慮跨集群數(shù)據(jù)同步問題,但兩套MEC 硬件之間東西向流量受專線/內(nèi)網(wǎng)互聯(lián)鏈路的帶寬制約。適用于對數(shù)據(jù)隔離安全高、時延要求苛刻,成本不敏感,且應用不支持主備/多活的客戶。
保護方式:當集群內(nèi)的計算節(jié)點(單臺物理機)出現(xiàn)故障時,業(yè)務在集群內(nèi)遷移到其他正常節(jié)點,可在短時間內(nèi)恢復業(yè)務。
MEC 平臺內(nèi)各組件級相關硬件均采用主備冗余設置,主要應用了基于虛擬路由冗余協(xié)議(Virtual Router Redundancy Protocol,簡稱VRRP)的Keepalive 高可用架構,本身已具備組件的高可用性,節(jié)點級備份方案面臨著成本和客戶IT 技術的雙重制約,因此,實際項目中仍以硬件級備份方案落地驗證為主。
具體平臺組件主備情況如下:
(1)Mysql 采用雙主模式+keepalived,單臺組件故障,虛擬IP(VIP)即漂移,由正常組件接替故障組件通過VIP 提供服務。
(2)Harbor 采用雙主模式+keepalived,單臺組件故障,VIP 即漂移。
(3)Redis 采用主從模式+keepalived,單臺組件故障,VIP 即漂移。
(4)MEC 和MEO 組件使用k8s 的deployment 部署,單pod 故障時自動刪除重建。
具體硬件冗余情況如圖6 所示。
圖6 MEC 組件健壯性組網(wǎng)
(1)端口聚合:將兩個設備間通過多條物理鏈路捆綁在一起組成一條邏輯鏈路,不僅達到帶寬倍增的目的,還可以在多條鏈路上均衡分配流量,起到負載分擔的作用;當一條或多條鏈路故障時,只要還有鏈路正常,流量將轉移到正常的鏈路上,起到冗余的作用,整個過程在幾毫秒內(nèi)完成,對客戶的影響小,能保證網(wǎng)絡的穩(wěn)定性和安全性。
(2)防火墻與交換機的堆疊:2 臺交換機經(jīng)過堆疊形成一個堆疊單元,可以保證高可靠性,接入交換機堆疊還可以避免物理環(huán)路。當1 臺交換機不可用,流量將轉移到另1 臺的交換機上,提高安全性。同樣防火墻也有備2臺的冗余考慮,防止單點故障而導致的網(wǎng)絡中斷。
如圖7 所示,MEC 同樣支持在其他公有云或者私有云的虛擬化層上部署,如天翼云、地市業(yè)務云/屬地云等,實現(xiàn)與客戶邊緣機房MEC 進行異地備份。此種方式對客戶來說成本低廉,不需要客戶另外購買整套設備,但時延變化會相對較大,特別是云資源池所在位置距離相對較遠時,可能產(chǎn)生較大時延,難以滿足業(yè)務需求。同時,此方案不僅對應用架構也存在類似節(jié)點級備份的改造需求,還可能涉及到邊緣云-中心云之間的協(xié)同和多云對接。因此,此方案成本相對可控,但存在較高技術門檻,且可能引起時延進一步增加。
圖7 他云資源池MEC 健壯性組網(wǎng)
針對上述的四種容災備份的方案架構,本文從容災效果、成本、數(shù)據(jù)安全、業(yè)務時延、帶寬消耗、運維和可行性驗證7 個方面進行了簡單總結,按照高-較高-中-較低-低,五種分類,如表1 所示。
表1 MEC 健壯性組網(wǎng)容災備份方案對比
由于MEC 具備低時延、大帶寬、高數(shù)據(jù)安全等優(yōu)勢,目前MEC 在垂直行業(yè)中的應用不斷深入,正逐漸融入制造、礦山、電力、交通、警務等關系國計民生的重要領域。此類場景業(yè)務對連續(xù)性、可靠性要求極高,因此也對前述MEC 的健壯性提出了進一步的需求和挑戰(zhàn)。主要的挑戰(zhàn)包括以下三個方面:
一是技術挑戰(zhàn),在節(jié)點級備份方案中,主要面臨著解決在多個節(jié)點間應用數(shù)據(jù)的實時遷移、同步和業(yè)務的無感知切換的問題。由于MEC 一般部署在相對分散的企業(yè)園區(qū)、邊緣機房,部署時各節(jié)點在機房、網(wǎng)絡等資源上相互隔離,因此節(jié)點級備份可參考公有云的不同Region 間業(yè)務遷移和備份,在打通兩個節(jié)點間網(wǎng)絡的基礎上,一方面需在Redis、Mysql、Ceph 等底層組件進行相關配置或自行開發(fā)同步工具,另一方面需要應用架構上支持或進行相應改造,例如實現(xiàn)跨Reigon 的Redis 雙活,應用側要進行雙寫改造等,對于一般企業(yè)存在較高的技術難度和門檻。
二是成本挑戰(zhàn),硬件級備份方案類似公有云中同Region 下的跨AZ 區(qū)(即不同的物理機房)高可用或主備,技術方案相對成熟,但企業(yè)園區(qū)或邊緣機房通常不具備公有云大型數(shù)據(jù)中心的機房環(huán)境和網(wǎng)絡條件,因此當業(yè)務運行或遷移時,可能產(chǎn)生較大的東西向流量,瓶頸在于不同物理機房間的網(wǎng)絡帶寬,該方案不可避免的要極大的增大園區(qū)間的專線或VPN 帶寬成本,并且引入了多套MEC 硬件,使得設備投入成倍增長。除此之外,在平臺組件級備份方案中,應用的高可靠HA、多副本等機制,雖然極大可提高了MEC 的可用性,但也導致了對物理資源的進一步占用和損耗。
三是安全挑戰(zhàn),無論是前述任何一種備份方式,都會使企業(yè)數(shù)據(jù)在園區(qū)外進行傳輸,因此不可避免地面臨著傳輸過程中數(shù)據(jù)泄露、竊取、篡改等安全風險。同時,主備模式下的數(shù)據(jù)同步也使得安全問題更加復雜,入侵者植入的病毒、木馬可能會從企業(yè)園區(qū)復制擴散至運營商機房,甚至利用區(qū)域共享的MEC 進一步滲透至其他企業(yè)。除此之外,通過公有云等其他云備份,還會面臨著近年來公有云愈發(fā)凸顯的數(shù)據(jù)安全問題。
MEC 上云、網(wǎng)、應用相互融合,使得運營商網(wǎng)絡中引入了云計算、虛擬化、容器等IT 能力和特征,通過不同層級的主備方案雖然可以提高MEC 的健壯性,但主要提供的是平臺層以下的備份冗余,整體流程實現(xiàn)仍需要企業(yè)、運營商、第三方應用開發(fā)商乃至公有云服務商等多方的通力合作和驗證。