劉百祥, 趙澤宇, 張 凱
(復(fù)旦大學(xué)校園信息化辦公室,上海 200433)
隨著虛擬化技術(shù)的發(fā)展,IT行業(yè)逐漸由關(guān)注客戶機服務(wù)器的第二平臺轉(zhuǎn)向以移動設(shè)備、云服務(wù)、社交網(wǎng)絡(luò)和大數(shù)據(jù)為基礎(chǔ)的第三平臺[1].國內(nèi)各高校掀起利用虛擬化搭建內(nèi)部基礎(chǔ)設(shè)施平臺的浪潮,校園信息化也逐漸體現(xiàn)出更多第三平臺的特點,對支撐信息業(yè)務(wù)的基礎(chǔ)設(shè)施平臺提出了穩(wěn)定性、可靠性、擴展性、數(shù)據(jù)安全、大數(shù)據(jù)支持等更高要求,校園基礎(chǔ)設(shè)施從傳統(tǒng)為應(yīng)用服務(wù)轉(zhuǎn)變?yōu)槠脚_型服務(wù).
近幾年,復(fù)旦大學(xué)在虛擬化建設(shè)方面不斷發(fā)展與改進,建成了支持七個集群、五百多個應(yīng)用的大規(guī)模虛擬化集群.本文將從架構(gòu)、效果等方面介紹復(fù)旦大學(xué)在基礎(chǔ)設(shè)施建設(shè)過程中對虛擬化平臺架構(gòu)開展的工作及相關(guān)經(jīng)驗.
高校的信息化工作業(yè)務(wù)特征比較明顯,存在以下幾個問題.
(1)校園信息化應(yīng)用規(guī)模龐大,分類復(fù)雜
校園信息化應(yīng)用涵蓋了數(shù)據(jù)庫、業(yè)務(wù)系統(tǒng)、網(wǎng)站、電子郵件、大數(shù)據(jù)分析等多種類型的IT應(yīng)用,存在CPU密集、磁盤密集、I/O密集、帶寬密集等不同的特性,對計算、存儲、網(wǎng)絡(luò)資源提出了不同的需求.基礎(chǔ)設(shè)施層面無法簡單的通過相同的設(shè)備提供服務(wù),需要針對不同的應(yīng)用特點量身定制[2].
(2)數(shù)據(jù)重要性提升,數(shù)據(jù)業(yè)務(wù)處理復(fù)雜度加大
大量信息化應(yīng)用產(chǎn)生了不同特點的數(shù)據(jù),存儲平臺需要滿足最基本的業(yè)務(wù)數(shù)據(jù)容量需求.從數(shù)據(jù)備份和恢復(fù)而言,不同數(shù)據(jù)的RTO時間和RPO時間[3]需求完全不同,重要數(shù)據(jù)如核心數(shù)據(jù)庫、一卡通金融數(shù)據(jù)需要更頻繁的備份周期甚至提供CDP[4]支持;從訪問方式視角看,結(jié)構(gòu)化數(shù)據(jù)或文檔型數(shù)據(jù)會利用塊式存儲、歸檔型存儲和私有云存儲來滿足不同特點;從存儲性能角度,數(shù)據(jù)庫索引、點播系統(tǒng)、郵件歸檔等不同業(yè)務(wù)提出不同的IOPS、響應(yīng)時間需求.
(3)硬件資源管理模式落后,缺乏整體規(guī)劃和有效利用
傳統(tǒng)的校園信息化基礎(chǔ)設(shè)施的管理存在諸多問題:在一個項目內(nèi)部,資源全部為該項目服務(wù),基礎(chǔ)設(shè)施使用規(guī)劃不合理,大量設(shè)備處于低效率運行狀態(tài);在項目的實施全過程中,從技術(shù)方案選型、初期測試、方案實施到穩(wěn)定運行,在不同時間節(jié)點都提出不同的硬件需求,而硬件管理團隊通過不同的方式滿足項目需求:提前采購生產(chǎn)環(huán)境設(shè)備僅憑廠商經(jīng)驗確定需求,需求不明確,可能會存在設(shè)備閑置情況;較長的設(shè)備采購周期也容易遭遇硬件能力估計不足,即時擴容困難等問題;使用老舊服務(wù)器拼湊實施環(huán)境,雖然能根據(jù)實際使用情況決定生產(chǎn)環(huán)境設(shè)備且充分利舊,卻會因設(shè)備故障率高、測試環(huán)境和生產(chǎn)環(huán)境缺乏一致性,造成拆東墻補西墻的情況;研發(fā)人員提出的科研測試型需求,在未達到項目級別時,很難獲取恰當(dāng)?shù)挠布Y源,個人PC和老舊服務(wù)器成為最主要的測試環(huán)境,遠遠不足以滿足測試的需求.
(4)托管業(yè)務(wù)需求多樣化,缺乏有效管理
近年信息化應(yīng)用的爆發(fā)式增長對計算資源的數(shù)量和穩(wěn)定性提出了更高要求,更多的院系部門提出托管服務(wù)器或者業(yè)務(wù)系統(tǒng)的需求.硬件主機托管服務(wù)存在大量問題:設(shè)備來源、型號繁多,配置不合理,保修渠道不暢,管理難度巨大;同時,大量的設(shè)備進入機房,空間、空調(diào)和電力資源等負(fù)荷過重;軟件方式托管又無法滿足用戶的復(fù)雜軟件環(huán)境需求,難以大規(guī)模推廣;早期的托管服務(wù)僅僅局限于虛擬主機方式,還存在大量的限制條件.而無論何種模式,托管業(yè)務(wù)用戶管理員缺乏專業(yè)技能,系統(tǒng)缺少必要的安全配置,在數(shù)據(jù)安全和系統(tǒng)安全都存在較大隱患.
信息化部門必須尋找新的基礎(chǔ)設(shè)施建設(shè)和管理方案,以解決校園信息化過程中存在的這些問題.虛擬化技術(shù)逐漸成熟,開源方案或者商業(yè)產(chǎn)品可用性已經(jīng)逐漸提升,虛擬化方案所包含的計算資源、存儲資源、網(wǎng)絡(luò)資源等實施成本也降低到可以承受的范圍,管理團隊的學(xué)習(xí)成本也逐漸降低.因此,復(fù)旦大學(xué)全面啟動虛擬化集群的建設(shè)工作.
綜合現(xiàn)階段需求和技術(shù)特點,復(fù)旦大學(xué)提出了以平臺化建設(shè)為基礎(chǔ),面向服務(wù),逐步完善的虛擬化建設(shè)目標(biāo),預(yù)期通過幾年的時間,逐步擴大虛擬化應(yīng)用平臺的軟硬件規(guī)模,淘汰傳統(tǒng)的物理機模式,建立一個支持多集群、多業(yè)務(wù)、可管理的虛擬化服務(wù)平臺.
建設(shè)要點如下.
(1)依托虛擬化技術(shù)特點構(gòu)建校園計算資源服務(wù)平臺,為校園信息化中各類應(yīng)用提供硬件支持.提供校園級平臺硬件資源整體規(guī)劃,考慮新舊設(shè)備兼容,依照設(shè)備生命周期進行合理調(diào)度.
(2)提供計算資源平臺,滿足校園信息化自有業(yè)務(wù)和院系、個人需求;提供平臺化數(shù)據(jù)存儲保護服務(wù),覆蓋塊式、文件式、云存儲,高中低性能、存檔式存儲等不同需求的數(shù)據(jù)空間服務(wù),持續(xù)數(shù)據(jù)保護、鏡像保護、備份保護等多等級的保護機制;構(gòu)建靈活高效的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),滿足基礎(chǔ)設(shè)施網(wǎng)絡(luò)需求,利用虛擬化特性提供便捷網(wǎng)絡(luò)配置,提供虛擬端口安全控制,提供跨區(qū)域二層網(wǎng)絡(luò)融合支持[5].提供應(yīng)用程序虛擬化和桌面虛擬化能力,逐漸提供全方位的虛擬化業(yè)務(wù)支持.
(3)為業(yè)務(wù)系統(tǒng)建設(shè)過程從可行性分析、測試、實施等各階段提供一致的基礎(chǔ)環(huán)境平臺;利用虛擬化的優(yōu)勢提高設(shè)備利用率,優(yōu)化資源配置,簡化硬件資源申請分配流程;直接提供軟件業(yè)務(wù)托管,減少甚至取消硬件主機托管.構(gòu)建相對安全的計算資源托管平臺,通過網(wǎng)絡(luò)隔離、操作系統(tǒng)封裝等多種手段解決服務(wù)器托管難題.
(4)構(gòu)建一支基礎(chǔ)設(shè)施管理團隊,有效處理計算、存儲、網(wǎng)絡(luò)等多種資源的組織和協(xié)調(diào)工作.熟悉常規(guī)的虛擬化相關(guān)軟硬件、系統(tǒng)安全常識,擁有專業(yè)虛擬化技能,能夠在運維工作中解決常見問題,避免出現(xiàn)管理人員瓶頸.
針對校園信息化的業(yè)務(wù)特征,在設(shè)計虛擬化平臺時,應(yīng)當(dāng)考慮如下要點.
(1)集群式架構(gòu)
校園信息化應(yīng)用繁雜,不同的業(yè)務(wù)存在不同的資源需求,可靠性等級也有所不同.針對專用應(yīng)用,如電子郵件服務(wù)、一卡通業(yè)務(wù),采用專有計算資源集群的設(shè)計,完全和其他業(yè)務(wù)隔離,避免資源爭搶,提供安全保障;而其他同類業(yè)務(wù),如E-learning平臺、招生系統(tǒng)等,擁有近似的可靠性、計算存儲能力、網(wǎng)絡(luò)特性要求,因此合并在相同的業(yè)務(wù)集群進行服務(wù).集群式設(shè)計可以有效地簡化平臺的設(shè)計復(fù)雜程度,同時根據(jù)業(yè)務(wù)增長進行輕松擴充,在新舊設(shè)備更替時完全無需中斷業(yè)務(wù).另外一些低可靠性需求應(yīng)用集群,可以利用臨近或超過保修時間的硬件設(shè)備,節(jié)省投資.部分集群特點如表1所示.
(2)存儲平臺化
針對不同應(yīng)用的數(shù)據(jù)需求,從鏈路層、訪問協(xié)議、容量和速度多個方面提供不同的存儲服務(wù),針對虛擬化構(gòu)建用戶無感知的備份恢復(fù)服務(wù),同時也提供常規(guī)的備份模式,如圖1所示.
表1 業(yè)務(wù)集群特點
圖1 存儲平臺化服務(wù)
依托于業(yè)務(wù)集群特征,設(shè)計FC鏈路和iSCSI鏈路的塊式存儲,存儲內(nèi)部選擇磁盤混插,提供自動或者人工的存儲分層能力;在全局提供NAS存儲,只要網(wǎng)絡(luò)聯(lián)通即可訪問,便捷實用,為歸檔和臨時目的服務(wù);提供云存儲服務(wù)接口,通過Restful方式提供業(yè)務(wù)直接調(diào)用,同時在云存儲層面提供更高級的自動熱點,文件去重服務(wù).
(3)精細網(wǎng)絡(luò)管理
數(shù)據(jù)中心網(wǎng)絡(luò)指虛擬化平臺業(yè)務(wù)網(wǎng)絡(luò)和承載虛擬化存儲鏈路的網(wǎng)絡(luò),具有高速率、低延遲等特點.針對高密度應(yīng)用特點,選擇10G、多組10G綁定方式提供高帶寬支持;分離傳統(tǒng)核心交換機和數(shù)據(jù)中心網(wǎng)絡(luò)交換機,避免數(shù)據(jù)中心網(wǎng)絡(luò)受正常網(wǎng)絡(luò)壓力影響;進行VLAN隔離,分離業(yè)務(wù),便于進行安全控制[6].
復(fù)旦大學(xué)虛擬化服務(wù)平臺設(shè)計采用如表2的VLAN設(shè)計.
表2 網(wǎng)絡(luò)VLAN設(shè)計
(4)虛擬化安全
由于虛擬化集群的高密度特性,應(yīng)用間容易相互干擾,故障發(fā)生時難于準(zhǔn)確定位,需要提供詳細的監(jiān)控機制對虛擬機的運行異常進行監(jiān)控[7].在網(wǎng)絡(luò)安全方面,設(shè)計對虛擬機網(wǎng)絡(luò)進行網(wǎng)絡(luò)隔離,在虛擬化端口層進行帶寬限制和流量整形設(shè)置,在高風(fēng)險區(qū)域提供更頻繁漏洞掃描,提供防火墻控制;在服務(wù)管理方面,采用虛擬機模板提供服務(wù),維護經(jīng)過安全設(shè)置的虛擬機模板,強制設(shè)置自動更新和殺毒軟件,直接交付配置完成的操作系統(tǒng)給最終用戶.此外,還對虛擬機管理進行分級,僅交付用戶最基本的使用權(quán)限.
(5)冗余式架構(gòu)
為保障服務(wù)安全,針對虛擬化架構(gòu)特點進行設(shè)備冗余設(shè)計,包括冗余的供電系統(tǒng)、網(wǎng)絡(luò)鏈路、存儲鏈路、存儲控制器協(xié)同工作,避免單點故障的出現(xiàn);同時,集中化的存儲設(shè)備、刀片設(shè)備也提供了不同層次的冗余,降低了管理復(fù)雜度,以大量低成本設(shè)備提供了更高的設(shè)備安全等級.圖2以簡化的方式展示了復(fù)旦大學(xué)虛擬機集群的冗余式架構(gòu).
圖2 冗余式架構(gòu)設(shè)計示意圖
(6)跨校區(qū)數(shù)據(jù)中心架構(gòu)
復(fù)旦大學(xué)利用學(xué)校自身多校區(qū)的特性,將虛擬化平臺設(shè)計成跨校區(qū)數(shù)據(jù)中心架構(gòu).在各校區(qū)單獨搭建虛擬化平臺,以虛擬化消除硬件差異的能力,利用網(wǎng)絡(luò)的二層互通特性,提供多區(qū)域服務(wù)的能力.由于學(xué)校具備校區(qū)間光纖鏈路互聯(lián)的優(yōu)勢,部分敏感應(yīng)用可以利用通過高速鏈路互相鏡像,將傳統(tǒng)的災(zāi)備模式變成跨區(qū)域雙活(多活)模式,配合第三方的仲裁主機,可以在任何一個節(jié)點的網(wǎng)絡(luò)、存儲、計算平臺任意元素出現(xiàn)整體故障時,完整切換至另一個中心運行,實現(xiàn)虛擬化平臺的跨校區(qū)容災(zāi)備份.
隨著虛擬化平臺的建成與運行,復(fù)旦大學(xué)已經(jīng)將除核心數(shù)據(jù)庫以外的絕大部分應(yīng)用轉(zhuǎn)移至虛擬化平臺運行.通過如計算能力、存儲速度等的物理資源能力分級,進行邏輯劃分,提供如關(guān)鍵業(yè)務(wù)、beta測試、個人測試、應(yīng)用虛擬化、托管、視頻轉(zhuǎn)播、網(wǎng)絡(luò)應(yīng)用等多個邏輯集群,進行業(yè)務(wù)分等級服務(wù),現(xiàn)已形成包含測試與存檔在內(nèi)的超過500臺虛擬機集群環(huán)境,如圖3所示.
圖3 虛擬化架構(gòu)
虛擬化平臺整體提供約100T的業(yè)務(wù)級塊式存儲,根據(jù)業(yè)務(wù)特點選擇存儲介質(zhì)(SSD、高速SAS磁盤、低速NLSAS磁盤)、存儲鏈路(FC、iSCSI、NAS)和業(yè)務(wù)存儲(高性能控制器、低性能控制器);利用虛擬化特點提供用戶無感知的備份與恢復(fù)服務(wù);提供超過600T容量的存檔存儲和云式存儲,利用云存儲特性提供Restful訪問接口和自動熱點、文件級去重等服務(wù).
虛擬化平臺采用分離網(wǎng)絡(luò)設(shè)備,在每個校區(qū)使用虛擬化平臺專用的數(shù)據(jù)中心交換機,保障10G*2鏈路至校區(qū)核心設(shè)備,同時在網(wǎng)絡(luò)中配置大二層融合的模式、以提供應(yīng)用的無縫遷移.
虛擬化平臺構(gòu)建用戶虛擬化托管服務(wù)機制,不再接受用戶物理主機托管,已經(jīng)接收了超過200個托管服務(wù)需求,配合更強的安全管控,保障托管業(yè)務(wù)安全性提升.
此外,復(fù)旦大學(xué)基于虛擬化平臺開始進行桌面虛擬化服務(wù)的測試準(zhǔn)備工作,在部門桌面系統(tǒng)進行部分瘦客戶機的測試;利用應(yīng)用虛擬化服務(wù)向校內(nèi)師生提供計算軟件托管服務(wù),同時解決軟件授權(quán)控制和用戶計算資源服務(wù)的問題.
對于特殊需求的業(yè)務(wù)系統(tǒng),針對不同業(yè)務(wù)的自身特點,配合不同的虛擬化能力,復(fù)旦大學(xué)建設(shè)了面向特定業(yè)務(wù)系統(tǒng)的虛擬化集群,包括校園一卡通虛擬化集群和視頻服務(wù)虛擬化集群.
(1)校園一卡通虛擬化集群
財務(wù)敏感數(shù)據(jù)的保護對一卡通業(yè)務(wù)的基礎(chǔ)設(shè)施提出了極高要求,因此利用存儲復(fù)制鏡像設(shè)備提供了跨校區(qū)的備份和恢復(fù)模式,在提供數(shù)據(jù)的本地CDP保護和實時鏡像前提下,又提供了跨區(qū)域異步復(fù)制的保護.通過實施虛擬化平臺,復(fù)旦大學(xué)的校園一卡通系統(tǒng)建立冷備模式[8],可以保證在主校區(qū)設(shè)備全部故障的情況下,通過半自動方式,在另一校區(qū)恢復(fù)業(yè)務(wù),RTO時間可以達到少于7秒.校園一卡通虛擬化集群架構(gòu)如圖4所示.
圖4 校園一卡通虛擬化集群
(2)視頻服務(wù)虛擬化集群[9]
利用虛擬化的快速復(fù)制、差異封裝等特性,復(fù)旦大學(xué)在虛擬化平臺的基礎(chǔ)上構(gòu)建可伸縮的視頻轉(zhuǎn)播集群,改變傳統(tǒng)的堆砌設(shè)備性能為隨用戶需求擴充.通過合理搭配利用設(shè)備,將高計算能力設(shè)備部署為編碼集群,在分校區(qū)使用老舊設(shè)備作為分發(fā)集群,可以隨時快速擴展.視頻服務(wù)虛擬化集群的架構(gòu)如圖5所示.在校園講座、課程和世界杯等直播活動中,該集群以6臺物理服務(wù)器的能力,可支撐超過2000路并發(fā)高清視頻直播.
圖5 視頻服務(wù)虛擬化集群
復(fù)旦大學(xué)虛擬化平臺建設(shè)經(jīng)歷了逐漸演變的過程,分別為技術(shù)試驗階段、技術(shù)完備與輕量級業(yè)務(wù)支撐階段、穩(wěn)定業(yè)務(wù)平臺與虛擬化管理規(guī)范階段、數(shù)據(jù)中心化階段、跨校區(qū)數(shù)據(jù)中心階段和擴展服務(wù)階段.技術(shù)架構(gòu)、用戶觀念、工作方式、管理團隊等經(jīng)過若干階段發(fā)展和經(jīng)驗總結(jié),逐漸穩(wěn)定成熟.
隨著虛擬化的實施,傳統(tǒng)的受制于項目固定硬件的需求一下被釋放出來.因此,在管理過程中,復(fù)旦大學(xué)通過建立用戶分級授權(quán)、需求完善準(zhǔn)入和資源需求評估機制,引入全生命周期管理工具,有效的減少了虛擬化帶來的“資源浪費”現(xiàn)象;同時,利用虛擬化模板技術(shù),建立安全的操作系統(tǒng)模板交付托管部門使用,以VLAN隔離、端口流量整形和漏洞掃描等方式增強系統(tǒng)安全性.
虛擬化平臺建設(shè)已經(jīng)成功地構(gòu)建了整體式的資源服務(wù)方式,其穩(wěn)定可靠性也在實際環(huán)境中得到了驗證,同時利用虛擬化帶來的諸多好處有效的提升了為信息化服務(wù)的能力.
[1] 天虹.第三IT平臺是2014年關(guān)鍵趨勢:大數(shù)據(jù)價值轉(zhuǎn)移[EB/OL].(2014-02-07)[2014-10-20].http://news.ccidnet.com/art/946/20140207/5344357_1.html.
[2] 宓詠,趙澤宇,劉百祥.云服務(wù)在高??平绦畔⒒械膽?yīng)用[C]//中國科研信息化藍皮書2013.北京:科學(xué)出版社,2013:137-149
[3] ASPREET SINGH.Understanding RPO and RTO[EB/OL].(2008-03-22)[2014-10-20].http://www.druva.com/blog/understanding-rpo-and-rto.
[4] WIKIPEDIA.Continuous data protection[EB/OL].[2014-10-20].http://en.wikipedia.org/wiki/Continuous_data_protection.
[5] VMWARE.Virtual-Network-Design-Guide[EB/OL].[2014-10-20].http://www.vmware.com/resources/techresources/10354.
[6] VMWARE.vSphere網(wǎng)絡(luò)[EB/OL].[2014-10-20].http://pubs.vmware.com/vsphere-55/topic/com.vmware.ICbase/PDF/vsphere-esxi-vcenter-server-551-networking-guide.pdf.
[7] VMWARE.vSphere監(jiān)控和性能[EB/OL].[2014-10-20].http://pubs.vmware.com/vsphere-55/topic/com.vmware.ICbase/PDF/vsphere-esxi-vcenter-server-551-monitoring-performance-guide.pdf.
[8] EMC.校園信息化進入虛擬數(shù)據(jù)中心時代[EB/OL].[2014-10-20].www.chinabyte.com/uploadImages/2014/115/M7 W9SA92R7D9.pdf.
[9] 賈嶠,唐靖寅,劉百祥.復(fù)旦大學(xué):高清視頻多級分發(fā)轉(zhuǎn)播之道[J].中國教育網(wǎng)絡(luò),2012(8):72-74