吳新松 裴倫鵬 梅磊 劉曉敏
(1.中國電子技術標準化研究院信息網(wǎng)絡管理處 北京市 100007 2.上海云軸信息科技有限公司 上海市 200241)
隨著計算機和互聯(lián)網(wǎng)的飛速發(fā)展和廣泛應用,以數(shù)字化、網(wǎng)絡化和智能化為代表的數(shù)字時代已悄然來臨,我們正跨步邁入數(shù)字社會。在數(shù)字時代,如何利用云計算、大數(shù)據(jù)、人工智能等新一代信息技術手段支撐推動企事業(yè)單位管理創(chuàng)新和業(yè)務發(fā)展,實現(xiàn)數(shù)字化轉型和高質量發(fā)展已成為一個熱點問題和重大挑戰(zhàn)。
云計算作為產(chǎn)業(yè)實現(xiàn)數(shù)字化轉型、智能化升級的技術底座備受重視,經(jīng)過十幾年的發(fā)展,以IaaS、PaaS 和SaaS 為代表的全球云計算市場規(guī)模已達萬億,已成為數(shù)字時代企事業(yè)單位信息化建設的必選項。私有云建設作為整個云計算生態(tài)中提供底層基礎設施的關鍵,是實現(xiàn)數(shù)字化轉型和高質量發(fā)展首要思考的,也是企事業(yè)單位IT 架構里重要一環(huán)。對于千人規(guī)模的科研事業(yè)單位,如何基于自身的業(yè)務、技術和組織需求,選擇正確的云服務模式,直面上云場景中的真實痛點,形成完整、標準、可復制的落地解決方案,讓云計算精準落地,提高信息基礎設施的資源利用率和自動化運維水平是一個值得研究的課題。下面結合某科研事業(yè)單位的私有云建設情況進行探討。
某事業(yè)單位在原有的管理模式和傳統(tǒng)的IT 架構下,已具備了較為完善的信息化基礎環(huán)境,信息化部門負責基礎網(wǎng)絡、機房設施的建設、運維和管理,業(yè)務部門圍繞科研課題任務涉及的專用系統(tǒng)及配套服務器、存儲等的建設、實施與運維,業(yè)務系統(tǒng)的部署基本采用獨占模式。
1.1.1 資源綜合利用率低,無法動態(tài)分配,引起重復建設和資源浪費的問題
在這種模式下,業(yè)務系統(tǒng)與物理服務器強耦合,即使業(yè)務系統(tǒng)的資源占用較低也會獨占一定的服務器資源,空閑的資源無法釋放供其他業(yè)務系統(tǒng)使用。而對于資源占用較高的業(yè)務系統(tǒng)較難實現(xiàn)資源的動態(tài)擴展,資源的綜合利用率低。
1.1.2 運維成本高,運維效率低
業(yè)務系統(tǒng)的獨占部署模式會進一步導致運維的成本和復雜度,一是需要配備更多的運維人力,但信息化部門人力資源相對有限,再分散到各業(yè)務部門人員的運維能力相對更為薄弱,這便導致運維工作壓力越來越大。一方面會占用科研人員的科研時間和精力,另一方面會影響運維的及時性和專業(yè)性。
1.1.3 業(yè)務服務質量無法保證,應用部署及交付慢
單業(yè)務系統(tǒng)較少考慮到存儲、備份、業(yè)務連續(xù)性等的統(tǒng)一規(guī)劃,出現(xiàn)故障后需要較長時間來進行系統(tǒng)性的恢復或重建;新應用的部署和交付要從基礎的接入、上架、基礎環(huán)境安裝配置開始,部署周期長,應用交付慢;尤其是對一些涉及多系統(tǒng)部署的復雜仿真測試平臺,測試環(huán)境的切換和初始化更是費時費力。
該單位即將啟動信息化改造工程,涉及十幾個科研辦公管理系統(tǒng)的整合提升改造,并為此準備了一批服務器、存儲硬件配套資源,但按照獨占部署模式已無法支撐相關系統(tǒng)的開發(fā)測試及運行需求。同時該單位對數(shù)據(jù)的安全性有較嚴格的管控要求,只能部署在私有環(huán)境中。
綜上,非常有必要將信息基礎設施和資源與業(yè)務應用剝離,集約建設、統(tǒng)一管理、按需使用,形成公共服務平臺支撐各級各類信息化建設和業(yè)務創(chuàng)新。
建設的遠景目標是通過對原有IT 基礎設施開展云化改造,循序漸進開展私有云平臺建設,逐步實現(xiàn)信息化基礎設施資源的統(tǒng)一規(guī)劃、統(tǒng)一建設、按需調配、即需即用、有效共享。在有效降低重復建設投資、節(jié)能環(huán)保的基礎上,提高基礎設施資源的利用率,降低運維成本提高運維效率,統(tǒng)一支撐各級各類系統(tǒng)建設運行,支撐單位管理創(chuàng)新和業(yè)務高質量發(fā)展。
近期建設任務聚焦在以存量的計算、存儲、網(wǎng)絡資源為基礎,初步建設形成彈性可擴展的科研辦公基礎云平臺,滿足單位科研辦公管理系統(tǒng)測試開發(fā)需要。
云化改造從需求分析開始,結合存量服務器、存儲設備和網(wǎng)絡設備的品牌和型號,進行私有云平臺的技術選型。選型確定后,進行云管平臺和相關設備的采購、安裝以及調試。完成私有云的部署交付后,開展業(yè)務系統(tǒng)的部署調測,經(jīng)過驗收進入運維階段。
在保障業(yè)務系統(tǒng)開發(fā)運行的基礎上,充分考慮單位的云平臺的可持續(xù)性發(fā)展和后續(xù)擴容建設,把握以下原則:
3.1.1 平臺輕量化,管理簡單化原則
云平臺應為輕量級架構設計,管理節(jié)點要求低,占用資源少,將有限資源應用于資源池;應安裝部署應簡單快速、UI 交互界面友好、管理和運維可視化、操作簡捷運維。
3.1.2 兼容性與利舊能力
應具備較好的硬件異構和利舊能力,保證現(xiàn)有的各類X86 架構品牌和配置的服務器、SAN/NAS 存儲可以被充分利,以滿足開發(fā)測試、核心業(yè)務等多個環(huán)境的構建;同時應兼容ARM 架構,具備適配自主可控的服務器的能力。
3.1.3 高可靠性與高性能
必須確保在云平臺上運行的各類科研辦公業(yè)務的穩(wěn)定性和可訪問性,用戶體驗至關重要,需采用科學、精簡、高性能的資源管理與服務提供技術,同時確保云主機不停機、業(yè)務不停止、網(wǎng)絡不中斷。
3.1.4 跨云化、開放性與自主可控
云平臺應具備一定的開放性和擴展性。
圖1:基礎云平臺基礎部署架構圖
(1)能夠管理多種公有云、私有云、及多種異構云基礎設施,提供統(tǒng)一的一站式多云管理服務。
(2)能夠遇到特殊業(yè)務場景,可根據(jù)需求進行二次開發(fā)集成。
(3)應具有自主知識產(chǎn)權,云平臺核心代碼開源,符合國產(chǎn)化要求。
按照滿足現(xiàn)有需求并預留擴展空間的原則,該單位對主流私有云解決方案廠商(華為、浪潮、VMware、電信云、ZStack 等)方案及產(chǎn)品進行了調研與比對。
方案大致分為三類:
(1)硬件廠商方案,存在與廠商自身硬件設備結合較緊密,開放性不夠友好,廠家之間互相設置門檻,對存量采購的設備納管存在問題,異構設備兼容性問題較大,后續(xù)擴展限制較多;
(2)運營商由公有云方案瘦身演變而成的方案,架構基于公有云縮減功能來實現(xiàn),設計及管理方式比較復雜,對硬件的數(shù)量和要求比較高,起步門檻較高;
(3)第三方私有云廠商,如今年發(fā)展較快的ZStack 云,屬于輕量級云平臺,對硬件要求相對較低,能適配現(xiàn)有技改服務器及存儲設備,能夠納管阿里公有云及VMware 虛擬化,有自主知識產(chǎn)權,并已完成與華為鯤鵬、中科麒麟等國產(chǎn)化產(chǎn)品的適配,核心代碼開源后續(xù)能夠針對單位各類需求做定制化開發(fā),兼容性和擴展性相對較好。綜合考慮后該單位采用阿里私有云產(chǎn)品ZStack 私有云產(chǎn)品。
4.1.1 部署交付
基于存量的服務器及存儲資源,擬采用混合存儲模式構建該單位的內、外網(wǎng)兩套基礎云平臺。每套云平臺使用十余臺存量高性能機架式服務器構建計算資源池(管理節(jié)點復用)、2 臺FC 存儲陣列和3 臺超融合存儲服務器構建存儲資源池,并提供彈性擴容、高可用、數(shù)據(jù)備份、可視化監(jiān)控等管理手段。分別作為該單位內外計算、網(wǎng)絡、存儲資源整合基座。
基礎云平臺基礎部署架構圖如圖1 所示。
(1)計算資源池。共有12 臺機架式浪潮服務器,其中兩臺浪潮服務器管理節(jié)點和計算節(jié)點復用。當其中任何一個管理節(jié)點失聯(lián),秒級觸發(fā)高可用切換,從而保障ZStack 管理節(jié)點持續(xù)提供服務。其他服務器均作為計算節(jié)點。所有服務器均接入FCSAN 存儲。使用FCSAN 作為主存儲。
(2)存儲資源池。2 臺存儲陣列配置FCSAN 集中式存儲,配置存儲鏈路多路徑,以支持IO 負載均衡及鏈路冗余,規(guī)劃了個14TB LUN,作為主存儲使用,主要提供云主機的系統(tǒng)云盤、數(shù)據(jù)云盤、快照數(shù)據(jù)及備份數(shù)據(jù)等。同時復用3 臺浪潮x86 服務器,采用超融合方式部署,提供KVM 虛擬化和分布式存儲服務。
(3)網(wǎng)絡拓撲。管理網(wǎng)絡采用雙千兆,用于管理云平臺相關的硬件資源。IPMI 與管理網(wǎng)絡共用,實現(xiàn)對服務器的遠程管理。業(yè)務網(wǎng)絡采用雙萬兆,對外提供應用服務。
4.1.2 系統(tǒng)遷移
逐步將各類應用系統(tǒng)由物理機遷移至基礎云平臺,配置高可用、應用自啟動及數(shù)據(jù)定期備份策略;替換下來的服務器視情下架或利舊使用,升級作為計算節(jié)點納入云平臺管理。通過第三方遷移工具將業(yè)務系統(tǒng)所在服務器操作系統(tǒng)整體遷移上云。
遷移路徑:
步驟1:物理機虛擬化。
步驟2:虛擬機遷移上云。
步驟3:配置高可用、應用自啟動及數(shù)據(jù)定期備份策略。
實施過程遇到最多的困難是利舊服務器、存儲設備上云的硬件兼容性問題以及由此帶來的計算、存儲、網(wǎng)絡傳輸性能瓶頸,后續(xù)應逐步予以規(guī)范化。
系統(tǒng)遷移過程的難點是操作系統(tǒng)跨平臺遷移后,因底層虛擬化硬件變化帶來的驅動重新安裝,引發(fā)的各類服務、磁盤掛載異常問題。
建成并持續(xù)優(yōu)化了2 個基礎云平臺,能夠提供完整的IAAS 服務,實現(xiàn)了對計算、存儲資源的整合和調度,在有限資源的基礎上實現(xiàn)了對多業(yè)務系統(tǒng)穩(wěn)定可靠運行的有效保障。平均每臺物理服務器承載了三個云主機,平均性能負載指標提升到50%以上,大大提高了資源的使用效率,并能夠提供高可用和動態(tài)擴容,提高了云主機的運行可靠性。具備了業(yè)務快速部署和服務交付能力,交付時間從以前的一天縮短到10 分鐘以內,具備了一定的數(shù)據(jù)災備和恢復能力,能夠通過備份快速恢復或者重構業(yè)務系統(tǒng)。
該單位在3月份接到了一個應急仿真測試任務,要求搭建涉及幾十個大型系統(tǒng)的仿真測試環(huán)境,開展攻防演練和測試。使用ZSTACK 云平臺,僅用一周時間,就完成了涉及40 臺計算節(jié)點、5臺超融合存儲、5 臺FC 陣列在內的仿真測試云平臺的規(guī)劃、部署實施及上線運行,交付了100 余臺高性能云主機。
私有云的建設是一個逐步深化整合的過程,上述基礎云平臺的規(guī)劃實施只是其中一個階段性工作,通過實施也及時發(fā)現(xiàn)了存在的問題和不足,為下一步的改進提供了參考和依據(jù)。
(1)在硬件層面,計算、網(wǎng)絡、存儲等物理硬件層設備應按照云平臺接入要求逐步統(tǒng)一配置和接口,形成云平臺接入設備規(guī)范;
(2)在應用層面,硬件層面存在的規(guī)范化問題,在操作系統(tǒng)、數(shù)據(jù)庫、中間件、開發(fā)平臺等應用層面同樣存在,需要通過PaaS方式進一步整合軟件的基礎環(huán)境。
(3)在管理層面,同單位不同部門所屬的基礎資源量和對云計算的訴求存在差異,需進一步探討和建立單位內部資源共建共享的機制和模式。
相比較傳統(tǒng)的信息系統(tǒng)安全而言,云計算面臨更多的安全挑戰(zhàn),傳統(tǒng)信息系統(tǒng)里的漏洞到了云主機環(huán)境可能會被無限放大,除了云平臺安全,還需考慮云上系統(tǒng)的安全,要全方位構建事前預防、事中響應、事后審計的動態(tài)安全保障體系。
上述單位私有云規(guī)劃、建設、實施落地全過程中存在的需求、問題及難點具有相當?shù)钠毡樾裕夹g方案也具有一定的通用性和示范意義,可為千人規(guī)模企事業(yè)單位私有云建設提供參照。