劉 佳,高 洋,安婷玉,安 琪
近年來(lái),我國(guó)鐵路信息化飛速發(fā)展,已逐步建成了龐大的對(duì)內(nèi)、對(duì)外生產(chǎn)服務(wù)的信息網(wǎng)絡(luò),打造了涵蓋鐵路各領(lǐng)域的業(yè)務(wù)系統(tǒng)[1]。在鐵路主數(shù)據(jù)中心,建成了全國(guó)統(tǒng)一的鐵路信息化基礎(chǔ)設(shè)施——云平臺(tái),實(shí)現(xiàn)了絕大部分業(yè)務(wù)應(yīng)用系統(tǒng)向云計(jì)算架構(gòu)的遷移,這對(duì)于解決信息化發(fā)展瓶頸問(wèn)題,降低重復(fù)建設(shè)投資,實(shí)現(xiàn)節(jié)能環(huán)保,以及更加高效、穩(wěn)定、安全和可靠地服務(wù)信息化應(yīng)用等方面,發(fā)揮了重要作用[2-3]。
面對(duì)國(guó)際安全形勢(shì)的日益嚴(yán)峻,在信息化快速發(fā)展的同時(shí),國(guó)產(chǎn)化及網(wǎng)絡(luò)安全自主可控需求愈加凸顯,國(guó)產(chǎn)化替代工作勢(shì)在必行[4-5]。鐵路作為國(guó)民經(jīng)濟(jì)的大動(dòng)脈,其信息系統(tǒng)承載著大量的鐵路業(yè)務(wù)數(shù)據(jù)、公民個(gè)人信息等,一旦遭到破壞并影響正常使用,將對(duì)國(guó)家安全、經(jīng)濟(jì)穩(wěn)定和公眾安全產(chǎn)生重要影響[6]。隨著鐵路云平臺(tái)上層信息系統(tǒng)面臨的網(wǎng)絡(luò)安全威脅,以及底層基礎(chǔ)軟硬件技術(shù)封鎖風(fēng)險(xiǎn)的不斷攀升,鐵路云平臺(tái)國(guó)產(chǎn)化改造迫在眉睫。
鐵路云計(jì)算平臺(tái)在建設(shè)初期就考慮到底層技術(shù)的自主可控,為了避免出現(xiàn)完全依靠國(guó)外技術(shù)的情況,選擇了自主研發(fā)云平臺(tái)技術(shù)與成熟商業(yè)產(chǎn)品異構(gòu)統(tǒng)管的技術(shù)方案[7]。其中,自主研發(fā)架構(gòu)是以鐵信云產(chǎn)品為核心,正式生產(chǎn)運(yùn)行情況良好。然而,鐵信云產(chǎn)品受整體技術(shù)條件限制,其服務(wù)器、CPU、操作系統(tǒng)等核心組件仍然受國(guó)外技術(shù)壟斷控制,無(wú)法完全實(shí)現(xiàn)自主、可控的目標(biāo)。因此,需將鐵路云平臺(tái)自研技術(shù)向國(guó)產(chǎn)體系遷移適配,屏蔽底層不同的技術(shù)路線對(duì)應(yīng)用系統(tǒng)帶來(lái)的影響,進(jìn)一步提升鐵路信息化基礎(chǔ)設(shè)施的安全可控性。
鐵路云平臺(tái)規(guī)劃包括基礎(chǔ)設(shè)施服務(wù)層(IaaS)和平臺(tái)服務(wù)層(PaaS),目前已完成IaaS層建設(shè)和部署,并穩(wěn)步推進(jìn)PaaS層研發(fā)工作。鐵路云平臺(tái)以O(shè)penStack架構(gòu)為基礎(chǔ),實(shí)現(xiàn)對(duì)計(jì)算資源池、存儲(chǔ)資源池和網(wǎng)絡(luò)資源池的統(tǒng)一管理和調(diào)度,為信息系統(tǒng)應(yīng)用部署提供基礎(chǔ)資源服務(wù)。鐵路云平臺(tái)整體架構(gòu)見(jiàn)圖1。
圖1 鐵路云平臺(tái)整體架構(gòu)
1)鐵路主數(shù)據(jù)中心的建設(shè)發(fā)展應(yīng)堅(jiān)持走國(guó)產(chǎn)化之路,要對(duì)鐵路云平臺(tái)的國(guó)產(chǎn)化需求進(jìn)行評(píng)估,在云平臺(tái)基礎(chǔ)軟硬件方面實(shí)現(xiàn)國(guó)產(chǎn)化適配。
2)鐵路云平臺(tái)國(guó)產(chǎn)化替代工作需滿足安全技術(shù)路線。無(wú)縫遷移既有云平臺(tái)歷史數(shù)據(jù),在確保數(shù)據(jù)安全性和完整性的基礎(chǔ)上,保障平臺(tái)安全合規(guī)。
3)鐵路云平臺(tái)國(guó)產(chǎn)化替代工作需嚴(yán)謹(jǐn)、可靠、穩(wěn)定、規(guī)范。在技術(shù)路線選擇時(shí),按照技術(shù)先進(jìn)、自主可控的原則,統(tǒng)籌考慮知識(shí)產(chǎn)權(quán)自主程度、技術(shù)發(fā)展性、生態(tài)可擴(kuò)展性、穩(wěn)定性及可靠性等,選擇適配程度深、穩(wěn)定性好的技術(shù)路線,避免出現(xiàn)兼容性和影響運(yùn)行效率問(wèn)題;同時(shí),充分利用原有云平臺(tái)建設(shè)成果,避免資源重復(fù)投入,保證發(fā)展的連續(xù)性。
鐵路云平臺(tái)國(guó)產(chǎn)化遷移適配可分為評(píng)估規(guī)劃和技術(shù)準(zhǔn)備、測(cè)試驗(yàn)證與遷移實(shí)施、運(yùn)行驗(yàn)證與正式上線3個(gè)階段,包括盤(pán)點(diǎn)評(píng)估、遷移準(zhǔn)備、實(shí)驗(yàn)驗(yàn)證、業(yè)務(wù)切換、試運(yùn)行、上線運(yùn)維等6個(gè)環(huán)節(jié)。
3.1.1 盤(pán)點(diǎn)評(píng)估
對(duì)鐵路云平臺(tái)進(jìn)行調(diào)研盤(pán)點(diǎn),全面梳理云平臺(tái)的建設(shè)使用情況,包括全棧軟硬件、運(yùn)行環(huán)境等。針對(duì)鐵路云平臺(tái)國(guó)產(chǎn)化替代需求,CPU應(yīng)覆蓋x86和ARM 2條技術(shù)路線;操作系統(tǒng)可選OpenEuler技術(shù)路線,對(duì)應(yīng)麒麟操作系統(tǒng)。
3.1.2 遷移準(zhǔn)備
選擇飛騰CPU S2500服務(wù)器,XSKY XEDP國(guó)產(chǎn)分布式存儲(chǔ)平臺(tái),Kylin V10 SP2操作系統(tǒng)。按照盡可能接近最終生產(chǎn)環(huán)境的原則,搭建鐵路云平臺(tái)遷移驗(yàn)證所需的基礎(chǔ)設(shè)施、運(yùn)行環(huán)境等實(shí)驗(yàn)環(huán)境。成立項(xiàng)目小組,制定項(xiàng)目計(jì)劃和項(xiàng)目組織管理方案。
3.2.1 操作系統(tǒng)適配
目前,鐵路云平臺(tái)基于OpenStack構(gòu)建,云平臺(tái)服務(wù)部署在容器中,需要在飛騰CPU服務(wù)器上適配麒麟操作系統(tǒng)。主要工作如下。
1)鏡像依賴包構(gòu)建。整理鐵路云平臺(tái)所有依賴包的包名和版本列表,涉及基礎(chǔ)鏡像依賴包、云平臺(tái)依賴包、宿主機(jī)依賴包等。經(jīng)統(tǒng)計(jì),鐵路云平臺(tái)使用到的依賴包共計(jì)1 000余個(gè)需要進(jìn)行替代。
2)build-hci與kolla-ansible項(xiàng)目兼容適配。鐵路云平臺(tái)的安裝和部署用到build-hci與kolla-ansible項(xiàng)目,考慮到與麒麟操作系統(tǒng)的兼容性,需要進(jìn)行修改設(shè)計(jì),完成包的安裝與卸載,以及麒麟操作系統(tǒng)的兼容、存儲(chǔ)適配等工作。
3)虛擬機(jī)鏡像制作及云插件適配。重新制作虛擬機(jī)使用的麒麟版本鏡像,對(duì)制作鏡像使用到的云插件,如cloud-init、qga等做相應(yīng)適配[8]。
4)云平臺(tái)驗(yàn)證。以上每一步的操作均需要在國(guó)產(chǎn)化架構(gòu)下驗(yàn)證,驗(yàn)證內(nèi)容包括云平臺(tái)虛擬機(jī)創(chuàng)建、調(diào)整配置、冷遷移、熱遷移等重要功能。
3.2.2 對(duì)接存儲(chǔ)
目前,鐵路云平臺(tái)采用RedHat Ceph存儲(chǔ),需要與國(guó)產(chǎn)分布式存儲(chǔ)平臺(tái)XSKY XEDP進(jìn)行適配對(duì)接。主要工作如下。
1)環(huán)境檢查及初始化配置。環(huán)境檢查包括檢查服務(wù)器各節(jié)點(diǎn)之間管理網(wǎng)絡(luò)、存儲(chǔ)集群對(duì)外網(wǎng)絡(luò)、存儲(chǔ)集群內(nèi)部網(wǎng)絡(luò)間互通狀態(tài),以及服務(wù)器時(shí)間等。初始化配置包括配置XSKY集群所有節(jié)點(diǎn)與Open-Stack所有節(jié)點(diǎn)雙向免密,存儲(chǔ)集群與 OpenStack 集群的時(shí)鐘同步,及將OpenStack集群的IP與主機(jī)名添加到存儲(chǔ)集群節(jié)點(diǎn)的 hosts 解析文件中等。
2)存儲(chǔ)集群安裝。安裝產(chǎn)品和產(chǎn)品許可并激活,確認(rèn)集群信息和賬戶信息。
3)網(wǎng)關(guān)節(jié)點(diǎn)配置。對(duì)接X(jué)SKY XEDP存儲(chǔ)平臺(tái),需要將待部署的云平臺(tái)節(jié)點(diǎn)添加為XSKY XEDP塊設(shè)備網(wǎng)關(guān)節(jié)點(diǎn)。XSKY可采用可視化部署,通過(guò)存儲(chǔ)管理界面,添加OpenStack節(jié)點(diǎn)訪問(wèn)網(wǎng)關(guān)服務(wù)器(塊存儲(chǔ)網(wǎng)關(guān)角色),并獲取存儲(chǔ)池pool與ceph.conf配置文件。
4)部署云平臺(tái)。執(zhí)行云平臺(tái)部署腳本install_cloud.sh,并初始化云環(huán)境。
3.2.3 部署主機(jī)高可用模塊
當(dāng)前鐵路云平臺(tái)在生產(chǎn)使用過(guò)程中,會(huì)出現(xiàn)服務(wù)器故障導(dǎo)致關(guān)機(jī)或重啟的情況。當(dāng)服務(wù)器出現(xiàn)故障時(shí),運(yùn)行在服務(wù)器上的云主機(jī)也會(huì)受到相應(yīng)影響導(dǎo)致業(yè)務(wù)中斷,因此需引入主機(jī)高可用模塊,在服務(wù)器發(fā)生故障時(shí),可以自動(dòng)地將云主機(jī)疏散到其他節(jié)點(diǎn)上運(yùn)行[9]。
主機(jī)高可用模塊包括主機(jī)高可用API服務(wù)(FDI)、主機(jī)高可用管理服務(wù)(FDM)和主機(jī)高可用代理服務(wù)(FDA)。FDI、FDM、FDA服務(wù)運(yùn)行部署見(jiàn)圖2。
圖2 主機(jī)高可用模塊運(yùn)行部署
FDI和FDM服務(wù)運(yùn)行在主控節(jié)點(diǎn)上。其中,F(xiàn)DI服務(wù)為主機(jī)高可用模塊提供API服務(wù);FDM負(fù)責(zé)所有主機(jī)高可用集群的監(jiān)控與虛擬機(jī)疏散任務(wù);FDA服務(wù)運(yùn)行在每個(gè)計(jì)算節(jié)點(diǎn)主機(jī)上,負(fù)責(zé)檢查計(jì)算節(jié)點(diǎn)主機(jī)的狀態(tài)。FDM與FDA之間通過(guò)管理網(wǎng)發(fā)送管理心跳,采用寫(xiě)存儲(chǔ)對(duì)象的方式更新存儲(chǔ)心跳。
3.2.4 安全加固
安全加固內(nèi)容大致可分為以下7類。
1)系統(tǒng)服務(wù)相關(guān)。KSM(Kernel Samepage Merging)是內(nèi)核中的一種內(nèi)存共享機(jī)制,通過(guò)ksmd和ksmtuned服務(wù)用于共享內(nèi)存,默認(rèn)為啟用時(shí)可能會(huì)導(dǎo)致虛擬機(jī)信息泄露。可關(guān)閉SELinux(Security Enhanced Linux);關(guān)閉防火墻、ksmd、ksmtuned服務(wù)等。
2)系統(tǒng)用戶相關(guān)。為保障用戶賬戶安全,可加固內(nèi)容包括:修改用戶密碼策略(密碼復(fù)雜度、密碼到期時(shí)間、登錄失敗賬戶鎖定、密碼最大復(fù)用次數(shù)等);鎖定nologin賬號(hào);設(shè)置用戶目錄所需的最小權(quán)限等。
3)遠(yuǎn)程登錄相關(guān)??杉庸虄?nèi)容包括:禁止root用戶遠(yuǎn)程SSH(Secure Shell)登錄和Telnet登錄;設(shè)置登錄超時(shí)策略,用戶輸入空閑超過(guò)時(shí)間后自動(dòng)斷開(kāi);配置SSH登錄提示等。
4)系統(tǒng)日志相關(guān)??杉庸虄?nèi)容包括:配置嚴(yán)謹(jǐn)?shù)南到y(tǒng)日志讀寫(xiě)權(quán)限;開(kāi)啟crontab 定時(shí)任務(wù)的日志輸出,默認(rèn)crontab的任務(wù)執(zhí)行未記錄到日志中,啟用日志功能,可在crontab執(zhí)行失敗時(shí)找到問(wèn)題原因;設(shè)置history命令保存條數(shù)等。
5)網(wǎng)絡(luò)相關(guān)。由于ICMP重定向(ICMP redirect)可以動(dòng)態(tài)地更改主機(jī)的路由,因此在系統(tǒng)加固中建議禁用ICMP redirect功能。
6)FTP相關(guān)。通過(guò)vsftpd(very secure file transfer protocol daemon)服務(wù)器軟件,可加固內(nèi)容包括:禁止root用戶登錄;設(shè)置全局chroot(change root),限制FTP用戶權(quán)限,將其操作禁錮在指定的目錄樹(shù)內(nèi);禁止匿名FTP登錄等[10]。
7)其他。修改snmp(simple network management protocol)默認(rèn)團(tuán)體名。因?yàn)槭褂媚J(rèn)團(tuán)體名易導(dǎo)致系統(tǒng)運(yùn)行的進(jìn)程、系統(tǒng)存在的用戶、運(yùn)行的服務(wù)、端口情況等敏感信息泄露。
3.2.5 業(yè)務(wù)切換
基于驗(yàn)證、測(cè)試結(jié)果,制定遷移割接方案,穩(wěn)步實(shí)施鐵路云平臺(tái)的遷移和業(yè)務(wù)切換。
在生產(chǎn)環(huán)境下進(jìn)行測(cè)試驗(yàn)證,監(jiān)測(cè)發(fā)現(xiàn)并解決潛在問(wèn)題及異常狀況。在對(duì)鐵路云平臺(tái)功能、性能等做最終評(píng)估后,云平臺(tái)正式上線,并進(jìn)入運(yùn)維期。
鐵路云平臺(tái)是鐵路信息化建設(shè)中的重要一環(huán),其自主可控對(duì)維護(hù)國(guó)家安全意義深遠(yuǎn)。本文在既有鐵路云平臺(tái)的基礎(chǔ)上,對(duì)構(gòu)建自主可控云環(huán)境進(jìn)行試點(diǎn)研究,通過(guò)對(duì)接國(guó)產(chǎn)芯片、操作系統(tǒng)和存儲(chǔ)服務(wù)器提供可信的計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)能力,采用主機(jī)高可用模塊和安全加固措施,為云平臺(tái)的性能提供保障。鐵路云平臺(tái)的國(guó)產(chǎn)化為鐵路信息系統(tǒng)應(yīng)用部署和國(guó)產(chǎn)化遷移適配提供可行的環(huán)境支撐,可有效降低信息化成本。下一步將對(duì)云平臺(tái)微服務(wù)、大數(shù)據(jù)、人工智能等技術(shù)進(jìn)行研究,提高其先進(jìn)性和普適性。