王奇成
(廣州鐵路(集團(tuán))公司 信息技術(shù)所,廣州 510088)
虛擬化技術(shù)在鐵路信息系統(tǒng)運(yùn)維中的應(yīng)用研究
王奇成
(廣州鐵路(集團(tuán))公司 信息技術(shù)所,廣州 510088)
信息系統(tǒng)運(yùn)維中主要有3個(gè)問(wèn)題:系統(tǒng)持續(xù)可用、資源均衡使用和維護(hù)簡(jiǎn)便。傳統(tǒng)應(yīng)對(duì)方法存在資源閑置或不夠用、資源不能靈活調(diào)配、系統(tǒng)維護(hù)不便的問(wèn)題。應(yīng)用虛擬機(jī)技術(shù),能有效解決這些問(wèn)題,在實(shí)際工作中利用4個(gè)節(jié)點(diǎn)運(yùn)行多個(gè)高可用應(yīng)用,充分驗(yàn)證其有效性。
信息系統(tǒng);運(yùn)維;高可用;IT資源;IT服務(wù);虛擬化
隨著鐵路的快速發(fā)展,信息系統(tǒng)全面建設(shè)完成后,都進(jìn)入了運(yùn)行維護(hù)階段。運(yùn)維階段的工作,因?yàn)闅v史沿革的原因,一直沒(méi)有什么大的改變,現(xiàn)在面對(duì)業(yè)務(wù)形勢(shì)的快速發(fā)展變化,需要改變理念和思路,引入新的方法和技術(shù)平臺(tái),來(lái)應(yīng)對(duì)日益沉重的運(yùn)維壓力。
信息系統(tǒng)運(yùn)行維護(hù)中最主要的問(wèn)題有 3 個(gè):(1)保證 IT 服務(wù)持續(xù)可用,持續(xù)在線,應(yīng)用系統(tǒng)不間斷運(yùn)行;(2)IT 資源包括存儲(chǔ)、網(wǎng)絡(luò)帶寬、服務(wù)器等得到均衡使用;(3)對(duì)系統(tǒng)進(jìn)行更新維護(hù)盡可能簡(jiǎn)便。有關(guān)這3個(gè)問(wèn)題的傳統(tǒng)應(yīng)對(duì)方法及其弊端闡述如下。
1.1 服務(wù)持續(xù)在線
保證 IT 服務(wù)持續(xù)在線的基本思路是對(duì)各種資源都設(shè)計(jì)出多路冗余的結(jié)構(gòu),能相互備份,消除單點(diǎn)故障,提高可靠性。在實(shí)際應(yīng)用中,機(jī)房電源、空調(diào)、網(wǎng)絡(luò)、存儲(chǔ)、主機(jī)等環(huán)節(jié)都采用至少雙路以上設(shè)計(jì)。
機(jī)房的雙路設(shè)計(jì)稱作災(zāi)備。網(wǎng)絡(luò)、存儲(chǔ)的雙路設(shè)計(jì)體系,提供了故障轉(zhuǎn)移和負(fù)載均衡的雙重功效,存儲(chǔ)網(wǎng)絡(luò)類似于通信網(wǎng)絡(luò)。
雙路主機(jī)稱為雙機(jī)群集,首先提供了故障轉(zhuǎn)移功能,即一臺(tái)服務(wù)器故障,自動(dòng)切換到另外一臺(tái),但切換需要時(shí)間,應(yīng)用還是會(huì)離線。如果讓兩臺(tái)服務(wù)器同時(shí)在線一起分擔(dān)負(fù)載,當(dāng)一臺(tái)故障時(shí)由另外一臺(tái)全部承擔(dān)負(fù)載,服務(wù)器系統(tǒng)就不會(huì)因一路資源故障而離線,大大提高可用性。
IT 資源采用雙路以上結(jié)構(gòu),投資需要翻倍。為保證服務(wù)在一段時(shí)期內(nèi)持續(xù)在線,還要考慮如何應(yīng)對(duì)未來(lái)的需求擴(kuò)展,有兩種基本策略:(1)預(yù)估未來(lái)業(yè)務(wù)需求擴(kuò)展空間,預(yù)留資源,這種方式導(dǎo)致前期資源閑置;(2)緊跟需求變化動(dòng)態(tài)擴(kuò)展資源,在實(shí)際中,拘于立項(xiàng)申請(qǐng)、預(yù)算審批、工程招投標(biāo)、產(chǎn)品訂購(gòu)、安裝配置調(diào)試等各環(huán)節(jié)的流程,這種方式效果很不理想。所以在實(shí)際工作中,為了最大限度追求系統(tǒng)的高可用,往往碰到資源閑置或者不夠用的問(wèn)題。
1.2 資源均衡使用
各種 IT 資源均衡使用的問(wèn)題,既體現(xiàn)在同一個(gè)應(yīng)用內(nèi),也體現(xiàn)在不同應(yīng)用間,包括兩方面要求:資源使用的忙閑程度盡可能做到多點(diǎn)均衡;出現(xiàn)不均衡時(shí)或者按照特定的業(yè)務(wù)需求可以靈活調(diào)配。
資源使用的忙閑均衡,使得資源負(fù)荷減輕,故障率自然下降,使用壽命延長(zhǎng),IT 基礎(chǔ)架構(gòu)的整體可靠性提高,更好地發(fā)揮了所有資源的整體效能。資源的靈活調(diào)配,對(duì)于這類應(yīng)用,需要在高峰期借用其它應(yīng)用的資源來(lái)緩解壓力,在平日把富余的資源共享出去給別的應(yīng)用使用。
這種跨應(yīng)用的資源均衡是傳統(tǒng) IT 基礎(chǔ)架構(gòu)很難做到的,原因在于傳統(tǒng)基礎(chǔ)架構(gòu)規(guī)劃很多環(huán)節(jié)停滯在靜態(tài)思維模式,新形勢(shì)下開(kāi)展工作一般沿用原有思路,很少啟用或者滲透動(dòng)態(tài)、變化的理念,要在這種過(guò)于僵硬的傳統(tǒng)架構(gòu)下實(shí)現(xiàn)跨應(yīng)用資源均衡,工作太過(guò)復(fù)雜,會(huì)產(chǎn)生巨大的運(yùn)維風(fēng)險(xiǎn)和負(fù)擔(dān)。
1.3 系統(tǒng)維護(hù)簡(jiǎn)便
運(yùn)維中常見(jiàn)的幾類場(chǎng)景:應(yīng)用升級(jí)、服務(wù)器修理、網(wǎng)絡(luò)架構(gòu)調(diào)整、機(jī)房搬遷。使用傳統(tǒng)處理方式效果都不理想,不僅經(jīng)常導(dǎo)致業(yè)務(wù)系統(tǒng)中斷運(yùn)行,而且維護(hù)工作變得繁瑣、被動(dòng)。
1.4 傳統(tǒng)應(yīng)對(duì)方法的弊端
面對(duì) IT 運(yùn)維這 3個(gè)方面的問(wèn)題,傳統(tǒng)應(yīng)對(duì)機(jī)制已顯得捉襟見(jiàn)肘,它的根本原因在于傳統(tǒng) IT 架構(gòu)不夠靈活,很難跟上業(yè)務(wù)變化。
如果在業(yè)務(wù)需求和底層基礎(chǔ)架構(gòu)之間構(gòu)筑一個(gè)中間層,就能夠使 IT 資源的使用靈活性大大加強(qiáng),即由傳統(tǒng)的數(shù)據(jù)庫(kù)服務(wù)器、客戶端兩層結(jié)構(gòu)擴(kuò)展成數(shù)據(jù)庫(kù)、應(yīng)用服務(wù)器、客戶端3層結(jié)構(gòu)。構(gòu)筑這個(gè)中間層,業(yè)界稱做虛擬化。
2.1 虛擬化概念
虛擬化是指計(jì)算機(jī)系統(tǒng)運(yùn)行在虛擬基礎(chǔ)上而并非真實(shí)物理硬件上。在計(jì)算機(jī)硬件或操作系統(tǒng)上插入一個(gè)精簡(jiǎn)的軟件層,虛擬機(jī)訪問(wèn)物理硬件經(jīng)過(guò)該軟件層。多個(gè)虛擬機(jī)同時(shí)運(yùn)行在單臺(tái)物理機(jī)上,共享硬件資源。借助虛擬化,可降低資金成本,發(fā)揮資源高可用性和性能,提高業(yè)務(wù)連續(xù)性,加快桌面部署,減少技術(shù)支持負(fù)荷。虛擬化讓基礎(chǔ)架構(gòu)更好地適應(yīng)業(yè)務(wù)變化,讓 IT 運(yùn)營(yíng)更有效率。
2.2 服務(wù)持續(xù)在線
因虛擬化技術(shù)的存在,可以方便地對(duì) IT 物理資源進(jìn)行切割分塊、重組,搭配出更多的虛擬資源,形成更多有雙路以上冗余設(shè)計(jì)的系統(tǒng)。在某些系統(tǒng)出現(xiàn)故障時(shí),即時(shí)投入另外資源,回歸雙路架構(gòu)模式,持續(xù)保證服務(wù)的高可用。
2.3 資源均衡使用
使用虛擬化技術(shù),很容易做到資源的均衡使用和靈活調(diào)配。例如服務(wù)器虛擬化,多臺(tái)虛擬機(jī)在一般設(shè)置下,就可以輕松共享存儲(chǔ)空間、整機(jī)內(nèi)存和計(jì)算資源。共享存儲(chǔ)空間如果也做了虛擬化,很容易讓訪問(wèn)數(shù)據(jù)的 IO處理物理分散到多臺(tái)存儲(chǔ)、多個(gè)RAID 組上。
2.4 系統(tǒng)維護(hù)方便
有了虛擬化技術(shù),系統(tǒng)維護(hù)可以做到更便捷。
(1)對(duì)于應(yīng)用系統(tǒng)升級(jí),利用虛擬機(jī)快照保存一個(gè)升級(jí)前的可用狀態(tài),出現(xiàn)升級(jí)失敗時(shí)可以快速?gòu)?fù)原回退。利用導(dǎo)出功能,可以快速建立一個(gè)用作備份的舊系統(tǒng)。(2)對(duì)于物理服務(wù)器修理,切換虛擬機(jī)到另外服務(wù)器上后就可以停機(jī)修理。切換支持實(shí)時(shí)遷移,切換的瞬間也不會(huì)中斷業(yè)務(wù)系統(tǒng)。(3)對(duì)于網(wǎng)絡(luò)架構(gòu)調(diào)整,基于DNS的域名訪問(wèn)機(jī)制,切換虛擬機(jī)到另外網(wǎng)絡(luò)上,更新域名服務(wù)器中記錄,利用組策略實(shí)時(shí)分發(fā)到客戶端,然后再進(jìn)行施工。(4)對(duì)于機(jī)房搬遷,先在新機(jī)房部署適當(dāng)數(shù)量的服務(wù)器,分批把虛擬機(jī)遷移到新機(jī)房,然后輕松搬遷物理設(shè)備。
總之,由于 IT 基礎(chǔ)架構(gòu)的靈活性,就不再需要用戶部門(mén)太多關(guān)注和參與基礎(chǔ)架構(gòu)的調(diào)整,包括資源的維修,省卻了很多業(yè)務(wù)協(xié)調(diào)、溝通,不僅大大提高服務(wù)品質(zhì),而且也能避免部門(mén)之間配合不暢帶來(lái)的問(wèn)題,減少出錯(cuò)幾率。
當(dāng) IT 基礎(chǔ)架構(gòu)中全方位引入虛擬化體系后,靈活性大大增強(qiáng),但整體的技術(shù)管理工作變得復(fù)雜很多,如果還是依照原有手工作業(yè)模式,風(fēng)險(xiǎn)極大,這時(shí)一定要借助專業(yè)的虛擬化管理平臺(tái)來(lái)輔助管理,并全面加強(qiáng)人員的素質(zhì)培訓(xùn),才能讓整體工作簡(jiǎn)化。
在實(shí)際項(xiàng)目建設(shè)和系統(tǒng)運(yùn)維中的一個(gè)案例,可以驗(yàn)證以上觀點(diǎn)。這是由 4 臺(tái) IBM 3850 x6 服務(wù)器組建的兩個(gè) Windows Server 2012 群集,每群集兩節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)可以連接到兩臺(tái)存儲(chǔ)共 4 個(gè) RAID 組,運(yùn)行了 SQL Server 2012, Oracle11gR2,AD 域控制器,SharePoint Server 2013 平臺(tái),System Center 2012 平臺(tái)等應(yīng)用,每個(gè)應(yīng)用都實(shí)現(xiàn)了高可用,4臺(tái)服務(wù)器實(shí)現(xiàn)了負(fù)載均衡。
3.1 存儲(chǔ)分配及群集架構(gòu)
在兩臺(tái)存儲(chǔ)上創(chuàng)建了 4 個(gè) RAID 組,命名為:DS1H、DS2H、DS1K、DS2K。
總共劃分 10個(gè)存儲(chǔ)空間,分配給 4個(gè)節(jié)點(diǎn),提供相關(guān)應(yīng)用,如表1所示。
表1 存儲(chǔ)空間及節(jié)點(diǎn)
其中節(jié)點(diǎn) 1、節(jié)點(diǎn) 3組成群集,節(jié)點(diǎn) 1上為主運(yùn)行 SQLServer2012,跟節(jié)點(diǎn) 3 上 SQLServer組成AlwaysOn 高可用組,主節(jié)點(diǎn)分配多一些存儲(chǔ)空間,容納數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),該平臺(tái)是試驗(yàn)性,舍棄了高可用特性;節(jié)點(diǎn) 3上為主運(yùn)行虛擬機(jī)組 1,包括以下虛擬機(jī),如表2所示。
節(jié)點(diǎn) 2、節(jié)點(diǎn) 4組成群集,節(jié)點(diǎn) 2上為主運(yùn)行Oracle11g,跟節(jié)點(diǎn) 4 上的 Oracle 組成普通 Windows群集;節(jié)點(diǎn) 4上為主運(yùn)行虛擬機(jī)組 2,包括以下虛擬機(jī),如表3所示。
對(duì)于AD域,由于在兩個(gè)群集上都有域控制器,4個(gè)節(jié)點(diǎn)只要有一個(gè)節(jié)點(diǎn)工作,AD域都可以訪問(wèn),它擁有最高級(jí)別的可用性。
其它虛擬機(jī)都運(yùn)行在共享存儲(chǔ)上,單節(jié)點(diǎn)故障,虛擬機(jī)自動(dòng)切換到另外節(jié)點(diǎn)繼續(xù)運(yùn)行。
表2 節(jié)點(diǎn)1和節(jié)點(diǎn)3上的服務(wù)器名稱、所屬應(yīng)用及角色
表3 節(jié)點(diǎn)2和節(jié)點(diǎn)4上的服務(wù)器名稱、所屬應(yīng)用及角色
3.2 群集共享卷和虛擬機(jī)遷移方式
虛擬機(jī)要在群集節(jié)點(diǎn)間實(shí)現(xiàn)高可用,需把虛擬機(jī)建立在群集節(jié)點(diǎn)都能訪問(wèn)的群集共享卷(CSV)上。在群集共享卷技術(shù)出現(xiàn)之前,存儲(chǔ)管理員必須在共享式存儲(chǔ)上針對(duì)每個(gè)虛擬機(jī)提供 LUN,通過(guò)使用 CSV,所有群集節(jié)點(diǎn)都可以訪問(wèn)共享存儲(chǔ),每次新建虛擬機(jī)時(shí)不再需要提供新的 LUN。群集共享卷極大地簡(jiǎn)化了存儲(chǔ)管理。
虛擬機(jī)在群集節(jié)點(diǎn)間做故障轉(zhuǎn)移或切換,分為快速遷移(QuickMigration)和實(shí)時(shí)遷移(LiveMigration)兩種方式??焖龠w移是先把節(jié)點(diǎn)1的內(nèi)存數(shù)據(jù)保存下來(lái),然后通過(guò)網(wǎng)絡(luò)傳遞到節(jié)點(diǎn)2后再把內(nèi)存數(shù)據(jù)給還原出來(lái),在此過(guò)程中虛擬機(jī)的網(wǎng)絡(luò)連接會(huì)中斷,中斷時(shí)間隨虛擬機(jī)內(nèi)存大小及網(wǎng)絡(luò)速度從幾秒到幾分鐘不等。而實(shí)時(shí)遷移是在遷移虛擬機(jī)時(shí),原來(lái)由節(jié)點(diǎn)1讀取群集共享卷,改為由節(jié)點(diǎn)2來(lái)讀取,同時(shí)節(jié)點(diǎn) 1上內(nèi)存數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳送到節(jié)點(diǎn) 2。整個(gè)遷移過(guò)程中只有當(dāng)節(jié)點(diǎn)2接替節(jié)點(diǎn)1讀取群集共享卷時(shí)才會(huì)出現(xiàn)非常短暫的服務(wù)中斷,中斷時(shí)間僅在毫秒級(jí)別,用戶基本體驗(yàn)不到。
3.3 創(chuàng)建群集角色
在 Windows Server 2012 操作系統(tǒng)下利用故障轉(zhuǎn)移群集管理器創(chuàng)建一個(gè)群集角色,在高可用性向?qū)Ы缑嬷羞x擇虛擬機(jī)類型,然后選擇虛擬機(jī),即每一臺(tái)虛擬機(jī)將作為一個(gè)群集角色出現(xiàn)在列表中。在故障轉(zhuǎn)移群集管理器中就可以對(duì)虛擬機(jī)進(jìn)行手工遷移以測(cè)試高可用,當(dāng)在單臺(tái)物理服務(wù)器有計(jì)劃停機(jī)或者出現(xiàn)故障突然宕機(jī)時(shí),這種遷移會(huì)自動(dòng)發(fā)生。
3.4 應(yīng)用效果
數(shù)據(jù)庫(kù)服務(wù)和應(yīng)用服務(wù)兩大類應(yīng)用都取得了高可用,其中很多應(yīng)用服務(wù)器部署在虛擬機(jī)上,均具備高可用能力。在應(yīng)用服務(wù)器中,作為最高等級(jí)的域控制器部署在兩個(gè)群集上總共4臺(tái)物理服務(wù)器上,只要其中任意一臺(tái)在線就能確保域的可用。兩個(gè)群集總共4臺(tái)物理服務(wù)器上運(yùn)行多個(gè)應(yīng)用,資源效率得到了充分均衡的使用。在進(jìn)行服務(wù)器軟硬件配置時(shí),經(jīng)常重啟服務(wù)器,重啟過(guò)程中所有應(yīng)用都不會(huì)中斷。作為應(yīng)用服務(wù)器的虛擬機(jī),在節(jié)點(diǎn)間遷移方便。進(jìn)行負(fù)載架構(gòu)調(diào)整時(shí),省時(shí)省力。
虛擬化技術(shù)是云計(jì)算技術(shù)的基礎(chǔ)與核心,當(dāng)容納眾多信息系統(tǒng)的數(shù)據(jù)中心尚未按照云計(jì)算理念全面更新改造完成時(shí),逐步引入虛擬化技術(shù)到 IT 系統(tǒng)建設(shè)和運(yùn)維工作中,是解決目前信息系統(tǒng)運(yùn)維中常見(jiàn)問(wèn)題的有效法寶。
[1] 廣小明,胡 杰,陳 龍,等 .虛擬化技術(shù)原理與實(shí)現(xiàn) [M].北京:電子工業(yè)出版社,2012.
[2] Stephen R.Smoot,Nam K.Tan. 私有云計(jì)算:整合、虛擬化和面向服務(wù)的基礎(chǔ)設(shè)施 [M].潘 怡,譯 .北京:機(jī)械工業(yè)出版社,2013.
[3] 王春海 . Microsoft虛擬化與云計(jì)算應(yīng)用案例詳解 [M].北京:中國(guó)鐵道出版社,2013.
責(zé)任編輯 方 圓
Virtualization technology in operation and maintenance of Railway Information System
WANG Qicheng
( Institute of Information Technology, Guangzhou Railway (Group) Corporation, Guangzhou 510088, China )
There were three problems in operation and maintenance of Information System, such as the system continuously available, balanced use of resources, easy maintenance. The traditional methods were with the problems of idle resources idle or shortage of resources, not f l exible deployment of resources, system maintenance inconvenience. These problems could be effectively solved by application of virtual technology. Four nods were used to run several high available application in practical work. The effectiveness was fully proved.
Information System; operation and maintenance; high availability; IT resource; IT service; virtualization
U29∶TP39
:A
1005-8451(2015)03-0039-04
2014-05-15
王奇成,高級(jí)工程師。