■
目前筆者單位數(shù)據(jù)中心機(jī)房有二三百臺(tái)PC服務(wù)器,網(wǎng)站及重要的業(yè)務(wù)系統(tǒng)許多都運(yùn)行在不同互聯(lián)網(wǎng)接入的局域網(wǎng)中,業(yè)務(wù)系統(tǒng)安全持續(xù)運(yùn)營(yíng)問(wèn)題日益突出,諸如病毒感染破壞、黑客攻擊、誤操作破壞、硬盤故障、人為破壞等安全問(wèn)題,往往造成系統(tǒng)失常、文件損壞、文件丟失事故等問(wèn)題。日常運(yùn)維中發(fā)現(xiàn)例如服務(wù)器的主板、RAID控制器、網(wǎng)卡、電源、內(nèi)置/外置存儲(chǔ)等硬件出現(xiàn)問(wèn)題,數(shù)據(jù)誤刪除、黑客/病毒攻擊、系統(tǒng)崩潰、死機(jī)等軟件問(wèn)題都會(huì)造成業(yè)務(wù)系統(tǒng)的中斷,造成用戶數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)丟失,有時(shí)短時(shí)間內(nèi)難以恢復(fù)運(yùn)行, 長(zhǎng)時(shí)間停止運(yùn)行會(huì)造成不可挽回和難以估量的損失,政府對(duì)外服務(wù)形象的大打折扣,造成政治和社會(huì)等一系列負(fù)面影響。
為了保證業(yè)務(wù)系統(tǒng)的連續(xù)運(yùn)行,各種主動(dòng)被動(dòng)防范的技術(shù)手段都會(huì)采用,包括防病毒、入侵檢測(cè)、防火墻、雙機(jī)熱備、虛擬集群、數(shù)據(jù)備份等等,而磁帶備份、基于磁盤的備份、Cluster/HA等傳統(tǒng)的數(shù)據(jù)保護(hù)機(jī)制對(duì)于上述災(zāi)難都只能提供有限的保護(hù),由于傳統(tǒng)的保護(hù)模式成本高,恢復(fù)時(shí)間長(zhǎng),難以滿足業(yè)務(wù)連續(xù)性的要求。
業(yè)務(wù)應(yīng)急系統(tǒng)采用數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)復(fù)制、iSCSI及網(wǎng)絡(luò)啟動(dòng)等多項(xiàng)技術(shù),為業(yè)務(wù)系統(tǒng)提供從系統(tǒng)到數(shù)據(jù)的全方位保護(hù)和快速恢復(fù)。它可以在業(yè)務(wù)系統(tǒng)正常運(yùn)行時(shí),對(duì)操作系統(tǒng)、應(yīng)用軟件以及數(shù)據(jù)進(jìn)行全方位的復(fù)制,并形成多時(shí)間點(diǎn)、多版本的歷史快照。可以同時(shí)對(duì)多個(gè)服務(wù)器進(jìn)行保護(hù)。如果多個(gè)服務(wù)器上的業(yè)務(wù)同時(shí)出現(xiàn)故障,業(yè)務(wù)應(yīng)急系統(tǒng)可同時(shí)應(yīng)急頂替多個(gè)業(yè)務(wù)系統(tǒng)工作,并由系統(tǒng)管理員選擇在網(wǎng)絡(luò)相對(duì)空閑時(shí)將故障業(yè)務(wù)系統(tǒng)恢復(fù)到正常狀態(tài)。對(duì)多個(gè)業(yè)務(wù)系統(tǒng)應(yīng)急恢復(fù)時(shí),仍然可以通過(guò)快照版本回滾功能選擇最合適的版本做應(yīng)急和恢復(fù)使用。
業(yè)務(wù)應(yīng)急系統(tǒng)對(duì)業(yè)務(wù)系統(tǒng)的保護(hù)分為兩個(gè)階段:業(yè)務(wù)系統(tǒng)正常運(yùn)行階段和業(yè)務(wù)系統(tǒng)應(yīng)急階段。
當(dāng)業(yè)務(wù)系統(tǒng)正常運(yùn)行時(shí),對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行在線復(fù)制,業(yè)務(wù)應(yīng)急系統(tǒng)能自動(dòng)掃描各服務(wù)器的本地磁盤信息(如C、D、E等及其各盤大?。缓髮?duì)應(yīng)每臺(tái)服務(wù)器的磁盤在網(wǎng)絡(luò)存儲(chǔ)上為其分配相應(yīng)的空間。根據(jù)預(yù)先設(shè)定的規(guī)則,業(yè)務(wù)應(yīng)急系統(tǒng)自動(dòng)對(duì)各服務(wù)器的操作系統(tǒng)、應(yīng)用軟件、數(shù)據(jù)及數(shù)據(jù)庫(kù)實(shí)施動(dòng)態(tài)差異量復(fù)制,并形成多版本鏡像數(shù)據(jù),供恢復(fù)時(shí)選用。
當(dāng)業(yè)務(wù)系統(tǒng)中斷時(shí),由業(yè)務(wù)應(yīng)急系統(tǒng)接替業(yè)務(wù)主機(jī)的硬盤并啟動(dòng),恢復(fù)業(yè)務(wù)系統(tǒng)的運(yùn)行。當(dāng)業(yè)務(wù)系統(tǒng)出現(xiàn)中斷時(shí),將業(yè)務(wù)主機(jī)網(wǎng)絡(luò)啟動(dòng)操作系統(tǒng)、應(yīng)用軟件,并使用原有的復(fù)制的數(shù)據(jù),數(shù)據(jù)庫(kù)數(shù)據(jù);由于在網(wǎng)絡(luò)存儲(chǔ)里保存著可用的操作系統(tǒng)、應(yīng)用軟件、數(shù)據(jù)及數(shù)據(jù)庫(kù)等多版本鏡像,因此可在數(shù)分鐘內(nèi)由網(wǎng)絡(luò)啟動(dòng)來(lái)恢復(fù)多臺(tái)服務(wù)器的運(yùn)營(yíng),屏蔽各服務(wù)器本地盤的故障與問(wèn)題。若所選擇的某時(shí)刻的文件、備份數(shù)據(jù)有問(wèn)題,則可通過(guò)回滾到其他不同時(shí)刻的版本而快速恢復(fù)到可用數(shù)據(jù)狀態(tài)。
當(dāng)實(shí)施網(wǎng)絡(luò)啟動(dòng)操作系統(tǒng)、應(yīng)用軟件并恢復(fù)業(yè)務(wù)運(yùn)營(yíng)后,可在系統(tǒng)I/O比較少的時(shí)間(如深夜),使用業(yè)務(wù)應(yīng)急系統(tǒng)的恢復(fù)功能,對(duì)各服務(wù)器原有的磁盤進(jìn)行恢復(fù)操作;將存放在網(wǎng)絡(luò)存儲(chǔ)里的可用的操作系統(tǒng)、應(yīng)用軟件、數(shù)據(jù)及數(shù)據(jù)庫(kù)恢復(fù)(回寫)到本地盤,該操作支持對(duì)數(shù)十臺(tái)服務(wù)器的自動(dòng)恢復(fù),非常便于運(yùn)營(yíng)管理。當(dāng)完成對(duì)本地盤的全部系統(tǒng)和數(shù)據(jù)的恢復(fù)后,根據(jù)需要只需重啟系統(tǒng),并選擇本地啟動(dòng)即可將運(yùn)營(yíng)切換到本地盤上。
業(yè)務(wù)應(yīng)急系統(tǒng)與備份系統(tǒng)的區(qū)別如表1所示。
考慮數(shù)據(jù)中心業(yè)務(wù)應(yīng)用的現(xiàn)狀和技術(shù)人員數(shù)量、資金等多方面因素,主要能滿足以下4點(diǎn)應(yīng)用需求:
(1)在數(shù)據(jù)中心的業(yè)務(wù)應(yīng)用系統(tǒng)發(fā)生中斷時(shí),可以通過(guò)應(yīng)急啟動(dòng)的方式快速恢復(fù)業(yè)務(wù)的運(yùn)行,縮短停機(jī)時(shí)間,提高業(yè)務(wù)系統(tǒng)的可用性。
(2)在進(jìn)行數(shù)據(jù)中心的業(yè)務(wù)應(yīng)用系統(tǒng)升級(jí)、補(bǔ)丁修補(bǔ)等操作時(shí),可以利用業(yè)務(wù)應(yīng)急系統(tǒng)的多版本回滾功能,當(dāng)升級(jí)出現(xiàn)問(wèn)題時(shí),快速地將業(yè)務(wù)系統(tǒng)恢復(fù)到升級(jí)前的版本,避免因升級(jí)而造成的長(zhǎng)時(shí)間業(yè)務(wù)停頓,有效降低業(yè)務(wù)系統(tǒng)升級(jí)的風(fēng)險(xiǎn)。
表1 業(yè)務(wù)應(yīng)急系統(tǒng)與備份系統(tǒng)的區(qū)別
(3)考慮到數(shù)據(jù)中心的舊PC服務(wù)器更成新服務(wù)器,其他業(yè)務(wù)應(yīng)用系統(tǒng)遷移到數(shù)據(jù)中心機(jī)房時(shí),可以使用業(yè)務(wù)應(yīng)急系統(tǒng)的虛擬機(jī)啟動(dòng)功能,將業(yè)務(wù)系統(tǒng)先在業(yè)務(wù)應(yīng)急系統(tǒng)上運(yùn)行,再對(duì)業(yè)務(wù)服務(wù)器進(jìn)行遷移,完成后進(jìn)行將業(yè)務(wù)系統(tǒng)重新運(yùn)行,這樣就可以大大縮短系統(tǒng)遷移所需要的停機(jī)時(shí)間或者遷移前的準(zhǔn)備時(shí)間,降低系統(tǒng)遷移的風(fēng)險(xiǎn)。
(4)為了保障在業(yè)務(wù)應(yīng)用系統(tǒng)7×24不間斷正常運(yùn)行,在日常運(yùn)維工作中,使用業(yè)務(wù)應(yīng)急系統(tǒng)具備的自動(dòng)多主機(jī)在線復(fù)制、鏡像的功能,能夠制定靈活的備份策略,全面高效地備份數(shù)據(jù);降低系統(tǒng)運(yùn)維人員在備份、備份介質(zhì)管理等相關(guān)的維護(hù)難度,降低工作強(qiáng)度。
通過(guò)調(diào)研,我們選購(gòu)了北京智網(wǎng)科技有限公司公司開(kāi)發(fā)的BES業(yè)務(wù)應(yīng)急系統(tǒng),通過(guò)與SNS iSCSI相配合,利用基于邏輯層文件復(fù)制技術(shù),可以用來(lái)保護(hù)用戶的操作系統(tǒng)和數(shù)據(jù)(包括數(shù)據(jù)庫(kù)和普通文件)。使用BES業(yè)務(wù)應(yīng)急系統(tǒng),當(dāng)用戶的系統(tǒng)崩潰時(shí),可以在分鐘級(jí)時(shí)間內(nèi)將用戶系統(tǒng)恢復(fù)正常,使之繼續(xù)對(duì)外運(yùn)營(yíng),如圖1.
圖1 軟件界面
2010年部署了一套BES軟硬結(jié)合的業(yè)務(wù)應(yīng)急系統(tǒng),保護(hù)數(shù)據(jù)中心機(jī)房重要的20多臺(tái)服務(wù)器業(yè)務(wù)系統(tǒng),涉及到 Windows 2000、Windows 2003、Windows 2008、等 系列Microsoft Windows服務(wù)器系統(tǒng)及RedHat Enterprise Linux 5以上版本平臺(tái)的主機(jī)保護(hù),系統(tǒng)運(yùn)行了三年多時(shí)間,解決了數(shù)據(jù)中心重要業(yè)務(wù)系統(tǒng)的數(shù)據(jù)備份與恢復(fù),服務(wù)器軟硬件出現(xiàn)故障時(shí)能快速處理,起到了一定的“應(yīng)急”效果。特別是運(yùn)行網(wǎng)站及重要業(yè)務(wù)系統(tǒng)的服務(wù)器出現(xiàn)發(fā)生硬件故障時(shí),如主板、CPU、電源、內(nèi)存、網(wǎng)卡等,可以通過(guò)BES業(yè)務(wù)應(yīng)急系統(tǒng)的虛擬機(jī)啟動(dòng),將被保護(hù)服務(wù)器的系統(tǒng)及數(shù)據(jù)及時(shí)遷移到業(yè)務(wù)應(yīng)急系統(tǒng)上運(yùn)行,通過(guò)虛擬機(jī)啟動(dòng)模式,快速恢復(fù)運(yùn)營(yíng)。據(jù)統(tǒng)計(jì)該系統(tǒng)運(yùn)行期間共發(fā)生了6次服務(wù)器硬件故障即2次主板,1次電源、2次內(nèi)存,1次CPU故障,使用BES業(yè)務(wù)應(yīng)急系統(tǒng)都進(jìn)行了快速處理。又例如政府網(wǎng)站線訪談節(jié)目即將開(kāi)始前,發(fā)現(xiàn)在線訪談系統(tǒng)無(wú)法打開(kāi),經(jīng)檢查系清理垃圾文件時(shí)誤將D盤的應(yīng)用程序和圖片文件刪除,此時(shí)已經(jīng)沒(méi)有時(shí)間重新部署程序并找回丟失的圖片文件。我們采用BES系統(tǒng)的應(yīng)急啟動(dòng)功能,發(fā)現(xiàn)服務(wù)器的windows 2000操作系統(tǒng)未有被損壞,只需恢復(fù)程序和圖片數(shù)據(jù),所以無(wú)需用BES系統(tǒng)中的C盤備份代替本地系統(tǒng)盤啟動(dòng),通過(guò)點(diǎn)擊:快照管理→選定主機(jī)→掛/卸載網(wǎng)絡(luò)盤,將BES系統(tǒng)中的最新版本的D盤掛到系統(tǒng)中。然后在計(jì)算機(jī)管理的磁盤管理中更改盤符,將原系統(tǒng)中的D盤更變?yōu)槠渌P符,將BES掛載的D盤盤符G更變?yōu)镈盤。啟動(dòng)D盤在線訪談程序,程序成功運(yùn)行,圖片也全部恢復(fù)。等此次訪談圓滿結(jié)束后,將D盤的圖片數(shù)據(jù)拷貝到原D盤,改回盤符,在BES系統(tǒng)中卸載掛載的D盤,最后重新安裝部署在線訪談程序,整個(gè)系統(tǒng)全部恢復(fù),表2為主機(jī)管理列表。
數(shù)據(jù)中心的業(yè)務(wù)應(yīng)用系統(tǒng)和數(shù)據(jù)必須要重點(diǎn)監(jiān)控和保護(hù),保障業(yè)務(wù)系統(tǒng)7 X 24持續(xù)運(yùn)轉(zhuǎn),因此需要突破傳統(tǒng)數(shù)據(jù)保護(hù)僅僅對(duì)文件及數(shù)據(jù)庫(kù)的保護(hù),通過(guò)對(duì)操作系統(tǒng)、應(yīng)用軟件、數(shù)據(jù)庫(kù)、數(shù)據(jù)文件進(jìn)行復(fù)制,實(shí)現(xiàn)了對(duì)系統(tǒng)的全方位的保護(hù),使得信息系統(tǒng)能夠在遭到破壞時(shí),利用其“多版本回滾”技術(shù),使系統(tǒng)迅速恢復(fù)到故障前的正常運(yùn)行狀態(tài)。在實(shí)現(xiàn)傳統(tǒng)意義上的安全產(chǎn)品(如:防火墻、防病毒、VPN等)基礎(chǔ)上,利用數(shù)據(jù)保護(hù)技術(shù),豐富和完善了數(shù)據(jù)中心現(xiàn)有的安全防護(hù)體系,提高了系統(tǒng)的可用性;因此,業(yè)務(wù)應(yīng)急系統(tǒng)不是傳統(tǒng)安全產(chǎn)品的替代品,而是作為數(shù)據(jù)安全體系的補(bǔ)充和擴(kuò)展。由于業(yè)務(wù)應(yīng)急系統(tǒng)本身可抗拒任何病毒和攻擊,可有效保護(hù)業(yè)務(wù)系統(tǒng)和數(shù)據(jù),特別是基于IP SAN的集中存儲(chǔ),成本低、容量大,擴(kuò)展容易,支持RAID方式的數(shù)據(jù)保護(hù)等特點(diǎn),可以大幅度提高數(shù)據(jù)中心業(yè)務(wù)系統(tǒng)和數(shù)據(jù)的安全性和可用性。
表2 主機(jī)管理列表