文|黃向東
打造穩(wěn)定可靠的采編平臺
文|黃向東
一張報(bào)紙的出版發(fā)行過程,網(wǎng)絡(luò)和計(jì)算機(jī)等設(shè)備在其中占有相當(dāng)重要的份額。從新聞的采編過程到版面的制作過程直到將版面?zhèn)鬏數(shù)礁鞯赜∷Ⅻc(diǎn),都與網(wǎng)絡(luò)和計(jì)算機(jī)設(shè)備密不可分??偨Y(jié)以往經(jīng)驗(yàn)和教訓(xùn),網(wǎng)絡(luò)和計(jì)算機(jī)等設(shè)備的可用性都將直接影響報(bào)紙出版的時(shí)間。尤其是網(wǎng)絡(luò)交換設(shè)備、服務(wù)器、存儲設(shè)備在整個(gè)印刷出版的生產(chǎn)過程中至關(guān)重要,任何一點(diǎn)故障足以引發(fā)系統(tǒng)整體崩潰。通常這類故障發(fā)生時(shí),可以通過技術(shù)手段解決使系統(tǒng)回復(fù)正常狀態(tài),但有時(shí)故障發(fā)生時(shí)恰好在報(bào)紙出版前的緊張階段,這時(shí)排除系統(tǒng)故障的時(shí)間就不很從容。多年以來,技術(shù)人員為解決這類能夠引發(fā)系統(tǒng)崩潰的單點(diǎn)故障作出巨大的努力,利用每次升級改造的機(jī)會不斷完善采編系統(tǒng)平臺的可用性,使之逐步消除故障隱患。
光明日報(bào)社的原有的采編平臺初建于1994年,于2004年報(bào)社搬遷時(shí)重建到現(xiàn)在已工作8年,存在速度慢、故障隱患多、版本老舊等諸多問題。隨著信息技術(shù)在媒體的廣泛應(yīng)用,信息系統(tǒng)設(shè)備迅速擴(kuò)張,硬件設(shè)備不斷增加,機(jī)房空間、能源、空調(diào)等配套資源愈現(xiàn)短缺。隨著報(bào)社向全媒體復(fù)合出版的轉(zhuǎn)型,對信息系統(tǒng)的依賴程度越來越高,原有的信息系統(tǒng)必須進(jìn)行架構(gòu)整合及優(yōu)化。2011年本報(bào)決定對采編系統(tǒng)進(jìn)行整體改造升級,包括升級軟件、更換所有硬件設(shè)備、建立移動(dòng)傳稿機(jī)制。在這次升級改造過程中,我們對原有系統(tǒng)的薄弱環(huán)節(jié)進(jìn)行深入分析研究,在有限資金條件下,利用新技術(shù)解決了我們認(rèn)為會引發(fā)系統(tǒng)崩潰的所有單點(diǎn)設(shè)備。為此,我們在這次改造過程中引進(jìn)了云計(jì)算的概念,并引進(jìn)了一些設(shè)備的最新技術(shù)綜合解決上述問題。
服務(wù)器在采編系統(tǒng)中的作用和重要性不言而喻,改造前所有服務(wù)器單獨(dú)使用,每臺服務(wù)器基本上執(zhí)行一個(gè)應(yīng)用程序。機(jī)房內(nèi)用于采編平臺的服務(wù)器有十幾臺,作為備份的服務(wù)器接近半數(shù),大量資源閑置浪費(fèi)。2004年曾經(jīng)安裝雙機(jī)熱備軟件,由于當(dāng)時(shí)技術(shù)不過關(guān),該軟件經(jīng)常引發(fā)服務(wù)器不能正常工作,只能放棄這種方式,改為服務(wù)器冷備份。這種配置方法在一定程度上提供了解決服務(wù)器故障的方法,但是由于在采編平臺的服務(wù)器較多,故障概率相應(yīng)增加,對整個(gè)系統(tǒng)仍然構(gòu)成嚴(yán)重威脅。
云計(jì)算的一個(gè)重要理念是將計(jì)算機(jī)中多余的資源為其它應(yīng)用提供服務(wù)。根據(jù)這一理論本次更換設(shè)備過程中,按照報(bào)社全媒體新聞生產(chǎn)系統(tǒng)的規(guī)劃,并通過論證我們選擇了 VMware 的虛擬化和云計(jì)算技術(shù)來實(shí)現(xiàn)報(bào)社私有云。Vmware的虛擬化軟件是當(dāng)前成熟可靠且歷經(jīng)市場檢驗(yàn)的、可以持續(xù)發(fā)展的虛擬化/云計(jì)算技術(shù)。具體做法是:首先我們在機(jī)房設(shè)置了兩臺高配置物理服務(wù)器,應(yīng)用Vmware vSphere虛擬化軟件將兩臺物理服務(wù)器設(shè)置成兩臺虛擬服務(wù)器主機(jī)(ESXI),每臺虛擬服務(wù)器主機(jī)(ESXI)可設(shè)置多臺虛擬服務(wù)器,分別運(yùn)行操作系統(tǒng)和采編平臺的中的一個(gè)應(yīng)用程序。通過這樣配置的建成報(bào)社內(nèi)部私有云,近期效果非常明顯,能夠防止服務(wù)器出現(xiàn)故障時(shí)不會造成整個(gè)系統(tǒng)崩潰,極大提高系統(tǒng)可用性。
根據(jù)VMware HA群集功能的一個(gè)重要特性,在一個(gè)包括兩個(gè)或者兩個(gè)以上ESX主機(jī)的群集中,每一臺VMware ESX服務(wù)器配有一個(gè)HA代理,持續(xù)不斷地檢測集群中其他主機(jī)的心跳信號。假如某臺ESX主機(jī)在連續(xù)三個(gè)時(shí)間間隔后都還沒有發(fā)出心跳信號,那么該主機(jī)就被默認(rèn)為發(fā)生了故障或者與網(wǎng)絡(luò)的連接出現(xiàn)了問題。在這種情況下,原本在該主機(jī)上運(yùn)行的虛擬機(jī)就會自動(dòng)被轉(zhuǎn)移到群集中的其他主機(jī)上。反之,如果一臺主機(jī)無法接收到來自群集的其他主機(jī)的心跳信號,那么該主機(jī)便會啟動(dòng)一個(gè)內(nèi)部進(jìn)程來檢測自己跟群集中其他主機(jī)的連接是否出現(xiàn)了問題。如果真的出現(xiàn)了問題,那么就會中斷在這臺主機(jī)上所有正在運(yùn)行的虛擬機(jī),并啟動(dòng)預(yù)先設(shè)定好的備用主機(jī)。對于一次VMware HA故障轉(zhuǎn)移,客戶端操作系統(tǒng)認(rèn)為只是一次因硬件的崩潰而進(jìn)行的重啟,并不會覺察到是一次有序的關(guān)機(jī)。因此,這樣的修復(fù)并不會改變操作系統(tǒng)的狀態(tài)。此外,虛擬機(jī)中任何正在進(jìn)行的業(yè)務(wù)也不會丟失。所以,VMware HA的故障轉(zhuǎn)移對于客戶來說可以算是完全透明的,幾乎不會出現(xiàn)任何停機(jī)的危險(xiǎn)。
當(dāng)服務(wù)器正常工作時(shí)借助Vmware vSphere的DRS功能可以起到負(fù)載均衡的作用。DRS可以根據(jù)CPU的工作狀態(tài),自動(dòng)將負(fù)載比較重的EXSI中的虛擬服務(wù)器轉(zhuǎn)移到另一臺EXSI。
采用虛擬技術(shù)后由于兩臺物理服務(wù)器可以運(yùn)行多個(gè)應(yīng)用程序尚未出現(xiàn)瓶頸效應(yīng),節(jié)省了一定數(shù)量服務(wù)器,機(jī)房能源消耗下降,符合節(jié)能要求。
從長遠(yuǎn)效果看,借助Vmware vSphere的其它功能可以解決有關(guān)服務(wù)器的更多的問題并明顯提高技術(shù)人員對服務(wù)器的管理水平。例如借助Vmware DRS功能可以將一個(gè)物理服務(wù)器置于維護(hù)模式下時(shí),Vmware DRS將自動(dòng)把所有虛擬機(jī)遷移到其他物理服務(wù)器上,從而實(shí)現(xiàn)零停機(jī)的服務(wù)器維護(hù)。當(dāng)服務(wù)器負(fù)載過重,可以利用Vmware Vmotion的功能在不宕機(jī)的情況下增加物理服務(wù)器的數(shù)量。
光明日報(bào)是中共中央機(jī)關(guān)報(bào)之一,是由中宣部直接領(lǐng)導(dǎo)的全國性的新聞媒體,是廣大人民群眾在生產(chǎn)和生活過程中了解和貫徹中央精神的重要來源。在當(dāng)前多種媒體并發(fā)的信息化高速發(fā)展的時(shí)代,該報(bào)的內(nèi)容和出版發(fā)行的時(shí)效性直接關(guān)系到該報(bào)的生命力。對于報(bào)社的技術(shù)工作人員來說,保障報(bào)紙的正常出報(bào)發(fā)行相對于報(bào)紙發(fā)行的時(shí)效性有直接的影響因素。
為保障報(bào)紙的正常發(fā)行,對數(shù)據(jù)存儲系統(tǒng)有嚴(yán)格的要求,其理想狀態(tài)必須保證有2份數(shù)據(jù)實(shí)時(shí)在線,發(fā)生故障時(shí),數(shù)據(jù)恢復(fù)時(shí)間為0。為防止因故障數(shù)據(jù)丟失,以前有磁帶機(jī)后備、利用RAID技術(shù)、鏡像后備等方法。這些方法基本能保證數(shù)據(jù)不丟失,但在采編平臺應(yīng)用時(shí)有數(shù)據(jù)恢復(fù)時(shí)間的問題。磁帶機(jī)數(shù)據(jù)恢復(fù)時(shí)間以小時(shí)計(jì),根本不能使用。RAID技術(shù)、鏡像后備等方式在維修或更換硬盤需要修改IP地址、宕機(jī)、重新啟動(dòng)時(shí)間。本次更換設(shè)備采用了NETAPP存儲系統(tǒng)獨(dú)特的MetroCluster技術(shù)。MetroCluster 是一個(gè)獨(dú)特的解決方案,能夠?qū)⒒陉嚵械娜杭c同步鏡像相結(jié)合,從而提供持續(xù)可用性和零數(shù)據(jù)損失。作為自成一體的“自包含”解決方案,MetroCluster 能夠
Science前沿以透明形式從故障中恢復(fù),從而可以始終保證任務(wù)關(guān)鍵型應(yīng)用程序不間斷。這還將消除重復(fù)的更改管理活動(dòng),以降低人為錯(cuò)誤和高管理開銷的風(fēng)險(xiǎn)。從所附簡圖可以看出,采用MetroCluster技術(shù)后兩組磁盤不僅僅完成同步鏡像,并且通過心跳線構(gòu)成相互檢測體系,當(dāng)系統(tǒng)發(fā)現(xiàn)有一組磁盤出現(xiàn)故障時(shí),另一組可接管全部業(yè)務(wù),無需人為操作即可恢復(fù)數(shù)據(jù)。此項(xiàng)技術(shù)對于技術(shù)人員獲益明顯:
1. 不間斷升級可最大限度減少計(jì)劃停機(jī)時(shí)間
2. 自動(dòng)化的站點(diǎn)故障轉(zhuǎn)移可縮短計(jì)劃外停機(jī)時(shí)間
3. 借助 VMware HA和FT,在虛擬化環(huán)境中實(shí)現(xiàn)端到端的持續(xù)可用性。
網(wǎng)絡(luò)交換設(shè)備在采編平臺中的重要性舉足輕重。其發(fā)生故障對采編系統(tǒng)也是災(zāi)難性的。根據(jù)以往經(jīng)驗(yàn),這次設(shè)備更換采用雙核心交換機(jī),每臺核心交換機(jī)采用雙引擎、雙電源。從主機(jī)房連接到每個(gè)電信井采用雙路光纖按照鏈路冗余方式設(shè)置。這樣就可以極大減小交換機(jī)設(shè)備出故障時(shí)對系統(tǒng)的影響。
對于報(bào)社的另一個(gè)重要網(wǎng)絡(luò),互聯(lián)網(wǎng)接入網(wǎng)在本次設(shè)備更換中也有重大改變。報(bào)社從1995年建立采編平臺以來,為確保內(nèi)網(wǎng)安全,始終采取內(nèi)外網(wǎng)物理隔離方式。隨著信息化的高速發(fā)展,社內(nèi)編輯記者對互聯(lián)網(wǎng)的依靠程度越來越高。為防止互聯(lián)網(wǎng)網(wǎng)絡(luò)出現(xiàn)故障而影響工作,外網(wǎng)交換機(jī)也采取了雙核心交換機(jī)。在配置上也采取了雙引擎、雙電源以及兩對光纖按照鏈路冗余方式接入各電信井。在報(bào)社范圍內(nèi)布置了無線交換機(jī)。極大方便了采編人員的上網(wǎng)需求。
考慮到記者在外采訪時(shí)的發(fā)稿需求,建立了移動(dòng)傳稿系統(tǒng),為使稿件直接進(jìn)入采編內(nèi)網(wǎng)并自動(dòng)分配各部門稿庫,傳統(tǒng)的物理隔離將被打破,出于安全考慮,在互聯(lián)網(wǎng)與采編內(nèi)網(wǎng)間加入防火墻、防病毒網(wǎng)關(guān)、防入侵檢測網(wǎng)關(guān)等安全設(shè)施,并根據(jù)人民日報(bào)經(jīng)驗(yàn),設(shè)置網(wǎng)閘。
光明日報(bào)社通過本次技術(shù)改造,利用虛擬技術(shù)、Metrocluster技術(shù)、網(wǎng)絡(luò)核心雙備份技術(shù)以及其它一些安全方面新技術(shù)成功建成報(bào)社內(nèi)部私有云,全面提升采編系統(tǒng)可用性。新老系統(tǒng)于6月23日成功切換,此后將進(jìn)一步考驗(yàn)新系統(tǒng)的綜合性能;并發(fā)現(xiàn)存在的新問題。我們將針對新發(fā)現(xiàn)的問題進(jìn)行改進(jìn)。
10.19483/j.cnki.11-4653/n.2012.11.016
光明日報(bào)社技術(shù)處)
修煉|趨勢