于京杰,馬錫坤
南京軍區(qū)南京總醫(yī)院 信息科,江蘇南京 21000
醫(yī)院核心應(yīng)用保障平臺的研究
于京杰,馬錫坤
南京軍區(qū)南京總醫(yī)院 信息科,江蘇南京 21000
本研究通過多年對醫(yī)院信息系統(tǒng)所發(fā)生的故障進(jìn)行分析研究,提出了高可用的“園區(qū)級整體容災(zāi)”平臺,彌補了傳統(tǒng)的群集解決方案的不足,保證了醫(yī)院信息系統(tǒng)7×24h不間斷地運行。
醫(yī)院信息系統(tǒng);園區(qū)級容災(zāi)平臺; SAN存儲設(shè)備;磁盤陣列
醫(yī)療行業(yè)的信息化建設(shè)經(jīng)過了幾個階段的發(fā)展?,F(xiàn)今,醫(yī)院信息系統(tǒng)(HIS)、檢驗信息系統(tǒng)(LIS)以及影像存儲與傳輸系統(tǒng)(PACS)等眾多內(nèi)容豐富、功能強大的應(yīng)用軟件逐漸成熟,并成為醫(yī)院業(yè)務(wù)系統(tǒng)的核心。隨著時間的推移,這些系統(tǒng)的數(shù)據(jù)越來越多,數(shù)據(jù)的價值也越來越大,數(shù)據(jù)丟失或系統(tǒng)停機所造成的損失會造成越來越嚴(yán)重的后果,甚至變得不能接受。
每個行業(yè)都有自身的特點,那么對醫(yī)療行業(yè)來說,要如何建設(shè)一個信息系統(tǒng)來實現(xiàn)醫(yī)院的信息化建設(shè),以保證這些系統(tǒng)能夠7×24h高效可靠的運行。這些問題已經(jīng)成為醫(yī)院信息工作者的重點和難點。醫(yī)院信息化工作應(yīng)該分為3部分:① 人員組織建設(shè),這是信息工作的保障。② 業(yè)務(wù)流程及應(yīng)用軟件的建設(shè),這是醫(yī)院的應(yīng)用系統(tǒng)。③ 信息系統(tǒng)集成平臺的建設(shè),這是信息系統(tǒng)安全、可靠、穩(wěn)定和高效運行的保障。
通過多年對醫(yī)院信息系統(tǒng)所發(fā)生的故障進(jìn)行研究,發(fā)現(xiàn)95%以上的宕機來自計算機硬件和系統(tǒng)軟件故障(信息系統(tǒng)集成平臺),只有不到5%的故障來自應(yīng)用系統(tǒng)本身。因此,建設(shè)一個高可用的系統(tǒng)集成平臺在醫(yī)院的信息化建設(shè)中具有特別重要的意義。隨著醫(yī)療信息化不斷展開,醫(yī)院信息系統(tǒng)建設(shè)也提出了更高的要求。在基礎(chǔ)平臺建設(shè)方面,經(jīng)過詳細(xì)的調(diào)研,針對醫(yī)院對系統(tǒng)可用性和容災(zāi)等方面的高要求,提出了完善的、高可用的“園區(qū)級整體容災(zāi)”平臺解決方案。
要實現(xiàn)整個醫(yī)院信息系統(tǒng)7×24h正常運行,就必須先保證HIS、LIS、PACS這些核心應(yīng)用中的任何一個系統(tǒng)都能夠7×24h運行[1]。目前,絕大多數(shù)醫(yī)院都采用了群集技術(shù)(“雙機熱備份”)來保證服務(wù)的持續(xù)運行或者在用戶可以接受的時間之內(nèi)自動進(jìn)行服務(wù)恢復(fù)。群集技術(shù)在應(yīng)對服務(wù)器故障方面有著顯而易見的效果,這一技術(shù)已經(jīng)得到大多數(shù)醫(yī)院的認(rèn)可并已經(jīng)得到很大程度上的普及。但是,隨著群集技術(shù)運用的普及,研究人員發(fā)現(xiàn)群集本身也有一些非常明顯的不足。
(1)盤陣列單點故障。由于傳統(tǒng)的群集解決方案多采用“2+1”的模式,這個為了在兩臺服務(wù)器之間共享數(shù)據(jù)存儲而存在的獨立磁盤陣列往往就成為了核心系統(tǒng)的一個突出單點故障點,一旦磁盤陣列發(fā)生故障,則整個系統(tǒng)將發(fā)生停機。作為需要7×24h運營的醫(yī)院來說,這種意外的停機是無法接受的;同時整個系統(tǒng)只有磁盤陣列中的1份數(shù)據(jù),如果磁盤陣列發(fā)生故障導(dǎo)致數(shù)據(jù)丟失,就會造成巨大損失難以挽回。
(2)忽視容災(zāi)。目前,國內(nèi)的醫(yī)院多數(shù)對容災(zāi)的必要性重視程度還不夠,在系統(tǒng)建設(shè)的時候,對數(shù)據(jù)和應(yīng)用的容災(zāi)考慮得比較少,一旦發(fā)生場地災(zāi)難性事故,整個系統(tǒng)將毀于一旦,數(shù)據(jù)將無法復(fù)原,醫(yī)院將遭受無法估量的巨大損失。
綜上所述,大多數(shù)醫(yī)院以往主要考慮的是采用服務(wù)器集群,以防止服務(wù)器故障導(dǎo)致整個系統(tǒng)的停機,卻忽視了數(shù)據(jù)存儲(磁盤陣列)的可用性以及集群軟件本身的可靠性。而數(shù)據(jù)卻是醫(yī)院信息應(yīng)用中最寶貴的“財富”。
醫(yī)院往往是集中在一個園區(qū)之內(nèi),要為醫(yī)院特地構(gòu)建一個容災(zāi)中心,對醫(yī)院來說其實很不容易。有一些專業(yè)的信息服務(wù)商(ISP)可以為醫(yī)院用戶提供數(shù)據(jù)容災(zāi)服務(wù),但對醫(yī)院來說有兩個比較明顯的劣勢:一是收費非常昂貴;二是高可用問題。由于醫(yī)院的應(yīng)用基本上都集中在醫(yī)院園區(qū)內(nèi)部,并對網(wǎng)絡(luò)帶寬要求較高,所以只能解決數(shù)據(jù)的容災(zāi),很難解決應(yīng)用的高可用問題。ISP的容災(zāi)服務(wù)不適合對大型醫(yī)院核心應(yīng)用的保障。綜合以上需求分析,醫(yī)院系統(tǒng)應(yīng)該建立的是一套能夠回避任何單點故障的高可用系統(tǒng),且該系統(tǒng)應(yīng)具有強大的數(shù)據(jù)保護(hù)和容災(zāi)功能。
3.1 信息系統(tǒng)可用性建設(shè)目標(biāo)
信息系統(tǒng)可用性(Information System Availability,ISA)可以用兩個概念準(zhǔn)確地量化(圖1),這就是“恢復(fù)點(Recovery Point Objective,RPO)”和“恢復(fù)時間(Recovery Time Objective,RTO)”[2]。
圖1 恢復(fù)點和恢復(fù)時間
圖中箭頭代表時間軸,往右代表未來的時間,往左則代表過去的時間。如果信息系統(tǒng)發(fā)生問題,在某個時刻發(fā)生數(shù)據(jù)丟失,那么備份數(shù)據(jù)所能恢復(fù)到的時間點就稱之為“恢復(fù)點”,它反映了可能發(fā)生的數(shù)據(jù)丟失量;與其對應(yīng)的,當(dāng)某一時刻信息系統(tǒng)發(fā)生停機,能夠在發(fā)生故障之后的某一時間點使信息系統(tǒng)重新上線并正常運行,這個時間點就稱之為“恢復(fù)時間”,它反映了系統(tǒng)的停機時間。
分析信息系統(tǒng)的RPO和RTO要求,是選擇適合使用的技術(shù)和產(chǎn)品的前提。對于醫(yī)院的信息系統(tǒng)RPO的要求,應(yīng)該盡最大可能做到“零數(shù)據(jù)丟失”。因數(shù)據(jù)庫中的數(shù)據(jù)相互之間存在著復(fù)雜的邏輯關(guān)系,一旦發(fā)生一段時間的數(shù)據(jù)丟失,哪怕是短短幾分鐘,其后期補錄數(shù)據(jù)的工作量也是非常驚人的。而且,一般來說這些數(shù)據(jù)是沒有辦法補錄的。因此,HIS的數(shù)據(jù)丟失變得越來越不能被接受。普遍認(rèn)為,HIS的恢復(fù)時間比較認(rèn)同的是在15min之內(nèi),也就是說,允許的停機時間不能超過15min。而所丟失的數(shù)據(jù)應(yīng)該控制在“零丟失范圍”。
在進(jìn)行系統(tǒng)設(shè)計時,應(yīng)充分考慮信息系統(tǒng)的要求,遵循“系統(tǒng)先進(jìn)、實用、安全、可靠、可擴展、易維護(hù)及經(jīng)濟”等原則,編制功能實用、經(jīng)濟合理、資源優(yōu)化的系統(tǒng)方案[3]。在數(shù)據(jù)處理工作中,數(shù)據(jù)是穩(wěn)定的,而處理是多變的,數(shù)據(jù)規(guī)劃是信息系統(tǒng)建設(shè)的前提和基礎(chǔ)。必須做好數(shù)據(jù)的總體規(guī)劃和組織,建立穩(wěn)定的全域數(shù)據(jù)模型、統(tǒng)一的數(shù)據(jù)處理平臺,以控制和協(xié)調(diào)全院的信息系統(tǒng)建設(shè)?;趪H通用的協(xié)議、建立標(biāo)準(zhǔn)應(yīng)用系統(tǒng),將醫(yī)院的各項資源信息化,然后根據(jù)應(yīng)用的具體目標(biāo)和需求來組織信息共享和流動,形成網(wǎng)絡(luò)化工作流程,使應(yīng)用可以無差別地運行在各種系統(tǒng)環(huán)境中,各種應(yīng)用可以非常容易地共享信息資源并相互銜接。這樣每增加一個應(yīng)用,即是為整個信息系統(tǒng)增加一些可重用的資源,而不是增加一些“信息孤島”和“壁壘”。
3.2 信息系統(tǒng)可用性實現(xiàn)方式
由于醫(yī)院信息的時效性極強,因此,醫(yī)院的信息化應(yīng)該采用“園區(qū)級整體容災(zāi)”的架構(gòu)(圖2)?;谏鲜鲞@樣一個建設(shè)目標(biāo),在主機房和容災(zāi)機房分別放置一臺SAN存儲設(shè)備[4]。我們采用EMC MirrorView軟件來建立一套能夠避免單點故障的高可用系統(tǒng),且該系統(tǒng)具有強大的數(shù)據(jù)保護(hù)和容災(zāi)功能[5]。EMC MirrorView軟件是兩套或兩套以上的存儲管理軟件,當(dāng)整個系統(tǒng)具備兩套或兩套以上存儲設(shè)備時,配合該軟件解決方案的使用,可實現(xiàn)全冗余無單點故障的容災(zāi)。
采用基于存儲的MirrorView軟件實現(xiàn)了兩臺磁盤陣列之間的鏡像關(guān)系,在兩臺存儲上劃分出相同的邏輯單元號(Logical Unit Number,LUN),使用存儲的Mirror功能實現(xiàn)存儲的同步鏡像。每一次I/O的寫入都會到達(dá)兩臺磁盤陣列的控制器,并當(dāng)兩個I/O都返回正確的結(jié)果之后,操作才算完成。所以,兩臺磁盤陣列中的數(shù)據(jù)完全保持實時同步,不用擔(dān)心任何的數(shù)據(jù)一致性問題。
圖2 “園區(qū)級整體容災(zāi)”的架構(gòu)
該方案在原來“2+1”群集模式的基礎(chǔ)上,增加了一臺磁盤陣列,將一臺服務(wù)器定義為一個“運算節(jié)點”,將一臺磁盤陣列定義為一個“存儲節(jié)點”。為了區(qū)別于以前的群集模式,可以把這個方案通俗地稱為“2+2”群集模式,所謂“2+2”的意思就是“兩個運算節(jié)點+兩個存儲節(jié)點”[6]。從功能上來講,該方式歷史性地突破了系統(tǒng)全冗余、無任何單點故障點以及數(shù)據(jù)和應(yīng)用的園區(qū)范圍的容災(zāi),使核心應(yīng)用系統(tǒng)真正沒有后顧之憂。而采用AutoStart軟件實現(xiàn)了兩個運算節(jié)點之間的群集關(guān)系。AutoStart軟件會自動管理MirrorView軟件,實現(xiàn)存儲鏡像的全自動管理[7-8]。對于一個應(yīng)用來說,只要任意一個運算節(jié)點和一個存儲節(jié)點運行正常,都能使整個系統(tǒng)正常運行。
在這個集成平臺上,當(dāng)任何一臺設(shè)備出現(xiàn)故障啟機,系統(tǒng)會自動切換到另一臺設(shè)備上繼續(xù)運行,該過程對客戶端透明,不影響前端用戶的使用。這種架構(gòu)的設(shè)計能夠應(yīng)對以下威脅:一是機房設(shè)備故障(設(shè)備故障、大樓斷電、網(wǎng)絡(luò)線路故障等),系統(tǒng)會自動切換到另一個機房繼續(xù)運行;二是操作系統(tǒng)故障(病毒入侵、誤操作、人為破壞等),能夠快速恢復(fù)系統(tǒng)的運營。
由于應(yīng)用完全基于統(tǒng)一的SAN存儲架構(gòu),因此,再有新應(yīng)用增加的時候,只需要添加新的服務(wù)器并連接到SAN網(wǎng)絡(luò)中、劃分存儲空間即可。整個過程對其他業(yè)務(wù)透明,沒有任何影響,該方案架構(gòu)具有很強的可擴展性,同時,服務(wù)器系統(tǒng)運行于集中管理、數(shù)據(jù)集中存儲。因此,每增加一個應(yīng)用,就是為整個信息系統(tǒng)增加一些可重用的資源,能夠很方便地實現(xiàn)數(shù)據(jù)共享。
HIS容災(zāi)已經(jīng)成為醫(yī)院信息化建設(shè)不可忽視的環(huán)節(jié),本文從構(gòu)建信息系統(tǒng)集成保障平臺的實踐角度出發(fā),提供了容災(zāi)建設(shè)的一種方式,并在HIS和LIS平臺中得以實現(xiàn),運行效果良好。該方案有如下優(yōu)勢:一是全冗余連接,無任何單點故障點。系統(tǒng)中任意一個部件的損壞都不會影響系統(tǒng)的正常運行。二是鏡像的存儲節(jié)點為系統(tǒng)關(guān)鍵的在線業(yè)務(wù)數(shù)據(jù)提供了雙重保護(hù)。三是采用先進(jìn)的SAN架構(gòu),利用SAN架構(gòu)的優(yōu)勢,實現(xiàn)了高性能的LAN-free備份以及極強的可擴展性。此套核心應(yīng)用保障平臺解決方案能夠最大限度地保證數(shù)據(jù)的連續(xù)性和業(yè)務(wù)的連續(xù)性,以及高擴展性。同時具有高效的災(zāi)難恢復(fù)以及靈活配置和簡潔管理的特點,對醫(yī)院信息系統(tǒng)實現(xiàn)了安全可靠的保護(hù),保證了在任何災(zāi)難下都不影響關(guān)鍵應(yīng)用。
[1] 翁錦陽,何萍,朱鐵兵.大型醫(yī)院信息系統(tǒng)的容災(zāi)設(shè)計和應(yīng)用[J].中國醫(yī)療設(shè)備,2011, 26(1):59-60.
[2] 胡敏,徐旭東,張曙光,等.醫(yī)院信息系統(tǒng)容災(zāi)方案的設(shè)計與實施[J].醫(yī)療衛(wèi)生裝備,2009, 30(11):44-45.
[3] 薛雁.醫(yī)院SAN數(shù)據(jù)存儲和遠(yuǎn)程容災(zāi)方案[J].現(xiàn)代醫(yī)院,2007,7(2):143-145.
[4] 郝尚永.基于SAN架構(gòu)的醫(yī)院網(wǎng)絡(luò)數(shù)據(jù)存儲系統(tǒng)設(shè)計與實現(xiàn)[J].醫(yī)療衛(wèi)生裝備, 2009, 30(12):47-48.
[5] 馬錫坤,楊國斌,袁波.構(gòu)筑信息網(wǎng)絡(luò)基礎(chǔ)平臺 保障人財物科學(xué)管理[J].中國數(shù)字醫(yī)學(xué),2010,5(8):20-22.
[6] 陸維嘉.醫(yī)院信息系統(tǒng)容災(zāi)建設(shè)淺析[J].中國醫(yī)療設(shè)備,2009,24(4):86-87.
[7] 馬錫坤,楊國斌.基于PC服務(wù)器非共享磁盤高可用系統(tǒng)的實現(xiàn)[J].中國醫(yī)療設(shè)備,2010,25(4):29-30.
[8] 楊霜英,胡新勇,楊國斌,等.大型醫(yī)院網(wǎng)絡(luò)信息系統(tǒng)的安全保障策略[J].中國醫(yī)療設(shè)備,2009,24(10):36-38.
The Research of Core Hospital Applications Security Platform
YU Jing-jie, Ma Xi-kun
Information Department, Nanjing General Hospital of Nanjing Military Command,Nanjing Jiangsu 210002, China
In this article, we analyzed the failures of the hospital information system in resent years, explains that how to establish one integration platform aimed to hospital information system, which can ensure the 7×24 business continuity of the hospital information system.
hospital information system; disaster recovery in campus level; SAN memory device; disk array
TP393.02
A
10.3969/j.issn.1674-1633.2011.12.013
1674-1633(2011)12-0046-03
2011-04-10
2011-05-16
馬錫坤,高級工程師。
通訊作者郵箱:maxikun@163.com