郭慧
摘要:隨著醫(yī)療信息化的推進(jìn),數(shù)據(jù)中心成為醫(yī)院信息系統(tǒng)中的主要組成部分,起著至關(guān)重要的作用。但是數(shù)據(jù)中心系統(tǒng)龐大、專業(yè)性強(qiáng)及技術(shù)要求高,在運(yùn)維過程中一直存在耗時長、效率低的問題。文章首先分析了數(shù)據(jù)中心須維護(hù)的內(nèi)容及影響數(shù)據(jù)中心運(yùn)維效率的因素,其次詳細(xì)闡述了數(shù)據(jù)中心監(jiān)控管理平臺實現(xiàn)主動告警、詳細(xì)定位及協(xié)助運(yùn)維的策略。該監(jiān)控管理平臺的部署提升了運(yùn)維人員的工作效率,對保障醫(yī)院業(yè)務(wù)系統(tǒng)連續(xù)運(yùn)行起到了重要作用。
關(guān)鍵詞:醫(yī)院信息系統(tǒng);監(jiān)控管理平臺;醫(yī)院數(shù)據(jù)中心運(yùn)維
中圖分類號:TP393文獻(xiàn)標(biāo)志碼:A0引言在醫(yī)院信息化管理中,醫(yī)院各種信息數(shù)據(jù)管理都依靠信息系統(tǒng)進(jìn)行收集、管理與保存。醫(yī)院數(shù)據(jù)中心作為信息系統(tǒng)的核心架構(gòu),其穩(wěn)定性是保障信息系統(tǒng)業(yè)務(wù)不間斷的關(guān)鍵因素,也是全面優(yōu)化醫(yī)院的信息服務(wù)水平的關(guān)鍵點。因此,提升工作人員運(yùn)維的效率,保障數(shù)據(jù)中心的穩(wěn)定性至關(guān)重要。然而隨著醫(yī)療信息化的推進(jìn),數(shù)據(jù)中心的IT設(shè)備規(guī)模越來越大,子系統(tǒng)數(shù)量越來越多,導(dǎo)致數(shù)據(jù)中心運(yùn)維工作量劇增,出現(xiàn)的設(shè)備故障不能得到及時修復(fù)?;诖耍绾芜\(yùn)維才能更好地保障數(shù)據(jù)中心的穩(wěn)定就成為首要問題。
1數(shù)據(jù)中心維護(hù)內(nèi)容與存在的問題1.1維護(hù)內(nèi)容1.1.1機(jī)房環(huán)境數(shù)據(jù)中心機(jī)房是醫(yī)院信息系統(tǒng)數(shù)據(jù)處理的中心,對工作環(huán)境有著嚴(yán)格的要求[1]:溫度要控制在24℃左右,相對濕度要控制在65%左右,并在機(jī)房放置溫濕度計。
1.1.2UPS電源機(jī)房維護(hù)人員需定期對UPS電池進(jìn)行放電操作,激活電池性能,并做好記錄。保證在受控的情況下,盡早發(fā)現(xiàn)并替換有問題的電池。
1.1.3IT設(shè)備管理IT設(shè)備管理主要是對服務(wù)器、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備和安全設(shè)備等進(jìn)行的管理維護(hù),以保證設(shè)備穩(wěn)定、高效運(yùn)行。維護(hù)過程中,重點檢查并記錄設(shè)備的運(yùn)行狀態(tài),包括:CPU使用率、內(nèi)存使用率、磁盤使用率、網(wǎng)卡狀態(tài)、接口流量、電源狀態(tài)等。除此之外,管理人員還要查看數(shù)據(jù)庫讀寫性能是否完好、表空間是否存在死鎖等問題。
1.2存在的問題1.2.1運(yùn)維經(jīng)驗缺乏整理形成知識庫由于缺乏有效的運(yùn)維管理策略,數(shù)據(jù)中心運(yùn)維人員在運(yùn)維工作過程中積累了眾多有價值的經(jīng)驗,如問題的判定、分析和處理,只能通過經(jīng)驗判斷;對于常見故障如網(wǎng)絡(luò)故障、數(shù)據(jù)庫故障、存儲設(shè)備故障等處理方法未形成書面工作文件,未被整理、分類形成知識庫。這些經(jīng)驗只能在小范圍內(nèi)得到傳播和繼承,而不能在更大的范圍內(nèi)體現(xiàn)其價值。這樣就容易導(dǎo)致運(yùn)維過程中出現(xiàn)的事件性質(zhì)的識別、優(yōu)先級的界定以及疑難問題的分析診斷等問題只能由少數(shù)核心人員進(jìn)行處理[2],從而增加了少數(shù)核心人員的工作量,也容易產(chǎn)生工作流程的“瓶頸”,降低運(yùn)維團(tuán)隊整體的問題處理效率。
1.2.2缺乏有效的配置管理數(shù)據(jù)庫盡管數(shù)據(jù)中心在IT設(shè)備設(shè)施運(yùn)維的過程中收集了一些配置項信息,但是僅僅局限于關(guān)鍵業(yè)務(wù),如門診系統(tǒng)、住院系統(tǒng)、PACS等相關(guān)的信息系統(tǒng)。而配置管理數(shù)據(jù)庫(Configuration Management Database,CMDB)的建設(shè)需要一個長期的過程,完善的CMDB包含IT設(shè)備使用的信息系統(tǒng)組件所有相關(guān)信息及組件間關(guān)系,如不同系統(tǒng)間數(shù)據(jù)庫視圖和表關(guān)系、使用的存儲設(shè)備、網(wǎng)絡(luò)配置等,同時需要科學(xué)有效地配置管理模式。當(dāng)前缺乏工具支撐的簡單CMDB,后續(xù)很難滿足大數(shù)據(jù)時代高處理能力和處理速度的需求[3]。
1.2.3缺少面向用戶的IT服務(wù)報告數(shù)據(jù)中心在運(yùn)行維護(hù)過程中會生成多種報告,如系統(tǒng)運(yùn)行方面的報告、機(jī)房環(huán)境方面的報告、備份報告、網(wǎng)絡(luò)設(shè)備運(yùn)行報告等。此類報告內(nèi)容專業(yè)性強(qiáng),技術(shù)要求高,僅科室內(nèi)部人員和科室外少數(shù)的領(lǐng)導(dǎo)可以查閱,其他科室人員受限于權(quán)限和專業(yè)性,對報告內(nèi)容難以理解,因此無法充分發(fā)揮這些報告的使用價值[4]。
1.2.4存在運(yùn)維管理漏洞數(shù)據(jù)中心在運(yùn)行維護(hù)過程中缺少科學(xué)有效的運(yùn)維管理制度、操作規(guī)范和明確的具有可執(zhí)行性的運(yùn)維流程,運(yùn)維人員對問題的處理流程不一致,就有可能導(dǎo)致優(yōu)先級高的問題被滯后處理,影響系統(tǒng)穩(wěn)定性。
1.2.5缺少集中管理的運(yùn)維措施隨著醫(yī)院數(shù)據(jù)中心各個子系統(tǒng)的信息化規(guī)模逐漸擴(kuò)大,網(wǎng)絡(luò)架構(gòu)和IT設(shè)備組成也越來越復(fù)雜。單憑幾個獨立的監(jiān)控軟件,通過人工讀取、分析監(jiān)控的IT設(shè)備運(yùn)行數(shù)據(jù)的方式根本不能正確判斷數(shù)據(jù)中心IT設(shè)備的具體使用情況、性能瓶頸等。另外,管理人員也不能及時發(fā)現(xiàn)IT設(shè)備存在的隱患,網(wǎng)絡(luò)穩(wěn)定、信息系統(tǒng)安全也無法得到有效的保證。
2基于監(jiān)控管理平臺的運(yùn)維針對以上數(shù)據(jù)中心運(yùn)維過程中遇到的問題,醫(yī)院引入數(shù)據(jù)中心監(jiān)控管理平臺,旨在通過該平臺全面規(guī)劃、集中統(tǒng)一的運(yùn)維方式,對網(wǎng)絡(luò)系統(tǒng)、服務(wù)器等進(jìn)行管理、監(jiān)控,在系統(tǒng)出現(xiàn)問題的時候可以自動發(fā)出告警信息,從而提升工作人員的運(yùn)維效率,保障系統(tǒng)穩(wěn)定性。此外,利用監(jiān)控管理平臺的自動化、智能化方式實現(xiàn)對數(shù)據(jù)中心IT設(shè)備的監(jiān)控,還可以減少人力物力的投入。
2.1監(jiān)控管理平臺功能數(shù)據(jù)中心監(jiān)控管理平臺是依托人工智能,利用集成技術(shù)所構(gòu)建的一個綜合性平臺。該平臺不僅可以全方位分析機(jī)房設(shè)備的運(yùn)行狀況,還可以自動定位部分小型故障。
2.1.1網(wǎng)絡(luò)拓?fù)涔芾肀O(jiān)控管理平臺可以自動發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備,采用3D可視化頁面,從全局視角提供業(yè)務(wù)及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖。拓?fù)鋱D可以實現(xiàn)報警定位,工作人員通過告警顏色和定位確定問題級別,及時了解數(shù)據(jù)流向,以輕松掌握設(shè)備運(yùn)行狀態(tài)。
2.1.2業(yè)務(wù)監(jiān)控監(jiān)控對象主要有兩類,一類是軟件業(yè)務(wù),包括:業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫、虛擬化、軟件服務(wù)等;另一類是基礎(chǔ)設(shè)備,包括:服務(wù)器、交換機(jī)、存儲、防火墻、路由器等。平臺統(tǒng)一監(jiān)控所有設(shè)備,集中分析信息,向管理人員實時提供性能分析數(shù)據(jù),遇到故障及時發(fā)出告警。
2.1.3設(shè)備運(yùn)維監(jiān)控管理平臺支持全天候自動化巡檢,定期自動檢查設(shè)備運(yùn)行狀態(tài),可實時向移動端發(fā)送故障告警,同時可以快速定位設(shè)備故障,準(zhǔn)確定位問題根源。
2.1.4資產(chǎn)管理監(jiān)控管理平臺可以實時更新及查看主機(jī)資產(chǎn)明細(xì),如設(shè)備IP、系統(tǒng)版本和設(shè)備型號等信息。
2.2監(jiān)控管理平臺結(jié)構(gòu)數(shù)據(jù)中心監(jiān)控管理平臺主要由數(shù)據(jù)采集層、數(shù)據(jù)處理層和數(shù)據(jù)展示層組成,如圖1所示。數(shù)據(jù)采集層主要負(fù)責(zé)監(jiān)控并定期采集被監(jiān)控對象的數(shù)據(jù),然后將采集到的數(shù)據(jù)向下發(fā)送給數(shù)據(jù)處理層。數(shù)據(jù)處理層采用CMDB技術(shù),對采集到的監(jiān)控數(shù)據(jù)進(jìn)行分析與數(shù)據(jù)處理,并將結(jié)果發(fā)送到數(shù)據(jù)展示層。數(shù)據(jù)展示層支持多種展示方式,通過表格、大盤頁面等方式,按要求展示全局性信息或指定內(nèi)容的具體信息。
2.3監(jiān)控管理平臺運(yùn)維2.3.1運(yùn)維配置數(shù)據(jù)中心監(jiān)控管理平臺支持對所有硬件資源的統(tǒng)一配置和監(jiān)控,主要監(jiān)控范圍包括服務(wù)器主機(jī)、網(wǎng)絡(luò)安全設(shè)備、存儲設(shè)備、數(shù)據(jù)庫和業(yè)務(wù)系統(tǒng)等,還可以預(yù)警數(shù)據(jù)庫死鎖、表空間占用情況及網(wǎng)絡(luò)安全攻擊等,如圖2—3所示。
2.3.2運(yùn)維展示通過數(shù)據(jù)中心監(jiān)控管理平臺,每個運(yùn)維人員都可以隨時通過瀏覽器查看某個或所有硬件設(shè)備的運(yùn)行狀態(tài)及性能監(jiān)控信息。設(shè)備出現(xiàn)故障時,監(jiān)控平臺根據(jù)平臺中設(shè)置的人員權(quán)限,第一時間將告警信息通過微信和郵箱推送給運(yùn)維工程師,如圖4—8所示。
數(shù)據(jù)中心監(jiān)控管理平臺主動告警功能可以彌補(bǔ)運(yùn)維人員處理關(guān)鍵問題時的差錯,從而保證問題得到及時處理。此外,平臺從多個層面、多個維度展示監(jiān)控項目信息,尤其是對影響信息系統(tǒng)穩(wěn)定的數(shù)據(jù)庫死鎖、網(wǎng)絡(luò)故障和存儲問題,即使是運(yùn)維經(jīng)驗欠缺的工作人員也能在平臺指引下及時處理問題,極大地降低了核心運(yùn)維人員的壓力,有效提升了運(yùn)維人員整體工作能力和效率。
3結(jié)語數(shù)據(jù)中心監(jiān)控管理平臺利用其主動運(yùn)維、自動操作和及時告警的強(qiáng)大功能,有效地解決了數(shù)據(jù)中心運(yùn)維難、效率低的問題,為保障醫(yī)院信息系統(tǒng)穩(wěn)定運(yùn)行起到了重要作用。但是運(yùn)維人員在享受監(jiān)控管理平臺帶來的便利同時,也要充分地利用好平臺,在實際的工作中不斷摸索,根據(jù)具體情況實時改進(jìn)平臺中的監(jiān)控和告警配置策略,爭取把平臺的有效性發(fā)揮到最大,避免因無效信息而淹沒重要的告警信息,錯過修復(fù)系統(tǒng)的最佳時間。
參考文獻(xiàn)
[1]高山,費曉璐.醫(yī)院信息化主動式運(yùn)維研究[J].中國數(shù)字醫(yī)院,2016(11):98-101.
[2]孔琳.醫(yī)院信息系統(tǒng)的安全與維護(hù)[J].醫(yī)學(xué)信息,2016(7):9-11.
[3]謝之光.大數(shù)據(jù)時代下的數(shù)據(jù)中心運(yùn)維管理研究[J].數(shù)字通信世界,2022(4):131-133.
[4]徐景日.大數(shù)據(jù)時代下的數(shù)據(jù)中心運(yùn)維管理[J].信息與電腦,2020(2):113-115.
[5]胡劍.淺析醫(yī)院信息系統(tǒng)運(yùn)維和管理[J].信息記錄材料,2021(6):27-29.
(編輯 王雪芬)
Influencing factors and countermeasures of hospital data center operation and maintenanceGuo? Hui
(Nanjing Jiangning Hospital, Nanjing 211100, China)Abstract: With the advancement of medical informatization, data centers have become the main components of hospital information systems and play a vital role. However, due to the large data center system, strong professionalism and high technical requirements, there have been problems of time-consuming and inefficient operation and maintenance process. This paper first analyzes the contents of data center maintenance and what factors affect data center O&M efficiency, and then elaborates on how the data center monitoring and management platform can achieve proactive alarms, detailed positioning, and assist O&M. Through the deployment of this monitoring and management platform, the work efficiency of operation and maintenance personnel is improved, which plays an important role in ensuring the continuous operation of hospital business systems.
Key words: 英文關(guān)鍵詞hospital information system; monitoring and management platform; hospital data center operation and maintenance