袁駿毅 尤麗玨 潘常青
1(上海市胸科醫(yī)院(上海交通大學(xué)附屬胸科醫(yī)院) 上海 200030) 2(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院盧灣分院 上海 200020)
醫(yī)療影像是循證醫(yī)學(xué)證據(jù)鏈的關(guān)鍵環(huán)節(jié),對臨床醫(yī)生的診斷和手術(shù)方案起到了重要的影響[1]。醫(yī)生需要高效地調(diào)閱到檢查影像,確?;颊叩玫郊皶r(shí)有效的治療。隨著醫(yī)學(xué)技術(shù)的創(chuàng)新和醫(yī)技檢查的增多,影像數(shù)據(jù)日益呈現(xiàn)快速的增長趨勢,影像的讀取性能成為醫(yī)院信息管理者面臨的難點(diǎn)問題[2]。醫(yī)院通常在存儲上投入了較大的成本,然而很多架構(gòu)規(guī)劃偏重于滿足容量的要求,使用效果未達(dá)到最佳[3]。近年來,分布式技術(shù)廣泛應(yīng)用于海量數(shù)據(jù)的任務(wù)處理,Essa等[4]指出:采用智能負(fù)載分配的分布式存儲有助于實(shí)現(xiàn)大容量數(shù)據(jù)的安全管理和高效利用。
上海市胸科醫(yī)院是一家學(xué)科特色鮮明、以心肺手術(shù)為主的三級甲等專科醫(yī)院,2019年放射科、超聲科等醫(yī)技檢查41.2萬人次,隨著院內(nèi)原有影像歸檔和通信系統(tǒng)(Picture Archiving and Communication Systems,PACS)中影像的不斷累積,調(diào)閱速度日趨緩慢。因此,醫(yī)院實(shí)施基于分布式存儲的PACS項(xiàng)目,以滿足影像調(diào)閱的性能需求。本文通過實(shí)施前后的數(shù)據(jù)對比,驗(yàn)證分布式存儲的應(yīng)用效果,為利用信息技術(shù)手段優(yōu)化臨床工作提供借鑒參考。
PACS的主要作用是采集、傳輸和處理醫(yī)技檢查所產(chǎn)生的醫(yī)學(xué)影像,實(shí)現(xiàn)全院的數(shù)字化存儲和共享[5]。PACS實(shí)時(shí)采集設(shè)備的影像數(shù)據(jù),在醫(yī)技工作站上進(jìn)行相應(yīng)處理,剔除部分無用的序列,標(biāo)記關(guān)鍵幀,歸類存儲到信息機(jī)房。醫(yī)學(xué)影像采用符合國際標(biāo)準(zhǔn)ISO12052的影像通信格式(Digital Imaging and Communications in Medicine,DICOM)。醫(yī)技科室的醫(yī)生在檢查報(bào)告系統(tǒng)(Radiology Information System,RIS)書寫檢查結(jié)論時(shí),以及臨床醫(yī)生在電子病歷系統(tǒng)(Electronic Medical Record,EMR)中查看檢查報(bào)告時(shí),均需要從PACS里調(diào)閱相關(guān)影像資料[6]。PACS體現(xiàn)了醫(yī)院無紙化膠片的應(yīng)用水平,其運(yùn)轉(zhuǎn)效率直接影響到臨床診斷和后續(xù)治療措施,是保障醫(yī)療質(zhì)量的基礎(chǔ)[7]。
醫(yī)院PACS始建于2006年,其文件容量至2015年僅有63.77 TB,至2019年底已達(dá)到245.83 TB,呈井噴式增長,如圖1和圖2所示。PACS作為大容量數(shù)據(jù)對象的信息系統(tǒng),在性能上承擔(dān)著較大的壓力,調(diào)閱成為臨床使用者不滿意的矛盾聚焦點(diǎn),主要體現(xiàn)如下:① 隨著精密設(shè)備如264排CT的投入使用,以往單個(gè)患者的影像大小約250 MB,現(xiàn)已增長到近800 MB,每次調(diào)閱從以前的10~20秒上升到40~60秒,臨床感受度非常差,時(shí)有投訴;② 專科醫(yī)院專注于有限的病種,檢查報(bào)告的質(zhì)量要求較高,書寫檢查結(jié)論時(shí)需對比本次及歷年的影像,由于總?cè)萘恳殉絾闻_存儲的上限,歷年圖像存在于近線存儲設(shè)備中,應(yīng)用軟件尋址效率受到架構(gòu)制約[8];③ 醫(yī)院網(wǎng)絡(luò)為萬兆主干、千兆到桌面,重點(diǎn)科室如放射科的PC采用全閃存硬盤,網(wǎng)絡(luò)和PC的調(diào)整手段已非常有限。因此,信息中心面臨著較大的壓力,應(yīng)用新技術(shù)和成熟穩(wěn)妥的方式提升PACS性能的需求相當(dāng)迫切。
圖1 2009年—2019年影像文件容量
圖2 2009年—2019年影像文件數(shù)量
圍繞著快速訪問和大容量存儲的目標(biāo),PACS分為集中式和分布式兩種存儲模式[9]。集中式存儲以陣列疊加和外部軟件尋址為特征,可靠性較高但橫向擴(kuò)展不易;分布式存儲是面向多節(jié)點(diǎn)的新興存儲技術(shù),依賴于分布式文件系統(tǒng),數(shù)據(jù)分散在網(wǎng)絡(luò)互連的多臺獨(dú)立設(shè)備[10],每臺設(shè)備作為一個(gè)節(jié)點(diǎn),多個(gè)節(jié)點(diǎn)構(gòu)成通信和傳輸?shù)木W(wǎng)絡(luò),集合成為整體從而對外提供存儲服務(wù)。分布式文件系統(tǒng)將數(shù)據(jù)管理任務(wù)均衡地分布到每個(gè)存儲節(jié)點(diǎn)上,達(dá)到各司其職和彼此協(xié)同的目的。分布式技術(shù)提升了存儲的模塊化橫向擴(kuò)展能力,具有高并發(fā)訪問和大規(guī)模擴(kuò)容能力,同時(shí)有效降低了升級維護(hù)硬件的成本,已成為存儲領(lǐng)域的應(yīng)用發(fā)展方向[11]。集中式和分布式對比見表1。
表1 集中式和分布式存儲技術(shù)對比
續(xù)表1
此前,國內(nèi)一般采用進(jìn)口的存儲分布式文件系統(tǒng),主要有Ceph、Hdfs等,兩者均為成熟的開源代碼,具有較好的可維護(hù)性和可擴(kuò)展性,屬于強(qiáng)容錯(cuò)能力的企業(yè)級對象存儲生態(tài)環(huán)境,研發(fā)人員進(jìn)行調(diào)優(yōu)及外圍功能的擴(kuò)展[12]。然而,此方式也存在一些局限:① 適合高吞吐量的大文件存儲,對于數(shù)量較大的小文件的讀取優(yōu)勢并不明顯,高并發(fā)和隨機(jī)讀取的應(yīng)用場景較為受限。② 國外的開源代碼具有成本低廉性,但是不可避免存在較高的黑客攻擊概率[13]。健康數(shù)據(jù)作為國家基礎(chǔ)性戰(zhàn)略資源,生物樣本更是信息安全的重點(diǎn)關(guān)注內(nèi)容,若存在安全漏洞,將產(chǎn)生較大的數(shù)據(jù)泄密風(fēng)險(xiǎn)。因此,近些年部分科研機(jī)構(gòu)和存儲廠商,自主研發(fā)國產(chǎn)化專用代碼的分布式文件系統(tǒng),以便更安全、可靠地保護(hù)醫(yī)療行業(yè)的數(shù)據(jù)。
由于PACS存儲容量較大,若一次性更換原有集中式存儲,則總成本(Total Cost of Ownership,TCO)十分昂貴,項(xiàng)目推進(jìn)必須考慮投入產(chǎn)出比。IT項(xiàng)目的價(jià)值體現(xiàn)在無形資產(chǎn)的隱性回報(bào),通過提高工作效率和降低勞動成本反映,需要從有效性等方面進(jìn)行綜合考量[14]。本文使用廣泛應(yīng)用的動態(tài)投入產(chǎn)出模型,即面臨TCO投入的線性規(guī)劃方案,存在著受擾動的非線性影響(考慮原有未到報(bào)廢期資產(chǎn)的保值),數(shù)學(xué)模型的目標(biāo)函數(shù)如下:
S(x)=saAi+sbBi+scCi
(1)
式中:S(x)為產(chǎn)出量;Ai為新增資產(chǎn)的單項(xiàng)投入;Bi為原有資產(chǎn)的單項(xiàng)價(jià)值;Ci為消耗后用于擴(kuò)大再生產(chǎn)的投資;sa、sb、sc分別為單位周期的原有資產(chǎn)、新增資產(chǎn)和剩余資產(chǎn)的價(jià)值產(chǎn)出系數(shù);i代表不同的檢查類型,i=1,2,…,n。
為簡單而不失同質(zhì)化,假定:①S(x)形成的產(chǎn)能滿足PACS需求;② IT項(xiàng)目投入并不直接導(dǎo)致再生產(chǎn),即Ci=0;③ 不同檢查的存儲占比不同,權(quán)重值總和等于1。通常2至6個(gè)月內(nèi)影像調(diào)閱頻率較高,術(shù)后隨訪等后期調(diào)閱相對較少。因此,本文使用新投資Ai的命中率來表示整體有效度,函數(shù)表達(dá)式為:
(2)
式中:Mi代表周期內(nèi)新投資的使用數(shù);Ni代表原有投資的使用數(shù);λi代表不同檢查類型的權(quán)重。
命中率越大代表了投資的有效性越高,根據(jù)最佳投入產(chǎn)出模型的統(tǒng)計(jì)結(jié)果[15],當(dāng)接近0.92時(shí),性價(jià)比達(dá)到較優(yōu)狀態(tài)。
圖3 2006年—2019年P(guān)ACS數(shù)據(jù)分布權(quán)重
以1個(gè)月的檢查調(diào)閱情況為基準(zhǔn),將2019年12月的17.71萬次調(diào)閱數(shù)據(jù)導(dǎo)入計(jì)算集,迭代分析命中率,結(jié)果如圖4所示。根據(jù)評估計(jì)算結(jié)果顯示,S(x)的首次投資最佳期為10個(gè)月,參考2019年的數(shù)據(jù)量,約為50 TB。
圖4 投入評估的迭代計(jì)算
基于項(xiàng)目投資建設(shè)評估,在保留原有350 TB集中式存儲的基礎(chǔ)上,醫(yī)院于2020年3月投入使用50 TB的碧海分布式存儲,放置在安全隔離區(qū)(Demilitarized Zone,DMZ)。該存儲的文件系統(tǒng)并不基于開源軟件,由上海交通大學(xué)背景的團(tuán)隊(duì)自主研發(fā),具有完全的獨(dú)立知識產(chǎn)權(quán),可在線擴(kuò)展到1 024個(gè)節(jié)點(diǎn)。PACS整體架構(gòu)如圖5所示。影像的上傳下載采用文件傳輸協(xié)議(File Transfer Protocol,FTP),在部分場景支持優(yōu)化定制的開發(fā)工具包(Software Development Kit,SDK)。檢查儀器采集的影像數(shù)據(jù),以FTP方式上傳至分布式存儲。檢查報(bào)告工作站和臨床醫(yī)生工作站調(diào)閱時(shí),先從DMZ的RIS、EMR數(shù)據(jù)庫讀取患者資料、檢查結(jié)論等結(jié)構(gòu)化數(shù)據(jù)項(xiàng),然后發(fā)出影像下載請求。DICOM網(wǎng)關(guān)內(nèi)置統(tǒng)一的影像尋址排序規(guī)則,先至分布式存儲下載,若找不到再被分配至集中式存儲下載。面向互聯(lián)網(wǎng)業(yè)務(wù)的微信掌上醫(yī)院等移動應(yīng)用通過網(wǎng)閘、防火墻設(shè)備,以SDK接口獲取并實(shí)時(shí)生成云膠片。管理后臺設(shè)有定時(shí)任務(wù),當(dāng)分布式存儲使用量即將到達(dá)上限時(shí),計(jì)劃任務(wù)會自動將影像以多線程流媒體方式轉(zhuǎn)儲到集中式存儲。
圖5 PACS系統(tǒng)的分布式存儲架構(gòu)
選取2020年1月原有集中式存儲的影像交互情況作為對照組,2020年3月應(yīng)用分布式存儲架構(gòu)的影像交互情況作為觀察組。提取DICOM網(wǎng)關(guān)記錄的客戶端請求日志,交互速度=請求完成時(shí)間-請求開始時(shí)間。納入及排除標(biāo)準(zhǔn):① 納入調(diào)用IP為醫(yī)生工作站的記錄;② 排除返回狀態(tài)為失敗的錯(cuò)誤記錄;③ 排除請求起始間隔大于600 s的異常記錄。兩組樣本在交互例數(shù)、文件個(gè)數(shù)、文件容量、網(wǎng)絡(luò)基礎(chǔ)等方面的差異均無統(tǒng)計(jì)學(xué)意義,具有可比性,如表2所示。
表2 樣本數(shù)據(jù)統(tǒng)計(jì)
主要觀測兩方面指標(biāo):平均上傳時(shí)間(UP)和平均下載時(shí)間(DN),下標(biāo)1、2分別表示對照組和觀察組。使用SPSS 23.0 軟件進(jìn)行統(tǒng)計(jì)分析,分步式存儲應(yīng)用后的效果見表3。
表3 應(yīng)用后效果對比
由數(shù)據(jù)分析可以得出:① 上傳速度無顯著差異(P值大于0.05),表明分布式存儲并不會導(dǎo)致歸檔加速或延遲;② 下載速度有著顯著差異,分布式存儲有著明顯的優(yōu)勢,單次下載包含的文件多且容量大的CT、MR、PET最為顯著(P值小于0.001),提升速度106%至179%之間,包含文件不多但文件容量較大的DR、DSA則較為顯著(P值小于0.05),提升20%左右;③ 對于文件個(gè)數(shù)和容量均不大的彩超,無論是上傳還是下載,分布式與集中式存儲的差異并不明顯(P值大于0.05)。需要指出的是,由于檢查影像歸檔為后臺自動進(jìn)程的異步上傳,使用者并不會體驗(yàn)到上傳速度的變化,而單次調(diào)閱的下載速度,則直接影響到使用者的感受度。由此可見,分布式存儲的應(yīng)用對于臨床帶來了明顯優(yōu)化的使用效果。
隨著醫(yī)療儀器精密度的提高和檢查覆蓋范圍的變寬,??漆t(yī)院普遍面臨著PACS影像容量急速增長的現(xiàn)象。分布式存儲在多并發(fā)情況下的高吞吐特性,可以更好地解決資源利用率低、調(diào)閱速度緩慢等問題。本文通過醫(yī)院PACS存儲的建設(shè)情況,進(jìn)行了投入的規(guī)劃評估,對比了實(shí)施前后的影像上傳及下載速度;依托于高效穩(wěn)定的分布式存儲,顯著加快了臨床檢查影像的調(diào)閱速度,提高了醫(yī)生的工作效率。在后續(xù)工作中,醫(yī)院將逐步增加分布式存儲容量,以滿足日益增多的電子膠片調(diào)閱需求。隨著互聯(lián)網(wǎng)醫(yī)院的建設(shè),新興信息技術(shù)和醫(yī)療業(yè)務(wù)應(yīng)用的充分融合,已成為醫(yī)院信息化重點(diǎn)發(fā)展的方向。