張國明,顧兵(.沭陽縣人民醫(yī)院檢驗科,江蘇沭陽 223600;2.徐州醫(yī)科大學(xué)醫(yī)學(xué)技術(shù)學(xué)院,江蘇徐州 22004;3.徐州醫(yī)科大學(xué)附屬醫(yī)院檢驗科,江蘇徐州 22002;4.美國普渡大學(xué)生物科學(xué)學(xué)院,美國印第安納州 47907)
·專題筆談·
醫(yī)學(xué)檢驗大數(shù)據(jù)應(yīng)用的思考*
張國明1,顧兵2,3,4
(1.沭陽縣人民醫(yī)院檢驗科,江蘇沭陽 223600;2.徐州醫(yī)科大學(xué)醫(yī)學(xué)技術(shù)學(xué)院,江蘇徐州 221004;3.徐州醫(yī)科大學(xué)附屬醫(yī)院檢驗科,江蘇徐州 221002;4.美國普渡大學(xué)生物科學(xué)學(xué)院,美國印第安納州 47907)
21世紀(jì)是大數(shù)據(jù)時代,醫(yī)學(xué)檢驗大數(shù)據(jù)(big data in laboratory medicine, BDLM)也越來越受到關(guān)注。然而,在醫(yī)學(xué)檢驗工作中應(yīng)用BDLM還存在不少問題。該文綜述了應(yīng)用BDLM的基礎(chǔ)、BDLM對科研選題的要求、應(yīng)用BDLM成功案例和對BDLM應(yīng)用的展望,希望可以幫助醫(yī)學(xué)檢驗同行了解BDLM,并進(jìn)而推動BDLM的應(yīng)用。
大數(shù)據(jù);檢驗醫(yī)學(xué);實驗醫(yī)學(xué)
近年來,大數(shù)據(jù)(big data)在各個行業(yè)中的應(yīng)用越來越多。醫(yī)學(xué)檢驗科是其在醫(yī)療單位中具有大數(shù)據(jù)特征的科室之一。隨著實驗室信息管理系統(tǒng)(laboratory information system,LIS)的普及,醫(yī)學(xué)檢驗科的檢測數(shù)據(jù)每天增加百兆字節(jié)或幾十千兆字節(jié)。近年來,全球檢驗醫(yī)學(xué)專家更加關(guān)注醫(yī)學(xué)檢驗大數(shù)據(jù)(big data in laboratory medicine,BDLM)[1]。然而,在實際工作中能夠很好地應(yīng)用BDLM仍然需要一定的基礎(chǔ),筆者在應(yīng)用BDLM過程中進(jìn)行了如下思考。
1.1 應(yīng)用BDLM對信息系統(tǒng)的要求 根據(jù)臨床醫(yī)生開具的醫(yī)學(xué)檢驗檢查申請,醫(yī)學(xué)檢驗科的儀器不斷產(chǎn)生大量的檢測數(shù)據(jù)。但是,利用BDLM最首要的問題是先按一定的條件檢索并導(dǎo)出相關(guān)數(shù)據(jù),然后才能進(jìn)一步利用。醫(yī)學(xué)檢驗科應(yīng)該有強(qiáng)大的LIS,能夠按一定條件和要求檢索并導(dǎo)出電子表格類型數(shù)據(jù),比如可以按年齡、性別、項目、科室、病種等條件檢索,同時必需檢索全符合條件的數(shù)據(jù)。當(dāng)然,要想采集BDLM進(jìn)行科學(xué)研究,還需要LIS與體檢中心的體檢健康信息管理系統(tǒng)或(和)醫(yī)院電子病歷信息系統(tǒng)(electronic medical record system, EMRS)相互兼容、讀取數(shù)據(jù)的能力。
1.2 應(yīng)用BDLM對科研選題的要求 醫(yī)學(xué)檢驗人員應(yīng)用BDLM的第二個重要的問題就是需要具備科研和臨床應(yīng)用的思維(idea)。idea的產(chǎn)生總的來說有兩種方式可選:一是從文獻(xiàn)資料和實驗數(shù)據(jù)中尋找靈感;二是從實際臨床問題出發(fā)去找數(shù)據(jù)[2]。在有了數(shù)據(jù)和idea的前提下,還需要有解決問題的方法。筆者認(rèn)為統(tǒng)計學(xué)分析很重要,這樣才可能完成BDLM的應(yīng)用分析。
1.3 應(yīng)用BDLM對生物信息學(xué)的要求 目前,二代測序技術(shù)的蓬勃發(fā)展大大加快了測序的速度,也大大降低了檢測成本,從而使得在兩三天內(nèi)完成血液、體液等標(biāo)本的全基因組序列成為可能。然而,面對全基因組序列的大數(shù)據(jù),如何快速分析是一個難題。這需要醫(yī)學(xué)專家、生物學(xué)專家、計算機(jī)專家和統(tǒng)計學(xué)專家等相關(guān)學(xué)科的跨學(xué)科交流,才有可能取得突破性進(jìn)展。將來,如何進(jìn)一步分析眾多人群的全基因組測序數(shù)據(jù),將更是一個巨大的挑戰(zhàn)。
2.1 基于實驗室數(shù)據(jù)建立參考區(qū)間 若LIS與體檢人員健康管理系統(tǒng)相關(guān)聯(lián),可以研究醫(yī)學(xué)檢驗項目的參考區(qū)間,制定出相應(yīng)的納入與排除標(biāo)準(zhǔn)后就可以進(jìn)一步做相關(guān)研究。如筆者研究健康人群制定了老年人部分生化項目的參考區(qū)間[3],其參考人群來自體檢中心最終報告判定為健康的個體,再通過問卷調(diào)查、心電圖、血壓和實驗室檢查排除血液系統(tǒng)疾病、變態(tài)反應(yīng)性疾病、消化系統(tǒng)、呼吸系統(tǒng)疾病和泌尿系統(tǒng)等急、慢性病,棄除樣本狀態(tài)為黃疸、溶血和脂血等的數(shù)據(jù),統(tǒng)計學(xué)按照美國臨床和實驗室標(biāo)準(zhǔn)協(xié)會《臨床實驗室建立、驗證參考區(qū)間:批準(zhǔn)指南(第3版)》C28-A3[4]文件處理并建立參考區(qū)間。應(yīng)用同樣的方法,我們建立了老年人全血細(xì)胞計數(shù)的參考區(qū)間[5]、2個非侵入性肝纖維化指標(biāo)的參考區(qū)間[6-7]、甲胎蛋白(AFP)和癌胚抗原(CEA)的參考區(qū)間[8]。
2.2 基于實驗室數(shù)據(jù)節(jié)約不必要的醫(yī)學(xué)檢驗測試 隨著人們生活水平的提高和國家醫(yī)保政策的加大,健康體檢和就診意識增強(qiáng),進(jìn)行醫(yī)學(xué)檢驗的測試量不斷增加。然而,某些醫(yī)學(xué)檢驗檢查項目沒必要同步檢測或者說根本不需要檢測。在評價肝功能時,當(dāng)總膽紅素和丙氨酸氨基轉(zhuǎn)移酶(ALT)在參考區(qū)間以內(nèi)或較低水平時,絕大多數(shù)直接膽紅素和天門冬氨酸氨基轉(zhuǎn)移酶(AST)水平也較低,反之亦然。因此,可以用總膽紅素和ALT水平預(yù)測直接膽紅素和AST水平異常與否[9-10]。同樣,尿素和肌酐在評價腎功能時也具有上述現(xiàn)象[11]。這樣的反饋測試不但節(jié)約了醫(yī)學(xué)檢驗科工作量,而且減少了患者不必要的費用,從而降低醫(yī)療和社會成本。
2.3 LIS與EMRS相互兼容的益處 LIS和EMRS兼容可優(yōu)化檢查流程、減少信息核對次數(shù)和提高質(zhì)量控制水平,使檢驗科工作人員可以快速查閱患者信息,以便更好地確定檢查結(jié)果是否與臨床相符,同時也為結(jié)果不符報告的原因查找提供重要信息。LIS與EMRS相互兼容后,明顯改善樣本周轉(zhuǎn)時間(turnaround time, TAT)且具有可查性,提高了醫(yī)學(xué)檢驗工作效率和臨床滿意度[12]。在LIS和EMRS兼容的基礎(chǔ)上,可以開展相關(guān)項目的診斷性、預(yù)測病程和預(yù)后判斷分析等臨床研究[13-15]。
臨床上的預(yù)測模型大多數(shù)是基于BDLM建立的,可以預(yù)測疾病風(fēng)險或識別某種病癥等,以便提高醫(yī)療服務(wù)水平。這可能會成為BDLM以后重點研究的一個方向。如Tayefi等[16]報道,僅應(yīng)用血常規(guī)、血糖、血脂、尿酸和C反應(yīng)蛋白等常規(guī)醫(yī)學(xué)檢驗參數(shù)建立決策樹參數(shù)與高血壓的關(guān)系;Arvanitis等[17]報道利用血清視黃醇結(jié)合蛋白4預(yù)測模型識別甲狀腺運載蛋白心臟淀粉樣變。人工智能(artificial intelligence,AI)是建模的升級,是模擬人類學(xué)習(xí)行為以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。最具代表性的是近期來自谷歌、谷歌大腦與Verily公司的科學(xué)家們開發(fā)出了一款用來診斷乳腺癌的AI,當(dāng)AI學(xué)習(xí)了數(shù)十萬例不同腫瘤組織和正常組織病理切片后,診斷速度及準(zhǔn)確率均已超過專業(yè)的病理學(xué)家的水平。
國內(nèi)外學(xué)者在醫(yī)學(xué)檢驗大數(shù)據(jù)的應(yīng)用上,已取得不少成功的案例,值得借鑒。數(shù)據(jù)除了來源于本單位外,還可以通過眾籌、國外免費數(shù)據(jù)庫(如MIMICII,https://www.physionet.org/mimic2/,PLoS One數(shù)據(jù)共享平臺)和國家人口健康科學(xué)數(shù)據(jù)共享平臺(http://www.ncmi.cn/66)等方式獲得。BDLM的時代已經(jīng)到來,醫(yī)學(xué)檢驗人應(yīng)以積極的心態(tài)去嘗試、去思考、去探索BDLM在臨床和科研上的應(yīng)用。
[1]Tolan NV, Parnas ML, Baudhuin LM,etal. "Big data" in laboratory medicine[J]. Clin Chem, 2015, 61(12):1433-1440.
[2]章仲恒.大數(shù)據(jù)與臨床科研[J].臨床與病理雜志, 2014, 34(5): 492-497.
[3]Zhang GM, Xia YJ, Guo XX,etal. Reference intervals of total bilirubin, ALT, AST, and creatinine in healthy elderly Chinese[J]. Medical science monitor, 2014, 20: 20:1778-82.
[4]Clinical and Laboratory Standards Institute. Defining, establishing, and verifying reference intervals in the clinical laboratory; approved guideline-third edition[S]. CLSI document EP28-A3c. Wayne, PA: CLSI, 2008.
[5]Zhang GM, Xia YJ, Zhang GM,etal. Laboratory reference intervals of complete blood count for apparently healthy elderly people in Shuyang, China[J]. Clin Lab, 2014, 60: 2081-2087.
[6]Zhang GM, Guo XX, Zhu BL,etal. Establishing reference intervals of aspartate aminotransferase-to-platelet ratio index for apparently healthy elderly[J]. Clin Lab, 2016, 1(2): 135-140.
[7]Zhang GM, Xia YJ. Reference intervals of fibrosis index based on four indicators in healthy elderly Chinese[J]. J Clin Lab Anal, 2016, 30(5): 645-648.
[8]Zhang GM, Guo XX, Ma XB,etal. Reference intervals of alpha-fetoprotein and carcinoembryonic antigen in the apparently healthy population[J]. Medical science monitor, 2016, 22: 4875-4880.
[9]Zhang GM, Hu ZD. Conjugated bilirubin as a reflex test for increased total bilirubin in apparently healthy population[J]. J Clin Lab Anal, 2017, DOI: 10.1002/jcla.22233.
[10]Xu Q, Higgins T, Cembrowski GS. Limiting the testing of AST: a diagnostically nonspecific enzyme[J]. Am J ClinPathol, 2015, 144(3): 423-426.
[11]Zhang GM, Guo XX, Zhang GM. Limiting the testing of urea: urea along with every plasma creatinine test?[J]. J Clin Lab Anal, 2017, doi: 10.1002/jcla.22103.
[12]Petrides AK, Bixho I, Goonan EM,etal. The benefits and challenges of an interfaced electronic health record and laboratory information system: effects on laboratory processes[J]. Arch Pathol Lab Med, 2017, 141(3): 410-417.
[13]Zhang Z, Xu X, Ni H,etal. Urine output on ICU entry is associated with hospital mortality in unselected critically ill patients[J].J Nephrol, 2014, 27(1): 65-71.
[14]Zhang Z, Xu X, Ni H,etal. Predictive value of ionized calcium in critically ill patients: an analysis of a large clinical database MIMIC II[J]. PLoS One, 2014, 9(4): e95204.
[15]Huang YL, Han ZJ, Hu ZD. Red blood cell distribution width and neutrophil to lymphocyte ratio are associated with outcomes of adult subarachnoid haemorrhage patients admitted to intensive care unit. Ann Clin Biochem, 2017, 1: 4563216686623.
[16]Tayefi M, Esmaeili H, Saberi Karimian M,etal. The application of a decision tree to establish the parameters associated with hypertension[J]. Comput Methods Programs Biomed, 2017, 139: 83-91.
[17]Arvanitis M, Koch CM, Chan GG,etal. Identification of transthyretin cardiac amyloidosis using serum retinol-binding protein 4 and a clinical prediction model[J]. JAMA Cardiol, 2017, 2(3): 305-313.
(本文編輯:劉群)
江蘇省“科教強(qiáng)衛(wèi)”醫(yī)學(xué)重點人才項目;江蘇省“六大人才高峰”項目(WSN-135);江蘇省“六個一”工程項目(LGY2016042)。
張國明,1980年生,男,主管技師,碩士研究生,主要從事臨床檢驗工作。
顧兵,副研究員,副教授,E-mail:gb20031129@163.com。
10.13602/j.cnki.jcls.2017.04.19
R446
A
2017-02-20)