方勇 肖和平
縱觀醫(yī)學(xué)史,疾病的預(yù)防和治療一直是基于一個(gè)普通患者的預(yù)期結(jié)果。來自同一疾病患者的數(shù)據(jù)常常被匯集在一起進(jìn)行統(tǒng)計(jì)分析,而從匯總分析中得出的臨床指南為廣大患者的健康和疾病管理提供了信息。雖然這種方法取得了一些成功,但其忽略了重要的個(gè)體差異,這可能導(dǎo)致不同的治療反應(yīng)。精準(zhǔn)醫(yī)療(precision medicine)的目標(biāo)是針對(duì)個(gè)別患者量身定制臨床治療方案,目標(biāo)是在正確的時(shí)間向患者提供正確的治療。10多年來,“大數(shù)據(jù)(big data)”一詞一直被用來描述可用信息的數(shù)量、種類和速度的快速增長(zhǎng),它不僅指大數(shù)據(jù)量,還包含 “數(shù)據(jù)分析”和“數(shù)據(jù)科學(xué)”;即隨著可用信息的數(shù)量不斷增長(zhǎng),可用于改進(jìn)數(shù)據(jù)收集、存儲(chǔ)、清理、處理和解釋的新方法,這些都無時(shí)無刻不體現(xiàn)在醫(yī)學(xué)研究中。組學(xué)技術(shù)、生物醫(yī)學(xué)數(shù)據(jù)庫(kù)和醫(yī)學(xué)數(shù)據(jù)分析的最新進(jìn)展為臨床醫(yī)生提供了更完整的患者資料;測(cè)序和相關(guān)數(shù)據(jù)存儲(chǔ)成本的降低,以及有效數(shù)據(jù)分析方法的發(fā)展,使得以前所未有的規(guī)模收集和分析各種人類疾病的大型生物醫(yī)學(xué)數(shù)據(jù)成為可能。這些進(jìn)展可以提高對(duì)復(fù)雜疾病診斷的準(zhǔn)確性,確定針對(duì)性的治療方案,并在疾病發(fā)生前預(yù)測(cè)疾病。從人群篩查和電子健康記錄挖掘到的個(gè)性化治療經(jīng)驗(yàn),以及智能藥物治療方案設(shè)計(jì)等,說明日益增強(qiáng)的處理大型數(shù)據(jù)集的能力給生物醫(yī)學(xué)研究帶來的機(jī)遇和挑戰(zhàn),將推動(dòng)臨床實(shí)踐發(fā)生巨大的變化。
當(dāng)前,耐藥結(jié)核病防治任務(wù)的緊迫與手段的匱乏之間的矛盾日益突出,對(duì)精準(zhǔn)診療的需求仍然迫切,而醫(yī)學(xué)大數(shù)據(jù)的重要應(yīng)用方向包括群體層面的疾病預(yù)防和診療體系的評(píng)價(jià)、特定疾病的機(jī)制闡釋,以及個(gè)體患者的疾病診療決策支持等。大數(shù)據(jù)時(shí)代的來臨可否為我們帶來新的契機(jī)呢?
評(píng)估大規(guī)模生物、社會(huì)和環(huán)境數(shù)據(jù)對(duì)健康的影響是流行病學(xué)領(lǐng)域在大數(shù)據(jù)時(shí)代的一個(gè)新挑戰(zhàn),臨床大數(shù)據(jù)的主要應(yīng)用之一是分析某一疾病或表型在不同人群中的患病率及發(fā)病趨勢(shì),研究顯示傳染性疾病的監(jiān)測(cè)是醫(yī)學(xué)大數(shù)據(jù)技術(shù)應(yīng)用最成功的范例之一[1]?;贕oogle的檢索數(shù)據(jù)每年進(jìn)行的流行性感冒(簡(jiǎn)稱“流感”)病毒預(yù)測(cè),對(duì)流感疫苗的研發(fā)、高危人群的接種、重癥流感風(fēng)險(xiǎn)等全球重大公共衛(wèi)生問題的預(yù)測(cè)具有重要的意義[2]。另有研究顯示,大數(shù)據(jù)分析在詢問患者電子健康記錄以改進(jìn)臨床決策支持方面可能發(fā)揮的作用。同時(shí)還可以評(píng)估在線衛(wèi)生通信,以及利用這些數(shù)據(jù)發(fā)現(xiàn)公共衛(wèi)生威脅和控制或遏制流行病的方法[3]。
可見,大數(shù)據(jù)在流行病學(xué)領(lǐng)域的應(yīng)用已經(jīng)形成了一個(gè)良好的開端。而對(duì)于結(jié)核病這個(gè)重大公共衛(wèi)生問題近年來也不乏大數(shù)據(jù)的相關(guān)研究。韓國(guó)的一項(xiàng)研究使用疾病預(yù)防控制中心管理的結(jié)核病患者報(bào)告數(shù)據(jù),分析了2012—2015年新增的13萬例結(jié)核病患者隊(duì)列,利用相關(guān)數(shù)據(jù)模型分析了公私混合結(jié)核病控制計(jì)劃對(duì)治療結(jié)果的影響,并確定了影響結(jié)核病治療成功的因素[4]。Jokonya[5]建立了一個(gè)大數(shù)據(jù)集成處理框架,將其應(yīng)用于分析研究礦業(yè)和控制艾滋病、結(jié)核病和矽肺之間的聯(lián)系,從而幫助礦業(yè)企業(yè)預(yù)防和控制艾滋病、結(jié)核病和矽肺。該大數(shù)據(jù)框架具有滿足預(yù)測(cè)流行病學(xué)需求的潛力,在礦業(yè)流行病學(xué)預(yù)測(cè)和疾病控制方面具有重要意義。
大數(shù)據(jù)在基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)及公共衛(wèi)生領(lǐng)域的應(yīng)用正如火如荼。近年來隨著分子生物學(xué)技術(shù)快速發(fā)展,二代、三代測(cè)序等分子生物學(xué)技術(shù)的突飛猛進(jìn),人類對(duì)于基礎(chǔ)的分子生物學(xué)規(guī)律的認(rèn)識(shí)日漸加深;隨著對(duì)全基因組、全外顯子組、轉(zhuǎn)錄組、蛋白質(zhì)組、DNA甲基化、微生物組等一系列組學(xué)數(shù)據(jù)的不斷積累和總結(jié),其形成的大數(shù)據(jù)及其成果即將成為臨床診斷的重要依據(jù)。而相關(guān)技術(shù)在結(jié)核病領(lǐng)域的迅速運(yùn)用,也涌現(xiàn)出大量結(jié)核分枝桿菌耐藥基因檢測(cè)技術(shù),包括GeneXpert MTB/RIF檢測(cè)系統(tǒng)、線性探針(LPA)、基因芯片技術(shù)、全基因組測(cè)序(WGS)、高分辨熔解曲線(HRM)等。
持留是一種現(xiàn)象,反映患者體內(nèi)一小部分細(xì)菌種群能夠在高濃度抗生素的治療下存活很長(zhǎng)一段時(shí)間,細(xì)菌對(duì)抗生素抵抗是頑固性和復(fù)發(fā)性感染的主要原因。持留菌也是結(jié)核病復(fù)發(fā)和耐藥結(jié)核病產(chǎn)生的主要機(jī)制之一。Cabral等[6]則通過研究顯示,下一代測(cè)序和其他“大數(shù)據(jù)”工具的開發(fā)使研究人員能夠檢查宿主內(nèi)的持留性機(jī)制,對(duì)結(jié)核分枝桿菌耐藥的機(jī)制和診斷有一定的意義。
在我國(guó),溫保江等[7]收集所有患者臨床資料,包括胸部影像學(xué)、結(jié)核菌素皮膚試驗(yàn)、血白細(xì)胞計(jì)數(shù)、血清白蛋白、痰涂片、痰培養(yǎng)、痰GeneXpert MTB/RIF、γ-干擾素釋放試驗(yàn)等檢查結(jié)果,以及臨床癥狀體征和相關(guān)病史等臨床資料數(shù)據(jù)。擬合臨床專家綜合診斷思維方式,建立計(jì)量化臨床肺結(jié)核綜合診斷數(shù)學(xué)模型,為缺乏病原學(xué)診斷依據(jù)的肺結(jié)核的診斷另辟蹊徑,降低了誤診率。
精準(zhǔn)醫(yī)療和健康經(jīng)濟(jì)希望在整體醫(yī)療成本保持可控的情況下,每例患者都能得到盡可能最好的醫(yī)療服務(wù)。Chen等[8]討論了健康經(jīng)濟(jì)結(jié)果研究在衛(wèi)生部門決策、大數(shù)據(jù)和預(yù)測(cè)分析中的當(dāng)前和未來作用,以及大數(shù)據(jù)和預(yù)測(cè)分析可能將傳統(tǒng)健康經(jīng)濟(jì)結(jié)果研究轉(zhuǎn)變?yōu)榫_健康經(jīng)濟(jì)結(jié)果研究。顯示應(yīng)該通過幫助和調(diào)整醫(yī)療資源配置,使精準(zhǔn)醫(yī)療更容易實(shí)現(xiàn),以適應(yīng)個(gè)體患者水平的健康經(jīng)濟(jì)。這樣的研究對(duì)促進(jìn)耐藥結(jié)核病規(guī)范治療水平的提升、避免過度治療或治療不到位現(xiàn)象的發(fā)生、最大限度地減少醫(yī)療資源的浪費(fèi)和耐藥結(jié)核病患者的痛苦有著深遠(yuǎn)的意義。
Adhil等[9]針對(duì)如何選擇合適的癌癥治療方案的問題提出了一個(gè)臨床專家系統(tǒng),使用患者的臨床和基因組標(biāo)記,并結(jié)合分布式的、不同的、多樣化的大數(shù)據(jù)創(chuàng)建的知識(shí)庫(kù)。對(duì)疾病關(guān)聯(lián)數(shù)據(jù)的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,用于確定最適合相應(yīng)癌癥類型的治療藥物。然后整合患者的基因組標(biāo)記和臨床數(shù)據(jù),有針對(duì)性地進(jìn)行治療選擇,增加治療效果,并將藥物毒性降到最低,為精準(zhǔn)醫(yī)療鋪平了道路。這樣的研究方法對(duì)耐藥結(jié)核病化療方案的選擇有著借鑒意義。
抗結(jié)核藥物的開發(fā)仍然是昂貴和緩慢的,部分藥物往往由于缺乏療效或存在毒性而失敗,很大程度上影響了耐藥結(jié)核病的治療成功率。近年來,與電子健康記錄(EHR)數(shù)據(jù)相關(guān)的大型研究發(fā)展迅速,推動(dòng)了預(yù)測(cè)藥物作用的新基因變異的發(fā)現(xiàn),藥物基因組學(xué)研究根據(jù)個(gè)體的基因組成、合理的藥物開發(fā)和藥物的再利用來確定治療方法,支持孟德爾隨機(jī)化實(shí)驗(yàn)來顯示藥物的有效性,并為現(xiàn)有藥物提出了新的適應(yīng)證。新的生物醫(yī)學(xué)信息學(xué)和機(jī)器學(xué)習(xí)方法提高了解析臨床信息的能力[10]。Ekins等[11]針對(duì)結(jié)核分枝桿菌,對(duì)可以合成化學(xué)藥物的化合物構(gòu)建大數(shù)據(jù)模型,并通過機(jī)器學(xué)習(xí)并分析模型,其結(jié)果對(duì)進(jìn)一步的高通量篩選和基于模型預(yù)測(cè)的集中測(cè)試化合物具有指導(dǎo)意義,從而探索機(jī)器學(xué)習(xí)模型在識(shí)別新的抗結(jié)核化學(xué)藥物發(fā)現(xiàn)方面的應(yīng)用。未來利用EHR數(shù)據(jù)和其他信息源進(jìn)行的研究,將為更快速地推進(jìn)精準(zhǔn)醫(yī)學(xué)在抗結(jié)核新藥研發(fā)上發(fā)揮作用。
在結(jié)核病患者治療管理方面,管理方法已經(jīng)從傳統(tǒng)DOTS向網(wǎng)絡(luò)化方向發(fā)展,尤其是在我國(guó),隨著短信、微信、手機(jī)App等互聯(lián)網(wǎng)信息交流手段的迅猛發(fā)展,醫(yī)務(wù)人員可以更有效地監(jiān)控患者每次服藥情況,更準(zhǔn)確地獲取患者治療依從性的信息[12],相關(guān)大數(shù)據(jù)的建立也將提高患者的管理效率,降低管理成本,對(duì)減少耐藥結(jié)核病的發(fā)生率和耐藥結(jié)核病的規(guī)范化治療有著深遠(yuǎn)意義。
雖然“大數(shù)據(jù)”對(duì)于耐藥結(jié)核病防治工作意義深遠(yuǎn),然而,如何建立好“大數(shù)據(jù)”仍面臨許多挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)庫(kù)管理和計(jì)算分析方法對(duì)于每年生成的千萬億級(jí)生物醫(yī)學(xué)數(shù)據(jù)是不夠的。數(shù)據(jù)隨著時(shí)間的推移和臨床積累將變得更大、更多樣化,需要高級(jí)的分布式文件存儲(chǔ)和計(jì)算方法來解析和利用數(shù)據(jù)。同時(shí),數(shù)據(jù)共享政策和數(shù)據(jù)保護(hù)等問題仍然是當(dāng)前討論的熱點(diǎn)[13]。
針對(duì)耐藥病結(jié)核防治如何建立大數(shù)據(jù),筆者認(rèn)為可以從以下幾個(gè)方面著手:
1.要實(shí)現(xiàn)數(shù)據(jù)共享:如何將數(shù)據(jù)共享工作做得最好?國(guó)際上有學(xué)者指出首先,“大數(shù)據(jù)”應(yīng)該是共生的,而不是寄生的。數(shù)據(jù)分享者應(yīng)該有新的想法,而不是對(duì)既往工作的照搬。其次,以對(duì)收集到的數(shù)據(jù)評(píng)估潛在合作者,并提出合作建議。第三,合作各方共同驗(yàn)證新的假設(shè)。第四,向相關(guān)合作者報(bào)告新發(fā)現(xiàn),對(duì)提出新想法和收集數(shù)據(jù)以進(jìn)行測(cè)試的研究人員的工作給予肯定[14]。
具體到我國(guó)結(jié)核病防治工作上,筆者建議在未來5至10年打造精準(zhǔn)診療、多方協(xié)作的防、治、研、學(xué)合作新模式,構(gòu)建以臨床及科研工作為本、惠及耐藥結(jié)核病防治工作的服務(wù)新體系,培育高端智能、新興繁榮的產(chǎn)業(yè)發(fā)展新生態(tài)。
2.要實(shí)現(xiàn)數(shù)據(jù)集約:大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”來實(shí)現(xiàn)數(shù)據(jù)的“增值”。而大數(shù)據(jù)的處理需要特殊的技術(shù),包括大規(guī)模并行處理數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)等,在以云計(jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)開始容易被利用起來[15]。
與醫(yī)學(xué)特別相關(guān)的一種重要數(shù)據(jù)類型是來自臨床實(shí)踐的觀測(cè)數(shù)據(jù)。與臨床研究的實(shí)驗(yàn)數(shù)據(jù)相比,觀察性數(shù)據(jù)提供了更大的樣本量和更廣泛的患者各類變量的覆蓋面。將觀察數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)恰當(dāng)?shù)亟Y(jié)合起來,可以通過檢測(cè)患者對(duì)治療的反應(yīng)的異質(zhì)性,并根據(jù)個(gè)人的特定需求調(diào)整醫(yī)療保健,從而促進(jìn)精準(zhǔn)醫(yī)療。然而,由于觀察性數(shù)據(jù)是高維的和不受控制的,對(duì)其解析需要獨(dú)特的方法,生產(chǎn)和運(yùn)營(yíng)管理領(lǐng)域的建模和分析工具非常適合歸納、提煉并匯總有意義的觀察數(shù)據(jù),因此相關(guān)領(lǐng)域的研究對(duì)于實(shí)現(xiàn)精準(zhǔn)醫(yī)療至關(guān)重要[16]。
3.要實(shí)現(xiàn)數(shù)據(jù)保護(hù):數(shù)據(jù)安全是整個(gè)醫(yī)學(xué)大數(shù)據(jù)研究、分析、利用能否順利進(jìn)行的前提和基礎(chǔ)。國(guó)際上,針對(duì)大數(shù)據(jù)安全的研究,涵蓋了數(shù)據(jù)存儲(chǔ)與傳輸安全、大數(shù)據(jù)安全體系架構(gòu)等[17]。對(duì)于醫(yī)學(xué)大數(shù)據(jù),當(dāng)關(guān)于患者的各類數(shù)據(jù)被集成、融合為一個(gè)整體時(shí),其中的關(guān)聯(lián)信息所可能承載的敏感和隱私信息,比單個(gè)類型的醫(yī)學(xué)大數(shù)據(jù)如電子病歷、基因組信息等所涉及的安全問題更復(fù)雜、更隱蔽,這也是醫(yī)學(xué)大數(shù)據(jù)的安全研究所面臨的極大挑戰(zhàn)。因此,我們需要從醫(yī)學(xué)大數(shù)據(jù)安全體系架構(gòu)、存儲(chǔ)、傳輸、集成與融合、患者參與下的數(shù)據(jù)共享等方面著手進(jìn)行持續(xù)不斷的研究,逐漸完善醫(yī)學(xué)大數(shù)據(jù)的安全體系建設(shè)。目前,國(guó)際上也不乏相關(guān)研究,例如:醫(yī)學(xué)大數(shù)據(jù)醫(yī)療保健分析、認(rèn)證密鑰管理系統(tǒng)、雙線性配對(duì)密碼、誘餌技術(shù)等方法可以幫助實(shí)現(xiàn)私人醫(yī)療數(shù)據(jù)的安全訪問和存儲(chǔ),確保醫(yī)療數(shù)據(jù)的安全[18],為醫(yī)學(xué)大數(shù)據(jù)的保護(hù)提供了新的手段。
4.要注重交叉學(xué)科的合作與人才培養(yǎng):從上述幾點(diǎn)來看,醫(yī)學(xué)和耐藥結(jié)核病防治對(duì)于大數(shù)據(jù)的運(yùn)用迫切需要衛(wèi)生信息技術(shù)領(lǐng)域的知識(shí)和人才,在加深合作的同時(shí)也要注重交叉學(xué)科的人才培養(yǎng),而且本專業(yè)醫(yī)學(xué)研究人員也應(yīng)加強(qiáng)對(duì)共享數(shù)據(jù)和衛(wèi)生信息技術(shù)專業(yè)知識(shí)的學(xué)習(xí)。
醫(yī)學(xué)大數(shù)據(jù)的廣泛應(yīng)用是實(shí)現(xiàn)傳統(tǒng)醫(yī)學(xué)模式向精準(zhǔn)醫(yī)學(xué)轉(zhuǎn)變的必要前提和核心動(dòng)力。其為生物學(xué)家、臨床醫(yī)生、流行病學(xué)及醫(yī)療衛(wèi)生政策制訂的專家提供了有效工具,使得數(shù)據(jù)驅(qū)動(dòng)下決策的制定成為可能。我們期待耐藥結(jié)核病的防治工作能夠合理有效地與“大數(shù)據(jù)”的應(yīng)用相結(jié)合,迎來新的突破。