方陵生/編譯
信息科學(xué)與數(shù)據(jù)合成
方陵生/編譯
●本文作者莫納什大學(xué)教授朱利安·艾略特(Julian H.Elliott)、渥太華大學(xué)教授杰里米·格里姆肖(Jeremy Grimshaw)和他們的同事們堅持認(rèn)為,數(shù)據(jù)合成科學(xué)的發(fā)展,必須要與各種類型的大量健康信息結(jié)合起來。
如果你想知道,接觸某些化學(xué)物質(zhì)是否會增加你患結(jié)腸癌的幾率,你可以很容易地從動物實驗中找到支持證據(jù),然而你有可能發(fā)現(xiàn),流行病學(xué)研究告訴我們的卻是一個完全不同的結(jié)果。
沒有比涉及個人健康問題時所需要考慮因素更多的了。我們可以對人類的整個基因組,以及細(xì)菌、病毒和腫瘤的基因組進行測序,基本上,每一個來就診的患者,都可以通過其電子醫(yī)療記錄跟蹤到他們的病史;來自可穿戴設(shè)備、智能手機應(yīng)用程序以及社交網(wǎng)絡(luò)站點等關(guān)于人們的生理、行為、飲食、運動,以及與他人互動的各種數(shù)據(jù)信息。由于數(shù)據(jù)開放和數(shù)據(jù)共享規(guī)范等的諸多變化,從而獲得更多可以公開獲取的數(shù)據(jù)。
然而,通過篩選信息來尋找關(guān)于健康問題的答案卻變得越來越困難,甚至對于一些專家來說也是如此。數(shù)據(jù)通過不同的渠道獲取,使用各種不同的方法生成,并且存儲在不同的基礎(chǔ)設(shè)施上。這些設(shè)施包括醫(yī)院專用服務(wù)器和全球性的數(shù)據(jù)平臺,如dbGaP、開放型基因數(shù)據(jù)庫和臨床信息數(shù)據(jù)庫等。
要將來自不同數(shù)據(jù)源的數(shù)據(jù)匯集到綜合性的數(shù)據(jù)庫中來作為決策者做決定時的依據(jù)和證據(jù),研究人員需要在當(dāng)前的數(shù)據(jù)合成方法和工具的基礎(chǔ)上,開發(fā)出更高層次的數(shù)據(jù)處理工具。研究人員通常通過一些相同類型的數(shù)據(jù),例如臨床試驗的結(jié)果,以獲得他們想要的信息。不同的研究方式和數(shù)據(jù)類型,都存有各自不同的優(yōu)缺點,而將各種不同的信息綜合起來,往往可以獲得對問題更深刻的理解。
舉個例子來說,治療胃灼熱的鎮(zhèn)吐藥西沙必利(Cisapride)于1993年在美國獲得批準(zhǔn)生產(chǎn),但臨床試驗收集數(shù)據(jù)的過程卻超過了整整十年,而這種藥物產(chǎn)生的一種副作用,即導(dǎo)致威脅生命的心臟節(jié)律紊亂,是在結(jié)合對眾多患者進行長期大規(guī)模研究后得到的臨床數(shù)據(jù)中發(fā)現(xiàn)并最后得到確認(rèn)的。
同樣,從流感監(jiān)測網(wǎng)上獲得的數(shù)據(jù)(包括從初級保健診所收集到的數(shù)據(jù)),可能與實際情況不符。比如,在谷歌上搜索相關(guān)流感癥狀時,可以實時收集到這些信息,但是其中的一些數(shù)據(jù)也有可能是不準(zhǔn)確的。幾乎可以肯定的是,最好的數(shù)據(jù)信息是來自各類不同數(shù)據(jù)的結(jié)合。
那么,我們?nèi)绾螌@得的極其多樣化的數(shù)據(jù)信息匯集在一起呢?
正式形成“數(shù)據(jù)合成”,即將多個來源的數(shù)據(jù)結(jié)合在一起,以獲得新的理解的方法首次出現(xiàn)于1970年代的社會科學(xué)領(lǐng)域內(nèi),并應(yīng)用于其多個分支領(lǐng)域,支持了一些高影響力的決策,如藥物批準(zhǔn)等。通常,“數(shù)據(jù)合成”包括對所有相關(guān)、可用的數(shù)據(jù)進行辨別和排序,并對每一來源數(shù)據(jù)的優(yōu)劣進行評估,同時根據(jù)數(shù)據(jù)的嚴(yán)謹(jǐn)程度和所要解決的問題,決定如何對不同來源的數(shù)據(jù)進行處理(有些數(shù)據(jù)可能會被排除),然后,結(jié)合數(shù)據(jù)庫中的相關(guān)信息進行薈萃分析(譯注:元分析或薈萃分析,其概念為對以往研究結(jié)果進行系統(tǒng)的定量分析)或定性評估。
例如,一家英國集團公司將來自臨床試驗的數(shù)據(jù)與薈萃分析的群組研究結(jié)合在一起,對一種孕婦服用的、用于預(yù)防她們體內(nèi)產(chǎn)生對嬰兒不利抗體的藥物的有效性進行評估。在此例中,群組研究中不同護理條件所產(chǎn)生的潛在偏差得到了確認(rèn),其對研究結(jié)果的影響可降至最低。
然而,許多對大型數(shù)據(jù)集進行組合和分析的研究人員,很容易受到一些偽造的基因組數(shù)據(jù)或電子病歷數(shù)據(jù)的影響,未能意識到數(shù)據(jù)綜合工具及其潛在的效用。事實上,許多數(shù)據(jù)合成專家對常用的與醫(yī)療衛(wèi)生相關(guān)的大型數(shù)據(jù)集分析工具并不熟悉。
我們認(rèn)為,數(shù)據(jù)合成的核心元素必須與其他數(shù)據(jù)科學(xué)地結(jié)合起來,以開發(fā)出使不同數(shù)據(jù)具有更大意義的新途徑。
科學(xué)家需要明確將不同數(shù)據(jù)結(jié)合在一起的目的、時機以及具體方法。例如,科學(xué)家需明確是否要把臨床記錄中的身體鍛煉數(shù)據(jù)、在線問卷調(diào)查以及可穿戴設(shè)備的數(shù)據(jù)結(jié)合在一起。以及需明確何時并如何結(jié)合不同層面的數(shù)據(jù)??茖W(xué)家還需要知曉將各種類型數(shù)據(jù)結(jié)合在一起可能產(chǎn)生的風(fēng)險,并考慮將相關(guān)風(fēng)險納入分析的可能性。對于干預(yù)措施對臨床試驗和觀察性研究的影響,分析師可使用風(fēng)險偏差評估工具以及其他一些類似方法,以檢測到并減少其他類型數(shù)據(jù)產(chǎn)生的偏差。這些其他類型數(shù)據(jù)是指源自于社交網(wǎng)絡(luò)和移動電話等的數(shù)據(jù)。
另外,還需要在捕捉和呈現(xiàn)潛在信息源偏差的具體途徑上取得共識。致力于醫(yī)療衛(wèi)生數(shù)據(jù)基礎(chǔ)設(shè)施和標(biāo)準(zhǔn)建設(shè)的公司或組織,需要將這一層面的元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))結(jié)合到他們的系統(tǒng)中。
處理偏差的方法必須納入到新開發(fā)的指導(dǎo)醫(yī)療衛(wèi)生保健決策的分析系統(tǒng)內(nèi),包括那些基于自然語言處理過程和機器學(xué)習(xí)過程。透明與獨立地評估這些新系統(tǒng)也將是重要的一環(huán)。
就中短期而言,大學(xué)和研究機構(gòu)的資助項目和部門重組對于計算生物學(xué)家、計算機科學(xué)家、臨床與人口健康研究人員以及數(shù)據(jù)合成專家之間的合作非常關(guān)鍵。例如,主要授予機構(gòu)應(yīng)投資于類似于英國國家健康研究所的專門研究項目。另外,有必要針對性地在貧困地區(qū)和國家投資開發(fā)數(shù)據(jù)的基礎(chǔ)設(shè)施。從長遠(yuǎn)來看,適合于對不同類型數(shù)據(jù)進行分析、評價和整合的新型分析師將應(yīng)運而生。
這些變化在醫(yī)療保健實踐中將意味著什么呢?美國精準(zhǔn)醫(yī)療計劃(PMI)的目的之一是對癌癥的預(yù)防。這意味著對各種基因產(chǎn)生的影響和行為因素、環(huán)境因素及其相互作用的充分理解。如果將不同領(lǐng)域的數(shù)據(jù)適當(dāng)并迅速地整合起來,這一計劃的價值將得到很大的提高。
PMI的另一個目的是開發(fā)新的癌癥療法。而更好的數(shù)據(jù)合成系統(tǒng)將促成更精準(zhǔn)的藥物開發(fā)途徑的完善,同時對基因組學(xué)、動物實驗和人體試驗也將有更精準(zhǔn)的了解。此外,一些醫(yī)療衛(wèi)生保健資助機構(gòu),如英國的國民醫(yī)療服務(wù)機構(gòu)和美國的醫(yī)療保險機構(gòu),也可以在臨床試驗、群組研究成果和手機及其他軟件等途徑獲得的數(shù)據(jù)信息中,更好地了解到相關(guān)藥物的療效和副作用。包括美國藥物安全主動監(jiān)測計劃和加拿大藥物作用觀察研究網(wǎng)在內(nèi),都在從不同的醫(yī)療衛(wèi)生保健系統(tǒng)收集和匯集數(shù)據(jù),以監(jiān)控獲得生產(chǎn)許可的藥物可能產(chǎn)生的副作用。
我們不建議采用千篇一律的方法,但是社會也不需要太多的數(shù)據(jù)分析方法來支持各種有沖突的推論。隨著數(shù)據(jù)集的日益龐大和豐富多樣,我們必須確保通過運用嚴(yán)格和值得信賴的方法更好地對數(shù)據(jù)進行分析理解,并行不悖地開發(fā)利用這些數(shù)據(jù)。
[資料來源:Nature][責(zé)任編輯:遙醒]