“數據庫賬號突然登不進去了?”
4月6日一早,在北京某研究機構做博士后的遺傳學博士韋川收到審稿人來信,要求他補充此前一篇投稿中的數據分析。韋川打開SEER數據庫終端,想要搜尋數據,發(fā)現自己的賬號已經無法登錄。導師告訴他,SEER等多個生命科學和醫(yī)學領域數據庫已被封禁。
SEER即美國國立癌癥研究所(NCI)管理的“監(jiān)測、流行病學和結果數據庫”,是全球最具代表性的大型腫瘤登記注冊數據庫之一,收集了大量循證醫(yī)學數據,一直以來向全球研究者開放。而SEER只是被切斷的數據庫之一。NCI隸屬美國國立衛(wèi)生研究院(NIH)。4月2日,NIH發(fā)文,稱從2025年4月4日起,禁止包括中國在內的“受關注國家”訪問其管理的21個受控訪問數據庫。
韋川原本還要參與對研究生的SEER數據庫使用培訓,如今也暫時擱置。個人學業(yè)之外,中國國內科研整體可能面臨研究受阻、研發(fā)推遲等問題。美國數據“斷供”下,國內生命醫(yī)學領域研究該如何應對?
NIH對受控數據庫的訪問限制看似突然,實則早有鋪墊。
去年2月,美國拜登政府頒布第14117號行政令,旨在限制部分國家獲取美國個人敏感信息以及美國政府信息。基于該行政令,包含個人基因組信息在內的一些生物學數據被列為敏感信息,源于美國境內的數據不能傳到包括中國在內的部分國家。
此后,為了實施該行政令,去年12月,美國司法部發(fā)布一項最終規(guī)則,要求“防止受關注國家獲取美國敏感個人信息和政府相關數據”,以及“禁止和限制與某些國家或個人的某些數據交易”,今年4月8日起正式生效。
已公布的21個受控數據庫均由NIH直接或間接管理。NIH是全美最高水平醫(yī)學與行為學研究機構,也是全球最大的生物醫(yī)學研究公共自主機構,下設 27 個研究所和中心,聚焦不同疾病領域。受控數據庫匯集了全球最核心的人類基因組、表型信息和疾病研究數據,其中最受關注的是人類基因型-表型數據庫dbGaP和大型基因組分析云平臺AnVIL。
北京某高校生物信息學教授周卓向《中國新聞周刊》介紹,數據“斷供”對大多數生命科學和醫(yī)學領域影響不大,主要影響基因組學、癌癥研究領域。dbGaP存儲的基因組與疾病數據來自全球研究者提交的數據,研究對象覆蓋全球數百萬人,是癌癥治療、罕見病研究等領域的重要數據源。而AnVIL是跨機構協作的重要平臺,支撐著全球三成以上的基因數據分析項目。
多位受訪者表示,在癌癥、基因組學研究領域,NIH旗下數據庫非常重要,特別是在罕見病研究方面,由于單一國家難以獨立獲得足夠樣本,NIH各平臺幾乎是不可或缺的。韋川對SEER最熟悉,他認為,SEER的優(yōu)勢在于樣本量非常大,目前已覆蓋48%的美國人口,人種分布也很均衡,其癌癥發(fā)病率和生存率數據很可能支撐著全球超過70%的癌癥機制研究。
此外,一項研究可能需要多類別數據,而NIH對基因組和癌癥研究領域數據庫的封禁很全面。周卓表示,以癌癥研究為例,研究者可能需要訪問癌癥基因組計劃(TCGA),以尋找某種癌癥類型的基因組學證據,同時也需要訪問基因型-組織表達(GTEx),以獲得健康組織的對比數據。而TCGA是基因數據共享平臺(GDC)的一部分,后者很大程度上依賴dbGaP收集的研究數據。申請GTEx數據也需通過dbGaP進行。dbGaP“斷供”,相當于阻斷了這部分研究的數據源頭。
值得注意的是,部分NIH數據庫包含受控和開放數據庫兩個部分。前者由于具有個人基因組信息等敏感內容,原本就需要注冊使用,在獲得數據庫官方授權后才能訪問。后者目前仍保持開放。韋川指出,TCGA、GDC等數據庫的開放數據如基因表達矩陣目前仍可下載,但原始基因測序數據屬于受控數據,原來研究者只要申請大都能下載,只是時間長短問題。但4月8日之后,中國申請者的申請都將被拒。
一位在上海某高校醫(yī)學院研究胸部腫瘤的三年級博士生向《中國新聞周刊》表示,對于普通臨床研究,開放數據庫基本夠用,但當研究進入到篩選癌變點位、尋找藥物靶點等前沿領域,基因層面的數據不可或缺。直觀來說,受到沖擊最大的是那些已經依賴受控數據的研究。同時,與數據挖掘同時進行的實驗室生物組織培養(yǎng)等配套研究,也都成了“沉沒成本”?!皵祿A沒了,養(yǎng)的細胞可能都要扔掉。如果重新尋找基因位點,整個課題可能都要重新設計?!痹摬┦可f。
在韋川看來,盡可能完整翔實的數據是研究的根基,尤其是罕見病研究,如果靠個人或單位去零散的醫(yī)療機構收集發(fā)病率萬分之一以下的病例,將十分困難。很多團隊用公共數據篩選基因位點,如果轉回實驗室從頭開始一個個位點進行試錯,課題成本將飆升2—3倍。
周卓指出,尋找替代數據或自行收集大規(guī)模樣本,將顯著增加科研成本和不確定性。對癌癥研究來說,如果無法獲取相關基因突變數據,就無法篩選患者入組,試驗周期將無限拉長,甚至陷入停滯。依賴NIH數據驗證療效的藥物研發(fā)也將顯著受阻。
此外,周卓分析說,在NIH數據已成為“標配”的研究領域,替代數據的權威性會受到審稿人質疑,向《自然》《科學》等國際頂刊投稿的道路將更加坎坷,尋求國際合作也將更困難。“領域內學術競爭力的下降,可能是國內相關團隊要面臨的最大挑戰(zhàn)。”
多位高校教師向《中國新聞周刊》表示,未來,隨著歐美政府向著國家安全、隱私保護的政策方向傾斜,針對中國學術界的訪問限制只會越來越多。周卓分析,原本開源的基因分析工具包GATK也跟隨數據平臺被封禁,國產測序工具的兼容性和效能還很難完全匹敵。PubMed這樣的工具也難免有風險,但不太可能全線封禁,更可能會添加數據分級、進行有針對性的搜索權限發(fā)放和審批。
為應對“數據危機”,國內研究者已開始自救,調整科研策略。韋川發(fā)現,生物信息學專業(yè)的學生相對而言更好轉向,因為他們的研究受到的限制更小,可以使用NIH旗下依然開放訪問的功能基因組學數據庫GEO,或者轉向歐洲的UK bioBank數據庫。后者相比于dbGaP和TCGA擁有更多用戶。
但基因組學等前沿領域研究者的轉型就沒那么容易了,因為他們迫切需要特定領域的數據。韋川指出,數據庫會記錄研究者獲取數據的時間,即使想方設法在4月4日后獲取到了受控數據,也會被質疑數據源的合法性,以致無法公開使用?!暗倳欣@過限制的手段,比如轉向海外聯合研究項目,以及尋找海外合作者共同署名?!?/p>
多位受訪者認為,數據封禁很可能倒逼國內加快生物醫(yī)學數據基礎設施建設,減少對外依賴。
2019年,國家生物信息中心(CNCB)和國家基因組科學數據中心(NGDC)相繼成立。目前,NGDC數據庫覆蓋DNA、RNA、宏基因組、單細胞等多類數據,同時也備份了十余個NCBI數據庫。CNCB-NGDC主要任務是構建檔案平臺和信息系統(tǒng),開發(fā)算法和工具,在周卓看來,這是一套技術邏輯完整、標準逐步完善的“國家級數據中樞”,對標NCBI生態(tài)。去年11月,CNCB還成功研發(fā)了DNA數據存儲系統(tǒng)“畢昇一號”,大大降低了存儲成本。
此外,越來越多醫(yī)院和科研所開始構建自己的樣本庫和數據庫,例如北京協和醫(yī)院的罕見病基因庫、上海瑞金醫(yī)院的腫瘤表觀組學平臺等。周卓分析說,對使用者而言,國內數據基于中國本土人群,在東亞人遺傳變異、罕見病等領域具有獨特優(yōu)勢。
但問題也顯而易見。據相應官網信息,CNCB目前歸檔的國內數據為70.4PB,國外數據為7.75PB,而NIH下屬NCBI的歸檔數據就超過100PB??傮w而言,國內自主數據庫的數據量約為美國的1/3,且國際認可度尚待建立。周卓指出,以CNCB為代表的國內數據庫存儲的數據總量可能超過400PB,可供科研調用的結構化數據只有一小部分。數據清洗、標準化存儲的工作還有待持續(xù)推進。
此外,前述癌癥中心研究員表示,國內仍存在大量“數據孤島”,估計有超過90%的腫瘤樣本數據分散在各地醫(yī)療和科研機構之中,共享程度很低,未來還需要系統(tǒng)性整合。但目前,國內仍缺乏腫瘤生物樣本的大數據平臺。
CNCB每日更新數據共享排行榜,截至發(fā)稿前,榜上共有3829組數據。以審核周期、處理率和通過率進行共享度評分,滿分5分,超過4分的數據有260余條,僅占6.2%。
多位受訪者指出,要從根源上提升學術競爭力,就需要構建國家層面的深度共享數據庫。周卓認為,國內數據庫應聚焦中國高發(fā)癌種,如肺癌、結腸直腸癌等,優(yōu)先建立本土化研究隊列。同時,通過國家戰(zhàn)略統(tǒng)籌方式,設立專項、成立相應領域的數據管理中心,將“孤島”數據整合,形成大平臺。這可能需要進一步的立法保障,明確數據所有權、使用權、安全分級和收益分配機制。
“更多的數據還沒被分享出來?!表f川說,“愿意分享辛苦做出的數據的團隊還是少數,畢竟有好的數據在手,都希望自己先分析、出成果、發(fā)論文。如果沒有有競爭力的分享激勵機制,數據共享從何談起呢?”
(文中韋川、周卓為化名)