亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

“數(shù)據(jù)封禁”倒逼國(guó)內(nèi)加快科研數(shù)據(jù)庫(kù)建設(shè)

2025-04-25 00:00:00周游

中國(guó)新聞周刊 2025年14期

“數(shù)據(jù)庫(kù)賬號(hào)突然登不進(jìn)去了？”

4月6日一早，在北京某研究機(jī)構(gòu)做博士后的遺傳學(xué)博士韋川收到審稿人來信，要求他補(bǔ)充此前一篇投稿中的數(shù)據(jù)分析。韋川打開SEER數(shù)據(jù)庫(kù)終端，想要搜尋數(shù)據(jù)，發(fā)現(xiàn)自己的賬號(hào)已經(jīng)無法登錄。導(dǎo)師告訴他，SEER等多個(gè)生命科學(xué)和醫(yī)學(xué)領(lǐng)域數(shù)據(jù)庫(kù)已被封禁。

SEER即美國(guó)國(guó)立癌癥研究所（NCI）管理的“監(jiān)測(cè)、流行病學(xué)和結(jié)果數(shù)據(jù)庫(kù)”，是全球最具代表性的大型腫瘤登記注冊(cè)數(shù)據(jù)庫(kù)之一，收集了大量循證醫(yī)學(xué)數(shù)據(jù)，一直以來向全球研究者開放。而SEER只是被切斷的數(shù)據(jù)庫(kù)之一。NCI隸屬美國(guó)國(guó)立衛(wèi)生研究院（NIH）。4月2日，NIH發(fā)文，稱從2025年4月4日起，禁止包括中國(guó)在內(nèi)的“受關(guān)注國(guó)家”訪問其管理的21個(gè)受控訪問數(shù)據(jù)庫(kù)。

韋川原本還要參與對(duì)研究生的SEER數(shù)據(jù)庫(kù)使用培訓(xùn)，如今也暫時(shí)擱置。個(gè)人學(xué)業(yè)之外，中國(guó)國(guó)內(nèi)科研整體可能面臨研究受阻、研發(fā)推遲等問題。美國(guó)數(shù)據(jù)“斷供”下，國(guó)內(nèi)生命醫(yī)學(xué)領(lǐng)域研究該如何應(yīng)對(duì)？

依賴受控?cái)?shù)據(jù)的研究受到?jīng)_擊

NIH對(duì)受控?cái)?shù)據(jù)庫(kù)的訪問限制看似突然，實(shí)則早有鋪墊。

去年2月，美國(guó)拜登政府頒布第14117號(hào)行政令，旨在限制部分國(guó)家獲取美國(guó)個(gè)人敏感信息以及美國(guó)政府信息?；谠撔姓睿瑐€(gè)人基因組信息在內(nèi)的一些生物學(xué)數(shù)據(jù)被列為敏感信息，源于美國(guó)境內(nèi)的數(shù)據(jù)不能傳到包括中國(guó)在內(nèi)的部分國(guó)家。

此后，為了實(shí)施該行政令，去年12月，美國(guó)司法部發(fā)布一項(xiàng)最終規(guī)則，要求“防止受關(guān)注國(guó)家獲取美國(guó)敏感個(gè)人信息和政府相關(guān)數(shù)據(jù)”，以及“禁止和限制與某些國(guó)家或個(gè)人的某些數(shù)據(jù)交易”，今年4月8日起正式生效。

已公布的21個(gè)受控?cái)?shù)據(jù)庫(kù)均由NIH直接或間接管理。NIH是全美最高水平醫(yī)學(xué)與行為學(xué)研究機(jī)構(gòu)，也是全球最大的生物醫(yī)學(xué)研究公共自主機(jī)構(gòu)，下設(shè) 27 個(gè)研究所和中心，聚焦不同疾病領(lǐng)域。受控?cái)?shù)據(jù)庫(kù)匯集了全球最核心的人類基因組、表型信息和疾病研究數(shù)據(jù)，其中最受關(guān)注的是人類基因型-表型數(shù)據(jù)庫(kù)dbGaP和大型基因組分析云平臺(tái)AnVIL。

北京某高校生物信息學(xué)教授周卓向《中國(guó)新聞周刊》介紹，數(shù)據(jù)“斷供”對(duì)大多數(shù)生命科學(xué)和醫(yī)學(xué)領(lǐng)域影響不大，主要影響基因組學(xué)、癌癥研究領(lǐng)域。dbGaP存儲(chǔ)的基因組與疾病數(shù)據(jù)來自全球研究者提交的數(shù)據(jù)，研究對(duì)象覆蓋全球數(shù)百萬人，是癌癥治療、罕見病研究等領(lǐng)域的重要數(shù)據(jù)源。而AnVIL是跨機(jī)構(gòu)協(xié)作的重要平臺(tái)，支撐著全球三成以上的基因數(shù)據(jù)分析項(xiàng)目。

多位受訪者表示，在癌癥、基因組學(xué)研究領(lǐng)域，NIH旗下數(shù)據(jù)庫(kù)非常重要，特別是在罕見病研究方面，由于單一國(guó)家難以獨(dú)立獲得足夠樣本，NIH各平臺(tái)幾乎是不可或缺的。韋川對(duì)SEER最熟悉，他認(rèn)為，SEER的優(yōu)勢(shì)在于樣本量非常大，目前已覆蓋48％的美國(guó)人口，人種分布也很均衡，其癌癥發(fā)病率和生存率數(shù)據(jù)很可能支撐著全球超過70％的癌癥機(jī)制研究。

此外，一項(xiàng)研究可能需要多類別數(shù)據(jù)，而NIH對(duì)基因組和癌癥研究領(lǐng)域數(shù)據(jù)庫(kù)的封禁很全面。周卓表示，以癌癥研究為例，研究者可能需要訪問癌癥基因組計(jì)劃（TCGA），以尋找某種癌癥類型的基因組學(xué)證據(jù)，同時(shí)也需要訪問基因型-組織表達(dá)（GTEx），以獲得健康組織的對(duì)比數(shù)據(jù)。而TCGA是基因數(shù)據(jù)共享平臺(tái)（GDC）的一部分，后者很大程度上依賴dbGaP收集的研究數(shù)據(jù)。申請(qǐng)GTEx數(shù)據(jù)也需通過dbGaP進(jìn)行。dbGaP“斷供”，相當(dāng)于阻斷了這部分研究的數(shù)據(jù)源頭。

值得注意的是，部分NIH數(shù)據(jù)庫(kù)包含受控和開放數(shù)據(jù)庫(kù)兩個(gè)部分。前者由于具有個(gè)人基因組信息等敏感內(nèi)容，原本就需要注冊(cè)使用，在獲得數(shù)據(jù)庫(kù)官方授權(quán)后才能訪問。后者目前仍保持開放。韋川指出，TCGA、GDC等數(shù)據(jù)庫(kù)的開放數(shù)據(jù)如基因表達(dá)矩陣目前仍可下載，但原始基因測(cè)序數(shù)據(jù)屬于受控?cái)?shù)據(jù)，原來研究者只要申請(qǐng)大都能下載，只是時(shí)間長(zhǎng)短問題。但4月8日之后，中國(guó)申請(qǐng)者的申請(qǐng)都將被拒。

一位在上海某高校醫(yī)學(xué)院研究胸部腫瘤的三年級(jí)博士生向《中國(guó)新聞周刊》表示，對(duì)于普通臨床研究，開放數(shù)據(jù)庫(kù)基本夠用，但當(dāng)研究進(jìn)入到篩選癌變點(diǎn)位、尋找藥物靶點(diǎn)等前沿領(lǐng)域，基因?qū)用娴臄?shù)據(jù)不可或缺。直觀來說，受到?jīng)_擊最大的是那些已經(jīng)依賴受控?cái)?shù)據(jù)的研究。同時(shí)，與數(shù)據(jù)挖掘同時(shí)進(jìn)行的實(shí)驗(yàn)室生物組織培養(yǎng)等配套研究，也都成了“沉沒成本”?！皵?shù)據(jù)基礎(chǔ)沒了，養(yǎng)的細(xì)胞可能都要扔掉。如果重新尋找基因位點(diǎn)，整個(gè)課題可能都要重新設(shè)計(jì)?！痹摬┦可f。

在韋川看來，盡可能完整翔實(shí)的數(shù)據(jù)是研究的根基，尤其是罕見病研究，如果靠個(gè)人或單位去零散的醫(yī)療機(jī)構(gòu)收集發(fā)病率萬分之一以下的病例，將十分困難。很多團(tuán)隊(duì)用公共數(shù)據(jù)篩選基因位點(diǎn)，如果轉(zhuǎn)回實(shí)驗(yàn)室從頭開始一個(gè)個(gè)位點(diǎn)進(jìn)行試錯(cuò)，課題成本將飆升2—3倍。

周卓指出，尋找替代數(shù)據(jù)或自行收集大規(guī)模樣本，將顯著增加科研成本和不確定性。對(duì)癌癥研究來說，如果無法獲取相關(guān)基因突變數(shù)據(jù)，就無法篩選患者入組，試驗(yàn)周期將無限拉長(zhǎng)，甚至陷入停滯。依賴NIH數(shù)據(jù)驗(yàn)證療效的藥物研發(fā)也將顯著受阻。

此外，周卓分析說，在NIH數(shù)據(jù)已成為“標(biāo)配”的研究領(lǐng)域，替代數(shù)據(jù)的權(quán)威性會(huì)受到審稿人質(zhì)疑，向《自然》《科學(xué)》等國(guó)際頂刊投稿的道路將更加坎坷，尋求國(guó)際合作也將更困難?！邦I(lǐng)域內(nèi)學(xué)術(shù)競(jìng)爭(zhēng)力的下降，可能是國(guó)內(nèi)相關(guān)團(tuán)隊(duì)要面臨的最大挑戰(zhàn)?！?/p>

多位高校教師向《中國(guó)新聞周刊》表示，未來，隨著歐美政府向著國(guó)家安全、隱私保護(hù)的政策方向傾斜，針對(duì)中國(guó)學(xué)術(shù)界的訪問限制只會(huì)越來越多。周卓分析，原本開源的基因分析工具包GATK也跟隨數(shù)據(jù)平臺(tái)被封禁，國(guó)產(chǎn)測(cè)序工具的兼容性和效能還很難完全匹敵。PubMed這樣的工具也難免有風(fēng)險(xiǎn)，但不太可能全線封禁，更可能會(huì)添加數(shù)據(jù)分級(jí)、進(jìn)行有針對(duì)性的搜索權(quán)限發(fā)放和審批。

應(yīng)打造深度數(shù)據(jù)共享平臺(tái)

為應(yīng)對(duì)“數(shù)據(jù)危機(jī)”，國(guó)內(nèi)研究者已開始自救，調(diào)整科研策略。韋川發(fā)現(xiàn)，生物信息學(xué)專業(yè)的學(xué)生相對(duì)而言更好轉(zhuǎn)向，因?yàn)樗麄兊难芯渴艿降南拗聘?，可以使用NIH旗下依然開放訪問的功能基因組學(xué)數(shù)據(jù)庫(kù)GEO，或者轉(zhuǎn)向歐洲的UK bioBank數(shù)據(jù)庫(kù)。后者相比于dbGaP和TCGA擁有更多用戶。

但基因組學(xué)等前沿領(lǐng)域研究者的轉(zhuǎn)型就沒那么容易了，因?yàn)樗麄兤惹行枰囟I(lǐng)域的數(shù)據(jù)。韋川指出，數(shù)據(jù)庫(kù)會(huì)記錄研究者獲取數(shù)據(jù)的時(shí)間，即使想方設(shè)法在4月4日后獲取到了受控?cái)?shù)據(jù)，也會(huì)被質(zhì)疑數(shù)據(jù)源的合法性，以致無法公開使用?！暗倳?huì)有繞過限制的手段，比如轉(zhuǎn)向海外聯(lián)合研究項(xiàng)目，以及尋找海外合作者共同署名。”

多位受訪者認(rèn)為，數(shù)據(jù)封禁很可能倒逼國(guó)內(nèi)加快生物醫(yī)學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)，減少對(duì)外依賴。

2019年，國(guó)家生物信息中心（CNCB）和國(guó)家基因組科學(xué)數(shù)據(jù)中心（NGDC）相繼成立。目前，NGDC數(shù)據(jù)庫(kù)覆蓋DNA、RNA、宏基因組、單細(xì)胞等多類數(shù)據(jù)，同時(shí)也備份了十余個(gè)NCBI數(shù)據(jù)庫(kù)。CNCB-NGDC主要任務(wù)是構(gòu)建檔案平臺(tái)和信息系統(tǒng)，開發(fā)算法和工具，在周卓看來，這是一套技術(shù)邏輯完整、標(biāo)準(zhǔn)逐步完善的“國(guó)家級(jí)數(shù)據(jù)中樞”，對(duì)標(biāo)NCBI生態(tài)。去年11月，CNCB還成功研發(fā)了DNA數(shù)據(jù)存儲(chǔ)系統(tǒng)“畢昇一號(hào)”，大大降低了存儲(chǔ)成本。

此外，越來越多醫(yī)院和科研所開始構(gòu)建自己的樣本庫(kù)和數(shù)據(jù)庫(kù)，例如北京協(xié)和醫(yī)院的罕見病基因庫(kù)、上海瑞金醫(yī)院的腫瘤表觀組學(xué)平臺(tái)等。周卓分析說，對(duì)使用者而言，國(guó)內(nèi)數(shù)據(jù)基于中國(guó)本土人群，在東亞人遺傳變異、罕見病等領(lǐng)域具有獨(dú)特優(yōu)勢(shì)。

但問題也顯而易見。據(jù)相應(yīng)官網(wǎng)信息，CNCB目前歸檔的國(guó)內(nèi)數(shù)據(jù)為70.4PB，國(guó)外數(shù)據(jù)為7.75PB，而NIH下屬NCBI的歸檔數(shù)據(jù)就超過100PB?？傮w而言，國(guó)內(nèi)自主數(shù)據(jù)庫(kù)的數(shù)據(jù)量約為美國(guó)的1/3，且國(guó)際認(rèn)可度尚待建立。周卓指出，以CNCB為代表的國(guó)內(nèi)數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)總量可能超過400PB，可供科研調(diào)用的結(jié)構(gòu)化數(shù)據(jù)只有一小部分。數(shù)據(jù)清洗、標(biāo)準(zhǔn)化存儲(chǔ)的工作還有待持續(xù)推進(jìn)。

此外，前述癌癥中心研究員表示，國(guó)內(nèi)仍存在大量“數(shù)據(jù)孤島”，估計(jì)有超過90％的腫瘤樣本數(shù)據(jù)分散在各地醫(yī)療和科研機(jī)構(gòu)之中，共享程度很低，未來還需要系統(tǒng)性整合。但目前，國(guó)內(nèi)仍缺乏腫瘤生物樣本的大數(shù)據(jù)平臺(tái)。

CNCB每日更新數(shù)據(jù)共享排行榜，截至發(fā)稿前，榜上共有3829組數(shù)據(jù)。以審核周期、處理率和通過率進(jìn)行共享度評(píng)分，滿分5分，超過4分的數(shù)據(jù)有260余條，僅占6.2％。

多位受訪者指出，要從根源上提升學(xué)術(shù)競(jìng)爭(zhēng)力，就需要構(gòu)建國(guó)家層面的深度共享數(shù)據(jù)庫(kù)。周卓認(rèn)為，國(guó)內(nèi)數(shù)據(jù)庫(kù)應(yīng)聚焦中國(guó)高發(fā)癌種，如肺癌、結(jié)腸直腸癌等，優(yōu)先建立本土化研究隊(duì)列。同時(shí)，通過國(guó)家戰(zhàn)略統(tǒng)籌方式，設(shè)立專項(xiàng)、成立相應(yīng)領(lǐng)域的數(shù)據(jù)管理中心，將“孤島”數(shù)據(jù)整合，形成大平臺(tái)。這可能需要進(jìn)一步的立法保障，明確數(shù)據(jù)所有權(quán)、使用權(quán)、安全分級(jí)和收益分配機(jī)制。

“更多的數(shù)據(jù)還沒被分享出來?！表f川說，“愿意分享辛苦做出的數(shù)據(jù)的團(tuán)隊(duì)還是少數(shù)，畢竟有好的數(shù)據(jù)在手，都希望自己先分析、出成果、發(fā)論文。如果沒有有競(jìng)爭(zhēng)力的分享激勵(lì)機(jī)制，數(shù)據(jù)共享從何談起呢？”

（文中韋川、周卓為化名）