非田
超四分之一的臨床試驗數(shù)據(jù)可能有問題,甚至是完全編造的?這不是故意散播的聳人聽聞言論,而是權(quán)威科學雜志《自然》在7月一篇調(diào)查報道中的結(jié)論。
在這篇名為《醫(yī)學受到不可信的臨床試驗的困擾》的文章中,作者講述了多個臨床數(shù)據(jù)存疑甚至造假的“經(jīng)典案例”。以英格蘭國家衛(wèi)生局的麻醉師約翰·卡爾斯利為例,他本身也是《麻醉學》雜志的編輯,以擅長在醫(yī)學試驗中發(fā)現(xiàn)可疑數(shù)據(jù)而聞名。
從2017年起,他開始整理自己曾處理過的500多項隨機對照試驗(RCT)論文手稿。經(jīng)過長達3年的研究,他拿到了150項試驗的匿名個體參與者數(shù)據(jù)(IPD),有44%存在數(shù)據(jù)缺陷。在他的推算下,約有26%的論文存在明顯問題,涉嫌偽造數(shù)據(jù)。
嚴謹?shù)膶W術(shù)殿堂里,造假等行為屢見不鮮,甚至連斯坦福大學校長都在不久前都被指稱學術(shù)不端。正如《自然》所稱,“雙盲、可大規(guī)模重復、可標準量化”等基礎(chǔ)科學邏輯,正在被屢禁不止的造假所挑戰(zhàn)和摧毀。
1948年,一位咳聲不止、面色蒼白的英國人走進了皇家布朗普頓醫(yī)院。在那個年代,晚期肺結(jié)核無異于死亡的代名詞。被診斷為患上該病的他,只好抱著試試看的態(tài)度來到國內(nèi)最好的心肺病醫(yī)院。
為了驗證鏈霉素治療肺結(jié)核的療效,在英國醫(yī)學研究委員會的牽頭下,英國正在開展一場被后世載入史冊的醫(yī)學試驗:在上述醫(yī)院等醫(yī)療機構(gòu)中,肺結(jié)核患者將被分為鏈霉素組和對照組,兩組除鏈霉素外其余治療措施全部相同—在半年時間里,對照組的死亡率為27%,而鏈霉素組僅為7%。
在期刊不強制要求論文作者提供IPD數(shù)據(jù)的情況下,編輯很難發(fā)現(xiàn)論文的漏洞。
日本麻醉專家藤井善隆插畫
論文打假網(wǎng)站PubPeer
這是人類歷史上第一個隨機雙盲對照臨床試驗,他不僅驗證了鏈霉素的有效,更讓RCT成為后世驗證藥物效果的準繩。1970年起,美國食品藥品管理局(FDA)要求制藥商提交新藥申請時,必須附上RCT結(jié)果。
RCT被譽為臨床研究皇冠上的明珠,往往被認為是驗證更為可靠數(shù)據(jù)的手段,而大量的分析推演,也都是建立在RCT基礎(chǔ)上的??梢坏┰旒僬邔⒛繕嗣闇柿薘CT,不僅造假的事實更難被發(fā)現(xiàn),其產(chǎn)生的危害也更為劇烈。
卡爾斯利將那些偽造RCT結(jié)果的試驗稱為“僵尸試驗”—乍一看和正常的研究沒有太大區(qū)別,但無法提供任何有科研價值的信息。
即便經(jīng)驗豐富如卡爾斯利,在無法拿到IPD的情況下,也只能確認2%的研究存在問題,只有1%能被認定為是“僵尸試驗”,這與此前提到的44%和26%的比例相差極大。
這也就意味著,在期刊不強制要求論文作者提供IPD數(shù)據(jù)的情況下,編輯很難發(fā)現(xiàn)論文的漏洞,這些“僵尸試驗”很可能順利刊發(fā)。
RCT隨機對照雙盲實驗
諷刺的是,嚴于律己的卡爾斯利不止一次拒絕被他認為是有問題的論文,但無法期待所有從業(yè)者都能像他這般自律。他悲哀地發(fā)現(xiàn),盡管自己已經(jīng)寫信提醒過同行們,但那些被他拒絕的論文,大多會在不久后發(fā)表在其他期刊上,不少數(shù)據(jù)和他看到時存在差異,很可能是又“編”了一次。
更嚴重的是,大量的“僵尸試驗”不僅會間接坑害后來的研究者,甚至直接影響治療—因為RCT是評估臨床治療的重要依據(jù),醫(yī)療指南往往會引用這些評估,而這也是國外醫(yī)生進行治療時的重要參考依據(jù)之一。
《自然》雜志舉出了多個血淋淋的教訓。在新冠疫情期間,有大量關(guān)于伊維菌素可以治療新冠的RCT試驗,認為其療效顯著,但去年的一項研究發(fā)現(xiàn),這些試驗中,有40%以上結(jié)果并不可信。
日本學者佐藤能啟是骨科專家,他在被發(fā)現(xiàn)造假后選擇自殺,但論文的遺禍卻并未隨著他離去而消失。據(jù)統(tǒng)計,他偽造了數(shù)十個預防骨折的藥物或補充劑的試驗數(shù)據(jù),共計有113篇論文被撤稿,其中27篇論文被88篇系統(tǒng)評價和臨床指南引用,其中一些已經(jīng)成為了日本骨質(zhì)疏松癥的治療參考。
與之相似的還有氨甲環(huán)酸。這是一種常用于治療產(chǎn)后大出血的藥物,但據(jù)倫敦衛(wèi)生與熱帶醫(yī)學學院的流行病學家調(diào)查,該藥物的26項RCT中,有許多存在嚴重缺陷。今年4月,美國一項涉及1.1萬人的RCT顯示,氨甲環(huán)酸“只有輕微的、沒有統(tǒng)計學意義的益處”。
而澳大利亞墨爾本莫納什大學的學者在對比了36項關(guān)于氨甲環(huán)酸的研究后發(fā)現(xiàn),只有2021年法國一項涉及4000多名患者的研究顯示,氨甲環(huán)酸減少了16%的嚴重出血,但其余35項研究中,卻稱這一藥物有效率高達93%。如此異常的數(shù)據(jù)的背后,或許存在造假問題。
“目前尚不清楚這些不可信的研究是否影響了臨床實踐”,《自然》雜志寫道。受此影響,世界衛(wèi)生組織也只能選取“折中方案”,建議使用氨甲環(huán)酸治療分娩后失血,但并未推薦用于預防。
即便權(quán)威如《自然》,同樣也沒少被論文造假所困擾。去年7月,《科學》發(fā)布調(diào)查稱,2006年,一篇刊載于《自然》上的論文涉嫌造假—該論文被認為是阿爾茨海默病領(lǐng)域的“開山論文”,外界基于第一作者西爾萬·萊斯內(nèi)提出的假說,投入了天文數(shù)字般的資金。
如今這一假說被質(zhì)疑,雖不至于直接顛覆全部研究,但對學術(shù)研究和藥品研發(fā)領(lǐng)域而言,都是一次沖擊。
大量論文數(shù)據(jù)造假背后,暗藏著一個個專業(yè)制假的“論文工廠”(paper mill),只要支付數(shù)百到數(shù)千美元不等的金額,就能為客戶提供從論文撰寫到刊發(fā)的一條龍式服務(wù)?!蹲匀弧冯s志統(tǒng)計,過去十年里,許多領(lǐng)域的期刊發(fā)表了數(shù)以萬計的可疑假論文,不少就是由這些“論文工廠”一手炮制的。
AI已經(jīng)能生成假的顯微鏡圖像,但想要證明圖像是AI生成的,并不容易。
西爾萬·萊斯內(nèi)的作假論文被認為是阿爾茨海默病領(lǐng)域的“開山論文”
德國麻醉專家Joachim Boldt
與這樣龐大且成規(guī)模的組織相比,學術(shù)打假人難免顯得形單影只。以歐美學術(shù)界最出名的打假網(wǎng)站PubPeer和Retraction Watch為例,前者成立于2012年,主要依靠科研人員匿名對已發(fā)表論文進行評論和質(zhì)疑,而后者關(guān)注學術(shù)撤稿領(lǐng)域,雖有專職團隊但人數(shù)不多,資金也主要依賴幾個基金會支持。
總體而言,學術(shù)打假更像是個體在對抗龐大的團隊,大有雙拳難敵四手之感。“用愛發(fā)電”已成為學術(shù)打假的常態(tài),2017年,一份針對1200多名《自然》審稿人的問卷顯示,71%的受訪者表示,并不指望從審稿中獲得報酬。
但面對日益嚴重的論文造假問題,“用愛發(fā)電”的模式顯然不是長久之策。Retraction Watch創(chuàng)始人曾發(fā)文指出,2000年至2010年間,全世界被撤稿的論文從每年40篇增長到400篇左右;而到了2015年,這一數(shù)字已經(jīng)激增至700篇左右,這對于審核者提出了相當高的要求。
更何況,如今涉嫌學術(shù)不端者的地位也越來越高,想要看穿造假并不容易。截至今年7月,Retraction Watch的《撤稿排行榜》上已有5人被撤稿超過100篇,其中排名前二的,分別是約阿希姆·博爾特與日本人藤井善隆,兩人都是本國麻醉領(lǐng)域?qū)<摇?/p>
《自然》雜志也曾發(fā)文稱,面對海量論文,期刊編輯很難找到樂意效勞的同行評審人。
除了團隊人數(shù)完全不對等外,隨著ChatGPT、NewBing等AI技術(shù)的成熟,學術(shù)打假人或評審人如今正面臨著AI批量生產(chǎn)論文的新挑戰(zhàn)。
在今年5月《自然》舉辦的一場關(guān)于“論文工廠”問題的峰會上,不少專家均認為,ChatGPT等的大規(guī)模應(yīng)用,會讓“論文工廠”更加泛濫,“有了AI之后,論文工廠對原始數(shù)據(jù)的造假能力將再上一個臺階”。目前,AI已經(jīng)能生成假的顯微鏡圖像,但想要證明圖像是AI生成的,并不容易。
愈發(fā)嚴重的學術(shù)造假,歸根結(jié)底還是社會問題。當錯誤的代價由別人承擔時,犯錯是容易的;當造假者未必會得到相應(yīng)的懲罰,學術(shù)造假變得普遍,自然也就不稀奇了。
以前文提到的西爾萬·萊斯內(nèi)為例,在那篇涉嫌造假的論文發(fā)表前,他不過是一個名不見經(jīng)傳的學術(shù)新人,但在文章橫空出世后,他旋即被多家知名醫(yī)藥公司追捧,可謂是名利雙收。但事發(fā)后,他卻沒有受到多大的影響。
日本科學家小保方晴子的經(jīng)歷也與之相似。在宣稱發(fā)現(xiàn)“萬能細胞”前,她只是一個資歷平平的普通科學家,在對女性科研人員不算友好的日本科研圈并不受重視。但那篇造假的論文,卻讓她獲得“日本居里夫人”“下一個諾貝爾獎獲得者”的美譽。
東窗事發(fā)后,她不僅沒有銷聲匿跡,反而將學術(shù)不端的經(jīng)歷寫成書,把責任全部推到了已經(jīng)自殺的導師身上。小保方晴子在訪談中表示,這本書收獲了百萬冊銷量,自己還收到了來自國外的研究邀請。
日本科學家小保方晴子
事后追責效果不佳,更凸顯預防的重要性??査估J為,要想解決學術(shù)造假問題,必須從源頭抓起,他所在的《麻醉學》雜志已經(jīng)開始要求論文作者提供臨床試驗的IPD。他也呼吁,期刊應(yīng)該假定所有論文都有潛在的缺陷,并要求編輯在發(fā)表RCT內(nèi)容前審查IPD數(shù)據(jù),敦促各方務(wù)必加強審查。
可惜的是,這一做法并未得到普及。2016年,國際醫(yī)學期刊編輯委員會(ICMJE)提議,要求對隨機對照試驗進行強制性數(shù)據(jù)共享,但遭到了反對。此后,ICMJE也“服軟”了,僅鼓勵數(shù)據(jù)共享而非硬性要求。
由此可見,面對這一困境,業(yè)內(nèi)似乎并沒有很好的解決方法。在巨大的利益與顯赫的名聲面前,指望所有人都能不迷失自我,顯然并不現(xiàn)實。從社會層面而言,要改變“唯論文論”的評價體系,嚴厲打擊“論文工廠”,或許還有很長的路要走。
責任編輯吳陽煜 wyy@nfcmag.com