孔祥輝
近幾十年出現了一個越來越明顯的問題是許多已經發(fā)表的科研成果,甚至是在著名期刊上的成果都經受不起再次重復研究的考驗[1],科學界正在經歷一場再現性危機。研究型圖書館作為科研與學術交流體系中的重要一環(huán),有必要充分審視這場危機,通過科研服務整合與創(chuàng)新,筑牢開放、透明、完整的科學之根基,阻斷危機之源,為共同化解危機做出努力。
再現性(reproducibility)是指其他研究人員能夠追溯研究報告中原研究者所遵循的步驟、方法、實驗條件,或者基于原始數據進行分析復制,使研究結果得以再現的過程,也稱為“可重復性”(Reproducible)。一般可分為方法的再現性、結果的再現性和推理的再現性[2]。再現性是科學研究中最基本的原則之一,也是科學進步的基石。它是對所有已發(fā)表研究結果的最低可信度要求。如果一項研究不能被再現,那顯然其得到的成果和結論也就無法立足。它能夠促進科學在反復爭論、重復驗證的過程中發(fā)展,而那些陳舊的觀點或者經受不起細致推敲和重復檢驗的理論概念,將會在學術進步中遭到淘汰。然而,目前科學界正面臨著嚴重的再現性危機(reproducibility crisis)。Ioannidis等[3]認為當前大多數研究結果是錯誤的。Begley等[4]對53項基礎醫(yī)學研究報告中的49份進行再現性研究,高達89%的失敗率引發(fā)了人們對生物醫(yī)學領域研究質量的關注。開放科學合作組織(Open Science Collaboration,OSC)開展心理學大規(guī)模復制性項目[5],邀請來自世界各地的270名研究人員,對來自3份頂級心理學期刊上的100份實證研究成果進行復制研究,發(fā)現成功率不到一半。而在癌癥研究領域更是只有20%-25%或11%的成功率[6];經濟學領域也僅有33%[4]的成功率。Monya[7]對1,576名研究人員進行調查,發(fā)現90%認為科學研究存在可重復性危機,52%認為存在重大的危機。最令人吃驚的是70%的研究人員曾試圖重復另一位科學家的實驗,但沒有取得成功。再現性危機不僅損害了整個科學界的信譽度,還造成了大量時間和金錢浪費。據Freedman等[8]估算,在美國僅一年就有高達280億美元投入的基礎醫(yī)學研究成果無法進行復制。由于復現率較低,破壞了基礎醫(yī)學領域知識累積與更新的速率,并導致了治療性藥物研發(fā)的推遲以及成本的直線上升。
1.2.1 研究主體行為不規(guī)范
研究無法再現更多是由于研究結果的假陽性過高。假陽性就是不真實、不準確。在科研領域是指在統計學上具有顯著意義,看似真實但實際經不起重復檢驗的成果和結論[9]。而假陽性又與研究主體的不規(guī)范行為密切相關,特別是可疑的研究操作(Questionable research practices)。它是指研究主體采取不合理的手段,主觀干預、調整數據來獲得預期結果的一種手段。調查發(fā)現[10]可疑的研究操作行為在科研界相當普遍,如擇優(yōu)選擇結果(Cherry-picking)、p值篡改(Phacking)、已知結果假設(HARKing)等都是常見行為。而這些行為不僅違背了科學的客觀性,讓數據喪失它應有的統計學意義,也導致很多研究成果重復率較低,極大降低了科學研究的公信力。
1.2.2 科研數據缺乏公開共享
科研數據是科研項目研究成果的重要組成部分,也是實現科技創(chuàng)新的必要基礎。只有將科研全過程中所有具備再利用價值的科研數據進行集合,例如調查或實驗產生的原始數據、中間數據、最終數據,以及研究手稿提交后的修訂、出版、同行評審、引用,還有作者的知識產權和其他活動等資料,通過標準化和規(guī)范化的處理,進行長期的保存和維護,并且保證數據可被所有人訪問,記錄完全公開、可追溯[11],人們才能準確理解和客觀地評價其支持結論的相關數據,進而驗證科研成果的準確性并重復使用數據回答新的問題。然而目前學術界普遍存在科研數據缺乏共享的問題。Kidwell等[12]發(fā)現在研究報告中,接近45%的原始數據在實際操作上不可獲取,并存在不完整、不正確、不充分等問題。由于缺乏制度約束和政策引導,很多研究人員科研成果的原始數據并沒有及時公開。Miyakawa[13]發(fā)現41份在審查前進行修訂的研究稿件中,超過97%沒有按要求提供支持其結果的原始數據。隨著時間的推移,在改變研究方向、工作變更、拒絕回復、硬件缺失等多重因素作用下,原始數據越來越難獲取和再利用。缺乏原始數據意味著缺乏科學性,研究成果也將無法進行再現性研究驗證。
1.2.3 再現性研究邊緣化
科學研究就應該百花齊放,百家爭鳴。所有的研究結果,只有被一視同仁地對待,在爭議、啟發(fā)、驗證的過程中逐步接近事實,才能共同推動科學進步。然而,那些能夠進一步夯實事實結論的重復驗證性研究卻通常被束之高閣。出版偏見與發(fā)表壓力導致“不發(fā)表,即死亡”的文化盛行。當前傳統期刊、科研基金資助機構等存在出版偏見,即追求研究結果的創(chuàng)新性遠遠高于研究者們的理論貢獻、研究設計、數據和分析的質量,甚至是激勵研究問題的重要性,幾乎很少會鼓勵發(fā)表再次驗證的成果。
從個體角度,每個研究人員所面臨的回報和壓力不同,其研究方向以及遵循的研究行為準則也就不同。再現性研究作為獨立的研究模式,將意味著更多的時間、精力和資金成本的投入,而晉級職稱、學術競爭的壓力,往往使研究人員對這類研究望而卻步。美國細胞生物學學會對其成員的調查發(fā)現[14],有39.27%的人認為“發(fā)表高層次文章的壓力影響了文獻的可重復性研究”。
1.2.4 研究過程缺乏透明度
研究透明度是指詳細地公開披露研究各個階段所使用的方法,產生的數據、案例以及一切相關資源,并使外界能夠獲取和再利用[15]。King[16]認為“充分理解和評估實證分析的唯一方法是知道數據生成和分析的確切過程?!币豁椦芯恐挥斜3肿銐虻耐该鞫?,使數據和方法能夠很容易被重新利用,其他的研究學者才可以在此基礎上開拓創(chuàng)新,完善原創(chuàng)的研究構想,提高原有成果的引用率,并與原作者開展更緊密的合作。
然而科研數據不能實現普遍共享的現狀從側面表明,目前大多數研究的透明度較低。在當前的出版生態(tài)系統中,研究人員更傾向于發(fā)表那些新穎的發(fā)現,卻不能整理完善文檔確保研究成果的可再現性;期刊為追求新穎可能也會降低錄用標準,忽略滿足再現性的研究材料。缺乏透明度不僅導致成果的無法再現,還阻礙科研進程。例如,2020年關于人工智能(AI)在乳腺癌篩查應用的系統模型研究,其成果的新穎性立刻引起轟動[17]。然而由于該研究對其所使用的方法、代碼和模型缺乏充分描述,研究人員無法確切地了解該成果的工作原理及其實際應用,嚴重影響了后續(xù)研究的跟進。
再現性危機也引起了圖書館學界的討論。Sayre等[18]就學術圖書館如何領導再現性研究并提供權威支持的措施進行討論。通過對現有再現性研究指南框架的分析,提煉出服務支持的介入點,據此建立學術圖書館支持再現性研究的服務模型。Vitale[19]則是基于科研數據管理視角,對圖書館參與再現性研究運動的戰(zhàn)略布局、人員配備和服務重點等內容進行探討。Steeves[20]分析了圖書館員在支持再現性與數據管理服務下的雙重角色定位,并就數據科學中心和圖書館如何將可重復的研究實踐納入規(guī)范合作的策略展開研究。Stodden等[21]則強調圖書館可以通過協助開展數據管理計劃和數據建檔等服務,在支持研究文化向再現性變革轉型中發(fā)揮積極作用。我國目前僅有李丹陽等[22]分析了圖書館應對“復現性危機”的動因和服務策略。
在實踐層面上,美國紐約大學圖書館[23]、佛羅里達大學George A.Smathers圖書館[24]、俄勒岡大學圖書館[25]等相繼開設再現性圖書館員(reproducibility librarian)專職崗位。猶他大學健康科學院圖書館[26]利用已有的內外合作資源,邀請來自開放科學中心、頂尖級學府、著名學術期刊的專家學者,召開再現性研究專題學術研討會,爭取與相關院系負責人和教師人員密切協作,在會議反饋的基礎上組建了再現性研究實踐聯盟(Research Reproducibility Coalition),同時爭取到國家醫(yī)學圖書館網絡的贊助,建立了再現性研究學分制課程,組織聯盟成員為課程開發(fā)和會議規(guī)劃提供指導。斯坦福大學圖書館聯合萊恩醫(yī)學圖書館、數據科學中心以及其他部門共同組建了開放和可再生科學數據科學中心(SDS-core)[27],旨在發(fā)展和培養(yǎng)科研領域中數據收集、分析和傳播的透明度和可重復性。加州大學舊金山分校圖書館[28]與校部研究生院以及開放科學小組合作,從2019年起,每年都會舉辦再現性系列研討會。
總體而言,目前圖書館與再現性的相關研究數量較少,研究內容有待進一步深入,研究對象未做出明確區(qū)分。研究型圖書館是面向廣大科研用戶群體提供資源與服務的重要機構,同普通高校圖書館相比更有責任和義務,聯同所有科研利益相關方,包括高校、基金資助機構、科研管理部門、學術期刊以及專業(yè)協會等去共同應對再現性危機。而研究型圖書館又是這些眾多機構中,為數不多的擁有專業(yè)知識和基礎設施來廣泛支持再現性研究的組織。因此,有必要思考研究型圖書館在危機下的自我審視及其價值承擔。盡管一些研究型圖書館對危機已足夠重視,并從籌建組織、拓展教育、加強專員建設等方面尋求突破,但服務實踐多局限于從某個角度開展,尚未有從宏觀的整合視角構建整體的服務框架,合理布局資源來進一步指導實踐。因此,文章擬在現有研究基礎上,分析研究型圖書館的角色定位,對既有實踐成果提煉、歸納并結合危機成因,構建起面向再現性危機的服務框架。
2018年歐洲研究型圖書館協會召開主題為“圖書館員再現性實踐”的網絡研討會(LIBER’s webinar)明確指出[29],“在目前應對日益增長的可重復研究挑戰(zhàn)中圖書館處于有利地位,是時候將再現性領域作為專業(yè)服務的重要一環(huán)?!遍_放科學中心創(chuàng)建的《透明性和開放性促進指南》(Transparency and Openness Promotion Guidelines,TOP),其內容提示了危機視域下圖書館應該在引證服務、預注冊及其分析計劃、提高研究透明度、數據共享等方面要有所作為。研究型圖書館應順應開放科學發(fā)展大勢,融入科研以深度賦能,成為開放科學實踐的倡導者、高質量科研的服務保障者、再現性研究的組織與協調者、開放科學文化的引領者,為化解危機貢獻應有之力。
開放科學就像給現代科學加上一個感嘆號,試圖讓復雜的數據、計算、分析方法對每個人都可以用,任何人都可以重復使用[27]。它以開放數據、開放獲取、開放同行評議、開放可重復研究為特征,正成為科研發(fā)展的新范式。再現性是開放科學實踐所堅持的核心理念之一。開放科學強調科研要素全面對外公開,而可再現性正是源于透明、共享、公開的開放科學實踐的必然結果。因此,從根源上化解再現性危機,研究型圖書館要廣泛全面地倡導開放科學實踐,而事實上引領科研用戶走向開放科學實踐成為歐美研究型圖書館近年來科研服務重點戰(zhàn)略走向。2015年美國國立衛(wèi)生研究院咨詢委員會提交的關于國家醫(yī)學圖書館(NLM)未來發(fā)展的報告、2018年歐洲研究圖書館協會(LIBER)發(fā)布的《LIBER開放科學路線圖》等提出圖書館需要促進開放科學實踐,并通過協作方式擴大相關行動的影響力[30]。美國研究圖書館協會(ARL)執(zhí)行董事艾略特·肖爾認為“開放科學將有助于提高研究和出版的透明度,同時也能幫助研究機構實現將創(chuàng)造知識作為公共利益的使命。”[31]該協會在2015年與眾多期刊和機構共同簽署TOP,并鼓勵成員館按照該指南提供必要的服務和基礎設施來支持開放科學。研究型圖書館積極通過參與開放基礎設施建設、研究數據管理,拓展開放獲取服務形式,將開放科學普及成為科研人員實際開展科研的主流模式,最大程度上維護科學研究的透明度和公開性,確保成果的真實準確來為公眾重新注入信任。
除開放科學中心的TOP,很多基金資助機構、期刊、科學協會等也都制定了多種可再現性研究指南和建議,如美國統計協會(ASA)指南、美國國家科學基金會(NSF)指南和美國國立衛(wèi)生研究院(NIH)指南等。而各類指南中提出的有關數據引證、研究方法透明、研究與分析計劃預注冊、數據透明等方面的建議,都與研究型圖書館事業(yè)的核心領域相一致。研究型圖書館涉足文獻檢索、資源標引、學術發(fā)現、文獻評估、學術交流、研究指標、數據管理和共享等眾多領域且積累了豐富的經驗。通過GIS、文獻計量學、數據挖掘和數字人文服務來支持計算和數據密集型的研究[32];大多數館都配備有學科館員或信息專員,具備較強的專業(yè)能力和業(yè)務協調能力,滿足學術聯絡和服務拓展的需要。
再現性危機源自科研質量本身,研究型圖書館作為服務機構對科研不具有主導性,不能替代研究主體決定研究走向和后果,但可以憑借豐富的服務經驗、知識資源儲備、專業(yè)人才和研究基礎設施等優(yōu)勢,嵌入科研過程中為其提供必要的支持,在規(guī)范研究設計、文獻綜述、數據管理計劃、文獻引證、數據搜集與分析、成果開放出版、數據再利用等關鍵問題上進行服務賦能,確保高質量的科研過程和成果產出,成為在源頭上化解危機最有力的服務保障者。
再現性研究的價值不言而喻。國外一些研究機構和期刊倡導并開展了可重復研究項目,開展驗證性的重復實驗。但是由于它是一個相對復雜且獨立的研究形態(tài),要想全面推廣,使整個科研領域真正向再現性研究科學邁進,需要所有利益攸關方密切協作,進行持久而謹慎的努力。關于再現性內容界定、整體研究環(huán)境架構,在實施過程中的版本控制、元數據記錄、數據分析、開放存取、軟件認證等具體細節(jié)問題處理,以及學科性因素、實踐原則、研究基本框架、評價體系等方面的探索,都需要一個可靠的組織與協調者去運籌帷幄,提供全面的服務。
研究型圖書館作為多元化交流與合作平臺,專業(yè)與學術屬性的縱深使其在科研機構、科研用戶以及利益相關方之間具備較高的信譽度,因科研服務業(yè)務所拓展的聯絡渠道,有助于圖書館爭取廣泛的合作,通過打破機構邊界壁壘,整合各方優(yōu)勢資源,為再現性研究提供一站式學術交流、數據資源、培訓、基礎設施和服務。猶他大學健康科學院圖書館能夠充分利用校內外資源,以點帶面,從聯絡專家、召開會議、征集會議反饋、爭取協會資金贊助,到建立學分制課程,再到迅速成立再現性研究實踐聯盟等一系列有效實踐表明,研究型圖書館在服務上具有天然的組織與協調優(yōu)勢。
數據不會欺騙,備受追捧的p值本身也不會導致危機[33]。科研主體將聲譽置于科學之上、對影響因子的盲目崇拜、對再現性研究價值的否定等,才是真正破壞科學研究真實性和完整性的消極因素。再現性并非獨立的文化概念,而是植根于開放科學實踐的核心準則和價值理念,而Anderson等[34]發(fā)現研究人員對開放科學理念的認可與他們的現實行為并不匹配。盡管大多數接受調查群體都表示贊同,但并不總是在科研中踐行這些價值觀。
再現性要想在科研群體中達成普遍共識并內化成行為準則,就需要長期的文化變革,接受來自開放科學文化的洗禮。正如《開放科學培訓手冊》強調的,“只有當所有研究人員都了解并在其整個職業(yè)生涯中踐行開放科學,才有可能從根本上改變科研實踐與交流方式,進而培育開放、包容、共享、健康的科學生態(tài)系統,使科研過程更誠信”[35],為再現性研究提供生存空間,還原清風正氣的學術環(huán)境。盡管文化變革是一個緩慢而艱難的過程,但研究型圖書館作為大學科研文化傳播的重要載體,能夠借助學術研討、教育培訓、活動嵌入、陣地宣傳等持久性的活動策略加速這種變化。例如充分發(fā)揮傳統培訓教育職能傳播開放科學理念,開展再現性教育;以文化的力量助力真實客觀的科學研究,幫助研究人員"正本清源,守正創(chuàng)新",逐步認可“做到正確”而不僅僅是“發(fā)現重大結果”的科研原則,更多地去報告“不完美”但真實的結果,有能力講述“完整的故事”,自覺規(guī)避數據造假和失真的風險。
通過深入分析,可發(fā)現解決危機成因的關鍵點與研究型圖書館的服務支撐點有多重耦合。首先,研究主體行為的不規(guī)范,可疑的研究操作實踐大行其道,既有研究人員統計方法誤用、數據素養(yǎng)匱乏的表象使然,也是缺乏合作、信任、透明、嚴謹的開放科學文化支撐的必然。研究型圖書館可以據此開展科學數據素養(yǎng)教育、建立開放科學交流陣地,夯實研究主體在向開放科學、數據科學邁進過程中所必備的數據技能和文化底蘊。
其次,科研數據實現公開共享是以完善的數據共享環(huán)境為前提。研究型圖書館應立足數據管理優(yōu)勢,積極參與覆蓋科研全過程的數據管理平臺建設,建立數據協作共享機制,為科研數據自由流動提供硬件支撐和服務保障。
再次,加強研究要素的完整性揭示,實現研究流程規(guī)范化操作將有助于提升研究整體透明度。而為實現這些目標,科研界業(yè)已存在不少成熟的運作制度和資源,如預注冊、研究指南、預印本制度等。研究型圖書館可借他山之石面向科研人員全面推廣資源,通過科研協作落實制度,最終實現研究資源、流程、方法和結果的全透明。
最后,憑借豐富的宣傳推廣手段和廣泛的合作渠道,研究型圖書館還可以搭建信息專欄、組建計算性研究平臺并開設專題教育,為再現性研究開展提供資源支持和技術指導,提升該研究的關注度和投入度,從而打破發(fā)表壓力與出版偏見惡性循環(huán)的格局。
綜上,研究型圖書館應以化解再現性危機為出發(fā)點,將危機成因作為框架支點,以提升研究過程透明度、完善數據共享環(huán)境、增強再現性研究支持、提升研究主體為目標建立起服務框架(見圖1)。
圖1 研究型圖書館面向再現性危機的服務框架
研究報告指南(report guideline,以下簡稱“研究指南”)是就如何撰寫研究方法和研究結果提供標準化建議的手冊,通常采用檢查清單或流程圖的形式。科研人員使用研究報告指南,可以有效減少研究分析方法表述不佳、選擇性報告等問題,改進研究報告質量,使之更準確和透明,促進方法的可重復性以及數據的可比較性。研究報告指南最早出現于生物醫(yī)學領域,如CONSORT、PRISMA、STROBE等,目前在心理學、生態(tài)學等學科領域也逐漸得到普及。牛津大學醫(yī)學統計中心所建立的赤道網絡(EQUATOR Network)[36],集合醫(yī)學領域的研究指南向用戶提供免費開放獲取,旨在通過使用研究指南改善研究文獻質量,提升醫(yī)療領域研究的質量和透明度。EQUATOR開發(fā)了專門針對圖書館員的培訓資源。研究型圖書館可采取EQUATOR建議,通過資源導航,圖書館網頁、社交媒體、宣傳單、海報中提供信息和資源鏈接,亦或在嵌入科研項目過程、開展有關教學培訓中添加專題講解,廣泛推薦研究人員使用研究指南。
3.2.2 積極引導預注冊
預注冊(pre registration)是指在研究開展或數據搜集前,記錄包含有研究工作實施方案和技術路線的研究設計,并將該設計文檔提前登記并存儲在一個只讀的公共存儲庫中[37]。預注冊廣泛適用于各類研究,其優(yōu)點在于以研究設計為載體,將研究意圖、方法、思路和基本內容提前公開,使研究流程透明化,增強了研究結果的可預見性;幫助評審專家、資助機構審核評估,如果在研究尚未開展前,就能進行同行評審并預先確定出版狀態(tài),能夠有效緩解出版偏見問題,幫助研究人員將更多精力投入到提升研究方法的質量上;也便于其他研究人員利用研究設計開展成果驗證,從而使再現性研究變得更有吸引力。
從資源角度,預注冊研究設計以其蘊含的豐的學術與再利用價值,有利地拓展了高校圖館學術資源建設的版圖[38]。而現有很多平臺,括開放科學框架(Open Science Framework)的SF Registries,美國國立醫(yī)學圖書館的Clinical ials Registry,以及AsPredicted、RCT Registry都提供完善的預注冊服務。研究型圖書館可以接依托平臺功能,面向廣大研究人員,特別是新晉研究人員的科研生涯初期,宣傳引導其進預注冊操作。天普大學查爾斯圖書館就開設專研討會,重點講解在Open Science Framework進行預注冊的優(yōu)點、易用性以及使用方法和流程。富書包OT r等直在行題上
3.2.3 加強研究資源標識
研究成果中針對研究資源缺乏足夠的細節(jié)描述,是很多學科科研領域存在的普遍現象。研究型圖書館在編目、數據標引等業(yè)務方面擁有雄厚的經驗基礎,可以發(fā)揮傳統業(yè)務優(yōu)勢,以學科館員為主體嵌入研究項目,對科研成果中所涉及的重要研究資源通過元數據管理技術進行有效整合和揭示,將有助于實現研究資源公開透明、易于組織且能獨立識別,進而引導實現再現性操作。美國俄勒岡健康與科學大學圖書館就發(fā)起并建立了資源識別倡議(Resource Identification Initiative)的試點項目[39],通過使用獨特的研究資源標識符(RRIDs)建立標識度,為生物實驗所用的抗體試劑、微生物體、軟件工具和其他研究材料等重要資源制定了一個引用標準和平臺,不僅使研究人員能夠通過平臺搜索、引用特定研究資源,輕松跟蹤所有論文,并評估抗體在不同場景下的工作效果,也便于其他研究人員驗證和復制他們的工作,極大地提高了研究資源的可識別性和科學再現性。
3.2.4 推廣預印本服務
預印本是指在同行審議的學術期刊發(fā)表之前的一種論文版本,預印本服務就是將預印本托管于存儲庫上,并分配持久性標識符(例如DOIs)。該存儲庫能夠比傳統出版物更快地分享傳播研究成果。預印本資源本身不僅是提高研究成果透明度的工具,其服務也是提高再現性的重要手段。預印本服務相比傳統期刊出版流程,提供了更早分享成果的路徑,使研究人員得以提前進行審查并得到反饋,來進一步改善實驗或分析方法,不斷提高研究成果質量;在出版格式和篇幅上更具有靈活性,即使結論只是初步的、沒有后續(xù)實驗的成果同樣也能提前共享,有效減少了研究人員出版壓力,解決“文件抽屜”效應。此外,科研依賴于一個迭代過程,預印本服務通過提供永久性標識符,允許其他研究人員將其成果納入到系統綜述和MATE分析中,有助于減輕出版偏見潛在的負面影響[40]。
預印本服務一般都由專業(yè)平臺運作,分布廣泛。越來越多研究人員開始將預印本服務作為一種獲取學術靈感、征求同行反饋和網絡學術交流的方式。研究型圖書館應當順應當前趨勢,借鑒佛羅里達大西洋大學圖書館、愛荷華州立大學圖書館等成果,集合平臺資源,采取分門別類、細致的導航方式,如針對跨學科領域的OSF PrePrints、SciELO、MindRxiv、Research Square通用平臺,針對生命科學、社會科學、人文科學、工程技術學等特定領域的ArXiv系列、DOE Pages等專業(yè)平臺,幫助用戶精準定位平臺資源;通過政策資源解讀,引導用戶有效利用平臺服務。例如,佛羅里達州立大學馬奎爾醫(yī)學圖書館提供Transpose檢索系統,幫助科研用戶了解同出版商和期刊對于預印本使用的政策和意見。
3.3.1 開展專欄建設與專題教育
再現性研究更多地是以科研理念形式停留于科研人員認知體系。要將理念真正轉化為技術操作和實踐行為準則,需要大量專業(yè)的知識資源作為支撐。再現性危機正受到各學科、各領域的廣泛關注,由此所產生的各類知識資源也日漸豐富。研究型圖書館應在圖書館主頁開設專欄,向用戶提供清晰有序、動態(tài)更新的知識資源,包括再現性研究基本概念、原理、方法、流程、最佳案例等基礎知識,相關研究機構、研究資源、技術工具等資源導航,以及學術會議、新聞進展等的動態(tài)信息。通過ARWU高校排行榜對世界排名前20名的北美研究型大學圖書館統計(見表1),開設專欄正逐漸成為新的發(fā)展趨勢。
以專題教育系統化地輸出概念、方法、技能,穿插簡短的演示和實踐練習,是幫助研究用戶體驗完整再現性研究的有效形式。研究型圖書館應積極同技術部門共同研發(fā),或利用校園廣泛的合作渠道爭取教學資源,邀請學校不同專業(yè)的教師、開放科學實踐帶頭人,爭取校外專業(yè)組織機構的合作開展教學實踐。亞利桑那大學圖書館聯合本校數據科學支持中心,圍繞代碼海洋(code ocean)平臺開發(fā)了高性能計算資源的數據管理及其可再現性最佳實踐培訓課程。俄克拉荷馬州立大學圖書館、哈佛大學圖書館、加州大學洛杉磯分校圖書館、天普大學圖書館等通過與開放科學中心合作,以網絡研討會、培訓等形式向廣大科研用戶講解基于Open Science Framework再現性研究的工作流程。
再現性研究實踐性強,課程內容設計應突出操作性。從用戶心理角度,參與者更感興趣的是參加能滿足實際需求的內容,如果能夠嘗試不同的工具和最佳實踐,更容易應用知識和技能。所以,內容應側重于如何構思嚴謹的實驗設計,在數據、代碼、方法與協議、開放出版與同行評審等環(huán)節(jié)實現再現性所需的工具、可操作步驟以及最佳實踐演示等。在教學策略上,通過創(chuàng)建一個完整的可重復的科研項目練習,能夠在短時期內有效推動科研人員將可重復的、透明的實踐元素與科研流程實現無縫鏈接,提高當前和未來的再現性研究能力。而面向本科生、研究生或年輕科研群體,華盛頓大學圖書館[41]所提出的3種教學方式值得普遍借鑒:一種是要求學生提交能夠用于滿足最低重復驗證要求的實習報告,并規(guī)定報告中必須包含數據分析過程中所使用的文件,以及R或Python環(huán)境下用于生成結果如代碼文件等;另一種是直接重復實驗(direct replication),要求學生能夠直接復制或者再現一篇已發(fā)表的期刊文章中的部分或全部的結果;第三種是搭建再現性教學環(huán)境,目前許多教育工作者正在使用GitHub等開源平臺分享他們的課程材料,能夠直接嵌入和調整開源代碼、文本資源,能夠大范圍向學生傳授基于Jupyter Notebooks、R等環(huán)境的再現性數據技能操作。
3.3.2 建立再現性研究計算平臺
計算性研究支持平臺對于再現性研究扮演著至關重要的角色。特別是當前科學研究越來越依賴于數字工具和數字環(huán)境。絕大多數科研任務需要通過計算機軟件程序進行計算和分析,得到的結果可以復制并與他人共享。然而,由于軟件包安裝和執(zhí)行方式的復雜性,以及系統的參數、配置、版本等的不同,還有科研人員記錄分析步驟的限制,都可能會導致完全不同的運行結果,得到的計算結果往往無法重現,因此研究型圖書館如果從技術上給予支持,就必須構建可計算的再現性研究平臺,努力捕捉數字環(huán)境來保護他們的研究工作以實現再現性。
由于在操作系統的普適性,很多開源的代碼和數據存儲與協作工具(如Binder、Docker、GitHub),以及開源軟件包R等工具在科研領域已得到廣泛應用。研究型圖書館可以借助開源軟件受眾面廣的優(yōu)勢,展開技術合作,構建完整的數字生態(tài)環(huán)境。紐約大學圖書館館員Vicky Steeves與其團隊參與開發(fā)開源ReproZip項目[42],幫助科研人員克服再現性研究過程中所涉及的數據保存、應用程序、數據庫、軟件等技術阻礙,從數字人文學科到數據科學領域,都驗證了該項目能夠有效支持更嚴謹的再現性研究,并且強化了有關研究資料、應用程序、軟件包、數字環(huán)境的發(fā)現能力和保存能力。斯坦福大學圖書館則是鑒于R在可重復性研究的實用性,通過資源聚合R的專業(yè)知識、建立packages清單來共享R項目、提供入會指南,鼓勵用戶加入社區(qū),力圖在其校園范圍內建立一個強大的R用戶社區(qū),以更好地支持校園內涉及R平臺所使用的科研和教學活動,為大規(guī)模推廣和普及再現性研究創(chuàng)造基礎。此外,研究型圖書館絕大多數承擔著數字資源長期保存服務。通過對現有保存平臺進行功能性拓展。例如,耶魯大學圖書館在其數字資源保存系統中內嵌的“仿真服務”(Emulation as a Service(EaaS))軟件,卡內基梅隆大學圖書館主持建立的“橄欖檔案”(Olive archive)合作項目,不僅為應用軟件、數字工具和其他可執(zhí)行內容的長期保存提供強大操作系統支持,還可幫助用戶即時解決計算性的再現性研究問題。
3.4.1 夯實科學數據素養(yǎng)教育
“快餐式”的專題教育只能為再現性研究提供局部的技能補充,從根本上為研究主體建立系統的數據技能與知識體系,升華實證研究方法,則需要夯實科學數據素養(yǎng)教育??茖W數據素養(yǎng)是指在科研過程中收集、加工、管理、評價和利用數據所應具備的能力、道德與規(guī)范[43]。一般包括數據意識、數據技能、數據倫理3個方面內容??茖W數據素養(yǎng)與再現性研究是攜手并進的。正確應用數據科學原理和工具的能力直接決定研究者在研究過程中的數據處理效率,以及最終研究成果的可信度與有效度,甚至成果轉化,并始終注意可疑研究操作陷阱。自覺驅動高質量數據的搜集建檔操作,遵循數據管理、代碼組織、利用、共享的最佳實踐,使研究過程得以較早具備可再現屬性。
科學數據素養(yǎng)教育與面向科研周期的數據管理服務體系及其平臺建設相呼應,教育內容應體現普適性、學科性、針對性。開設通識模塊,如科研數據管理的基本概念、常用工具與使用、政策與倫理、數據管理實踐技能。設置專題模塊,例如加拿大維多利亞大學圖書館直接基于可再現性的數據素養(yǎng)教育,包括審視研究數據可重復性挑戰(zhàn)、可再生研究數據管理工具、審核工具等,還有賓夕法尼亞大學圖書館為代表的學科數據素養(yǎng)內容體系。無論哪種內容模塊,研究型圖書館都可采取線上線下教育、專題討論等多種形式,面向廣大研究人員普及數據科學時代的核心素養(yǎng)。
3.4.2 建立開放科學文化交流陣地
基于危機審視下,只有破除出版偏見,讓學術公平自由地發(fā)展,才能更接近科學研究的本質。越來越多的研究型圖書館通過與研究資助者合作資助OA期刊論文發(fā)表、設置開放獲取出版崗位等形式,逐步開啟了開放獲取的出版服務。著眼于危機,由研究型圖書館所主導開放獲取出版服務,應更多地采用包括TOP準則和其他報告標準在內的重復性準則,推動更多基于開放實踐的學術成果傳播,以開設專欄的形式引導重復驗證性研究的發(fā)表,成為促進研究嚴謹和可重復的文化陣地。同時,研究型圖書館可利用場所優(yōu)勢,建立對話平臺,鼓勵研究人員、社團和相關專家對話與合作。美國普林斯頓大學圖書館就在ReproducibiliTea組織倡議下,發(fā)起名為Princeton-Rutgers ReproducibiliTea的開放科學期刊俱樂部,旨在幫助校園的研究社團和人員討論關于改善科學、可重復性和開放科學運動的各種問題、論文和想法[44],以此推進開放科學理念全面深入和推動再現性研究成果的傳播,使開放自由的學術文化落地生根。
3.5.1 構建開放科研數據服務平臺
數據管理服務平臺是研究型圖書館參與構建開放數據環(huán)境、推動研究成果開放獲取、克服數據共享危機,以協助再現性研究的重要基礎設施。圖書館應爭取多方合作,按照可查找、可獲取、可互操作以及可重復使用的科學數據管理原則,推進基于開放科研數據,覆蓋數據生命周期的數據服務平臺建設。
除個別館外,大部分研究型圖書館專業(yè)技術人員和經費預算有限,從開源節(jié)流、避免重復建設考量,其一就是參與已有機構知識庫的改造。例如,凱斯西儲大學圖書館與數字學術中心以及相關院系共同合作,實現了學校機構知識庫和開放科學框架的融合,實現科學數據的存儲、發(fā)布、共享和推廣。普渡大學數據知識庫提供在線協同工作空間與數據共享平臺,研究人員可以在平臺上創(chuàng)建數據管理計劃,檢索、上傳、發(fā)布個人科研數據并就研究計劃方案等展開咨詢,實現基于完整數據生命周期的嵌入式數據服務功能。其二就是大力推廣第三方數據服務平臺。例如OSF(Open Science Framework)是由開放科學中心創(chuàng)建的一個開放的項目管理平臺,由于開放科學中心與美國研究型圖書館協會是合作伙伴關系,考慮OSF目前影響力和強大的功能性,很多成員館都已申請成為OSF的機構合作館,直接提供給本校廣大師生免費使用,幫助其更便捷地分享自己的代碼、數據、統計方法等,實現整個研究生命周期的數據管理,提高科研數據的開放性、完整性和可重復性。而結合本校專業(yè)建設,滿足跨學科多源異構科研數據的現實需要,部分圖書館還選擇基于OSF框架建立的第三方數據服務平臺,如馬里蘭大學圖書館的社會科學研究存儲平臺SocArXiv、加州大學圖書館資助的protocols.io平臺等。
3.5.2 建立數據協作共享機制
數據服務平臺只是提供了數據存儲和交換載體,而要真正發(fā)揮數據共享的價值則需要協調運作機制。研究型大學普遍具備支持數據密集型和計算研究的專業(yè)人才和資源,但這些資源通常分布于科研院系、研究中心、網絡中心等部門之間,需要研究型圖書館發(fā)揮中介作用加以聚合,才能取得“1+1>2”的協同效應。比如,卡內基梅隆大學圖書館數據協作實驗室(dataCoLAB)[45]、西北大學圖書館的數據實驗室等都采取類似機制,將實驗室作為數據技術供給方與需求方的連接點,在校園范圍網羅一支具有數據和計算機科學技能的研究顧問和專家團隊,為希望得到數據幫助的研究人員進行針對性匹配,使不同技術和學科背景的人得到合作的機會,以此來遵循提高科研再現性的最佳實踐。
可重復性危機是目前科研界一個亟待解決的重大問題,對于科學的進步以及科學的公信力造成極大的沖擊。作為科學共同體中的一員,為捍衛(wèi)科學研究的嚴謹性和真實性,研究型圖書館應該審時度勢,厘清危機本質成因,充分發(fā)揮專業(yè)優(yōu)勢和職能,對現有科研服務內容進行繼承、創(chuàng)新和發(fā)展,為再現性研究提供必要的服務支持。從實踐上研究型圖書館正處于初級發(fā)展和探索階段,館際之間的差異性也使得服務沒有統一的黃金標準可以遵循。但加強服務框架的探討,將有助于在危機中始終保持清晰的建設思路。從服務規(guī)劃、保障機制、人才建設等維度繼續(xù)展開深入研究,也必將進一步推動服務進程,幫助研究型圖書館走向更廣闊服務格局。