臧碩博 谷軼亞
(鄭州大學(xué)基礎(chǔ)醫(yī)學(xué)院,河南 鄭州 450002)
醫(yī)學(xué)學(xué)科的研究型數(shù)據(jù)類數(shù)字資源消失速度研究
臧碩博 谷軼亞
(鄭州大學(xué)基礎(chǔ)醫(yī)學(xué)院,河南 鄭州 450002)
醫(yī)學(xué)學(xué)科的研究型數(shù)據(jù)是一類重要數(shù)字資源。本文隨機(jī)檢索發(fā)表年限在1911年至2011年之間的1 032篇醫(yī)學(xué)學(xué)科的學(xué)術(shù)論文,對(duì)其研究型數(shù)據(jù)的可獲得性進(jìn)行調(diào)查,采用SPSS軟件進(jìn)行邏輯回歸擬合,結(jié)果顯示,該學(xué)科研究型數(shù)據(jù)的消失速度為每年17%。
數(shù)字保存;研究型數(shù)據(jù);消失速度;醫(yī)學(xué)學(xué)科
醫(yī)學(xué)學(xué)科的研究型數(shù)據(jù)是一類重要數(shù)字資源,主要包括實(shí)驗(yàn)數(shù)據(jù)、臨床觀測(cè)數(shù)據(jù)、病理分析數(shù)據(jù)和實(shí)證研究數(shù)據(jù)等。在該學(xué)科的科學(xué)研究中,學(xué)術(shù)論文的論據(jù)主要來(lái)自于醫(yī)學(xué)學(xué)科研究型數(shù)據(jù),結(jié)論也主要來(lái)自于對(duì)該類數(shù)字資源的分析、推理與總結(jié),因此,研究型數(shù)據(jù)對(duì)于醫(yī)學(xué)學(xué)科的再現(xiàn)性科學(xué)實(shí)驗(yàn)、學(xué)術(shù)成果的質(zhì)量評(píng)價(jià)、后繼研究和相關(guān)研究的參考等方面具有重要的甚至不可替代的作用。
無(wú)論是政府,還是研究項(xiàng)目的資助機(jī)構(gòu)和研究成果的出版機(jī)構(gòu)[1],都越來(lái)越重視制定和實(shí)施一些方針政策,以確保研究型數(shù)據(jù)存儲(chǔ)在公共保存系統(tǒng)中,從而使其能夠被長(zhǎng)期訪問(wèn)獲取。這種做法是基于這樣一個(gè)觀點(diǎn),即研究型數(shù)據(jù)的生產(chǎn)者在保存其研究型數(shù)據(jù)方面比較糟糕,尤其是長(zhǎng)期保存。實(shí)際上,不少研究也表明,研究人員常常不能或不樂(lè)意共享他們的研究型數(shù)據(jù)[2]。但是,到目前為止,有關(guān)研究型數(shù)據(jù)的可獲得性隨著學(xué)術(shù)論文發(fā)表時(shí)間的延長(zhǎng)而變化的定量研究還沒(méi)見(jiàn)報(bào)道。本文隨機(jī)檢索了1911年至2011年發(fā)表的1 032篇醫(yī)學(xué)學(xué)科的學(xué)術(shù)論文,對(duì)這些論文的研究型數(shù)據(jù)存在狀態(tài)進(jìn)行調(diào)查分析,結(jié)果顯示,論文發(fā)表的年限對(duì)研究型數(shù)據(jù)的可獲得性有重大影響。通過(guò)e-mail調(diào)查,在作者給出研究型數(shù)據(jù)存在狀態(tài)的論文中,研究型數(shù)據(jù)的可獲得比率以每年17%降低。本項(xiàng)研究結(jié)果證實(shí)了研究人員不能對(duì)自己生產(chǎn)的研究型數(shù)據(jù)實(shí)施有效的長(zhǎng)期保存。因此,制定和實(shí)施相關(guān)方針政策引導(dǎo)乃至強(qiáng)制研究人員將自己生產(chǎn)的研究型數(shù)據(jù)共享保存在公共保存系統(tǒng)中是業(yè)界的一項(xiàng)緊迫任務(wù)。
1.1 研究型數(shù)據(jù)的類型限定。對(duì)研究型數(shù)據(jù)共享的期望在不同學(xué)術(shù)團(tuán)體之間有所差別,不同類型的研究型數(shù)據(jù)的保存困難度也可能不一樣,研究人員產(chǎn)生的研究型數(shù)據(jù)的類型也會(huì)隨著時(shí)間的推移而變化。為了控制這些因素帶來(lái)的影響,本實(shí)驗(yàn)聚焦在醫(yī)學(xué)學(xué)科中采用判別函數(shù)分析法(DFA,discriminant function analysis)對(duì)細(xì)菌形態(tài)(bacteria dimensions)進(jìn)行研究的研究型數(shù)據(jù)。因此,在收集論文時(shí)設(shè)置了兩個(gè)條件:分析方法(判別函數(shù)分析法)和研究型數(shù)據(jù)類型(細(xì)菌形態(tài))。
1.2 論文的檢索。我們利用Web of Science檢索相關(guān)論文,檢索式為:bacteria*and discriminant,年限限定為:1980至2011。檢索結(jié)果中1991年之前只有51篇,由于太少不具代表性而被排除。為了減少實(shí)驗(yàn)工作量,我們選擇了1991年至2011年的奇數(shù)年,共計(jì)有2018篇論文。如果論文的全文通過(guò)網(wǎng)絡(luò)等方式無(wú)法獲取,我們將其排除;如果分析方法不包括DFA,也排除;如果采用DFA但分析的對(duì)象不是細(xì)菌形態(tài)數(shù)據(jù),也排除;如果研究型數(shù)據(jù)已經(jīng)包含在論文的附件中、附錄中,或通過(guò)因特網(wǎng)能夠找到,那么這些論文的研究型數(shù)據(jù)保存不再是研究人員的職責(zé),這些論文也被排除。通過(guò)上述排除,剩下1032篇論文,每個(gè)選定的年份至少52篇,大部分超過(guò)80篇(見(jiàn)表1)。
1.3 通過(guò)e-mail進(jìn)行調(diào)查。針對(duì)每篇論文,我們?cè)噲D從論文文本中提取每位作者的e-mail地址。但是很快發(fā)現(xiàn)發(fā)表年限較長(zhǎng)的論文作者e-mail的有效性很低,甚至根本就沒(méi)有e-mail。在這種情況下,我們通過(guò)因特網(wǎng)查找每個(gè)作者的近期或當(dāng)前的e-mail。我們通過(guò)e-mail對(duì)每篇論文作者進(jìn)行調(diào)查,并在3周之后對(duì)沒(méi)有回復(fù)的e-mail發(fā)送提醒郵件,整個(gè)調(diào)查過(guò)程持續(xù)45天。對(duì)調(diào)查結(jié)果進(jìn)行整理后,1 032篇論文的調(diào)查樣本被分為6類:①有關(guān)該論文的所有郵件發(fā)送都返回一個(gè)錯(cuò)誤信息;②至少有一個(gè)郵件沒(méi)有返回錯(cuò)誤信息,但均沒(méi)有收到回復(fù);③至少收到一個(gè)回復(fù),但均沒(méi)有給出研究型數(shù)據(jù)的狀態(tài);④研究型數(shù)據(jù)已經(jīng)丟失或存儲(chǔ)在過(guò)時(shí)的硬件中;⑤研究型數(shù)據(jù)仍存在但不愿提供共享;⑥接收到來(lái)自論文作者提供的研究型數(shù)據(jù)。因?yàn)棰茛薅急砻餮芯啃蛿?shù)據(jù)還存在,我們將這兩類歸納成一類,即“研究型數(shù)據(jù)仍可獲得”。調(diào)查結(jié)果見(jiàn)表1。
表1 按照論文發(fā)表年份獲得的調(diào)查數(shù)據(jù)(N=1032)
【注1】沒(méi)有有效e-mail的論文數(shù)量,指沒(méi)有找到e-mail,或雖找到有e-mail但均不能成功發(fā)送?!咀?】無(wú)回復(fù)的論文數(shù)量,指在所有成功發(fā)送的e-mail中,均沒(méi)有收到回復(fù)的論文?!咀?】回復(fù)但沒(méi)有給出研究型數(shù)據(jù)狀態(tài)的論文數(shù)量?!咀?】在給出研究型數(shù)據(jù)狀態(tài)的回復(fù)中,指明研究型數(shù)據(jù)丟失的論文數(shù)量?!咀?】在給出研究型數(shù)據(jù)狀態(tài)的回復(fù)中,指明研究型數(shù)據(jù)存在但不樂(lè)意提供共享的論文數(shù)量。【注6】作者提供研究型數(shù)據(jù)的論文數(shù)量。【注7】研究型數(shù)據(jù)處于可獲得狀態(tài)的論文數(shù)量(包括【注5】和【注6】?jī)煞N情況)。
圖1 論文發(fā)表年限對(duì)從作者中獲得研究型數(shù)據(jù)的四個(gè)影響因素
本實(shí)驗(yàn)的目的在于探討醫(yī)學(xué)學(xué)科研究型數(shù)據(jù)的可獲得比率與論文發(fā)表年限之間的定量關(guān)系,為實(shí)現(xiàn)該目的,我們依次遞進(jìn)地進(jìn)行四個(gè)步驟,使用SPSS軟件擬合邏輯回歸系數(shù)來(lái)探討論文發(fā)表的年限與下述因素之間的關(guān)系:①至少找到一個(gè)有效e-mail的比率;②在至少找到一個(gè)有效的e-mail中得到回復(fù)的條件比率;③在得到的回復(fù)中指明研究型數(shù)據(jù)狀態(tài)的條件比率;④在指明研究型數(shù)據(jù)狀態(tài)的回復(fù)中,研究型數(shù)據(jù)處于可獲得狀態(tài)的條件比率。實(shí)驗(yàn)結(jié)果見(jiàn)圖1。
2.1 至少找到一個(gè)有效e-mail的情況。實(shí)驗(yàn)結(jié)果表明,論文發(fā)表的年限與至少能夠找到一個(gè)有效e-mail的比率成反變關(guān)系(見(jiàn)圖1A)。使用SPSS擬合邏輯回歸曲線系數(shù),計(jì)算結(jié)果為:OR=0.93,[0.90-0.96,95%CI]。該結(jié)果表明,論文發(fā)表年限每增加一年,至少能夠找到一個(gè)有效e-mail的比率下降7%。該擬合過(guò)程中用到的“至少能夠找到一個(gè)有效e-mail的比率”的計(jì)算公式為:(A8-A1)÷A8,其中,A1、A8分別為表1中的列名數(shù)據(jù)(關(guān)于A1至A8的含義,下同)。
2.2 獲得郵件回復(fù)的情況。實(shí)驗(yàn)結(jié)果表明,論文發(fā)表的年限與至少找到一個(gè)有效的e-mail中得到回復(fù)的條件比率之間不存在關(guān)系(見(jiàn)圖1B)。使用SPSS擬合邏輯回歸曲線系數(shù),計(jì)算結(jié)果為:OR=1.00,[0.97-1.04,95%CI]。表明無(wú)論論文何時(shí)發(fā)表,在至少找到一個(gè)有效e-mail中得到的回復(fù)期望值相同。另外,采用線性回歸擬合,所得的線性方程的斜率為0,截距為0.5,這也表明兩個(gè)變量之間不存在關(guān)系,并且無(wú)論年限如何變化,條件比率的期望值都是50%。上述兩個(gè)擬合過(guò)程中用到的“至少找到一個(gè)有效的e-mail中得到回復(fù)的條件比率”的數(shù)據(jù)計(jì)算公式為:
(A8-A1-A2)÷(A8-A1)。
2.3 指明研究型數(shù)據(jù)狀態(tài)的情況。實(shí)驗(yàn)結(jié)果表明,論文發(fā)表的年限與在得到的回復(fù)中指明研究型數(shù)據(jù)狀態(tài)的條件比率之間也不存在關(guān)系(見(jiàn)圖1C)。使用SPSS擬合邏輯回歸曲線系數(shù),計(jì)算結(jié)果為:OR=1.00,[0.95-1.07,95%CI]。表明無(wú)論論文何時(shí)發(fā)表,在得到的回復(fù)中指明研究型數(shù)據(jù)狀態(tài)的條件比例期望值相同。另外,采用線性回歸擬合,所得的線性方程的斜率為0,截距為0.83,這也表明兩個(gè)變量之間不存在關(guān)系,并且無(wú)論年限如何變化,條件比率的期望值都是83%。上述兩個(gè)擬合過(guò)程中用到的“在得到的回復(fù)中指明研究型數(shù)據(jù)狀態(tài)的條件比率”數(shù)據(jù)計(jì)算公式為:
(A8-A1-A2-A3)÷(A8-A1-A2)。
2.4 研究型數(shù)據(jù)處于可獲得狀態(tài)的情況。這里的可獲得狀態(tài)包括可以提供共享和存在但不可以共享兩種情況。實(shí)驗(yàn)結(jié)果表明,論文發(fā)表的年限與在指明研究型數(shù)據(jù)狀態(tài)的回復(fù)中研究型數(shù)據(jù)處于可獲得狀態(tài)的條件比率之間存在很強(qiáng)的反變關(guān)系(見(jiàn)圖1D)。使用SPSS擬合邏輯回歸曲線系數(shù),計(jì)算結(jié)果為:OR=0.83,[0.79-0.90,95%CI]。表明論文發(fā)表后每增加一年,在指明研究型數(shù)據(jù)狀態(tài)的回復(fù)中研究型數(shù)據(jù)處于可獲得狀態(tài)的條件比率下降17%。
上述擬合過(guò)程中用到的“在指明研究型數(shù)據(jù)狀態(tài)的回復(fù)中研究型數(shù)據(jù)處于可獲得狀態(tài)的條件比率”的數(shù)據(jù)計(jì)算公式為:A7÷(A8-A1-A2-A3)。
科學(xué)研究活動(dòng)產(chǎn)生的研究型數(shù)據(jù)大多具有鮮明的時(shí)間和地點(diǎn)特征,一旦丟失,它們將很難通過(guò)再現(xiàn)性實(shí)驗(yàn)等方式重新獲得。本項(xiàng)研究表明,由科研人員對(duì)其生產(chǎn)的醫(yī)學(xué)學(xué)科研究型數(shù)據(jù)進(jìn)行長(zhǎng)期保存的做法很不靠譜,很難保證這類數(shù)字資源被未來(lái)有效使用。解決方案是要求研究人員將其生產(chǎn)的研究型數(shù)據(jù)共享在公共保存系統(tǒng)中,從而使這類數(shù)字資源的可獲得性與研究人員無(wú)關(guān)。一些保存機(jī)構(gòu)已經(jīng)制定實(shí)施了相關(guān)政策[3]。我們期望,該項(xiàng)研究得出的研究型數(shù)據(jù)不可獲得性的令人擔(dān)憂程度能夠引起業(yè)界的高度重視。
[1]Holdren,J.P.Increasing Access to the Results of Federal?ly Funded Scientific Research.[2013-07-02].http://www.white?house.gov/sites/default/files/microsites/ostp/ostp_public_access_me mo_2013.pdf.
[2]Vines,T.H.,Andrew,R.L.,Bock,D.G.,et al.Mandat?ed data archiving greatly improves access to research data.The FASEB Journal.2013(27):1304-1308.
[3]Groves,T.BMJ policy on data sharing.British Medical Journal,2010(14):564.
谷軼亞(1993.8-),女,在讀本科生。
G250
A
1671-0037(2014)08-48-2
臧碩博(1994.3-),男,在讀本科生。