姜鑫妍 王翠萍 宋雯琪
關(guān)鍵詞:科學(xué)數(shù)據(jù);數(shù)據(jù)重用;數(shù)據(jù)重用行為;教育學(xué);內(nèi)容分析法
科學(xué)數(shù)據(jù)是科學(xué)研究的基礎(chǔ),在開放科學(xué)的背景下,國內(nèi)外陸續(xù)發(fā)布了眾多促進科學(xué)數(shù)據(jù)開放利用的相關(guān)政策和規(guī)范指南。近年來,我國科學(xué)數(shù)據(jù)規(guī)模增長迅速,但存在數(shù)據(jù)利用率不高的問題。隨著數(shù)據(jù)密集型研究范式的到來,數(shù)據(jù)重用研究熱度逐漸升高。數(shù)據(jù)重用(Date Reuse),也稱為數(shù)據(jù)復(fù)用、數(shù)據(jù)再利用,是對科學(xué)數(shù)據(jù)的重復(fù)利用及二次分析。本文所指的數(shù)據(jù)重用定義采取一種較為寬泛的概念,即數(shù)據(jù)重用是數(shù)據(jù)的重新使用或重復(fù)利用,無論之前是否使用過該數(shù)據(jù).只要研究中所使用的數(shù)據(jù)或數(shù)據(jù)集不是科研人員自行收集的原始數(shù)據(jù),其數(shù)據(jù)使用或數(shù)據(jù)分析過程就應(yīng)視為數(shù)據(jù)重用行為??茖W(xué)數(shù)據(jù)重用行為的主要表現(xiàn)為數(shù)據(jù)重用目的、原始數(shù)據(jù)特征、數(shù)據(jù)處理分析、數(shù)據(jù)重用規(guī)范等方面。在科技文獻中可表現(xiàn)為數(shù)據(jù)使用、數(shù)據(jù)引用、數(shù)據(jù)來源提及等。
國外較早開始研究數(shù)據(jù)重用相關(guān)問題,研究主題較為廣泛和分散,大致可總結(jié)為數(shù)據(jù)重用概念及重要性的研究,元數(shù)據(jù)與數(shù)據(jù)重用的研究,數(shù)據(jù)重用行為及態(tài)度的研究以及其他相關(guān)研究。國內(nèi)對于數(shù)據(jù)重用的研究主要集中對數(shù)據(jù)重用行為特征分析、數(shù)據(jù)重用的影響因素研究、構(gòu)建數(shù)據(jù)重用模型的相關(guān)研究以及探討數(shù)據(jù)權(quán)益問題。目前對于學(xué)界內(nèi)針對數(shù)據(jù)重用的研究更多地關(guān)注較為具體的問題,有部分研究從不同學(xué)科論文中的數(shù)據(jù)引用實踐人手,分析了生物學(xué)、化學(xué)、生命科學(xué)、地球物理學(xué)、人口學(xué)等學(xué)科領(lǐng)域的數(shù)據(jù)引用特征。在現(xiàn)有研究中,大多數(shù)學(xué)者主要聚焦于各類型數(shù)據(jù)較多的自然科學(xué)等學(xué)科領(lǐng)域的數(shù)據(jù)重用現(xiàn)象的研究,而對人文社科領(lǐng)域內(nèi)學(xué)者們對數(shù)據(jù)重用現(xiàn)象研究較少。教育學(xué)作為社會科學(xué)領(lǐng)域中的一個重要范疇,在其研究領(lǐng)域內(nèi)學(xué)者們廣泛應(yīng)用觀察法、調(diào)查法等實證方法產(chǎn)生了大量的科學(xué)數(shù)據(jù),同時普及了數(shù)據(jù)重用的意識和實踐。經(jīng)基金資助的論文成果要求進行科學(xué)數(shù)據(jù)匯交,科學(xué)數(shù)據(jù)管理相對更規(guī)范,并且基金論文具有階段性特點能很好地反映科研人員數(shù)據(jù)重用行為的階段性特征,與本文研究目的更為契合。因此,本文選取教育學(xué)領(lǐng)域基金論文,運用內(nèi)容分析法試圖揭示教育學(xué)領(lǐng)域的數(shù)據(jù)重用行為特征,以及數(shù)據(jù)重用各階段特點,以期在一定程度上為圖書館、數(shù)據(jù)出版商、數(shù)據(jù)中心等機構(gòu)開展數(shù)據(jù)服務(wù)提供參考。
1樣本選擇與數(shù)據(jù)處理
1.1樣本選擇
全國教育科學(xué)規(guī)劃立項課題是教育學(xué)領(lǐng)域?qū)iT的國家級基金項目,能夠反映我國教育科學(xué)研究的普遍態(tài)勢,具有較強的代表性。由于科研基金立項項目具有長周期和持續(xù)性等特點,為充分了解學(xué)者們在其基金項目全周期內(nèi)各階段論文中的數(shù)據(jù)重用特征,本研究選擇立項時間距今5年左右的基金項目產(chǎn)出的科研論文作為數(shù)據(jù)分析樣本,最終確定了2017年和2018年全國教育科學(xué)規(guī)劃項目數(shù)據(jù)為總體數(shù)據(jù)。
1.2數(shù)據(jù)獲取
本文從基金項目出發(fā),統(tǒng)計了2017年及2018年立項課題數(shù)量,分別是488項和551項。由于全國教育科學(xué)規(guī)劃項目各年基金立項總數(shù)相差不大,但各類別課題立項數(shù)量不一致,其中國家一般課題所占比重最大,國家重大及重點課題所占比例最低。不同類別基金項目論文數(shù)量差異明顯,同一類別課題已發(fā)文數(shù)量相對一致。一般而言,一項國家一般項目發(fā)表論文數(shù)量多集中在3~8篇,國家重大及重點基金論文數(shù)量多為10篇左右。以往研究運用內(nèi)容分析法分析論文數(shù)量并不一致,多則1000余篇,少則一兩百篇,但總體數(shù)量分布在400~1500之間,因此通過抽樣方法即可獲得滿意的數(shù)據(jù)量。為保證樣本數(shù)據(jù)的代表性,抽樣選擇基金項目數(shù)量應(yīng)不少于80。考慮到各類基金項目數(shù)量分布的不均衡性,本文采取分層隨機抽樣方法,分年份分基金類別隨機抽取各類基金項目數(shù)量的10%,總計抽取100項,其中2017年與2018立項各類基金項目分別為49項和5 1項。在項目編號的規(guī)定方面,利用在線隨機數(shù)生成器得到隨機數(shù),并依據(jù)此隨機數(shù)對所抽樣項目進行了標注。具體標注規(guī)則為:如被抽取課題已發(fā)表論文數(shù)量為0篇,則被抽取基金項目編號依次順延,但是應(yīng)保證順延后序號與隨機數(shù)不重合,2017-2018年實際數(shù)據(jù)抽樣結(jié)果如表1和表2所示。
根據(jù)上述抽樣規(guī)則,本研究共抽樣選擇了100項課題,在中國知網(wǎng)檢索上述被抽取的基金課題已發(fā)表的相關(guān)論文成果,共獲取到研究論文544篇,平均每項課題發(fā)表篇數(shù)為5.4篇,數(shù)據(jù)量滿足分析條件。
1.3數(shù)據(jù)處理
1.3.1數(shù)據(jù)分析方法
本文采用內(nèi)容分析法從數(shù)據(jù)是否重用、數(shù)據(jù)分析與處理方式、數(shù)據(jù)重用規(guī)范等方面對我國基金項目論文中的科學(xué)數(shù)據(jù)重用行為進行分析,通過人工識別的方法對所抽取的課題論文中所提及的非科研人員自行收集的原始數(shù)據(jù)或數(shù)據(jù)集進行了提取。在參考已有研究成果并結(jié)合教育學(xué)學(xué)科數(shù)據(jù)特征后,經(jīng)過反復(fù)修改,最終形成數(shù)據(jù)重用行為內(nèi)容分析編碼表,如表3所示。
1.3.2數(shù)據(jù)編碼說明
1)基本要素編碼
基金類別。全國教育科學(xué)規(guī)劃課題是國家社科基金教育學(xué)單列學(xué)科課題,課題類別包括國家重大、教育部專項等8類。內(nèi)容編碼考慮基金類別主要是因為不同類別的課題發(fā)表的論文數(shù)量和研究方法存在差異,因此樣本抽樣區(qū)分基金類別可以使論文類型和數(shù)量分布更為均衡。
論文類型。本研究將已發(fā)表的基金論文分為實證論文和非實證論文兩類。實證論文指的是通過觀察、調(diào)查、實驗等實證方法收集數(shù)據(jù)而寫成的論文。
2)數(shù)據(jù)重用
是否數(shù)據(jù)重用。如果“是”則標為“1”,“否”記為“0”。
數(shù)據(jù)重用目的。本文所指的數(shù)據(jù)重用目的主要包括新的研究、佐證觀點、研究結(jié)果比較以及用做背景資料(研究背景)4大類。
3)原始數(shù)據(jù)特征
原始數(shù)據(jù)類型??茖W(xué)數(shù)據(jù)類型可按照研究方法分為調(diào)查數(shù)據(jù)和非調(diào)查數(shù)據(jù)。本文提到的調(diào)查數(shù)據(jù)包括統(tǒng)計數(shù)據(jù)在內(nèi),非調(diào)查數(shù)據(jù)是指調(diào)查數(shù)據(jù)以外的數(shù)據(jù),包括觀察數(shù)據(jù)、實驗數(shù)據(jù)等多種類型。
數(shù)據(jù)重用來源渠道。數(shù)據(jù)來源渠道可分為正式和非正式兩種方式。正式的數(shù)據(jù)來源渠道包括圖書、期刊論文、年鑒等正式出版物及政府網(wǎng)站等其他官方統(tǒng)計網(wǎng)站或公開的調(diào)查報告等。非正式來源渠道有郵件、私人聯(lián)系等。一般可以通過文中提及、參考文獻、注釋等方式得知數(shù)據(jù)來源信息。根據(jù)初步分析,本文將數(shù)據(jù)重用來源渠道大致分為期刊論文、政府網(wǎng)站及其他三大類。
4)數(shù)據(jù)處理與分析方式
本研究將數(shù)據(jù)處理與分析分為數(shù)據(jù)使用、數(shù)據(jù)統(tǒng)計分析、整理成圖表和其他四大類(其他處理方式如文中明確提到借鑒、改編量表等)。
5)數(shù)據(jù)重用規(guī)范
數(shù)據(jù)重用格式。本文科學(xué)數(shù)據(jù)重用規(guī)范分析的主要內(nèi)容包括數(shù)據(jù)重用格式、數(shù)據(jù)元素、數(shù)據(jù)重用位置3個方面,其中科學(xué)數(shù)據(jù)重用格式主要有參考文獻、注釋、文中提及以及其他4種形式,除此之外還包括序號、標點符號的使用等較為細節(jié)的部分。
數(shù)據(jù)描述元素??煞譃楸貍湓嘏c可選元素。必備元素有創(chuàng)建者、標題、URL等,可選元素如DOI、數(shù)據(jù)分級等。
數(shù)據(jù)重用位置。本文將數(shù)據(jù)重用位置分為引言、正文、結(jié)語3種,雖然這種區(qū)分較為簡單,但可以與數(shù)據(jù)重用目的相對應(yīng)。
2教育學(xué)領(lǐng)域基金論文中的數(shù)據(jù)重用行為統(tǒng)計分析
2.1數(shù)據(jù)重用目的
一般而言,數(shù)據(jù)重用目的有4種:新的研究、研究佐證、研究結(jié)果比較以及用做背景資料,如圖1所示。圖1由圖(a)、圖(b)以及圖(C)組成,圖(a)為2017年數(shù)據(jù),圖(b)為201 8年數(shù)據(jù),整體數(shù)據(jù)見圖(c)。
通過對524篇基金論文的內(nèi)容分析發(fā)現(xiàn),教育學(xué)領(lǐng)域?qū)W者重用數(shù)據(jù)目的是新的研究比例最高的種類(43.40%),其次是研究背景(28.93%)和研究佐證(23.60%),較低比例的數(shù)據(jù)重用目的是研究結(jié)果比較(4.06%)。與2017年相比,2018年數(shù)據(jù)重用目的為新的研究及研究佐證的比例上升,在一定程度上可以反映出教育學(xué)領(lǐng)域?qū)W者越來越注重科學(xué)數(shù)據(jù)價值的挖掘。
2.2數(shù)據(jù)重用比例
本文通過標注與統(tǒng)計分析基金論文中的數(shù)據(jù)重用現(xiàn)象,來獲取教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用行為的總體情況。2017年立項的49項各類基金項目共產(chǎn)出基金項目論文300篇,其中實證論文篇數(shù)為88篇,占已發(fā)表論文總數(shù)的29.33%;有數(shù)據(jù)引用行為的論文有149篇,占比49.67%。2018年立項的51項各類基金項目共產(chǎn)出基金項目論文244篇,其中實證論文篇數(shù)為66篇,占已發(fā)表論文總數(shù)的27.05%,有數(shù)據(jù)重用行為的論文有109篇,占比44.67%??傮w而言,這兩年統(tǒng)計結(jié)果相差不大,數(shù)據(jù)重用比例接近50%,這是一個相對比較高的比例。實證論文比例接近30%,如表4所示。由此可見,這兩年的數(shù)據(jù)重用比例都明顯高于實證論文比例,即教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用比例高于自行收集數(shù)據(jù)比例。
調(diào)查法在教育學(xué)領(lǐng)域適用范圍廣泛、應(yīng)用成熟,形成了一定的研究范式,實證論文中調(diào)查類論文占比最高。不過這并不意味著教育學(xué)領(lǐng)域?qū)W者更愿意重用數(shù)據(jù)而不是自行收集數(shù)據(jù),仍有許多學(xué)者傾向于通過自行收集數(shù)據(jù)的方式以實現(xiàn)自己的研究目的。在學(xué)者自行收集數(shù)據(jù)開展實證研究并同時重用他人數(shù)據(jù)的情況下,數(shù)據(jù)重用的目的一般為用作研究背景或研究佐證,基本不是用作新的研究。當然,學(xué)者也可以使用已有數(shù)據(jù),采取思辨方法驗證研究論點,或是將原始數(shù)據(jù)用作實證研究論文中的主要數(shù)據(jù)和研究基礎(chǔ)。因此,教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用行為與學(xué)者自行收集數(shù)據(jù)并不矛盾,也沒有必然聯(lián)系。
統(tǒng)計發(fā)現(xiàn).2018年與2017年相比數(shù)據(jù)重用頻次明顯下降,一篇論文數(shù)據(jù)重用次數(shù)大于1次的比例下降。2017年數(shù)據(jù)重用頻次為244次,平均每篇論文數(shù)據(jù)重用次數(shù)為1.64次。2018年數(shù)據(jù)重用頻次為151次,平均每篇論文數(shù)據(jù)重用次數(shù)為1.04次。2017年共有5項基金課題項目未見有數(shù)據(jù)重用現(xiàn)象,占當年抽取比例的10.20%,2018年有11項基金課題項目未見有數(shù)據(jù)重用現(xiàn)象,占當年抽取比例的21.57%??梢酝茰y,數(shù)據(jù)重用行為在一定程度上受數(shù)據(jù)時間周期以及每項課題發(fā)表論文數(shù)量的因素影響。
2.3數(shù)據(jù)重用程度
由表5可知.2017年未采取任何數(shù)據(jù)分析手段的數(shù)據(jù)使用比例為54.73%,2018年數(shù)據(jù)使用比例為63.58%。
利用原始數(shù)據(jù)開展新的研究大多需要將原始數(shù)據(jù)進行再分析,但研究結(jié)果顯示,教育學(xué)領(lǐng)域?qū)W者在研究中將原始數(shù)據(jù)用做新的研究比例不足50%.而數(shù)據(jù)分析與處理類目為數(shù)據(jù)使用的比例超過一半,這表明數(shù)據(jù)重用目的與數(shù)據(jù)分析處理方式高度相關(guān),教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用目的是研究背景和研究佐證的比例較高,意味著對已有數(shù)據(jù)的分析不夠,對科學(xué)數(shù)據(jù)價值的挖掘不夠深入,數(shù)據(jù)二次分析較少,數(shù)據(jù)利用程度較低。
2.4數(shù)據(jù)重用類型
教育學(xué)領(lǐng)域基金論文主要是引用政府網(wǎng)站及期刊論文中的數(shù)據(jù),調(diào)查類數(shù)據(jù)一般來源于官方統(tǒng)計網(wǎng)站以及調(diào)查類研究論文,另外有少量數(shù)據(jù)來自互聯(lián)網(wǎng)等途徑。如表6所示,2017年數(shù)據(jù)重用類型中,調(diào)查數(shù)據(jù)占比58.02%,非調(diào)查數(shù)據(jù)占比41.98%:2018年數(shù)據(jù)重用類型中調(diào)查數(shù)據(jù)占比51.66%,非調(diào)查數(shù)據(jù)占比48.34%。原始數(shù)據(jù)類型以調(diào)查數(shù)據(jù)居多,一般是為了引出或驗證研究問題,即用做研究背景和佐證觀點。
其中,政府網(wǎng)站及科研院所的數(shù)據(jù)具有一定的連續(xù)性且數(shù)據(jù)質(zhì)量較高,如教育部、國家統(tǒng)計局的調(diào)查數(shù)據(jù)涵蓋范圍廣,數(shù)據(jù)較為權(quán)威,可以很好地引出研究背景,是科學(xué)研究的重要數(shù)據(jù)來源。其次是期刊論文和碩博論文,獲取較為便捷,并且已發(fā)表的通過調(diào)查等實證方法收集的數(shù)據(jù)能夠佐證本文觀點,也可通過借鑒量表等調(diào)查工具開展新的研究。
教育學(xué)領(lǐng)域在調(diào)查研究中涉及到研究工具的重用,其中量表是比較有特色的數(shù)據(jù)重用類型。教育學(xué)領(lǐng)域量表重用現(xiàn)象較為普遍,可以是借鑒、改編、編譯國內(nèi)外已有研究的成熟量表。通常情況下,對外文量表的數(shù)據(jù)重用需要翻譯審定,并且為契合研究目的應(yīng)對量表進行本土化及刪減,例如“量表經(jīng)專家使用英文原版翻譯……”。對已有成熟的量表的數(shù)據(jù)重用可以提高研究的科學(xué)性,節(jié)約時間和精力,是數(shù)據(jù)重用較為合適的選擇。
3教育學(xué)領(lǐng)域基金論文中的數(shù)據(jù)重用標注規(guī)范分析
數(shù)據(jù)重用來源、格式著錄是否規(guī)范影響著科學(xué)研究的準確性和科學(xué)性。因此,數(shù)據(jù)重用應(yīng)遵循相應(yīng)的規(guī)范以便科研人員在研究過程中追溯數(shù)據(jù)來源,促進科學(xué)數(shù)據(jù)再利用。本文主要對數(shù)據(jù)重用來源及標注和數(shù)據(jù)重用選擇偏好分析我國教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用規(guī)范。
3.1數(shù)據(jù)重用來源及標注
3.1.1數(shù)據(jù)重用來源標注
通過統(tǒng)計分析發(fā)現(xiàn),教育學(xué)領(lǐng)域?qū)W者在數(shù)據(jù)重用過程中沒有任何標注行為(無參考文獻、無注釋、無文中提及)的比例在10%以下,如表7所示。
2017年“無”的比例僅為5%,2018年為9.93%,即超過90%的學(xué)者會在數(shù)據(jù)重用中標注原始數(shù)據(jù)來源,這表明絕大部分學(xué)者具備一定的數(shù)據(jù)重用規(guī)范意識。但是在數(shù)據(jù)來源方面,2017年數(shù)據(jù)來源未知比例有6.58%,2018年數(shù)據(jù)來源未知比例有16.56%。整體而言,有10%左右的學(xué)者沒有明確指出原始數(shù)據(jù)來源渠道,均大于數(shù)據(jù)重用規(guī)范為“無”的比例。這說明即便學(xué)者在文中提及數(shù)據(jù)來源或進行數(shù)據(jù)引用,但未必能全部明確指出詳細完整的數(shù)據(jù)來源渠道。
教育學(xué)領(lǐng)域?qū)W者重用數(shù)據(jù)存在不介紹重用數(shù)據(jù)的來源,或者交待部分出處但不可查的問題,表現(xiàn)為對原始數(shù)據(jù)不作實質(zhì)性出處說明,不標注引用數(shù)據(jù)以及對于數(shù)據(jù)記錄的完整性認識不足等形式。數(shù)據(jù)重用更注重數(shù)據(jù)的結(jié)果,較少關(guān)注能夠反映數(shù)據(jù)全過程信息的元數(shù)據(jù)。對于科研人員自己整理的數(shù)據(jù),同樣存在數(shù)據(jù)出處不明且不夠詳盡、準確的問題,給數(shù)據(jù)追蹤以及后續(xù)的數(shù)據(jù)重用造成了一定的障礙。
3.1.2數(shù)據(jù)重用標注格式
教育學(xué)領(lǐng)域?qū)W者在數(shù)據(jù)重用過程中很少像自然科學(xué)領(lǐng)域?qū)?shù)據(jù)或數(shù)據(jù)集進行明確聲明,對原始數(shù)據(jù)的來源標注一般通過文中提及、參考文獻及注釋的方法,其中參考文獻形式是科學(xué)數(shù)據(jù)的正式引用形式,其他3類是非正式形式。但科研人員標注數(shù)據(jù)來源時,往往不只采用一種形式,同時使用文中提及和參考文獻的情況較多,以保證數(shù)據(jù)的準確性和權(quán)威性。
統(tǒng)計發(fā)現(xiàn),教育學(xué)領(lǐng)域數(shù)據(jù)重用格式為注釋這一形式較少,2017年僅有16條數(shù)據(jù)使用注釋這一形式,2018年僅有3條數(shù)據(jù)通過注釋說明原始數(shù)據(jù)來源。注釋可以詳細介紹數(shù)據(jù)的獲取及相關(guān)說明,但較少采用注釋方式注明數(shù)據(jù)來源。涉及到對歷史資料的數(shù)據(jù)重用,注釋這一非正式引用方式的較多,如注釋中寫道“此表內(nèi)容來源于……的歸納”。注釋一般提及創(chuàng)建者及標題兩項,實際上,注釋與參考文獻作用相同,存在形式上是注釋,實際是參考文獻的情況,但通常注釋與參考文獻標注的格式不一致。
3.1.3數(shù)據(jù)重用標注習(xí)慣
高校及研究院等權(quán)威機構(gòu)的調(diào)查統(tǒng)計報告也是數(shù)據(jù)重用的重要來源渠道,但與此相關(guān)的數(shù)據(jù)重用規(guī)范卻并不統(tǒng)一。若是僅對調(diào)查統(tǒng)計結(jié)果進行數(shù)據(jù)重用,則更傾向于在論文正文標注參考文獻。如果一開始就沒有將調(diào)查數(shù)據(jù)列入?yún)⒖嘉墨I中,那之后也不會列入,這是一種論文寫作習(xí)慣。一般直接使用調(diào)查數(shù)據(jù),在正文中不會說明數(shù)據(jù)的增刪改情況。但實際情況復(fù)雜得多,科學(xué)數(shù)據(jù)類型多樣,除調(diào)查數(shù)據(jù)之外,教育學(xué)領(lǐng)域?qū)W者重用非調(diào)查數(shù)據(jù)的情況較為常見,測量量表和評價指標是出現(xiàn)頻率較高的非調(diào)查數(shù)據(jù)。當科研人員重用這類數(shù)據(jù)時一般會將以往研究整理成表格形式,部分以參考文獻的方式出現(xiàn),參考文獻如果是期刊論文則較為規(guī)范,一般按照期刊論文的著錄標準著錄。如果來源于網(wǎng)站,那么在表格后表注釋數(shù)據(jù)來源則更為常見。而此種方式數(shù)據(jù)引用形式最為多樣,表明教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)規(guī)范意識不足。
通過對數(shù)據(jù)重用來源及標注的分析可知,雖然我國已發(fā)布科學(xué)數(shù)據(jù)相關(guān)國家標準,但在實踐中仍存在大量不規(guī)范數(shù)據(jù)重用現(xiàn)象,主要體現(xiàn)為科研人員在數(shù)據(jù)重用過程中未明確注明數(shù)據(jù)重用來源,數(shù)據(jù)規(guī)范意識有待提高。
3.2數(shù)據(jù)重用選擇偏好
3.2.1重用位置特征
為了解教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用行為規(guī)范,本研究進一步分析數(shù)據(jù)引用位置,將數(shù)據(jù)重用位置分為引言、正文和結(jié)論3部分。一般而言,在引言部分數(shù)據(jù)重用目的為研究背景,但同時也有少部分作為背景資料出現(xiàn)在正文中??傮w而言,在正文中有數(shù)據(jù)重用的比例最大,因為正文內(nèi)容是研究的主體部分,且在正文中數(shù)據(jù)重用目的可以是用作研究背景、開展新的研究以及佐證研究觀點。教育學(xué)領(lǐng)域數(shù)據(jù)重用位置主要集中在引言和正文,以科學(xué)數(shù)據(jù)為研究基礎(chǔ)的論文通常會在正文研究設(shè)計中提到數(shù)據(jù)來源。數(shù)據(jù)重用出現(xiàn)在結(jié)論的部分占比最少,在論文結(jié)論部分進行數(shù)據(jù)重用一般是為了研究結(jié)果比較分析,而數(shù)據(jù)重用為研究比較的比例較低。因此,可以發(fā)現(xiàn)教育學(xué)領(lǐng)域?qū)W者較為重視科學(xué)數(shù)據(jù)的價值。
3.2.2數(shù)據(jù)重用元素選擇
科學(xué)數(shù)據(jù)元素是科學(xué)數(shù)據(jù)的進一步揭示,能夠反映數(shù)據(jù)重用行為是否規(guī)范。不同數(shù)據(jù)類型的元數(shù)據(jù)元素差異較大,即便是相同數(shù)據(jù)類型在同一期刊也不一樣,存在信息來源不完整、欠精確,對來源信息揭示度不高的問題。目前數(shù)據(jù)引用元素的規(guī)范并不統(tǒng)一,必備元素和可選元素的標準存在較大差異。為了能夠?qū)?shù)據(jù)集進行溯源,需要統(tǒng)一資源標識符。
當前數(shù)據(jù)重用不規(guī)范情況大量存在,雖然已經(jīng)說明了數(shù)據(jù)來源,但因為缺乏數(shù)據(jù)重用規(guī)范和數(shù)據(jù)應(yīng)用格式的認識,存在數(shù)據(jù)重用格式不規(guī)范、信息著錄不完善、數(shù)據(jù)來源標注較為隨意等問題,導(dǎo)致論文作者和原始數(shù)據(jù)查找困難。當前學(xué)者、期刊和相關(guān)機構(gòu)缺乏對數(shù)據(jù)引用規(guī)范性的認識,使論文的數(shù)據(jù)引用不規(guī)范問題普遍存在。學(xué)者在論文中雖然重用了相關(guān)數(shù)據(jù),但并沒有對這些數(shù)據(jù)及其來源明確說明和注釋。數(shù)據(jù)的引用格式也存在問題,使數(shù)據(jù)信息展示不全,甚至沒有詳細標注引用數(shù)據(jù)及其來源。
在數(shù)據(jù)重用過程中,數(shù)據(jù)元素標注還不夠全面,存在數(shù)據(jù)來源后只有原始數(shù)據(jù)的標題和時間信息的現(xiàn)象。大多數(shù)學(xué)者在引用圖表形式的數(shù)據(jù)時,僅在文中描述數(shù)據(jù)來源,列出部分數(shù)據(jù)元素,此類不規(guī)范的數(shù)據(jù)重用行為影響了科研人員通過數(shù)據(jù)引用信息定位原始數(shù)據(jù),阻礙了數(shù)據(jù)的傳播與再利用。
3.2.3數(shù)據(jù)重用行為相似性
馬太效應(yīng)反映了“強者越強,弱者越弱”的現(xiàn)象,教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用行為存在“馬太效應(yīng)”,這在數(shù)據(jù)重用行為中表現(xiàn)為一項基金項目在項目前期重用他人研究數(shù)據(jù),之后數(shù)據(jù)重用的可能性大為提高。反之,如果一項基金項目在項目前期沒有重用他人研究數(shù)據(jù),項目中后期很可能也不會有數(shù)據(jù)重用行為。2017年共有5項基金課題項目未見有數(shù)據(jù)重用現(xiàn)象,占當年抽取比例的10.20%,2018年有11項基金課題項目未見有數(shù)據(jù)重用現(xiàn)象,占當年抽取比例的21.57%。這兩年的數(shù)據(jù)體現(xiàn)了“馬太效應(yīng)”中“弱者越弱”的現(xiàn)象。與此對應(yīng)的是2017年共有7項基金課題項目數(shù)據(jù)重用論文比例為100%,即已發(fā)表的每一篇論文都有數(shù)據(jù)重用行為,2018年數(shù)據(jù)重用論文比例為100%的基金課題有11項,但其中有9項為僅發(fā)表了1篇論文,并且這兩年數(shù)據(jù)重用比例為100%的基金課題項目已發(fā)表論文數(shù)均不超過5篇,由此可知數(shù)據(jù)重用并不是教育學(xué)領(lǐng)域科研人員開展研究的首選。
通過分析發(fā)表論文數(shù)大于5篇的基金論文中的數(shù)據(jù)重用行為發(fā)現(xiàn),系列論文的數(shù)據(jù)重用行為特征也具有相似性。由于系列論文具有相對一致的研究方向,同一項目數(shù)據(jù)重用類型存在一致性傾向,傾向于使用同一類型數(shù)據(jù)的情況,這與研究內(nèi)容、研究方法、數(shù)據(jù)重用目的以及研究者的個人習(xí)慣有關(guān)。
4結(jié)語
本研究采用內(nèi)容分析法從相對客觀的角度分析教育學(xué)領(lǐng)域數(shù)據(jù)重用行為特征規(guī)律,選取了全國教育科學(xué)規(guī)劃項目數(shù)據(jù)為總體數(shù)據(jù),對2017年和2018年的全國教育科學(xué)規(guī)劃立項課題進行抽樣,從數(shù)據(jù)重用目的、數(shù)據(jù)類型偏好及數(shù)據(jù)重用規(guī)范等方面分析教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用行為。研究發(fā)現(xiàn),教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用行為有以下特征:
①教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用比例較高且較為穩(wěn)定:②教育學(xué)領(lǐng)域科研人員偏向于調(diào)查數(shù)據(jù)的重用,其他數(shù)據(jù)以公式、代碼和教學(xué)數(shù)據(jù)資源為主,對量表的編譯改編借鑒重用較為頻繁:③在數(shù)據(jù)來源上,政府網(wǎng)站及數(shù)據(jù)中心是科研人員較為信任的數(shù)據(jù)來源渠道,已發(fā)表的專業(yè)期刊論文中的科學(xué)數(shù)據(jù)由于數(shù)據(jù)獲取便利性和專業(yè)性成為科研人員頻繁引用的原始數(shù)據(jù)。此外,互聯(lián)網(wǎng)數(shù)據(jù)因其可獲得性和時效性較強得到科研人員的關(guān)注:④科學(xué)數(shù)據(jù)重用過程中的數(shù)據(jù)分析與處理較為粗淺,數(shù)據(jù)使用最多,將原始數(shù)據(jù)整理成表格也是常見的數(shù)據(jù)處理分析方式,文獻計量與數(shù)據(jù)可視化分析逐步成為熱門,但存在數(shù)據(jù)分析方法較為粗淺的問題。并且數(shù)據(jù)分析處理與數(shù)據(jù)重用目的密切相關(guān):⑤由于缺少明確統(tǒng)一的科學(xué)數(shù)據(jù)參考文獻及注釋格式規(guī)范,科學(xué)數(shù)據(jù)的元數(shù)據(jù)描述差異較大。此外,數(shù)據(jù)重用過程數(shù)據(jù)來源不詳是數(shù)據(jù)獲取障礙的重要原因。
本研究以教育學(xué)領(lǐng)域的基金項目產(chǎn)出論文為分析依據(jù),對其中的數(shù)據(jù)重用現(xiàn)象進行了識別和提取,通過對該領(lǐng)域?qū)W者數(shù)據(jù)重用行為特征的分析,總結(jié)其專業(yè)內(nèi)部的科學(xué)數(shù)據(jù)使用偏好及使用規(guī)范,而數(shù)據(jù)重用行為有明顯的學(xué)科差異性。本研究通過對教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用行為的分析,希望能夠在一定程度上為圖書館、數(shù)據(jù)出版商、數(shù)據(jù)中心等機構(gòu)開展數(shù)據(jù)服務(wù)內(nèi)容及調(diào)查數(shù)據(jù)平臺等教學(xué)資源數(shù)據(jù)庫的建設(shè)方向提供參考。
但本研究僅從相對客觀的角度分析科研人員數(shù)據(jù)重用行為,關(guān)注了基金論文文本中體現(xiàn)的數(shù)據(jù)重用現(xiàn)象,未能探討文本外的科研人員自身的情感、態(tài)度等主觀方面的動態(tài)的因素。在基金項目樣本的時間范圍的選擇上,本次研究僅選擇了2017年和2018這兩年的基金項目,相對而言數(shù)據(jù)量有一定局限性。另外,數(shù)據(jù)重用規(guī)范僅僅考慮到格式、位置及元素,更偏重研究數(shù)據(jù)重用行為形式特征,內(nèi)容分析編碼類目構(gòu)建考慮不夠完善,未來研究還需挖掘數(shù)據(jù)重用行為其他特征表現(xiàn)。