亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)網環(huán)境下論文引證文獻數(shù)的多變量動態(tài)分析*

        2019-04-16 03:08:54張瑋欣趙少飛王威娜
        圖書館論壇 2019年4期
        關鍵詞:學科分類論文變量

        陳 輝,張瑋欣,趙少飛,王威娜

        1 文獻綜述及問題提出

        隨著數(shù)字化網絡(以下簡稱“數(shù)網”)技術的發(fā)展與應用,學術期刊論文數(shù)據(jù)庫成為廣大科研人員獲取信息與文獻的主要平臺。在網絡環(huán)境下,學術期刊的出版?zhèn)鞑ツJ郊捌溆绊懸蜃拥姆治龊脱芯恳灿辛撕艽蟮淖兓?,原因主要是?shù)據(jù)來源更為豐富,獲取數(shù)據(jù)更為便捷,各種數(shù)據(jù)分析手段和方法的應用也更為靈活和深入。有兩個方向的選題已引起相關學者的重視:一是網絡出版數(shù)據(jù)(如下載量)與期刊或論文的被引等的相關性分析;二是讀者的閱讀行為分析。這也是筆者所關注和研究的兩個方向,并且認為如果借助于多層次的分析手段,這類研究可以做得更為精細和有效。因此,本文將考量論文的網絡下載量等因素與被引用情況的關系,除大家所熟悉的引證文獻數(shù)之外,還關注同被引文獻數(shù)、共引文獻數(shù)等長期被忽視的因素。

        不少學者采用不同方法進行了有益的探究,得出的結論也呈現(xiàn)出不一致性。研究方法主要有:(1)學術期刊被引頻次及影響因素的描述性(Descriptive)調查、分析和總結[1-9];(2)預測性(Predictive)統(tǒng)計分析,對變量之間的關系進行線性回歸分析及元分析[10-14]。這些研究的對象大部分是同類學科期刊,鮮有以多學科、綜合性期刊的論文為研究對象。以單一學科期刊作為研究對象,沒有考慮不同學科間的差異性,得出的相關性結論是否適應于所有學科尚有存疑;而以期刊為研究對象,期刊數(shù)據(jù)是整合了論文數(shù)據(jù)而得到的,會導致單篇論文的某些特征消失,從而使所刊載論文的下載量與被引量相關性的數(shù)據(jù)分析穩(wěn)定性欠佳。由于這些研究的對象、因素、方法不同,出現(xiàn)結論的不一致性也是有情可原的。

        劉筱敏等[1]通過對比15 種化學類電子期刊的下載量、引用量,指出電子資源對科研人員獲取和使用文獻具有重要作用,并通過對數(shù)據(jù)的描述性統(tǒng)計分析得出,下載量與引用量相關性較強。這一結論為同類學科期刊的對比研究奠定了基礎。丁佐奇等[8]分析CNKI 中兩本藥學期刊被引Top20 的文章數(shù)據(jù),得出論文發(fā)表后2~4年引證達到峰值,以及單篇論文的被引與下載相關性較差的結論。然而,其數(shù)據(jù)量太小,結論的支持度不高。郭強等[9]認為引文分析有其相對的滯后性,而下載次數(shù)作為反映文獻價值的早期指標,使論文的評價可以有所提前,這一結論對數(shù)網環(huán)境下期刊和論文評價的后續(xù)研究有重要的指導意義。上述三者均采用描述性統(tǒng)計分析方法。

        在描述性統(tǒng)計分析的基礎上,有學者采用多層次的分析方法,進行更深入的相關分析。王海濤等[10]采用負二項回歸模型對2013年JCR 影響因子TOP20 的經濟類期刊論文(英文)的被引頻次影響因素進行了研究,認為作者數(shù)、文獻數(shù)、論文長度、基金資助、期刊影響因子與被引數(shù)具有顯著的正向關系,發(fā)表年份與被引數(shù)之間存在顯著的倒U 型關系;并且關注了不同研究方向的差異性,認為不同研究方向的論文其被引數(shù)存在明顯的差異性。孟凡蓉等[11]對五種科技管理核心期刊論文的被引頻次影響因素進行描述性分析和泊松回歸分析,認為論文被引頻次對刊載時間有較強的依賴性,且為非線性關系;論文特征決定了論文的被引頻次。張小強[12]以期刊為對象,重點對同一年份不同期刊的下載頻次、被引頻次與影響因子進行線性和非線性回歸方程對比研究,得出如下結論:期刊被引頻次與下載頻次具有高度正相關性,下載頻次與影響因子也呈正相關性,但相關系數(shù)低于被引頻次與下載頻次。此外,網絡傳播指標——網絡下載率與影響因子具有統(tǒng)計學上的一致性,可以作為期刊評價指標。謝娟等[13]在梳理國內外大量文獻的基礎上,從單篇論文的層面對論文下載量與被引量的相關性進行元分析,發(fā)現(xiàn)二者具有強烈的正相關關系,指出由于下載量實時、易獲取,可以作為科研評價指標之一(預測性分析Predictive Analysis);同時指出,不同質量論文的下載量與被引量相關性實證研究尚未見,可以作為進一步研究的課題。筆者認為,網絡下載率或下載量作為評價指標在數(shù)網環(huán)境下值得重視,如何公平、有效地用好這一指標值得深入研究。徐慶富等[14]注意到不同學科論文的差異性,在控制期刊影響因子的前提下,對15 種代表不同學科類別的專業(yè)期刊的論文進行回歸分析,發(fā)現(xiàn)引用半衰期、參考文獻數(shù)量等與論文質量之間存在內在邏輯關系,確實會影響論文被引頻次;而論文篇幅等容易被“人為操縱”的因素并不會對被引頻次產生實質影響,表明用被引頻次衡量論文質量具有相對合理性。

        大多數(shù)學者把采集的數(shù)據(jù)作為截面數(shù)據(jù)來進行分析,這種分析科學合理,結論是正確的。然而從科學計量學而言,許多似乎已被證實的觀點仍需通過控制相關變量或擴大調研范圍,進行邏輯分析和數(shù)據(jù)驗證[14]。鑒于上述原因,本文選取某綜合性科學技術類高校學報的論文作為研究對象。高校學報通常涉及多個學科,并且其論文的學術性審核也有統(tǒng)一的要求和規(guī)范且執(zhí)行比較嚴格。因此,本研究的結論應具有一定的廣泛性意義。

        此外,數(shù)網技術的發(fā)展與應用導致期刊數(shù)據(jù)庫模式的出現(xiàn),也使得期刊本身被虛擬化、拆解,文獻傳播的中心從期刊轉移到單篇論文[15],進一步說明以論文為研究基本單元相比于以期刊為研究基本單元更為合理。排除期刊自身的因素,把關注點放在論文上來研究和驗證同一種期刊論文的相關情況,對數(shù)網環(huán)境下論文乃至科學成果的傳播有著重要的現(xiàn)實意義。本文擬在固定期刊(選擇某綜合性科學技術類期刊)這個因素的前提下,對論文評價的傳統(tǒng)因素(如學科、出版年限等)以及數(shù)網環(huán)境下的特征因素(如下載量與被引情況,即引證文獻、共引文獻、同被引文獻)的相關性進行動態(tài)的、多變量的實證分析與研究。

        2 數(shù)據(jù)的獲取與預處理

        2.1 數(shù)據(jù)來源與結構

        大多數(shù)研究的數(shù)據(jù)源于Web of Science,有些則選擇TOP20 英文專業(yè)期刊,也就是影響因子最高的英文學術期刊。這樣選擇數(shù)據(jù)也有其不足的地方:一是沒有考慮中文期刊,二是忽略了一般學術期刊的數(shù)據(jù)變化規(guī)律。

        在學者們的前期研究中,最小的數(shù)據(jù)記錄(Record)單位是期刊,而不是單篇論文。不同論文之間的引證文獻數(shù)據(jù)分布是不均衡的,整合了論文數(shù)據(jù)后的整期期刊引證文獻數(shù)與下載數(shù)之間的一些重要特性會消失。因此,本研究采集每篇論文的相關數(shù)據(jù)作為源數(shù)據(jù),選取某高校學報(屬綜合性科學技術類期刊)2013-2015年發(fā)表的論文為研究對象。數(shù)據(jù)主要從知網中爬取,數(shù)據(jù)采集截止日期為2018年3月26日,數(shù)據(jù)結構如表1所示。

        表1 數(shù)據(jù)結構表

        2.2 數(shù)據(jù)的預處理

        大部分研究選擇連續(xù)型變量進行分析,如論文下載數(shù)、頁數(shù)、作者人數(shù)。雖然也有學者關注到一些分類變量(如基金資助、學科等)對引證文獻數(shù)的影響,但在分析時往往簡單地將分類變量作為邏輯變量,納入回歸分析中,或簡單作一些相關系數(shù)分析。本研究從分類變量與連續(xù)變量兩方面來考慮與分析。如表1所示,采集的數(shù)據(jù)結構良好,但對于文本類變量數(shù)據(jù),為了后面方差分析的需要,必須作一些轉換處理,主要對兩個字段(基金編號和分類號)進行處理。

        (1)基金編號的處理方法。依據(jù)編號將論文基金分為4 個等級:0 為無資助,1 為國家級(如國家自然科學基金、國家社科基金),2 為省部級,3 為其他。

        (2)分類號的轉換。采用圖書標準分類號(參照網站:http://ztflh.xhma.com/),主要困難是如何解決分類號不等長的匹配分析問題。本文分兩階段來處理學科分類號的問題:首先截取分類號左邊第一個字母,以對應不同的學科,對學科進行分類的方差分析;然后選擇T類(因為樣本來源為綜合性科學技術類期刊,T 類論文的比例特別高),對前兩位字母進行分類分析。

        2.3 數(shù)據(jù)的描述性統(tǒng)計分析

        目前已有研究多從學術期刊的截面數(shù)據(jù)來進行分析。本文考量有可能影響引證文獻數(shù)的多個因素,主要包括:基金資助等級、學科分類(分類號)、年份、頁數(shù)、共引文獻數(shù)、同被引文獻數(shù)。從數(shù)據(jù)分析的角度將這些因素分為兩大類:一是分類變量(如基金資助等級與學科分類);二是連續(xù)變量(如頁數(shù)、共引文獻數(shù)、同被引文獻數(shù))。由下一節(jié)的分析可知,期刊論文的主要變量是學科、下載量、同被引文獻數(shù)與引征文獻數(shù)。因此,在本節(jié)中只給出下載數(shù)、同被引文獻數(shù)與引證文獻數(shù)的描述性統(tǒng)計分析結果,以探討引證文獻數(shù)的動態(tài)性問題。描述性統(tǒng)計分析結果見表2(以論文為統(tǒng)計單位),而相關的箱線圖如圖1所示,可以明顯看出主要變量的變化特性。

        (1)下載數(shù)的分布特點。中位數(shù)在150 左右,四分一位數(shù)在100 左右(2015年略偏低),而四分三位數(shù)約在200~260 之間,但最大值超2000(2015年除外),中位數(shù)與四分位數(shù)的位置分布均勻,整體分布接近正態(tài);由于最大值偏大,所以裁剪了最大值,重點顯示四分位與最小值的分布情況;年份越長,中值越大,但最小值基本不變。(2)同被引文獻數(shù)的分布特點。分布形態(tài)與下載數(shù)相似,也接近正態(tài)分布;中位數(shù)在20~80范圍變化,年份越近,中位數(shù)越小。(3)引證文獻數(shù)的分布特征。偏峰較大,大多數(shù)引證文獻數(shù)小于10,但高被引的文獻數(shù)可接近70;中位值偏向最小值,而且四分位數(shù)與中位數(shù)相差很小,最大值與分位數(shù)及中位數(shù)相差較大。這種分布一般稱為偏峰及峰值較大,在自變量計算時通常認為穩(wěn)定性較差。(4)下載數(shù)、同被引文獻數(shù)和引證文獻數(shù)具有一定的相關性(下一節(jié)將進一步用統(tǒng)計分析方法進行論證)。從分布特征來看,下載數(shù)與同被引文獻數(shù)的分布比引證文獻數(shù)更為扁平,在影響因子的計算中若考慮這兩個因素會得到更為穩(wěn)定的結果。因為通俗來講,體量越大越具有代表性。上述三個因素有別于基金資助、學科、頁數(shù)等靜態(tài)因素,呈現(xiàn)出明顯的動態(tài)特性,年份越長數(shù)量值越大。

        表2 不同年份期刊論文的描述性統(tǒng)計分析

        圖1 下載數(shù)、同被引文獻數(shù)與引證文獻數(shù)動態(tài)箱線圖

        3 引證文獻數(shù)及其影響因素的數(shù)據(jù)分析

        本節(jié)將求取對引證文獻數(shù)有顯著性影響的因素。具體的方法為:以分類變量作為自變量時采用方差分析,以連續(xù)變量為自變量時采用回歸分析。

        3.1 分類變量作為自變量的方差分析

        (1)按基金分類的方差分析。將基金資助的數(shù)據(jù)分為四類:0無資助;1國家級;2省部級;3其他。對基金資助及其等級進行方差分析后得到P 值為0.56,表明基金資助情況對引證文獻數(shù)以及同被引文獻數(shù)等沒有顯著的影響。造成這個結果的原因可能是:目標期刊90%以上的論文都有基金資助。本文獲取的基礎數(shù)據(jù)顯示,在沒有獲得資助的論文中,30%以上屬于前10%高被引文獻,說明在這一類學術期刊中,基金項目資助及其等級對論文的引證文獻數(shù)沒有明顯影響,也就是相關性不顯著。

        (2)按學科分類的方差分析。對論文的第一個學科分類號進行分類,得到引證文獻數(shù)的均值表,見表3。

        表3 學科分類的引證文獻數(shù)均值

        為了分析學科分類對引證文獻數(shù)的影響是否顯著,本文采取單因素方差分析法,得到學科分類對引證文獻數(shù)的P值為0.01622,表明學科分類之間的差異性對期刊論文的引證文獻數(shù)有顯著影響。由于所選期刊中綜合性科學技術類(T 類)的論文數(shù)量較多(占72.3%),再作深入的影響因子分析時,可以對T 類論文作進一步的方差分析,以揭示T 類中哪些具體學科的影響較大。T 類學科再細分后得到的引證文獻數(shù)均值如表4所示。

        表4 T類學科細分后的引證文獻數(shù)均值

        經過方差分析后,得到P值為0.01622,說明在T 類中各學科對引證文獻數(shù)的影響顯著,特別是自動化技術、計算機技術類、化學工程類等比其他學科有更明顯的高引證文獻數(shù)。以上結果表明:(1)自動化、計算機、環(huán)境等是備受歡迎的熱門學科;(2)不同學科論文的質量存在差異性;(3)學科差異性分析對期刊選題有一定的指導意義,但也不能忽視一些特殊學科,如原子能技術對科學整體發(fā)展的貢獻。

        3.2 連續(xù)型變量的多元回歸探索性分析

        對所有連續(xù)型變量進行初步多元回歸探索性分析,即將引證文獻數(shù)或同被引文獻數(shù)作為因變量,其余變量為自變量展開分析,結果如表5所示。

        表5 連續(xù)型變量的多元回歸探索性分析

        從表5可知,選擇引證文獻數(shù)為因變量,R2值是0.737047,擬合效果比較好;若選擇同被文獻數(shù)為因變量,R2值是0.199649,擬合效果不理想。針對引證文獻數(shù)的回歸分析F檢驗的P值是1.4×10-73,線性回歸效果顯著。針對每個自變量的系數(shù)所作的假設檢驗發(fā)現(xiàn),有兩個自變量(頁數(shù)、共引文獻數(shù))沒有通過t檢驗,在后續(xù)的分析中應刪除。表5表明,引證文獻數(shù)、同被引文獻數(shù)與下載數(shù)三者有一定的相關性,有可能是線性關系,也有可能是非線性關系,下面將通過更細化的回歸分析來展開探討。

        3.3 引證文獻數(shù)、同被引文獻數(shù)、下載數(shù)的回歸分析

        對引證文獻數(shù)、同被引文獻數(shù)、下載數(shù)三個變量進行單因素回歸分析,從中探討它們之間是否存在線性關系(見表6)。

        從表6可看出,引證文獻數(shù)與同被引文獻數(shù)之間具有很強的線性關系,引證文獻數(shù)與下載數(shù)之間的線性關系也是顯著的。但是,同被引文獻數(shù)與下載數(shù)之間不是簡單的線性關系,經過多次仿真分析后發(fā)現(xiàn),二者之間為非線性關系,而下載數(shù)平方根與立方根的組合線性回歸計算得出的R2值最優(yōu)。圖2展示了三因素之間的回歸關系,下面進一步使用二元回歸作動態(tài)分析。

        表6 三因素相互間的回歸分析

        圖2 三因素間的回歸關系

        3.4 不同年份論文的數(shù)值型變量二元回歸分析

        選用下載數(shù)與同被引文獻數(shù)作為回歸分析的自變量,引證文獻數(shù)為因變量,對不同年份的數(shù)據(jù)進行線性回歸分析,結果如表7所示。

        表7 2013-2015年論文的回歸分析結果

        可以看到,引證文獻數(shù)回歸分析F檢驗的P值均為顯著的,下載數(shù)、同被引文獻數(shù)的t檢驗P值全部顯著。三年的R2分別為0.845、0.736、0.611,表明擬合質量比較高,但呈逐年下降趨勢。三年對應的回歸方程如下所示:

        其中,y表示引證文獻數(shù),x1表示下載數(shù),x2表示同被引文獻數(shù),∈表示隨機干擾項。

        從二元回歸分析結果來看,回歸方程的F檢驗顯著,其P值均<0.0000;回歸方程的系數(shù)檢驗也是顯著的,兩個自變量(下載數(shù)與同被引文獻數(shù))的t檢驗均顯著,其P值均<0.0000。R2值顯現(xiàn)年份越長,回歸效果越好的趨勢,表明如果使用下載數(shù)或同被引文獻數(shù)作為影響因子計算的補充變量時,使用5~6年的數(shù)據(jù)較合理,而不是按傳統(tǒng)的方法,采用最近2年的數(shù)據(jù)。

        影響因子以引證文獻數(shù)為其中一個計算變量,由于引證文獻數(shù)一般比較小,而且有偏峰的特點,因此眾多學者將焦點放在引證文獻數(shù)與下載數(shù)的回歸關系研究上。有些學者甚至得出相關回歸方程,但依然使用近兩年數(shù)據(jù)。本研究表明:(1)引證文獻數(shù)不僅僅與下載數(shù)相關,還與同被引文獻數(shù)有顯著的線性關系,并得出兩者之間的線性回歸方程;(2)引證文獻數(shù)、下載數(shù)與同被引文獻數(shù)在5~6年進入穩(wěn)態(tài)期。為此,建議在影響因子的計算中,引入下載數(shù)與同被引數(shù)兩個變量,并考慮采用5~6年的時間窗口。

        4 結論

        論文的引證文獻數(shù)是近年來學者所關心的一個重要指標,大家都注意到影響引證文獻數(shù)的因素有很多。在目前的相關研究中,除考慮論文的基本性質,如論文的作者數(shù)、頁數(shù)、是否有基金資助、學科分類之外,還關注網絡出版的特征屬性,主要是論文下載數(shù)。本文針對數(shù)網環(huán)境下文獻傳播的特征,在下載數(shù)的基礎上,增加了同被引文獻數(shù)和共引文獻數(shù)作為分析因素,并對關聯(lián)的因素按兩種變量類別進行了分析:一是分類變量,二是連續(xù)變量。主要結論有:

        (1)對論文的引證文獻數(shù)影響最為顯著的變量有:學科、下載數(shù)、同被引文獻數(shù)。引證文獻數(shù)與下載數(shù)和同被引文獻數(shù)之間呈較強的線性關系,同被引文獻數(shù)與下載數(shù)之間卻呈現(xiàn)出顯著的非線性關系。(2)對論文的引證文獻數(shù)影響不顯著的變量有頁數(shù)、基金資助情況、共引文獻數(shù)等。(3)對引證文獻數(shù)(被引頻次)的研究不能局限于傳統(tǒng)指標(如頁數(shù)、作者數(shù)、基金、學科分類),網絡傳播指標(如下載數(shù))以及某些被忽視的指標(如同被引文獻數(shù))也應給予關注。若簡單分析相關系數(shù)與相關度,則無法得到變量間數(shù)量上的關系?;貧w分析的最大優(yōu)點是可以得到變量的數(shù)量變化關系方程,以便于對期刊進行計量分析,如影響因子分析。(4)目前無論是影響因子的計算,還是其他的相關研究,主要采用近2~3年的數(shù)據(jù)。然而,本研究表明:直接使用引證文獻數(shù)的回歸分析效果不太理想,因為引證文獻數(shù)存在較大的偏態(tài)性與偏峰性,數(shù)據(jù)的穩(wěn)定性不好;而下載數(shù)與同被引文獻數(shù)接近正態(tài)分布,說明引證文獻數(shù)與下載數(shù)及同被引文獻數(shù)具有顯著的線性關系,因此采用下載數(shù)與同被引文獻數(shù)來評價論文的學術影響力,既有合理性又有穩(wěn)定性。另外,引證文獻數(shù)與年限有著密切的關系,特別是在5~6年后進入穩(wěn)定狀態(tài),所以目前使用近2年的數(shù)據(jù)來計算影響因子是不理想的。(5)對于數(shù)據(jù)的粒度問題,是以論文還是以期刊作為記錄數(shù)據(jù)的最小單位值得考量。由于期刊的數(shù)據(jù)綜合性強,如果使用期刊的綜合數(shù)據(jù)作為最小分析單位,不同學科間、不同論文間的統(tǒng)計特征差異性將會消失,因此以論文作為數(shù)據(jù)分析的最小記錄單位更為合適。(6)在互聯(lián)網時代,傳統(tǒng)紙媒出版面臨新挑戰(zhàn),很多問題還有待研究。比如,采用更多樣本數(shù)據(jù)來分析不同學術水平的科技期刊、更多的年份對引證文獻數(shù)的影響。又如,研究科技期刊中讀者的閱讀點擊流數(shù)據(jù),以獲取讀者行為數(shù)據(jù),從而有效分析讀者的行為特征,為設計具有更好用戶體驗的網絡出版物提供參考依據(jù)。此外,研究還可更進一步,提升到規(guī)范性統(tǒng)計分析層面,對影響因子等指標構建更合理有效的模型和公式,使論文和期刊的評價更為科學。

        猜你喜歡
        學科分類論文變量
        基于學科識別功能的中國學位服色彩設計研究
        絲綢(2024年7期)2024-12-31 00:00:00
        抓住不變量解題
        也談分離變量
        審計學成為一級學科可行性研究
        中醫(yī)藥信息學教育發(fā)展歷程回顧與學科發(fā)展現(xiàn)狀分析
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        基于學科分類下的交互式電子白板設備應用績效評價
        下期論文摘要預登
        下期論文摘要預登
        下期論文摘要預登
        亚洲av成人av三上悠亚| 久久久久国产精品片区无码| 男子把美女裙子脱了摸她内裤| 三级日韩视频在线观看| 欧美三级不卡在线观看| 日本巨大的奶头在线观看 | 人妻有码av中文幕久久| 玩弄人妻少妇精品视频| 欧美综合自拍亚洲综合图片区 | 久久精品一区二区三区不卡牛牛| 男女射黄视频网站在线免费观看 | 国产午夜亚洲精品不卡免下载| 熟女免费视频一区二区| 久久国产精品偷任你爽任你| 精品无码国产污污污免费网站 | 我和丰满老女人性销魂| 美女在线一区二区三区视频 | 国内精品久久久久久无码不卡| 人妻中文字幕av有码在线| 熟女人妻在线中文字幕| 18禁无遮拦无码国产在线播放| 亚洲羞羞视频| 极品少妇被后入内射视| 国产自拍av在线观看视频| 欧美国产精品久久久乱码| 日韩成人无码v清免费| av网址在线一区二区| 国产亚洲精品久久久久久国模美| 无码人妻品一区二区三区精99 | 国产小车还是日产的好 | 欧美成人看片一区二区三区尤物| 亚洲性无码av在线| 台湾佬中文偷拍亚洲综合| 久久精品亚洲熟女av蜜謦 | 亚州韩国日本区一区二区片| 国产三级黄色片子看曰逼大片| 国产影片一区二区三区| 中文www新版资源在线| 国产欧美日韩在线观看一区二区三区| 老熟妇嗷嗷叫91九色| 精品国偷自产在线视频九色|