曹瑞雪 馬英紅 李海洋 于青林,3
(1.西安工程大學(xué)理學(xué)院 西安 710048)(2.山東師范大學(xué)管理學(xué)院 濟(jì)南 250014)(3.加拿大湯姆森河大學(xué)理學(xué)院 加拿大)
學(xué)科文獻(xiàn)的數(shù)量變化反映學(xué)科知識量的變化情況,學(xué)科知識量的增長及其規(guī)律與文獻(xiàn)的增長及其規(guī)律是緊密相連的,因此學(xué)科文獻(xiàn)是衡量學(xué)科知識量的重要尺度之一[1]。文獻(xiàn)計量學(xué)是以文獻(xiàn)量、作者數(shù)、詞匯數(shù)等數(shù)據(jù)來研究學(xué)科知識量變化的學(xué)科。學(xué)科的文獻(xiàn)數(shù)據(jù)可以從歷史性和連續(xù)性的數(shù)據(jù)中找出學(xué)科發(fā)展規(guī)律[2]。因此主要采用文獻(xiàn)計量分析體系,運用統(tǒng)計學(xué)的方法和技巧,使數(shù)據(jù)科學(xué)學(xué)科發(fā)展的現(xiàn)狀與趨勢更清晰明了。2004年,劉婧[3]通過統(tǒng)計中國知網(wǎng)數(shù)據(jù)庫與中文科技期刊數(shù)據(jù)庫中與洛特卡定律和普賴斯定律相關(guān)的文獻(xiàn),經(jīng)過時間、期刊、作者等多方面的整理分析,獲得了相關(guān)文獻(xiàn)的發(fā)展歷程與變化。2010年,邱均平和楊瑞仙[4]根據(jù)ESI和WOS數(shù)據(jù)庫,以臨床醫(yī)學(xué)領(lǐng)域熱門論文為數(shù)據(jù),從國家分布、機(jī)構(gòu)分布、期刊分布等方面研究了臨床醫(yī)學(xué)的發(fā)展。2016年,F(xiàn)loriana Gargiulo 等[5]基于 Mathematics Genealogy Project數(shù)據(jù)庫的博士數(shù)據(jù)從國家與學(xué)科兩方面對數(shù)學(xué)近代史進(jìn)行了研究。運用復(fù)雜網(wǎng)絡(luò)工具對國家進(jìn)行聚類分析,并對機(jī)構(gòu)名次折線分布,博士國家三維分布,學(xué)科交叉程度分布,學(xué)者家族比例分布等進(jìn)行了系統(tǒng)分析,并將分析結(jié)果與數(shù)學(xué)發(fā)展的歷史與現(xiàn)狀相比較 。2017年,趙蓉英、魏明坤[6]基 于citespace軟件對國際數(shù)據(jù)科學(xué)進(jìn)行了時間維度分析。通過文獻(xiàn)計量分析以及數(shù)據(jù)科學(xué)的發(fā)展演進(jìn)圖譜研究,將數(shù)據(jù)科學(xué)分為了以數(shù)據(jù)儲存為中心和以數(shù)據(jù)處理為中心的兩個發(fā)展階段,并對兩個階段的發(fā)展進(jìn)行了細(xì)致的探討?!癲ata science”是一個新的學(xué)科領(lǐng)域,通過對“data science”相關(guān)文獻(xiàn)的研究,從地域、機(jī)構(gòu)等方面介紹了“data science”發(fā)展過程及發(fā)展現(xiàn)狀,并對于將來的發(fā)展趨勢[7~8]作出預(yù)測。
本文所選取的數(shù)據(jù)源是SCOPUS數(shù)據(jù)庫,該數(shù)據(jù)庫是全世界最大的摘要和引文數(shù)據(jù)庫,在文獻(xiàn)檢索方面具有很高的權(quán)威性。針對“data science”的論文產(chǎn)出量、論文來源以及論文的年度變化等情況進(jìn)行了分析和探討。在論文產(chǎn)出方面,起初檢索與“論文標(biāo)題,摘要,關(guān)鍵字”相關(guān)的“data science”論文,由于數(shù)據(jù)庫2002年-2004年美國與“data sci?ence”相關(guān)的論文數(shù)據(jù)從11291篇突降到了3323篇,導(dǎo)致總的數(shù)據(jù)從33706篇突降到8472篇,因為數(shù)據(jù)庫中數(shù)據(jù)的這種無故跌落現(xiàn)象未有合理的解釋,所以在論文產(chǎn)出規(guī)律分析中,檢索了SCOPUS數(shù)據(jù)庫中1980年-2016年“任意字段”與“data sci?ence”相關(guān)的論文記錄,共獲得文獻(xiàn)8627275篇論文數(shù)據(jù)。在論文來源國家分布方面,對SCOPUS中1980年-2016年在“標(biāo)題,摘要,關(guān)鍵字”中含有“da?ta science”的論文,按占全球發(fā)文量90%的39個國家的發(fā)文量進(jìn)行了檢索。機(jī)構(gòu)分布方面,獲取了SCOPUS數(shù)據(jù)庫中1980年-2016年每年發(fā)文量排名前30名的機(jī)構(gòu)。
本文的主要理論基于文獻(xiàn)計量學(xué)五大定律以及系統(tǒng)聚類的四類方法。文獻(xiàn)計量學(xué)的五大定律包括齊普夫定律、洛特卡定律[9]、布拉德福定律、加菲爾德定律以及普賴斯定律[10]。系統(tǒng)聚類的四類基本方法包括最短(長)距離法、類平均法、中間距離法以及重心法。這些基本定律和聚類方法是科學(xué)計量學(xué)、文獻(xiàn)計量學(xué)研究中的基本知識。本文基于上述方法,針對“data science”學(xué)科中,論文的產(chǎn)出量、論文來源等分類形式,對現(xiàn)狀進(jìn)行了分析和探討,并對“data science”學(xué)科的發(fā)展趨勢進(jìn)行了預(yù)測。
研究中,使用R語言[11]、SAS軟件對數(shù)據(jù)科學(xué)從論文產(chǎn)出,來源國家分布,來源機(jī)構(gòu)分布方面研究了相關(guān)文獻(xiàn)的分布規(guī)律。論文產(chǎn)出方面,通過數(shù)據(jù)科學(xué)方法,將1980年-2016年的論文量檢驗了萊普斯的指數(shù)增長規(guī)律并運用SAS軟件對五年內(nèi)的數(shù)據(jù)發(fā)展進(jìn)行了預(yù)測。來源國家分布方面,從數(shù)據(jù)科學(xué)的不同發(fā)展階段出發(fā),基于柯爾莫哥洛夫-斯米爾諾夫距離[12]對38個國家分別聚類,得出不同階段這些國家在數(shù)據(jù)科學(xué)領(lǐng)域所屬的類別。論文來源機(jī)構(gòu)研究是基于SCOPUS網(wǎng)站1980年到2016年每年發(fā)文量前30的機(jī)構(gòu),通過計算相鄰兩年的機(jī)構(gòu)變動程度,并通過統(tǒng)計學(xué)中的滑動平均處理,得到機(jī)構(gòu)變動波動較大的兩年,找出波動較大的機(jī)構(gòu),并根據(jù)機(jī)構(gòu)排名變化找出不同時期在數(shù)據(jù)科學(xué)領(lǐng)域起帶頭作用的機(jī)構(gòu)。通過以上統(tǒng)計分析得出數(shù)據(jù)科學(xué)論文在全球的發(fā)展規(guī)律。
利用文獻(xiàn)計量學(xué)方法分析數(shù)據(jù)科學(xué)領(lǐng)域發(fā)展歷程時,根據(jù)科技文獻(xiàn)的增長及老化規(guī)律,對相關(guān)論文發(fā)文量進(jìn)行年度統(tǒng)計分析,揭示該領(lǐng)域不同發(fā)展階段的發(fā)展?fàn)顩r。并結(jié)合文獻(xiàn)計量學(xué)的相關(guān)定律對數(shù)據(jù)科學(xué)的發(fā)展進(jìn)行了預(yù)測。
文獻(xiàn)計量學(xué)的這五大定律中,與相關(guān)的是普萊斯提出的科學(xué)文獻(xiàn)指數(shù)增長規(guī)律。這里借助論文增長的指數(shù)規(guī)律,對數(shù)據(jù)科學(xué)1980年-2016年相關(guān)的論文進(jìn)行數(shù)據(jù)統(tǒng)計,并用1980年-2014年的論文數(shù)據(jù)進(jìn)行指數(shù)擬合,對2015年-2021年進(jìn)行預(yù)測,其中用2015年與2016年的論文數(shù)據(jù)對數(shù)據(jù)預(yù)測的準(zhǔn)確性進(jìn)行驗證。為直觀地表達(dá)數(shù)據(jù)科學(xué)論文的變化趨勢,以發(fā)文時間為橫坐標(biāo),發(fā)文量為縱坐標(biāo),畫出數(shù)據(jù)科學(xué)發(fā)文隨時間變化散點圖(如圖1所
示)。根據(jù)數(shù)據(jù)科學(xué)文獻(xiàn)的散點變化可以看出有相對明顯的數(shù)據(jù)增量的是1996年和2004年,這兩個增長點可以得到合理的解釋,因為1996年的“data science”首次作為術(shù)語出現(xiàn)在會議標(biāo)題中:“Data Science,classification,and related methods”[13],2001年,美國計算機(jī)科學(xué)家William S.Cleveland將“data science”作為一門獨立學(xué)科介紹,在2004年數(shù)據(jù)科學(xué)這門學(xué)科開始被大家普遍接受并開始應(yīng)用。根據(jù)圖1數(shù)據(jù)科學(xué)文獻(xiàn)的發(fā)展擬合曲線,可知數(shù)據(jù)科學(xué)論文的產(chǎn)出接近指數(shù)型增長,符合萊普斯指數(shù)增長規(guī)律并且曲線的擬合度較高(R2=0.9983)。所以可以通過SAS軟件比較自信的做出2014年后七年的預(yù)測,用2015年-2016年的數(shù)據(jù)對論文的預(yù)測準(zhǔn)確性進(jìn)行驗證。因為數(shù)據(jù)是非平b>0穩(wěn)時間序列,所以通過構(gòu)建自回歸滑動平均模型ARMA(1,1)對2014年后七年的論文量進(jìn)行預(yù)測:,其中B為延遲算子,相當(dāng)于把當(dāng)前序列值的時間回?fù)芰艘粋€時刻,{εt}為隨機(jī)干擾序列。通過圖2對后七年的論文量擬合預(yù)測,預(yù)測到2015年和2016年的論文量分別為740192篇和796584篇,數(shù)據(jù)庫中2015年和2016年的論文量為731294篇和775968篇,通過數(shù)據(jù)驗證,預(yù)測準(zhǔn)確性很高。所以可以相對保守估計出,在2016年之后未來發(fā)展中,五年內(nèi)會發(fā)文4887767篇,近三年內(nèi)數(shù)據(jù)會有32.1%的增長率。為了檢驗預(yù)測的可靠性,利用隨機(jī)抽樣抽取 Science,Nature,Lecture Notes In Computer Science(Including subseries Lec?ture Notes In Artificial Intelligence And Lecture Notes In Bioinformatics)三 種 雜 志 ,得 到 1980年-2016年“data science”論文在這三種期刊總發(fā)文量中所占比例,通過平滑處理后得到數(shù)據(jù)科學(xué)在期刊發(fā)文量中的占比變化折線圖。結(jié)果如圖3所示,在三種雜志中,“data science”論文所占比例從1980的0.0071逐漸上升至2016年的0.037。在此驗證了上文對“data science”學(xué)科發(fā)文量趨勢預(yù)測的正確性。
圖1 1980年-2014年國際數(shù)據(jù)科學(xué)文獻(xiàn)增長年度分布
圖2 數(shù)據(jù)科學(xué)2015年-2021年七年發(fā)文量增長預(yù)測
圖3 數(shù)據(jù)科學(xué)在期刊發(fā)文量中占比曲線圖
研究論文的來源國家分布,能幫助研究人員認(rèn)清當(dāng)前在某一領(lǐng)域較為進(jìn)步的國家和地區(qū),從而幫助研究人員認(rèn)識本國該領(lǐng)域在國際上所處的位置,找到標(biāo)桿國家,從而進(jìn)行更有效的學(xué)習(xí)研究[14]。SCOPUS數(shù)據(jù)庫中收納了167個國家的發(fā)文量信息以及24905篇國家歸屬未知的文章。因為前39個國家的發(fā)文量達(dá)到總量的90%,所以只對前39個國家進(jìn)行聚類分析。根據(jù)數(shù)據(jù)科學(xué)不同發(fā)展階段進(jìn)行聚類,從而探究數(shù)據(jù)科學(xué)在各個國家的發(fā)展情況。
獲取占全球發(fā)文量90%的39個國家1980年-2016年發(fā)文量后,通過對數(shù)據(jù)標(biāo)準(zhǔn)化處理:,其中 fI(t)為I國在t時刻論文所占本國總發(fā)文量的比重,NI(t)為t時刻I國與數(shù)據(jù)科學(xué)相關(guān)的發(fā)文量,NI表示I國從1980年-2016年的總發(fā)文量。標(biāo)準(zhǔn)化數(shù)據(jù)后基于柯爾莫哥洛夫-斯米爾諾夫距離D=max | f(x)-g(x)|求得距離矩陣D。因為自變量是時間,所以距離矩陣D是基于時間求得的兩兩國家論文數(shù)據(jù)隨時間演變的最大值。獲得距離矩陣后,結(jié)合系統(tǒng)聚類法將其聚類。對一般問題,各種聚類得出的結(jié)果通常都不一樣。每一種聚類都代表某種合理但具有傾向的解釋。但是,通過對1980年-2016年的國家進(jìn)行聚類方法實驗比較后,發(fā)現(xiàn)在的問題中,聚類的劃分都趨向一致。說明利用的距離矩陣和系統(tǒng)聚類方法,結(jié)果比較穩(wěn)定,有很好的可靠性。為了計算的方便,下面均選擇系統(tǒng)聚類方法中的類平均法,分時間段對國家數(shù)據(jù)進(jìn)行聚類。
在1996年和2001年數(shù)據(jù)科學(xué)有兩件標(biāo)志性的事件,分別是第一次提出數(shù)據(jù)科學(xué)和數(shù)據(jù)科學(xué)成為一門獨立學(xué)科的時間,因此以1996年和2001年為結(jié)點,將時間區(qū)域劃分為1980年-1996年,1996年-2001年,2001年-2016年。針對數(shù)據(jù)科學(xué)三個不同發(fā)展階段,對39個國家進(jìn)行了聚類分析,使得三個時間段內(nèi)論文變換走勢接近的國家聚成一類。折線圖可以顯示隨時間t而變化的連續(xù)數(shù)據(jù),可以看出在相同的時間間隔下,數(shù)據(jù)的趨勢變化情況。所以將聚類和折線圖結(jié)合對三個時間段每一類的國家論文趨勢進(jìn)行分析。
在1980年-1996年的聚類中,為了使國家間有相對的可比性,讓分類盡量豐富并減少單個國家分一類的情況,通過實驗比較,選擇了將1980年-1996年的國家論文數(shù)據(jù)分為9類。通過對1980年-1996年,1980年-1996年,1980年-1996年的聚類圖以及每一類的折線走勢,可以直觀地了解到早期各類國家的論文走勢。從附錄中1980年-1996年來源國聚類圖以及各類別折線趨勢圖可以看出,早期各國家的數(shù)據(jù)科學(xué)論文比例都呈現(xiàn)出一定的波動,其中類5中的芬蘭、捷克和類8的馬來西亞呈現(xiàn)較多的數(shù)據(jù)波動,說明早期數(shù)據(jù)科學(xué)的發(fā)展中,相比其他國家,這些國家的數(shù)據(jù)科學(xué)發(fā)展還不穩(wěn)定。從總的折線圖趨勢可以看出所有國家的論文數(shù)據(jù)都在1994年或1995年開始增長,說明數(shù)據(jù)科學(xué)在1996年第一次被提出前,很多國家對數(shù)據(jù)科學(xué)都已經(jīng)開始發(fā)展,也為1996年數(shù)據(jù)科學(xué)的提出提供了基礎(chǔ)。通過1980年-1996年的國家聚類結(jié)果看出,中國與韓國較為接近,并且與日本、加拿大等發(fā)達(dá)國家聚為一類,說明早期在數(shù)據(jù)科學(xué)提出時,這些國家對一個新領(lǐng)域的提出都有很好的敏感度。從數(shù)據(jù)科學(xué)各國家發(fā)文量占全球發(fā)文量所占比例來看,早期美國發(fā)文量所占比例遠(yuǎn)高于同時期的其他國家。
為了不使單個國家聚為一類的情況增多,例如新加坡不獨自成為一類,使得各類別之間更有比較性,選擇將國家聚為9個類別??梢酝ㄟ^附錄中1996年-2001年論文來源國各類別折線圖看出,1996年之后,論文來源國的各個類別走勢接近,并且各國家的論文走勢不再像1996年之前一樣數(shù)據(jù)波動并且趨勢各異。各國家的數(shù)據(jù)開始呈現(xiàn)出類似規(guī)律的變化,總體呈現(xiàn)出在1998年前的小幅度增長后,在1998年-1999年論文小幅度降低后開始快速上升。相比其他國家的數(shù)據(jù)科學(xué)發(fā)展,類6中的馬來西亞與中國在數(shù)據(jù)科學(xué)提出到成為獨立學(xué)科這幾年,發(fā)展起步較為緩慢。通過1996年-2001年的論文來源國聚類圖得出,美國作為科技排名第一的國家自成一類。加拿大、德國、意大利、法國、日本等發(fā)達(dá)國家論文走勢接近,聚為一類,說明這些發(fā)達(dá)國家早期對數(shù)據(jù)科學(xué)呈現(xiàn)出很強的學(xué)科靈敏度。中國與韓國、瑞士、英國、俄羅斯等國家,聚為一類,說明在數(shù)據(jù)科學(xué)剛提出的近幾年,這些國家也開始投入研究并發(fā)展數(shù)據(jù)科學(xué)。
為了避免單一國家(比如美國)聚為一類,使得各類別內(nèi)的國家更多,選擇將2001年-2016年39個國家聚為7類。當(dāng)類別從9類變?yōu)?類時,澳大利亞,南非兩個國家的類別組合進(jìn)日本、馬來西亞等國的類7,當(dāng)類別從8類變?yōu)?類時,美國由獨立的類別加入進(jìn)了原本新加坡與烏克蘭的類3。通過類別的減少變換,可以找到各國家相對距離較近的類別,從而探索以往單獨一類的國家所屬類別的變化。通過圖5的折線趨勢圖得出,數(shù)據(jù)科學(xué)在2001年正式成為一門獨立學(xué)科后,各國家的論文比例普遍在2002年-2004年降低,說明隨著數(shù)據(jù)科學(xué)成為一門獨立學(xué)科后,數(shù)據(jù)科學(xué)論文的定義與要求都有了更全面規(guī)范的要求。2004年以后,各國家的論文比例普遍增長,說明隨著數(shù)據(jù)科學(xué)成為獨立學(xué)科并規(guī)范要求后,該學(xué)科開始呈現(xiàn)相對穩(wěn)定的增長。通過圖4的國家聚類圖得出,美國作為科技最發(fā)達(dá)的國家,隨著類別減少,開始與新加坡,烏克蘭聚為一類。奧地利、新西蘭,意大利、比利時、加拿大等發(fā)達(dá)國家聚為一類。亞洲GDP前四名中的中國、韓國、印度聚到了一類,并且2001年-2016年是三個時期中中國距離眾發(fā)達(dá)國家最近的時期,說明在數(shù)據(jù)科學(xué)成為獨立學(xué)科后,亞洲的中國、韓國、印度等這些國家緊隨發(fā)達(dá)國家之后大力發(fā)展數(shù)據(jù)科學(xué)。近幾年隨著大數(shù)據(jù)時代的到來,全球各國家對數(shù)據(jù)科學(xué)都極其敏感并且都正在迎合,大力發(fā)展數(shù)據(jù)科學(xué)。
圖4 2001年-2016年國家聚類圖及其分類
圖5 2001年-2016年聚類各類別折線趨勢圖
比較三個時間段的聚類結(jié)果,每一個時間段,都會出現(xiàn)一個國家較多的類別,并且,該類別包括的國家大都在對應(yīng)時期實力靠前。通過對三個時期的領(lǐng)頭類別國家對比發(fā)現(xiàn),加拿大、以色列、意大利、荷蘭、比利時這些經(jīng)濟(jì)實力較強的國家始終都在該類別中,數(shù)據(jù)科學(xué)發(fā)展的三個不同時期,都存在一個當(dāng)時實力領(lǐng)頭的國家類別,隨著時間發(fā)展,中國距離該類別越來越近,中國對數(shù)據(jù)科學(xué)的發(fā)展從起初的發(fā)展緩慢到最后的緊臨領(lǐng)頭國家類別,說明中國對一個新興學(xué)科發(fā)展的實力所在。
為了觀察與數(shù)據(jù)科學(xué)相關(guān)機(jī)構(gòu)的起伏變化,把自1980年至2016年中相鄰兩年的機(jī)構(gòu)排名進(jìn)行了比較。由于機(jī)構(gòu)數(shù)量較多,選擇了每年的發(fā)文量前30名進(jìn)行了排名比較。比較兩種排名之間的異同,可以根據(jù)逆序數(shù)[15]進(jìn)行計算,T= ||t1+ ||t2+,其中ti為一個機(jī)構(gòu)在相鄰兩年的名次差,T為所有機(jī)構(gòu)在兩年中的名次變化總和。但是,運用逆序數(shù)會使得第二年未出現(xiàn)在前30名的機(jī)構(gòu)難以計算。所以使用Jaccard距離來衡量相鄰兩年機(jī)構(gòu)排名的變化程度:dj=1-J,其中Jac?card 系數(shù) J(rank1,rank2)[16]通過給相鄰兩年的排名機(jī)構(gòu)從前至后依次賦值30,29,28,…,0后計算
得到。最后通過計算Jaccard距離來衡量相鄰兩年的機(jī)構(gòu)變動程度。例如:當(dāng)相鄰兩年的機(jī)構(gòu)排名rank1,rank2 相 等 時 , J(rank1,rank2)=1 ,d(rank1,rank2)=0;當(dāng)相鄰兩年的機(jī)構(gòu)排名始終不相等時,J(rank1,rank2)=0,d(rank1,rank2)=1。對相鄰兩年的機(jī)構(gòu)排名變化程度進(jìn)行量化得出折線圖后,通過統(tǒng)計學(xué)中的滑動平均處理找到機(jī)構(gòu)變化幅度大的幾個年份和變化較大的機(jī)構(gòu)。如圖6所示,1981年-1982年,1986年-1987年,1994年-1995年,2006年-2007年,2011年-2012年的機(jī)構(gòu)變化較大。針對這五年,將機(jī)構(gòu)排名列舉出來,在附錄中可見放大后的機(jī)構(gòu)比較圖。通過比較,發(fā)現(xiàn)1996年第一次提出數(shù)據(jù)科學(xué)之前,機(jī)構(gòu)排名的波動較大,造成機(jī)構(gòu)排名波動的原因是大學(xué)發(fā)文量排名的起伏。在2001年數(shù)據(jù)科學(xué)成為一門獨立學(xué)科之后,波動較大的兩個階段是2006-2007年和2011-2012年度,這兩年機(jī)構(gòu)間的波動幅度較小,并且機(jī)構(gòu)變動中大學(xué)名次一般上升。比如:在2006-2007年的機(jī)構(gòu)變動中,哥倫比亞大學(xué)上升7個名次,是這兩年上升名次最多的機(jī)構(gòu);在2011-2012年的機(jī)構(gòu)變動中,清華大學(xué)上升了6個名次,悉尼大學(xué)上升了5個名次。說明在高校在數(shù)據(jù)科學(xué)的文獻(xiàn)計量機(jī)構(gòu)中占了很大的比重,是發(fā)布文獻(xiàn)的主力軍。從機(jī)構(gòu)的排名變化中,中國科學(xué)院發(fā)文量一直穩(wěn)步增長,從1995年進(jìn)入前30,到2003年超過俄羅斯科學(xué)院一直居于第一。說明在研究數(shù)據(jù)科學(xué)的機(jī)構(gòu)中,中國科學(xué)院的研究力量不容小覷。與此同時,通過圖7機(jī)構(gòu)變化曲線與冪函數(shù)的擬合(R2=0.5185),可以看出,機(jī)構(gòu)變化的波動幅度在逐漸降低。說明隨著數(shù)據(jù)科學(xué)學(xué)科的發(fā)展與進(jìn)一步改善,全球各機(jī)構(gòu)也在不斷完善與發(fā)展,機(jī)構(gòu)的排名趨于平穩(wěn)化。
圖6 機(jī)構(gòu)變化折線圖
圖7 機(jī)構(gòu)變化折線擬合圖
基于SCOPUS中與數(shù)據(jù)科學(xué)相關(guān)的論文數(shù)據(jù),通過采用文獻(xiàn)計量學(xué)的可視化分析,對國際上數(shù)據(jù)科學(xué)的論文總量、論文來源國家,以及論文來源機(jī)構(gòu)按照不同的發(fā)展階段進(jìn)行了分析研究。首先對論文總量,通過指數(shù)擬合并建立回歸模型對數(shù)據(jù)科學(xué)的論文發(fā)展進(jìn)行預(yù)測,通過隨機(jī)抽樣驗證預(yù)測正確性后發(fā)現(xiàn)數(shù)據(jù)科學(xué)論文在未來幾年仍將持續(xù)指數(shù)型增長。顯示了數(shù)據(jù)科學(xué)作為一個新興學(xué)科的發(fā)展趨勢。其次,通過不同時間段對論文來源國家聚類的方法,實現(xiàn)了對數(shù)據(jù)科學(xué)不同研究階段的國家分析。通過三個階段聚類以及類別走勢分析,得出每個階段數(shù)據(jù)科學(xué)領(lǐng)域的領(lǐng)頭類別國家。并且隨著時間發(fā)展,中國、韓國、印度等國家緊隨發(fā)達(dá)國家之后,大力發(fā)展數(shù)據(jù)科學(xué)。比較三個不同階段,中國在數(shù)據(jù)科學(xué)領(lǐng)域從開始的邊緣國家,起初的發(fā)展緩慢到數(shù)據(jù)科學(xué)成為獨立學(xué)科后近幾年緊隨發(fā)達(dá)國家發(fā)展數(shù)據(jù)科學(xué),可見中國在新興學(xué)科的發(fā)展凸顯出很強的后勁。最后,大數(shù)據(jù)時代的到來,在科學(xué)研究中以及實際應(yīng)用中數(shù)據(jù)科學(xué)已經(jīng)成為一個非常重要的分支,數(shù)據(jù)科學(xué)學(xué)科呈現(xiàn)出快速增長階段。隨著中國對數(shù)據(jù)科學(xué)的重視與發(fā)展,中國科學(xué)院也走到了機(jī)構(gòu)中的前列。