關鍵詞: 計算機科學與技術 關鍵詞 研究頻次 高被引論文 SCIE 論文
對某一時刻正在關注的熱點領域,涌現(xiàn)的具有發(fā)展?jié)摿Φ难芯糠较蚝涂茖W研究中最先進、最新的研究主題進行的科學分析,可以為研究人員提供所關注領域的研究動態(tài),找到具有價值的研究方向或潛在研究領域[1]。
學科研究熱點與學科發(fā)展前沿是一個學科發(fā)展的航向標[2]。關鍵詞是分析研究領域內(nèi)熱點前沿問題的重要抓手,分析高頻關鍵詞是挖掘熱點問題的常用方法。為了探索計算機科學與技術學科的研究熱點及前沿問題,文章采用2011—2020 年江西高校計算機科學與技術學科排名前10% 的高被引論文的關鍵詞,以及被SCIE 收錄論文的關鍵詞詞頻數(shù)據(jù)進行統(tǒng)計分析,以期為相關人員提供參考。
1 數(shù)據(jù)來源和統(tǒng)計方法
1.1 數(shù)據(jù)來源
文章以中國高??蒲谐晒y(tǒng)計分析數(shù)據(jù)庫、中國學術期刊全文數(shù)據(jù)庫(CNKI)、科學引文索引(SCIE)為數(shù)據(jù)統(tǒng)計來源。
1.2 檢索策略
首先,分別以南昌大學、江西師范大學等江西省30 所高校名稱為檢索詞,在中國高??蒲谐晒y(tǒng)計分析數(shù)據(jù)庫中,檢索下載江西高?!坝嬎銠C科學與技術”學科,2011—2020 年排名前10% 的高被引論文數(shù)據(jù)條目,然后再通過獲取到的排名前10% 高被引論文的題名或作者等字段信息,在CNKI 中檢索下載到對應論文的關鍵詞,檢索截止時間分別為2021 年4 月15 日和2021 年11 月26 日。
其次,在SCIE 數(shù)據(jù)庫中,選擇機構擴展輸入江西30 所高校的英文名,進行檢索,并利用Incites 工具軟件,精練出2011—2020 年間,江西高?!坝嬎銠C科學與技術學科”被SCIE 收錄的文獻類型為Article 的論文信息,數(shù)據(jù)采集時間為2021 年12 月8 日。
1.3 數(shù)據(jù)處理和統(tǒng)計方法
利用Excel 對數(shù)據(jù)進行去重和統(tǒng)計分析。
2 高被引論文分析
高被引論文是指在一定的時間和研究范圍內(nèi),被引用頻次較高的學術論文,被引頻次越高,意味著論文的學術價值和影響力越大[3],一定程度上可以體現(xiàn)某學科或專業(yè)方向的研究前沿和熱點。故文章對江西高校計算機科學與技術學科,2011—2020 年,國內(nèi)研究論文排名前10% 的655 篇高被引論文的關鍵詞進行了統(tǒng)計分析,以直觀呈現(xiàn)計算機科學與技術學科的研究態(tài)勢。
2.1 關鍵詞研究概覽統(tǒng)計分析
關鍵詞概括了研究者的主要內(nèi)容、學術思想和主要研究方法,能夠反映文章的研究方向和范圍,是科學定量研究的重要指標[4]。某個學術領域的研究熱點反映的是在某一時期內(nèi)研究人數(shù)多、研究范圍廣、研究層次深的問題,其中關鍵詞作為一篇文章的核心凝練,其出現(xiàn)的頻次能夠較為準確地反映這一時期該領域的研究熱點內(nèi)容[5]。關鍵詞出現(xiàn)的頻次越多,說明該研究比較火熱。
根據(jù)數(shù)據(jù)透視結果顯示,江西30 所高校2011—2020 年,計算機科學與技術學科排名前10% 的655 篇高被引論文,共涉及關鍵詞2 162 個,詞頻累計2 892次。詞頻在10 次及以上的關鍵詞有11 個,僅占2 162個的0.51%,其詞頻為191 次,占2 892 個的6.60%;詞頻在2~9 次的關鍵詞有298 個,占2 162 個的13.78%,其詞頻為848 次,占2 892 個的29.32%;詞頻為1 次的關鍵詞有1 853 個,占關鍵詞2 162 個的85.71%,其詞頻為1 853 次,占2 892 個的64.07%;說明該學科領域內(nèi)的研究方向既分散又高度集中。其中詞頻在10 次以上的關鍵詞依次是圖像處理、圖像分割、深度學習、機器視覺、卷積神經(jīng)網(wǎng)絡、特征提取、云計算、支持向量機、邊緣檢測、主成分分析、目標跟蹤。被研究最多的關鍵詞是圖像處理,詳情見圖1。
2.2 熱點關鍵詞研究趨勢分析
為了進一步探究計算機科學與技術學科研究熱點的趨勢,文章對關鍵詞的年度分布進行了統(tǒng)計分析,從時間維度展現(xiàn)了這些關鍵詞在不同時段研究的演化過程。
2.2.1 詞頻在10 次及以上熱點研究趨勢分析
研究熱點是指在某一時間段內(nèi),有內(nèi)在聯(lián)系的、數(shù)量相對較多的一組論文所探討的問題或專題[6]。表1統(tǒng)計分析了詞頻在10 次及以上的前沿熱點的年度分布情況。數(shù)據(jù)顯示,卷積神經(jīng)網(wǎng)絡是近4 年才出現(xiàn)的研究熱點;圖像處理、機器視覺等關鍵詞研究的時間跨度長,是該領域被持續(xù)關注的熱點;其余詞頻在10 次以上的關鍵詞年度研究軌跡詳情具體如表1 所示。在這些研究熱點中,圖像分割、云計算及主成分分析的研究基本處于逐年減少的趨勢,在2020 年也無學者研究,其他熱點都得到了持續(xù)的關注,這部分熱點的研究可能還會持續(xù)一段時間。
2.2.2 近3 年熱點關鍵詞及未來研究方向分析
為了全面揭示該領域近期的研究熱點和未來研究方向,文章進一步統(tǒng)計了2018—2020 年新出現(xiàn)的關鍵詞共654 個,其中詞頻為3 次的關鍵詞有10 個,詞頻2次的關鍵詞有40 個。表2 列出了這3 年新出現(xiàn)且2020年有研究的關鍵詞研究情況。
數(shù)據(jù)顯示,近3 年新出現(xiàn)且詞頻在2 次以上的關鍵詞有直方圖、遷移學習、矩陣分解、區(qū)塊鏈、移動邊緣計算、形態(tài)學濾波、無人機、殘差網(wǎng)絡、長短期記憶神經(jīng)網(wǎng)絡等,是近期該學科領域內(nèi)新的關注點。
另外,2020 年新出現(xiàn)的關鍵詞一共有161 個,詞頻2 次以上的關鍵詞有4 個,詞頻1 次的關鍵詞有157 個,未來的研究方向可能從中產(chǎn)生,如區(qū)塊鏈、智能合約、教學改革與實踐、差分隱私、三維人臉識別、無監(jiān)督學習、同態(tài)加密、人臉超分辨率、火焰圖像識別等。
3 2011—2020 年SCIE 論文關鍵詞分析
SCIE 期刊是國際三大檢索系統(tǒng)之一,是由美國科學信息研究所創(chuàng)辦出版的引文數(shù)據(jù)庫,收錄的是國際上最具影響力的期刊,被許多國家和地區(qū)承認,具有反映科技論文質量和學術水平的功能,對科技工作者查閱最新文獻、跟蹤國際學術前沿、科研立項以及在具體的課題研究中及時了解國際動態(tài)都有很大幫助[7]。故本文選擇對江西高校計算機科學與技術學科SCIE 論文的關鍵詞進行統(tǒng)計分析。
3.1 關鍵詞概覽
在SCIE 中,選擇機構擴展輸入江西30 所高校的英文名,進行論文檢索,并利用Incites 工具軟件,精練出2011—2020 年間,江西高?!坝嬎銠C科學與技術學科”被SCIE 收錄的論文共2 592 篇,數(shù)據(jù)清洗后剩余2 340篇。然后利用Excel 對這些論文的作者關鍵詞進行數(shù)據(jù)清洗及同義詞聚類。表4 數(shù)據(jù)顯示,2 340 篇SCIE論文共涉及關鍵詞7 384 個,其中詞頻在10 次以上的關鍵詞有66 個,占7 384 個的0.89%,其頻次為1196次,占累計頻次11 144 次的10.73%,研究熱點相對集中且具有一定的持續(xù)性;詞頻2~9 次的關鍵詞有1 301個,占7 384 次的17.62%,其頻次為3 931 次,占11 144次的35.27%;詞頻為1 次的關鍵詞有6 017 個,占7384 次的81.49%,其頻次為6 017 次,占11 144 次的53.99%,從統(tǒng)計數(shù)據(jù)可看出,該領域研究的關注點既集中又分散。
表4 列出了詞頻在20 次以上的熱點關鍵詞,詞頻最多的關鍵詞是Feature extraction,高達52 次。
3.2 研究熱點的趨勢分析
為了深入探究國際上計算機科學與技術學科近10 年來的研究熱點及其發(fā)展變化,本文對作者關鍵詞研究的年度分布進行了數(shù)據(jù)透視,從詞頻和時間維度兩方面對該領域的研究熱點進行了統(tǒng)計分析。
3.2.1 10 年來熱點研究的演進趨勢
表5 列出了詞頻20 次以上關鍵詞的年度分布情況。根據(jù)表5 數(shù)據(jù)顯示,大部分關鍵詞都是近10 年被學者持續(xù)關注的熱點,在這些熱點當中,有的處于逐年下降趨勢,其研究熱度可能接近尾聲,會慢慢淡出人們的研究視野,如Scheduling、Sparse representation 等;有的是近5 年才出現(xiàn)的研究熱點,極大可能成為今后一段時間內(nèi)研究的前沿主題,如Deep learning、Convolutionalneural networks 等,其研究態(tài)勢呈現(xiàn)逐年上升趨勢;而Feature extraction、Particles warm optimization、Internet of Things、Optimization、Neural networks、Genetic algorithms 等關鍵詞既是人們持續(xù)關注的熱點,也是人們研究的前沿,研究時間跨度長、累計頻次高,且2020 年詞頻在10 次以上,其研究基本呈現(xiàn)持續(xù)增長態(tài)勢。
3.2.2 近3 年研究熱點
2018—2020年涉及的關鍵詞共4 161個,其中,詞頻在2次及以上的關鍵詞有531個,占4 161個的12.76%,近3 年研究熱點主要集中在Task analysis、Licenses、Artificial intelligence、Energy-efficiency 等關鍵詞上,表6 列出了最近3 年詞頻在6 次以上的關鍵詞。
3.2.3 最新研究前沿和未來方向
通過數(shù)據(jù)透視,對2020 年新出現(xiàn)的關鍵詞進行了數(shù)據(jù)統(tǒng)計,從中能較好地判斷該領域最新的研究熱點和預測未來的研究方向。
根據(jù)數(shù)據(jù)透視結果顯示,2020 年新出現(xiàn)的關鍵詞有1 725 個,占關鍵詞總量7 384 次的23.36%,其頻次1 923 次,占累計頻次總量11 144 次的17.26%,該學科領域最新的研究前沿和未來研究方向有可能從中產(chǎn)生。表7中列出了詞頻在3次以上的最新出現(xiàn)的關鍵詞。
4 結語
通過對江西高校計算機科學與技術學科國內(nèi)高被引論文及SCI 論文的關鍵詞分析,揭示了2011—2020年該領域的研究熱點和前沿。
(1)通過高頻關鍵詞分析發(fā)現(xiàn),2011—2020 年該領域國內(nèi)外的研究熱點主要集中在特征提取、深度學習、卷積神經(jīng)網(wǎng)絡、粒子群優(yōu)化、支持向量機、圖像分割、圖像處理、云計算等關鍵詞上,其中特征提取研究最多。
(2)從關鍵詞近3 年來研究頻次的年度統(tǒng)計結果顯示,計算機科學與技術學科領域近三年研究前沿集中在Task analysis、Licenses、Artificial intelligence(AI)、Energy-efficiency 等關鍵詞上。
(3)從2020 年新出現(xiàn)的關鍵詞詞頻統(tǒng)計結果顯示,該領域最具有發(fā)展?jié)摿Φ难芯糠较蛴锌赡茉贑omputational modeling、Hidden Markov models、Hybridactive power filter、Intelligent systems、Analytical models、Fall detection 等關鍵詞中產(chǎn)生。