李 靜,劉海硯,楊瑞杰,郭文月,楊明遠
(信息工程大學 地理空間信息學院,河南 鄭州 450001)
基于論文中高頻關鍵詞的GIS領域研究熱點的可視化分析
李 靜,劉海硯,楊瑞杰,郭文月,楊明遠
(信息工程大學 地理空間信息學院,河南 鄭州 450001)
文中對國內(nèi)GIS領域研究發(fā)展和研究熱點進行可視化分析。利用詞頻統(tǒng)計和共詞分析方法,并結(jié)合SPSS統(tǒng)計分析工具,以六大測繪期刊2006—2015年學術論文為數(shù)據(jù)源,分析GIS領域發(fā)文規(guī)律、高頻關鍵詞在時間維度上的分布規(guī)律和聚類特點,發(fā)現(xiàn)近五年來國內(nèi)對GIS領域研究在發(fā)文數(shù)量上呈逐年下降趨勢,且近10年間GIS領域主要關注WebGIS相關應用、地理信息服務、地圖制圖與可視化、數(shù)字城市建設及空間關系相關理論技術5個方面的研究,從一定程度上揭示GIS領域的研究熱點及發(fā)展狀況。
GIS;關鍵詞;研究熱點;共詞分析;可視化
學術論文是用來進行學術領域的研究和描述學術研究成果,既是探討問題進行學術研究的一種手段,又是描述學術研究成果進行學術交流的一種工具。對學術研究而言,相關文獻的梳理、綜述和分析研究,是學者從事個人研究的基礎。學術論文在很大程度上傳播和推廣了科學家們的研究理論與成果,促進研究者之間的交流,推動科技進步與發(fā)展。與此同時,關鍵詞是學術論文所具備的獨特要素,也是將學術論文與其他類型文本區(qū)別的重要特征之一。關鍵詞是學術論文中承載各類學術概念的最小單位,而通過對學術論文高頻關鍵詞的分析,可以發(fā)現(xiàn)并把握科技發(fā)展的動態(tài),為研究人員提供參考依據(jù)。
目前,我國學術論文的發(fā)文量逐年遞增,每年出版數(shù)百萬篇學術論文。截止2013年,根據(jù)統(tǒng)計數(shù)據(jù)指出,我國的科技期刊已達到4 944種。CNKI收錄的測繪類學術論文,至今已有118 654篇,而僅2015年收錄的就達8 150余篇。
就當前地理信息系統(tǒng)(Geographic Imformation System,GIS)方向來講,對于數(shù)量多、研究內(nèi)容種類多的學術論文,缺乏有效的、合理的、直觀的方法對其進行系統(tǒng)的梳理,缺乏對GIS領域研究熱點、研究發(fā)展等問題的定量研究。如何更高效、更直觀地了解GIS學科的發(fā)展歷史及發(fā)展動態(tài),已成為當前亟待解決的問題。
本研究從文本數(shù)據(jù)分析角度出發(fā),結(jié)合文獻計量學方法以及可視化分析相關理論,以期刊論文為數(shù)據(jù)源,計算出高頻關鍵詞,通過對高頻關鍵詞的可視化分析,完成從單一指標、概略估計的數(shù)據(jù)分析,向綜合指標、精確量化、可視圖形交互分析的轉(zhuǎn)變,從而解決對GIS領域研究熱點從定性到定量的表述,客觀地完成對GIS方向研究的知識梳理以及其發(fā)展規(guī)律的探索。
1.1 研究方法
本研究采用文獻計量學中詞頻統(tǒng)計和共詞分析方法對GIS領域研究內(nèi)容進行定量表述,并主要通過標簽云方法、組合式統(tǒng)計圖表以及樹狀圖對詞匯級文本數(shù)據(jù)和關聯(lián)關系型數(shù)據(jù)進行可視化。
1.1.1 文獻計量學方法
文獻計量學原理為本文中所進行知識梳理和科學研究提供理論基礎[1]。所謂文獻計量學,即用數(shù)學和統(tǒng)計學的方法,定量地分析一切知識載體的交叉科學。它是集數(shù)學、統(tǒng)計學、文獻學為一體,注重量化的綜合性知識體系。其計量對象主要是:文獻量(各種出版物,尤以期刊論文和引文居多)、作者數(shù) (個人集體或團體)、詞匯數(shù)(各種文獻標識,其中以敘詞居多),文獻計量學最本質(zhì)的特征在于其輸出的是“量”。其中,本研究所采用的詞頻分析和共詞分析法是當前應用較為廣泛的文獻計量學方法。
1)詞頻分析法[2]是利用能夠揭示或表達文獻核心內(nèi)容的關鍵主題詞在某一研究領域文獻中出現(xiàn)的頻次高低來確定該領域研究熱點和發(fā)展動向的文獻計量方法。
2)共詞分析方法[4]最早在20世紀70年代中后期由法國文獻計量學家提出。其主要原理是通過兩兩主題詞同時出現(xiàn)在一篇文章中的次數(shù)的多少,來衡量主題詞間的親疏程度和關聯(lián)關系。本研究通過計算兩兩高頻關鍵詞之間的共現(xiàn)次數(shù),構(gòu)造共現(xiàn)矩陣,進行聚類分析,從而反映在多層次聚類下的知識單元在空間和時間分布上的演進關系和研究熱點等問題。
1.1.2 可視化方法
本文通過對研究中所出現(xiàn)的不同類型的數(shù)據(jù),選用適當、準確的可視化方式,以便能夠合理、直觀地展示數(shù)據(jù)和揭示數(shù)據(jù)中所蘊含的信息和規(guī)律。研究中主要涉及兩種類型數(shù)據(jù):詞匯級文本數(shù)據(jù)和關聯(lián)關系型數(shù)據(jù),主要可視化方式包括:樹狀圖以及各種統(tǒng)計圖表。
1.2 數(shù)據(jù)處理
1.2.1 數(shù)據(jù)源
本研究以CNKI為主要的檢索平臺,收集了《測繪學報》《武漢大學學報(信息科學版)》《測繪科學與技術學報》《測繪通報》《測繪科學》《測繪工程》6大核心期刊2006—2015年共10年的14 725篇科技論文。
1.2.2 數(shù)據(jù)篩選
由于本研究主要關注GIS方向的研究熱點,而研究中的數(shù)據(jù)源主要以測繪期刊為主,涵蓋整個測繪領域的研究方向,如:GIS、大地測量、遙感、航空攝影測量等。因此,需要將涉及GIS方向的論文從中提取出來。
本研究以《國家自然科學基金地理學學科方向分類與關鍵詞(2012試用版)》中,地理信息系統(tǒng)(D0107)類別中涉及的514個關鍵詞作為提取依據(jù)。把該514個關鍵詞作為分類特征詞,將收集的期刊論文關鍵詞中包含有1個或1個以上分類特征詞的論文提取出來,作為研究對象。經(jīng)過數(shù)據(jù)篩選后,共提取出4 029篇關于GIS領域的學術論文。
2.1 發(fā)文量分析
表1是將6類測繪期刊2006—2015年間發(fā)文數(shù)量進行統(tǒng)計,包括六類期刊每年總的發(fā)文數(shù)量、每年涉及GIS方向的發(fā)文數(shù)量以及GIS方向的發(fā)文數(shù)量占總的發(fā)文數(shù)量的百分比。從中可以看出:①GIS方向每年的發(fā)文量平均在402.9篇,其中最大值為2010年的466篇,最小值為2015年319篇;②GIS方向每年的發(fā)文數(shù)量占總的發(fā)文數(shù)量的百分比平均為27.95%,其中最大值為2007年的36%,最小值為2014年的20.95%。由此可以反映出,涉及GIS相關方面的研究在測繪領域范圍內(nèi),占到多于1/4的比重,說明GIS對于整個測繪領域來講,占據(jù)著較為重要的地位。
表1 發(fā)文量統(tǒng)計
圖1是將表1中的內(nèi)容以條形圖和折線圖結(jié)合的形式可視化出來,以便更直觀的展現(xiàn)和更深層的理解表1中的數(shù)據(jù),從而發(fā)現(xiàn)數(shù)據(jù)中隱含的信息。圖1中,條形代表GIS方向的發(fā)文數(shù)量,折線代表GIS方向的發(fā)文數(shù)量占總的發(fā)文數(shù)量的百分比。從圖中可以看出:①從發(fā)文數(shù)量上看,在2006—2010年間,GIS方向的發(fā)文數(shù)量整體呈上升趨勢,但在2010—2015年間,發(fā)文量逐年減少;②從GIS方向的發(fā)文數(shù)量占總的發(fā)文數(shù)量的百分比上來看,自2007—2015年,GIS方向發(fā)文數(shù)量所占的百分比呈逐年下降的趨勢;③發(fā)文數(shù)量與百分比,并不成正比例關系,即該方向的發(fā)文數(shù)量上的增多,并不能說明對該方向上的研究增多。
圖1 發(fā)文量統(tǒng)計圖
2.2 高頻關鍵詞分析
本研究根據(jù)期刊論文數(shù)據(jù)特有的關鍵詞要素,以年為單位,采用武漢大學開發(fā)的ROST詞頻統(tǒng)計軟件對其進行統(tǒng)計,進行詞頻分析,從而反映研究內(nèi)容時間分布上的演進關系和研究熱點等問題。主要進行兩個方面的研究:①在時間層次上,探索高頻關鍵詞分布特征;②在非時間層次上,即整個研究時間段上,分析高頻關鍵詞間的共詞關系,從而完成對高頻關鍵詞的聚類。
2.2.1 高頻關鍵詞的時間分布特征
通過以年為時間單位,對每年的關鍵詞進行統(tǒng)計并剔除無用詞后,得出表2所示的結(jié)果。表2是將2006—2015年,每年詞頻排名在前10位的關鍵詞進行羅列。
表2 排名前10位的高頻關鍵詞統(tǒng)計表(2006—2015年)
表3將表2中所出現(xiàn)的關鍵詞再次進行統(tǒng)計。從表3中可以看出,在這10年間,出現(xiàn)頻次最大值為10,有且只有一個關鍵詞,即“空間分析”;頻次最小值為1,共有14個關鍵詞。
表3 關鍵詞出現(xiàn)頻次統(tǒng)計表(2006—2015年)
附:頻次指的是排名前10位關鍵詞在2006—2015年間所出現(xiàn)的次數(shù)
研究中,考慮到在時間上的連續(xù)性這一重要特征,故將在表1中連續(xù)出現(xiàn)5次以上的關鍵詞通過圖2的方式可視化表示出來。從圖2中可以較為明顯的看出:①“空間分析”這一關鍵詞跨越了整個研究時間段,從一定程度上表明,空間分析是GIS領域研究中的核心內(nèi)容,是GIS區(qū)別于一般的信息系統(tǒng)、CAD或者電子地圖系統(tǒng)的主要標志之一。②在時間段2009—2015年中,關鍵詞“可視化”連續(xù)出現(xiàn)6次,且所處的排名均比較靠前,從一定程度上可以看出,近年來,在GIS研究中可視化的地位居高不減,研究人員開始更加注重對圖形的表達,逐漸從單一的數(shù)據(jù)形式,邁入視覺化的思考模式。③在研究時間段前5年,即2006—2010年,關鍵詞“空間數(shù)據(jù)”連續(xù)出現(xiàn)5次,且排名處于遞減的狀態(tài)??臻g數(shù)據(jù)一直是整個GIS領域研究的基礎,在研究時間段的前5年中,空間數(shù)據(jù)的獲取、結(jié)構(gòu)、存儲、處理等問題一直是GIS研究中的熱點問題。④在研究時間段的后5年,即2011—2015年間,關鍵詞“制圖綜合”連續(xù)出現(xiàn),成為近些年來GIS研究領域持續(xù)的一個研究熱點。⑤在研究時間段中期,即2009—2013年間,“電子地圖”連續(xù)出現(xiàn),說明在該時間段內(nèi),GIS方向上,電子地圖成為該時期持續(xù)的一個研究熱點。
圖2 連續(xù)出現(xiàn)5次以上的高頻關鍵詞在時間維上的分布圖
2.2.2 高頻關鍵詞的共詞分析
本研究對2006—2015年間4 206篇關于GIS領域的學術論文中的15 319個關鍵詞進行統(tǒng)計并剔除了無用詞。根據(jù)計算得到平均每篇論文的關鍵詞約為3.64個。關鍵詞詞頻最大值為116,且有且只有一個;詞頻最小值為1,共有5 879個關鍵詞。
研究將詞頻大小排名前20位的關鍵詞作為高頻詞,即表4所示關鍵詞,進行共詞分析。
通過對表4中所示的關鍵詞進行兩兩共現(xiàn)次數(shù)統(tǒng)計,得到20×20的共詞矩陣。表5所示的為部分關鍵詞共詞矩陣。再將共詞矩陣通過計算Pearson相關系數(shù),轉(zhuǎn)換為相似性矩陣。最后再通過SPSS軟件對其進行系統(tǒng)聚類,結(jié)果如圖3(a)所示。
表4 排名前20位的關鍵詞
表5 高頻關鍵詞共詞矩陣(局部)|
圖3 高頻詞聚類樹狀圖
考慮到層次關系,以及關鍵詞數(shù)量上的均衡等因素,本研究將20個高頻詞聚類后劃分為5類,如圖3(b)所示。根據(jù)每一類中所包含的關鍵詞并結(jié)合包含該類關鍵詞的論文的研究內(nèi)容,總結(jié)出5個方面的研究熱點,分別是:
第1類,基于WebGIS應用的相關研究。該類包含5個高頻關鍵詞,即“空間數(shù)據(jù)庫”、“WebGIS”、“空間分析”、“空間數(shù)據(jù)”和“時空數(shù)據(jù)模型”。結(jié)合原始論文數(shù)據(jù),可以看出,該類主要研究內(nèi)容是指在WebGIS開發(fā)和應用過程中,空間數(shù)據(jù)庫的構(gòu)建、空間分析以及時空演變關系分析等方面的研究。
第2類,基于地理信息服務的相關研究。該類包含4個高頻關鍵詞,即“地理信息服務”、“本體”、“遙感”和“移動GIS”[4]。地理本體是表達地理概念以及地理概念之間關系的有效手段,包含本體屬性、一般關系和空間關系等語義信息,是實現(xiàn)地理信息共享和提供智能地理信息服務的一個研究重點。遙感技術為地理信息共享和服務提供基礎的數(shù)據(jù)支持和分析方法。隨著GPS技術、無線通信技術的發(fā)展,以及智能手機等移動終端設備的普及,移動GIS作為實現(xiàn)地理信息服務的一種重要方式也受到越來越多的關注。
第3類,地圖制圖與可視化方法研究。該類包含4個關鍵詞,即“可視化”、“數(shù)據(jù)庫”、“制圖綜合”和“數(shù)字高程模型”。制圖綜合一直是地圖制圖方向的研究重點,而數(shù)字高程模型作為一種空間數(shù)據(jù)模型在三維可視化、等高線綜合等方面都有著較好的應用。通過結(jié)合原始論文數(shù)據(jù),可以看出,該類研究內(nèi)容具體包括:空間數(shù)據(jù)的多尺度表達方法、空間數(shù)據(jù)可視化方法、數(shù)字高程模型應用等方面研究。
第4類,數(shù)字城市建設的相關研究。該類包含5個高頻關鍵詞,即“地理信息”、“數(shù)字城市”、“電子地圖”、“三維可視化”和“三維GIS”,具體包括地理信息獲取、電子地圖制作、三維可視化方法等在數(shù)字城市建設方面的應用。
第5類,空間關系相關理論研究。包含“拓撲關系”和“空間關系”兩個高頻關鍵詞??臻g關系是空間物體之間由空間物體的幾何特性(位置、形狀)所決定的關系,包括距離關系、拓撲關系、方向關系和相似關系,是空間信息科學的理論基礎之一,一直是空間信息科學理論研究的重點。結(jié)合原始論文數(shù)據(jù),可以看出,該類主要研究內(nèi)容是指對拓撲關系表達方法、空間關系相似度計算及模型化表達方式的理論研究。
本研究以2006—2015年10年間6種測繪期刊中的學術論文為研究對象,通過對論文關鍵詞的詞頻統(tǒng)計分析和共詞分析,發(fā)現(xiàn)了國內(nèi)GIS領域一些主要的研究內(nèi)容和研究規(guī)律。通過對高頻關鍵詞的相關統(tǒng)計和可視化分析,可以得出以下結(jié)論:
1)對于整個測繪領域來講,GIS方面的相關研究始終處于一個相對重要的地位。但近幾年對于GIS方面的相關研究呈現(xiàn)明顯的下降趨勢。
2)從GIS領域研究熱點在時間緯度上的分布特征可以看出,在研究時間段的前中后期,研究側(cè)重點分別從基礎的“空間數(shù)據(jù)”相關研究,過渡到應用型的 “電子地圖”相關研究,再到“制圖綜合”技術方法的相關研究。在此期間,空間分析作為GIS區(qū)別于一般信息系統(tǒng)的重要特征,一直是GIS領域研究中的核心內(nèi)容。
3)通過分析,GIS領域近10年在研究上的主要內(nèi)容,概括為5個方面,即:WebGIS相關應用、地理信息服務、地圖制圖與可視化、數(shù)字城市建設及空間關系相關理論技術。
[1] 溫克勒.基于科學計量學指標的科研評價[M].馬崢,等,譯.北京:科學技術文獻出版社,2014.
[2] 馬費成,張勤.國內(nèi)外知識管理研究熱點-基于詞頻的統(tǒng)計分析[J].情報學報,2006,25(2):163-171.
[3] CALLON M, LAW J.Rip, A.Mapping the Dynamics of Science and Technology:Sociology of Science in the Real World[M].Macmillan,1986.
[4] 苗瑾花,王家耀,成毅,等. 地理本體研究綜述及趨勢分析[J]. 測繪科學技術學報,2014(6):653-658.
[5] 王強,王家耀,姜艷媛,等. 基于P2P和本體的空間信息服務發(fā)布與發(fā)現(xiàn)[J]. 測繪科學技術學報,2009(6):454-457.
[6] 劉濤. 空間群(組)目標相似關系及計算模型研究[D].武漢:武漢大學,2011.
[7] 陳生,曾行吉,梁軍. 基于GIS的統(tǒng)計數(shù)據(jù)可視化研究[J]. 計算機工程與設計, 2008, 29(14): 3757-3759.
[8] 王曰芬. 文獻計量法與內(nèi)容分析法的綜合研究 [D]. 南京:南京理工大學, 2007.
[9] 王凱. 新聞文本集可視化模型研究[D]. 北京:中國地質(zhì)大學 (北京), 2013.
[10] 趙紅,趙良英.《測繪學報》論文及作者的統(tǒng)計分析[J]. 測繪學報,1998(3):88-95.
[11] JIAN Ping, ZENG Chengrong, WU Wei Wang. Multi-grain hierarchical topic extraction algorithm for text mining[J].Expert Systems with Applications,2010(37):3202-3208.
[12] 洪文學,王金甲.可視化和可視化分析學[J]. 燕山大學學報,2010(2):95-99,105.
[13] 李靜,劉海硯. 基于測繪期刊論文數(shù)據(jù)的可視分析[J]. 測繪通報,2016(6):50-54.
[14] 王家耀. 大數(shù)據(jù)時代的智慧城市[J]. 測繪科學,2014(5):3-7.
[責任編輯:張德福]
Visual analysis of hot spots in the field of GIS based on high frequency keywords in the paper
LI Jing,LIU Haiyan,YANG Ruijie,GUO Wenyue,YANG Mingyuan
(School of Geography Space Information, Information Engineering University, Zhengzhou 450001,China)
The paper tries to analyze the development and hot spots of the field of GIS in China. Using the analysis method of frequency statistics and co-word, combining with the SPSS statistical analysis tools, and taking academic papers from Chinese surveying and mapping journals from 2006 to 2015 as the data source, this paper analyzes the number of papers, high frequency keywords in the dimension of time distribution and clustering characteristics. The recent years papers in the field of GIS have been issued with the downward trend. The field of GIS is mainly concerned with five aspects: WebGIS applications, geographic information services, mapping and visualization, digital city construction, and the related theories of spatial relationship. This research reveals the hot spots and the development of the GIS field to a certain degree.
GIS;keyword;research hotspot;co-word analysis;visualization
2017-01-20
國家自然科學基金資助項目(41501446)
李 靜(1990-),女,碩士研究生.
著錄:李靜,劉海硯,楊瑞杰,等.基于論文中高頻關鍵詞的GIS領域研究熱點的可視化分析[J].測繪工程,2017,26(8):71-76.
10.19349/j.cnki.issn1006-7949.2017.08.015
P208
A
1006-7949(2017)08-0071-06