田 靜,李 剛,張澳兵,譚 粵,雷盼榮
(1.黑龍江工程學(xué)院 測繪工程學(xué)院,哈爾濱 150050;2.長安大學(xué) 地質(zhì)工程與測繪學(xué)院, 西安 710054)
隨著我國北斗衛(wèi)星導(dǎo)航定位技術(shù)、天空地一體化、互聯(lián)網(wǎng)+和通信網(wǎng)絡(luò)等技術(shù)的不斷發(fā)展,地球表面上的特征、人和物都成為了可表征的地理時(shí)空大數(shù)據(jù)。隨著“大數(shù)據(jù)時(shí)代”的到來,從數(shù)量龐大的科研文獻(xiàn)中精簡知識(shí)體系、挖掘?qū)W科研究熱點(diǎn)、總結(jié)發(fā)展研究規(guī)律、追蹤學(xué)科研究動(dòng)態(tài),是研究地理信息系統(tǒng)發(fā)展趨勢(shì)的重要任務(wù)。在當(dāng)今大數(shù)據(jù)的時(shí)代背景下,不同于以往的基于人工設(shè)計(jì)或傳統(tǒng)方法獲取,文中以時(shí)空大數(shù)據(jù)挖掘技術(shù)對(duì)地理信息系統(tǒng)文獻(xiàn)“量化”(數(shù)據(jù)化)并進(jìn)行深入推理,采用文獻(xiàn)計(jì)量學(xué)、計(jì)算機(jī)可視化分析、定性和定量相結(jié)合的主要研究方法,并結(jié)合中國知網(wǎng)10 a間收錄的文獻(xiàn)數(shù)據(jù),為地理信息系統(tǒng)的研究脈絡(luò)及前沿?zé)狳c(diǎn)的預(yù)測與分析奠定了良好的數(shù)據(jù)基礎(chǔ)[1]。
時(shí)空大數(shù)據(jù)的挖掘與分析是一個(gè)復(fù)雜的過程,根據(jù)現(xiàn)有的地理信息系統(tǒng)文獻(xiàn)數(shù)據(jù)類型,文中采用基于圖論鏈接關(guān)系的自動(dòng)聚類算法,通過網(wǎng)絡(luò)收集與下載、編程爬取、預(yù)處理篩選重分類等時(shí)空大數(shù)據(jù)挖掘方法來獲得相應(yīng)的樣本文獻(xiàn)數(shù)據(jù)[2]。最后,通過對(duì)文獻(xiàn)年度發(fā)表數(shù)量變化趨勢(shì)進(jìn)行統(tǒng)計(jì)分析,利用關(guān)鍵詞、發(fā)文機(jī)構(gòu)、核心作者人物關(guān)系等指標(biāo)進(jìn)行科研合作網(wǎng)絡(luò)分析,并對(duì)上述分析結(jié)果進(jìn)行統(tǒng)計(jì)和整合[3]。同時(shí),利用引文空間軟件的結(jié)構(gòu)性和時(shí)間性等特殊指標(biāo),將原來的聚類生成時(shí)態(tài)視圖并加以分析,多方面展現(xiàn)不同聚類發(fā)展演變的時(shí)間脈絡(luò)和研究進(jìn)程。
將2010—2020年10 a間中國知網(wǎng)收錄的以“地理信息系統(tǒng)”為主題的文獻(xiàn)作為樣本,提取出這些文獻(xiàn)的標(biāo)識(shí)符詳細(xì)信息(包含題名、作者、單位、文獻(xiàn)來源等相關(guān)數(shù)據(jù))。使用Excel,Python等工具對(duì)樣本文獻(xiàn)進(jìn)行分類、去重等數(shù)據(jù)預(yù)處理工作,將處理后的數(shù)據(jù)存入數(shù)據(jù)庫。隨后,運(yùn)用CiteSpace5.5R2、ArcGIS10.6軟件對(duì)文獻(xiàn)進(jìn)行聚類分析、共被引分析、科研合作網(wǎng)絡(luò)分析等操作,將分析結(jié)果使用時(shí)間線圖譜、地理信息空間地圖等可視化方式呈現(xiàn)并解讀。
CiteSpace5.5R2軟件(引文空間)是一款應(yīng)用于科學(xué)文獻(xiàn)中分析和可視化科學(xué)發(fā)展新動(dòng)態(tài)及新趨勢(shì)的Java程序[4]。結(jié)合中國知網(wǎng)收錄的數(shù)據(jù),借助于科學(xué)知識(shí)圖譜相關(guān)的研究方法對(duì)其進(jìn)行文獻(xiàn)計(jì)量化分析。首先,確定研究領(lǐng)域并收集該領(lǐng)域內(nèi)的關(guān)鍵詞及專業(yè)知識(shí)、術(shù)語、常識(shí)等相關(guān)數(shù)據(jù);其次,通過該軟件提取樣本數(shù)據(jù)中有關(guān)研究領(lǐng)域的前沿術(shù)語、熱點(diǎn)關(guān)鍵詞等,建立合理的圖譜分析解讀機(jī)制[5];最后,利用計(jì)算機(jī)算法對(duì)樣本數(shù)據(jù)進(jìn)行時(shí)區(qū)分割、科研合作網(wǎng)絡(luò)分析,選擇恰當(dāng)?shù)拈撝?,進(jìn)行數(shù)據(jù)的可視化表達(dá),具體軟件使用流程如圖1所示。
圖1 CiteSpace5.5R2軟件使用流程
文中所述的文獻(xiàn)數(shù)據(jù)是由中國知網(wǎng)(CNKI)提供的。首頁勾選“學(xué)術(shù)期刊”,通過“高級(jí)檢索”功能,將搜索需要用到的主題限定為“地理信息系統(tǒng)”,將發(fā)表時(shí)間限定在 2010—2020年,精確匹配檢索,最后在其檢索數(shù)據(jù)中篩選出“中文核心期刊和 CSSCI 來源期刊”,以便對(duì)這10 a間地理信息系統(tǒng)領(lǐng)域研究發(fā)展情況進(jìn)行更好的統(tǒng)計(jì)分析,得到2 914條結(jié)果。使用Excel和Python篩選出恰當(dāng)?shù)臄?shù)據(jù),最終得到2 821篇與文中有關(guān)的學(xué)術(shù)論著。
文中地理信息系統(tǒng)文獻(xiàn)數(shù)據(jù)研究用于分析該學(xué)科在單一主題的不同發(fā)展階段的演變趨勢(shì)。在時(shí)空大數(shù)據(jù)挖掘的基礎(chǔ)上,通過定性、定量或定性定量相結(jié)合的方法來架構(gòu)不同關(guān)鍵詞之間的關(guān)聯(lián),在此基礎(chǔ)上對(duì)地理信息系統(tǒng)的發(fā)展趨勢(shì)進(jìn)行探討[6]。
為了能夠快捷、高效并安全地處理、管理大量的文獻(xiàn)數(shù)據(jù),使用MySQL數(shù)據(jù)庫存儲(chǔ)處理后的文獻(xiàn)數(shù)據(jù)。最后將所有文獻(xiàn)數(shù)據(jù)導(dǎo)入CNKI數(shù)據(jù)表中,完成數(shù)據(jù)的前期準(zhǔn)備。CiteSpace5.5R2軟件將可視化圖譜中的節(jié)點(diǎn)和連線存儲(chǔ)為.net文件,從而可以利用Pajek或UCINET進(jìn)行知識(shí)網(wǎng)絡(luò)圖譜的繪制[7]。
為了滿足研究需要,在進(jìn)行數(shù)據(jù)分析前,需要對(duì)存在缺失值和重復(fù)值的數(shù)據(jù)進(jìn)行剔除。最后將所有數(shù)據(jù)按照發(fā)布時(shí)間進(jìn)行重排序,并添加新的列索引,按照行號(hào)建立唯一值索引。
關(guān)于地理信息系統(tǒng)領(lǐng)域文獻(xiàn)發(fā)表時(shí)間與發(fā)文量之間的關(guān)系,如圖2所示。由圖可知,自 2011 年以來,地理信息系統(tǒng)領(lǐng)域的發(fā)文量總體呈緩慢下降趨勢(shì),論文整體的發(fā)表數(shù)量不斷減少。另外,從整體刊載數(shù)量上看,最能反映地理信息系統(tǒng)前沿的核心文獻(xiàn)研發(fā)數(shù)量與全部文獻(xiàn)相比非常的不樂觀,表明我國對(duì)于地理信息系統(tǒng)的學(xué)術(shù)研究較少,重視程度不夠。這與該領(lǐng)域內(nèi)的研究人群相對(duì)分散、人員數(shù)量匱乏是直接相關(guān)聯(lián)的,期望能有更多的研究人員以新的研究理論、研究視角進(jìn)一步對(duì)地理信息系統(tǒng)學(xué)科做出高標(biāo)準(zhǔn)、高水平、高質(zhì)量的研究成果。
圖2 發(fā)文量年度變化趨勢(shì)圖(2010—2020年)
運(yùn)行 CiteSpace5.5R2軟件,時(shí)間切片是1 a,結(jié)點(diǎn)類型選擇作者,TOP N=50,其他參數(shù)為默認(rèn)設(shè)置。以 2010—2020年的時(shí)間跨度分析,排序方法主要是按照類團(tuán)當(dāng)中組織成員的人數(shù),結(jié)點(diǎn)越大表明該作者科研成果的信息控制和輸出能力越強(qiáng),如圖3所示。
圖3 樣本文獻(xiàn)作者關(guān)系網(wǎng)絡(luò)圖譜
在作者合作網(wǎng)絡(luò)分析的基礎(chǔ)上,過濾篩選前9個(gè)大小的網(wǎng)絡(luò)合作類團(tuán),調(diào)圖繪制得到圖4作者間研究關(guān)鍵詞聚類分類。
圖4 作者間研究關(guān)鍵詞聚類分類
以上大數(shù)據(jù)表明,通過與多位學(xué)者合作,尤其是通過各大高校之間的強(qiáng)強(qiáng)聯(lián)合,能夠產(chǎn)生極其龐大的影響力,也能創(chuàng)造出非凡的學(xué)術(shù)成果。因此,我國地理信息系統(tǒng)研究學(xué)者需要加強(qiáng)對(duì)地理信息系統(tǒng)領(lǐng)域多學(xué)科、多中心、跨領(lǐng)域的合作研究與開發(fā),逐漸建立起以核心作者為學(xué)術(shù)共同體或中堅(jiān)力量的共現(xiàn)網(wǎng)絡(luò),科研能力較強(qiáng)的學(xué)術(shù)機(jī)構(gòu)要加強(qiáng)對(duì)相對(duì)弱的機(jī)構(gòu)的合作指導(dǎo)并帶動(dòng)其發(fā)展。
研究機(jī)構(gòu)是針對(duì)某研究領(lǐng)域不斷發(fā)展的重要載體,對(duì)促進(jìn)學(xué)術(shù)交流、成果共享、資源互補(bǔ)等起著重要的導(dǎo)向作用。運(yùn)用CiteSpace5.5R2軟件的LLR算法篩選過濾,可以直觀地了解到機(jī)構(gòu)對(duì)地理信息系統(tǒng)研究領(lǐng)域的重視程度和影響力的分布情況,繪圖調(diào)整得到圖 5 機(jī)構(gòu)網(wǎng)絡(luò)共現(xiàn)圖譜[8]。
由圖5可知,節(jié)點(diǎn)最大的3個(gè)機(jī)構(gòu)分別是中國科學(xué)院大學(xué)(包括地理科學(xué)與資源研究所、研究生院)、武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室和南京師范大學(xué)虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室[4]。整理了發(fā)文量位于第一位的機(jī)構(gòu)與其他機(jī)構(gòu)的合作群落及其發(fā)文量年度趨勢(shì)圖,如圖6、圖7所示。
圖5 機(jī)構(gòu)網(wǎng)絡(luò)共現(xiàn)圖譜
圖6 機(jī)構(gòu)合作網(wǎng)絡(luò)圖譜(以2010—2020年間中國科學(xué)院大學(xué)為例)
圖7 發(fā)文量年度趨勢(shì)圖(以2010—2020年間中國科學(xué)院大學(xué)為例)
關(guān)鍵詞共現(xiàn)是提取該文獻(xiàn)所能表達(dá)其核心內(nèi)容的關(guān)鍵詞或主題詞詞頻的多少分布,用于研究該領(lǐng)域的研究熱點(diǎn),判斷其發(fā)展動(dòng)向[9]。利用CiteSpace5.5R2軟件,通過結(jié)果輸出可以看到包含節(jié)點(diǎn)479個(gè)和連線數(shù)302條,過濾器篩選引文數(shù)量最多的前20個(gè),可視化至明顯的結(jié)構(gòu)后生成圖譜并進(jìn)行網(wǎng)絡(luò)剪裁,調(diào)整圖譜得到圖8。
圖8 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜
在關(guān)鍵詞共現(xiàn)圖譜的基礎(chǔ)上,根據(jù)CiteSpace5.5R2軟件中默認(rèn)的算法自動(dòng)聚類,選取 LLR 算法,其他參數(shù)設(shè)置與機(jī)構(gòu)參數(shù)保持一致,調(diào)整圖譜[10]。文中通過合并整理展示前7位關(guān)鍵詞,間接反映了我國地理信息系統(tǒng)領(lǐng)域內(nèi)的研究前沿的熱點(diǎn),如表1所示。
表1 關(guān)鍵詞聚類與合并(前7位)
突發(fā)性探測是指1個(gè)變量的值在短時(shí)間內(nèi)激增,突然變成熱點(diǎn),被學(xué)術(shù)界所關(guān)注,可以理解為“百度指數(shù)”[11]。文中選擇前24個(gè)的項(xiàng)目,并按照“開始年份”“爆發(fā)強(qiáng)度”因素降序排列,通過調(diào)整默認(rèn)的伽馬值取值范圍,得到表2。由于突顯率具有延續(xù)性,因此如果該點(diǎn)在 2020 年也是紅色的,該點(diǎn)有能力在未來幾年繼續(xù)成為前沿的研究熱點(diǎn),也是廣大學(xué)者值得關(guān)注的一個(gè)技術(shù)分支,例如建筑信息模型(BIM)、地理環(huán)境、時(shí)空分布、空間自相關(guān)等。
表2 關(guān)鍵詞突顯率(前24位)
利用Timeline View功能進(jìn)行時(shí)態(tài)分析,合理調(diào)整坐標(biāo)軸的行間距,展示前10個(gè)聚類,調(diào)整圖幅得到圖9,即TOP10關(guān)鍵詞研究熱點(diǎn)時(shí)間線圖譜,使其更加清晰地展現(xiàn)出地理信息系統(tǒng)領(lǐng)域研究熱點(diǎn)的發(fā)展歷程。如圖9所示,交叉線最多的是地理信息系統(tǒng)和遙感,說明這兩個(gè)結(jié)點(diǎn)經(jīng)常與其他研究方向有交流合作的研究。
圖9 TOP10關(guān)鍵詞研究熱點(diǎn)時(shí)間線圖譜
文中用ArcGIS10.6軟件中的熱力分析工具統(tǒng)計(jì)的數(shù)據(jù)密度來直觀表現(xiàn)并驗(yàn)證文獻(xiàn)研究的空間熱力分布[12]。首先,在數(shù)據(jù)庫中找到符合實(shí)驗(yàn)主題的點(diǎn)數(shù)據(jù),從其屬性表中設(shè)置符合成圖風(fēng)格的屬性,之后將基于該屬性進(jìn)行熱力分析。檢核分析結(jié)果,如圖10所示是樣本數(shù)據(jù)熱力分析的結(jié)果,疏密有致,符合預(yù)期。
圖10 熱力分析
利用CiteSpace5.5R2和ArcGIS10.6軟件,對(duì)中國知網(wǎng)中2010—2020年以地理信息系統(tǒng)為主題的樣本文獻(xiàn)作上述分析,得出如下結(jié)論與建議:
1)采用的基于圖論鏈接關(guān)系的自動(dòng)聚類算法,彌補(bǔ)了傳統(tǒng)的聚類算法,如K均值算法、EM算法等都是建立在凸球形的樣本空間上,在樣本空間不為凸時(shí),算法會(huì)出現(xiàn)局部最優(yōu)這一缺陷[13]。
2)地理信息系統(tǒng)與新興技術(shù)的結(jié)合始終是一個(gè)熱點(diǎn)話題,我國地理信息系統(tǒng)已經(jīng)應(yīng)用到不同的領(lǐng)域解決相關(guān)的問題,其內(nèi)涵和外延正在不斷變化[14]。這10 a間的應(yīng)用研究表明地理信息系統(tǒng)領(lǐng)域在社會(huì)發(fā)展建設(shè)中依然有著很好的前瞻性和借鑒性。但近幾年來特別是在地理信息系統(tǒng)領(lǐng)域,研究有走向衰弱的趨勢(shì)。
3)地理信息技術(shù)呈現(xiàn)一些新的發(fā)展趨勢(shì):一是多類型公開產(chǎn)品的在線服務(wù)。二是從數(shù)據(jù)服務(wù)到知識(shí)服務(wù)。隨著大數(shù)據(jù)、數(shù)據(jù)庫、人工智能等軟件技術(shù)的成熟運(yùn)用,以及相應(yīng)的硬件技術(shù)的發(fā)展,我國已逐漸認(rèn)識(shí)到深度挖掘時(shí)空大數(shù)據(jù)、提取地理空間知識(shí)的重要性,相繼推出了面向空間數(shù)據(jù)整合與分析的服務(wù)平臺(tái)。需要不斷溫故知新、創(chuàng)新思路,要充分關(guān)注以學(xué)科為核心的信息技術(shù)變化與更新。在當(dāng)前大數(shù)據(jù)時(shí)代背景下,旨在通過時(shí)空數(shù)據(jù)建立起將地理信息、測繪和通信服務(wù)融合為一體的共享系統(tǒng),實(shí)現(xiàn)立足于數(shù)據(jù)驅(qū)動(dòng)的技術(shù)科學(xué)發(fā)現(xiàn)和決策支撐平臺(tái)。
4)近5 a內(nèi),“研究所、技術(shù)研究中心、重點(diǎn)實(shí)驗(yàn)室”等機(jī)構(gòu)在我國高校的地理信息系統(tǒng)領(lǐng)域內(nèi)具有較強(qiáng)的科學(xué)研究和輸出能力。通過人才引進(jìn)等渠道,有針對(duì)性地選擇和進(jìn)行人才引入,將自己所在高校的人員,進(jìn)行有目標(biāo)性的培養(yǎng)和派遣到其相應(yīng)的知名學(xué)者或機(jī)構(gòu)下,實(shí)現(xiàn)交流和學(xué)習(xí)的整體性融合推進(jìn),以此來進(jìn)一步促使我國大學(xué)生對(duì)地理信息系統(tǒng)領(lǐng)域研究的整體性推進(jìn)。
5)文中研究主要針對(duì)10 a間中國知網(wǎng)收錄的地理信息系統(tǒng)相關(guān)文獻(xiàn)進(jìn)行發(fā)展趨勢(shì)的分析和預(yù)測,拘于樣本數(shù)據(jù)的有限性,缺少除中文核心外其他文獻(xiàn)數(shù)據(jù)的支撐,未能建立起全面的發(fā)展脈絡(luò)分析和預(yù)測模型。由此發(fā)現(xiàn),文中結(jié)論適用于近10 a來的發(fā)展情況,但不適用于橫向?qū)Ρ龋虼擞写谶M(jìn)一步的深入研究。