曲悅
[摘 要]以超星發(fā)現(xiàn)系統(tǒng)和中國知網(wǎng)為基礎(chǔ),利用文獻(xiàn)追溯法和數(shù)理分析法對近十年發(fā)表的與搜索引擎相關(guān)的期刊論文、學(xué)位論文、會議論文及圖書進(jìn)行計量分析,從學(xué)術(shù)趨勢研究、相關(guān)關(guān)鍵詞分析、核心作者、核心研究機(jī)構(gòu)、學(xué)科與核心期刊分布、高被引論文及高被引圖書幾個方面對搜索引擎的研究現(xiàn)狀進(jìn)行深入分析,并對研究中存在的問題提出了建議。
[關(guān)鍵詞]搜索引擎;計量分析;超星發(fā)現(xiàn);研究現(xiàn)狀
[中圖分類號]G254.928[文獻(xiàn)標(biāo)志碼]B[文章編號]1005-6041(2017)01-0049-05
1 引 言
搜索引擎(Search Engine)是指根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)[1]。自從1990年加拿大麥吉爾大學(xué)的師生開發(fā)出最早的搜索引擎Archie后,搜索引擎在互聯(lián)網(wǎng)時代得到了迅猛的發(fā)展,現(xiàn)在所有互聯(lián)網(wǎng)用戶,幾乎都離不開搜索引擎的幫助。因此,對于搜索引擎的研究一直都受到學(xué)術(shù)領(lǐng)域的密切關(guān)注,本文即是通過文獻(xiàn)計量的方法對搜索引擎的研究現(xiàn)狀進(jìn)行研究,希望能對相關(guān)研究人員提供一些借鑒。
2 數(shù)據(jù)源及統(tǒng)計工具
本文統(tǒng)計分析主要以中國知網(wǎng)(CNKI)和超星發(fā)現(xiàn)系統(tǒng)中的期刊、學(xué)位論文、會議論文及圖書為基本數(shù)據(jù)源,因為中國知網(wǎng)是世界上全文信息量規(guī)模最大的中文數(shù)據(jù)庫,其對于期刊、學(xué)位論文和會議論文的收錄量明顯高于其他數(shù)據(jù)庫。而超星發(fā)現(xiàn)平臺的圖書數(shù)據(jù)則來源于目前世界最大的中文電子圖書數(shù)據(jù)庫——超星數(shù)字圖書館。利用這兩個數(shù)據(jù)庫的四種主要文獻(xiàn)類型作為統(tǒng)計源,可以更加全面真實地反映搜索引擎的研究現(xiàn)狀。本次分析以2006—2015年為時間節(jié)點,跨度時間為10年,以“搜索引擎”作為關(guān)鍵詞進(jìn)行分析。分析工具主要采用超星發(fā)現(xiàn)平臺,該平臺除了有強(qiáng)大的后臺數(shù)據(jù)支持,還可以利用分面聚類、引文分析、知識關(guān)聯(lián)分析等方式,實現(xiàn)高價值學(xué)術(shù)文獻(xiàn)發(fā)現(xiàn)、縱橫結(jié)合的深度知識挖掘、可視化的全方位知識關(guān)聯(lián)功能[2]。這些功能完全契合了本次研究的目的,能夠全面地反映搜索引擎的研究現(xiàn)狀。
3 統(tǒng)計數(shù)據(jù)聚類分析
3.1 學(xué)術(shù)趨勢研究
通過科研成果的年產(chǎn)出量,可以判斷出該研究領(lǐng)域的學(xué)術(shù)研究趨勢和學(xué)術(shù)關(guān)注度。在科研領(lǐng)域,期刊論文、學(xué)術(shù)專著、學(xué)位論文及會議論文四種科研成果最受關(guān)注,因此,筆者將以上四種文獻(xiàn)類型科研成果近十年來關(guān)于搜索引擎研究的年產(chǎn)出量進(jìn)行統(tǒng)計,并繪制出趨勢折線圖。由于期刊論文的年產(chǎn)出量較其他三種類型在數(shù)量級上有較大差別,故將其折線圖與其他三種類型分開繪制。
從期刊論文的趨勢圖(圖1)可以看出,近十年來“搜索引擎”一直是一個很熱門的研究內(nèi)容,年發(fā)文量都超過了1 300篇。2006年之后,關(guān)于搜索引擎的期刊論文年發(fā)文量逐年增加,并在2010年達(dá)到了峰值,之后開始逐年下滑。可以看出,近十年,關(guān)于搜索引擎的研究已經(jīng)度過了研究高峰期,進(jìn)入了平穩(wěn)發(fā)展研究期。
為了證實上述觀點,筆者對所有關(guān)于搜索引擎的期刊論文進(jìn)行了回溯統(tǒng)計,發(fā)現(xiàn)最早一篇關(guān)于搜索引擎的論文發(fā)表于1996年,之后逐年增加。2003年年發(fā)文量超過1 000篇,之后年發(fā)文量迅猛增長,在2008—2012年,搜索引擎相關(guān)研究進(jìn)入迅猛發(fā)展期,年發(fā)文量超過2 000篇。2012年以后,相關(guān)研究年發(fā)文量雖然出現(xiàn)明顯的下滑趨勢,但是數(shù)量上仍然超過了1 300篇,這從一個側(cè)面證實搜索引擎已經(jīng)不再是一個新生事物,關(guān)于搜索引擎的研究也由原來的普遍研究轉(zhuǎn)向為縱深研究。
從學(xué)位論文、會議論文和學(xué)術(shù)專著的曲線圖(圖2)可以看出,學(xué)位論文的趨勢曲線圖與期刊論文的曲線圖保持一致。主要原因?qū)W位論文的作者都是碩士和博士研究生,而研究生更加偏好追蹤學(xué)術(shù)研究熱點,但其研究成果較期刊論文要稍顯滯后,所以學(xué)位論文曲線的峰值出現(xiàn)在2011年,再一次證明關(guān)于搜索引擎的研究于2010年左右達(dá)到高潮,之后熱點開始降低。會議論文作為研究熱點的風(fēng)向標(biāo),一直引領(lǐng)著學(xué)術(shù)研究的方向,因此,其論文產(chǎn)出一般早于期刊論文和學(xué)位論文,從圖2中的會議論文曲線中也驗證了這一點,即2006年至2009年論文產(chǎn)出量較高,同時也表明學(xué)術(shù)界在此期間開展了多次相關(guān)的學(xué)術(shù)會議。而學(xué)術(shù)專著的科研產(chǎn)出在相關(guān)研究領(lǐng)域初期,一般會滯后于學(xué)位論文的產(chǎn)出。但是發(fā)展到一定階段后,其科研產(chǎn)出曲線應(yīng)該與學(xué)位論文的曲線保持一致。從圖2的學(xué)術(shù)專著曲線中可以看出,同樣于2010年科研產(chǎn)出量達(dá)到了峰值,再次驗證,2010年為搜索引擎的研究高潮期。
3.2 相關(guān)關(guān)鍵詞分析
通過統(tǒng)計搜索引擎相關(guān)研究文獻(xiàn)的熱門關(guān)鍵詞,可以清晰該研究領(lǐng)域的發(fā)展方向和研究熱點,同時,亦可以根據(jù)統(tǒng)計結(jié)果了解該領(lǐng)域的潛在研究內(nèi)容和方向。利用超星發(fā)現(xiàn)平臺對與搜索引擎相關(guān)的關(guān)鍵詞按照出現(xiàn)頻次從高到低進(jìn)行排序,排除“搜索引擎”和“搜索”兩個關(guān)鍵詞,出現(xiàn)頻次超過100次的關(guān)鍵詞有30個,如表1。
從表1中可以看出,出現(xiàn)頻次最多的關(guān)鍵詞是“信息檢索”,表明搜索引擎最直接的用途即是信息檢索,而相關(guān)的研究也最普遍。排在第二位的是“Lucene”。Lucene是一個開放源代碼項目,可以為應(yīng)用程序添加索引和搜索能力,它于2000年發(fā)布第一個版本后,便在搜索引擎領(lǐng)域引起了巨大反響,關(guān)于它的研究也一直是搜索引擎領(lǐng)域的熱點。另外關(guān)于搜索引擎類型的研究也比較活躍,如“元搜索引擎”“垂直搜索引擎”。關(guān)于搜索引擎的相關(guān)技術(shù)研究也是該領(lǐng)域的核心內(nèi)容,如“中文分詞”“主題爬蟲”“信息抽取”“PageRank”“鏈接分析”等。另外,搜索引擎與其他領(lǐng)域的交叉研究也越來越受到研究者的關(guān)注,如“網(wǎng)絡(luò)營銷”“電子商務(wù)”等。
3.3 核心作者分析
通過個人發(fā)文量及單篇論文被引次數(shù)可以得到搜索引擎領(lǐng)域的核心研究作者,通過對該領(lǐng)域核心作者所發(fā)表的論文進(jìn)行研究,可以梳理出該領(lǐng)域的大致研究脈絡(luò)。利用CNKI數(shù)據(jù)庫對近十年與搜索引擎相關(guān)的學(xué)術(shù)論文的個人發(fā)文總量進(jìn)行了統(tǒng)計,作者發(fā)表相關(guān)論文的總被引次數(shù)也可以從一個側(cè)面反映出該作者在該領(lǐng)域的地位。筆者對搜索引擎領(lǐng)域發(fā)文量較多的作者按被引總次數(shù)進(jìn)行了統(tǒng)計排序,得到表2。
從統(tǒng)計結(jié)果可以看出,發(fā)文總量超過10篇的作者共有10位,其中,呂學(xué)強(qiáng)和劉奕群的發(fā)文量皆超過了20篇,說明這兩人在搜索引擎領(lǐng)域的研究比較深入。而從總被引次數(shù)來看,馬少平、劉奕群和張敏的論文被引次數(shù)皆超過了400次,遠(yuǎn)遠(yuǎn)高于其他幾位作者,因此,從發(fā)文量和總被引次數(shù)結(jié)合來看,馬少平、劉奕群和張敏三位作者可以認(rèn)定為該領(lǐng)域的核心研究作者。另外,崔志明的發(fā)文量只有10篇,但是被引次數(shù)卻有248次,表明該作者在搜索引擎領(lǐng)域也有很深的研究造詣。當(dāng)然也有很多發(fā)文量較少,但是被引次數(shù)很高的研究作者,這一點將會在后文做詳細(xì)分析。
3.4 核心研究機(jī)構(gòu)分析
通過對搜索引擎研究領(lǐng)域的核心研究機(jī)構(gòu)所發(fā)表的研究成果進(jìn)行分析,也可以得到該領(lǐng)域的研究脈絡(luò)和方向。利用超星發(fā)現(xiàn)系統(tǒng)對相關(guān)研究機(jī)構(gòu)的發(fā)文量進(jìn)行統(tǒng)計(如表3)可知,北京郵電大學(xué)、北京大學(xué)和武漢大學(xué)三所高校在搜索引擎研究領(lǐng)域的發(fā)文量遙遙領(lǐng)先,發(fā)文量都在380篇以上,說明這三個機(jī)構(gòu)在該研究領(lǐng)域表現(xiàn)突出,起到了引領(lǐng)作用。發(fā)文量超過200篇以上的研究機(jī)構(gòu)有12所。表明該研究領(lǐng)域現(xiàn)在仍然非常受關(guān)注。核心研究機(jī)構(gòu)與核心研究作者都有著密切的關(guān)聯(lián)[3]。核心研究機(jī)構(gòu)里的研究人員很有可能就是核心研究作者。如王斌教授就來自中國科學(xué)院。當(dāng)然,也有的一些研究機(jī)構(gòu)的發(fā)文數(shù)量不多,但是質(zhì)量很高,比如馬少平、劉奕群、張敏、茹立云這四個核心作者就都來自清華大學(xué),表明清華大學(xué)也是搜索引擎研究的一個核心研究機(jī)構(gòu)。這些研究機(jī)構(gòu)與搜索引擎這一研究內(nèi)容的緊密程度,可以由一張相關(guān)性氣泡圖表示,如圖3。
3.5 學(xué)科及核心期刊分布統(tǒng)計
搜索引擎在很多學(xué)科領(lǐng)域都是非常重要的研究對象,因此有必要對其所屬學(xué)科分布進(jìn)行分析。根據(jù)CNKI中各學(xué)科期刊收錄的相關(guān)文獻(xiàn)量的統(tǒng)計結(jié)果,可以得到圖4。從圖中可以看出計算機(jī)軟件及計算機(jī)應(yīng)用學(xué)科對于搜索引擎的研究貢獻(xiàn)度最大,該學(xué)科的相關(guān)文獻(xiàn)收錄量已經(jīng)達(dá)到了40%。而信息經(jīng)濟(jì)與郵政經(jīng)濟(jì)、圖書情報與數(shù)字圖書館、互聯(lián)網(wǎng)技術(shù)三個學(xué)科也貢獻(xiàn)了37%的相關(guān)文獻(xiàn),從總體來看,凡是與信息相關(guān)的學(xué)科,對于搜索引擎的研究都非常重視。
期刊收錄相關(guān)文獻(xiàn)的數(shù)量,也可以從另外一個側(cè)面反映出該研究領(lǐng)域與哪個學(xué)科關(guān)系更緊密。所以筆者對于收錄搜索引擎相關(guān)文獻(xiàn)最多的15種核心期刊按論文收錄量進(jìn)行降序排列,并繪制柱形圖,得到圖5。該圖再一次證明,計算機(jī)和圖書情報領(lǐng)域?qū)λ阉饕嫜芯康闹匾暢潭取A硗?,通過對核心期刊的統(tǒng)計,發(fā)現(xiàn)《計算機(jī)工程與設(shè)計》《圖書情報工作》《計算機(jī)工程》三種刊物的論文收錄量是最多的。研究人員如果想了解搜索引擎研究的熱點,可以首選這三種期刊。另外,從圖中也可以看出哪些期刊更愿意接受搜索引擎的相關(guān)研究成果,這對于研究人員投稿也有一定的參考作用。
3.6 高被引論文及高被引圖書分析
每個研究領(lǐng)域都有其經(jīng)典文獻(xiàn),而對于什么是經(jīng)典文獻(xiàn),至今學(xué)術(shù)界也沒有一個明確定義。但所有經(jīng)典文獻(xiàn)都有一個共同的特點,即在學(xué)術(shù)界影響力較大,被廣泛認(rèn)可[4]。對經(jīng)典論文與圖書的確定,被引用率是一個非常重要的風(fēng)向標(biāo),因此,筆者對搜索引擎研究領(lǐng)域被引次數(shù)最高的10篇論文和10本圖書進(jìn)行了統(tǒng)計,如表4和表5。
從表4可以看出,被引次數(shù)最多的是謝平和鄒傳偉發(fā)表的《互聯(lián)網(wǎng)金融模式研究》,其被引次數(shù)達(dá)到了1 980次,這一數(shù)字遙遙領(lǐng)先于其他論文,確定了其經(jīng)典論文的地位,同時也再次印證了信息經(jīng)濟(jì)學(xué)科領(lǐng)域與搜索引擎研究的緊密關(guān)系。另外幾篇論文也從側(cè)面印證了技術(shù)研究、互聯(lián)網(wǎng)金融是搜索引擎研究領(lǐng)域的核心研究內(nèi)容。另外,還可以看到,在這10篇高被引論文當(dāng)中,有一篇碩士學(xué)位論文的被引次數(shù)竟然排在了第二位,應(yīng)該引起相關(guān)研究人員的關(guān)注。
從表5可以看出,高被引圖書所涉獵的研究內(nèi)容較為集中,主要是搜索引擎相關(guān)技術(shù)和基本原理。徐寶文與張衛(wèi)豐所著的《搜索引擎與信息獲取技術(shù)》被引次數(shù)達(dá)到了612次,遠(yuǎn)超其他圖書,研究人員在進(jìn)行圖書的資料收集時,這本著作應(yīng)該作為首選。從出版社來看,高被引圖書有3本來自人民郵電出版社,科學(xué)出版社和電子工業(yè)出版社各自出版了2種相關(guān)圖書,研究人員在搜集相關(guān)研究資料時,對這些出版社的圖書應(yīng)該給予重視。從出版時間來看,高被引圖書大多是在2007年左右出版的,因此,對2005—2008年出版的搜索引擎相關(guān)的圖書進(jìn)行研讀,會更容易獲得高質(zhì)量的信息。4 總結(jié)與建議
搜索引擎在多個學(xué)科領(lǐng)域都是非常重要的研究內(nèi)容,相關(guān)研究于2010年左右達(dá)到了高潮期,現(xiàn)在對搜索引擎的研究已經(jīng)進(jìn)入了平穩(wěn)發(fā)展期。對搜索引擎的核心技術(shù)研究和多種類型搜索引擎的開發(fā)是該領(lǐng)域的主要研究內(nèi)容。北京郵電大學(xué)、北京大學(xué)、武漢大學(xué)和清華大學(xué)為該領(lǐng)域的核心研究機(jī)構(gòu)。而馬少平、劉奕群、張敏等人為該領(lǐng)域的核心研究作者。計算機(jī)軟件及計算機(jī)應(yīng)用、信息經(jīng)濟(jì)與郵政經(jīng)濟(jì)、圖書情報與數(shù)字圖書館、互聯(lián)網(wǎng)技術(shù)四個學(xué)科對于搜索引擎的研究貢獻(xiàn)度最大。《計算機(jī)工程與設(shè)計》《圖書情報工作》《計算機(jī)工程》三種刊物的論文收錄量最多。人民郵電出版社出版的搜索引擎相關(guān)圖書質(zhì)量更高,2005—2008年間出版的相關(guān)圖書更應(yīng)受到研究人員的重視。
根據(jù)近十年來的學(xué)術(shù)趨勢圖可以看出,2010年以后,搜索引擎的研究成果發(fā)表量雖然很大,但有明顯的下降趨勢,這表明2010年以后,在搜索引擎研究領(lǐng)域沒有新的熱點出現(xiàn),因此,需要在已有研究的基礎(chǔ)上尋找新的突破口,比如現(xiàn)在大數(shù)據(jù)、云計算、人工智能、虛擬現(xiàn)實等新技術(shù)迅速發(fā)展,如果研究人員將這些技術(shù)融入到搜索引擎的研究之中,可能會引起新一輪的研究熱潮。另外多召開一些質(zhì)量和級別較高的學(xué)術(shù)會議,加強(qiáng)學(xué)術(shù)研討,也會對搜索引擎的研究有很大的刺激作用。當(dāng)然,如果能從國家的層面出臺一些相關(guān)的評價體系、激勵政策或指導(dǎo)意見[5],也會對搜索引擎的研究起到一定的推動作用。
[參考文獻(xiàn)]
[1]王繼民,李雷明子,鄭玉鳳.基于日志挖掘的移動搜索用戶行為研究綜述[J].情報理論與實踐,2014(3):134—139.
[2]超星發(fā)現(xiàn)系統(tǒng)核心功能[EB/OL].[2016-10-25].http:∥ss.zhizhen.om/about/about.html.
[3]李 爽,王玉香.2006—2015年閱讀推廣研究現(xiàn)狀分析[J].河南圖書館學(xué)刊,2016(4):106—108.
[4]姚小鷗.什么是經(jīng)典性文獻(xiàn)[EB/OL][2016-10-25].http:∥blog.sciencenet.cn/blog-531888-788772.html.
[5]馬志杰.我國搜索引擎評價研究的現(xiàn)狀、問題及對策[J].圖書館學(xué)研究,2013(4):11—17.