劉智鋒,李 信,程齊凱,陸 偉
近年來(lái),隨著科學(xué)研究的快速進(jìn)展,產(chǎn)生的科學(xué)知識(shí)迅速增加,表現(xiàn)為學(xué)術(shù)論文指數(shù)暴漲[1],科研工作者如何在海量的學(xué)術(shù)論文中獲得所需要的論文以及從中發(fā)現(xiàn)研究熱點(diǎn)、發(fā)展趨勢(shì)以滿足科研過(guò)程中的信息需求,變得更加困難。學(xué)術(shù)論文的關(guān)鍵詞作為學(xué)術(shù)論文內(nèi)容的高度概括,對(duì)關(guān)鍵詞的研究有助于解決上述問(wèn)題。經(jīng)調(diào)研發(fā)現(xiàn),當(dāng)前圖書(shū)情報(bào)等相關(guān)領(lǐng)域的學(xué)者針對(duì)學(xué)術(shù)論文的關(guān)鍵詞研究主要集中在關(guān)鍵詞詞頻分析、關(guān)鍵詞共現(xiàn)分析、基于關(guān)鍵詞匹配的信息檢索、引文推薦等,這些研究只是基于關(guān)鍵詞是否出現(xiàn)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)分析以及匹配,尚未從關(guān)鍵詞的語(yǔ)義層面來(lái)考慮,可能導(dǎo)致分析或匹配結(jié)果出現(xiàn)偏差,難以滿足科研工作者的信息需求。
事實(shí)上,作者選擇關(guān)鍵詞時(shí)有其目的性,其選擇的關(guān)鍵詞通常用于標(biāo)明研究所屬的范圍、研究的對(duì)象,揭示研究主題,描述研究所使用的方法等,即關(guān)鍵詞在學(xué)術(shù)論文中起到一定的語(yǔ)義功能;對(duì)關(guān)鍵詞語(yǔ)義功能的研究,能夠?qū)⑵鋺?yīng)用于信息計(jì)量、信息檢索以及引文推薦等領(lǐng)域,以更好地滿足科研工作者的信息需求。然而,關(guān)鍵詞的語(yǔ)義功能很少受到關(guān)注,目前業(yè)界主要有胡昌平等將科技論文關(guān)鍵詞語(yǔ)義類型特征分為研究主題、所屬領(lǐng)域、限定范圍、理論方法以及子知識(shí)點(diǎn),并據(jù)此對(duì)少量關(guān)鍵詞進(jìn)行人工標(biāo)注,探討關(guān)鍵詞語(yǔ)義類型特征對(duì)共詞分析的影響[2];劉自強(qiáng)等將我國(guó)圖書(shū)情報(bào)領(lǐng)域大數(shù)據(jù)研究的學(xué)術(shù)論文的關(guān)鍵詞分為研究主題、研究方法以及研究工具和技術(shù),并對(duì)少量的核心關(guān)鍵詞進(jìn)行人工標(biāo)注,同時(shí)結(jié)合社區(qū)發(fā)現(xiàn)算法等,多維度地研究圖書(shū)情報(bào)領(lǐng)域大數(shù)據(jù)的動(dòng)態(tài)演化過(guò)程[3-4]。綜上可知,目前有關(guān)關(guān)鍵詞語(yǔ)義功能研究領(lǐng)域還存在一些不足:首先,學(xué)術(shù)界還未對(duì)學(xué)術(shù)文本關(guān)鍵詞語(yǔ)義功能分類達(dá)成一致;其次,缺乏支持關(guān)鍵詞語(yǔ)義功能研究的標(biāo)準(zhǔn)數(shù)據(jù)集,無(wú)法支撐關(guān)鍵詞語(yǔ)義功能的自動(dòng)識(shí)別等相關(guān)研究;最后,關(guān)鍵詞語(yǔ)義功能在信息計(jì)量學(xué)等領(lǐng)域的應(yīng)用研究不足。
基于此,本研究嘗試通過(guò)文獻(xiàn)調(diào)研與數(shù)據(jù)集調(diào)研制定信息計(jì)量學(xué)領(lǐng)域?qū)W術(shù)文本關(guān)鍵詞語(yǔ)義功能分類框架,并據(jù)此對(duì)Journal of Informetrics中的關(guān)鍵詞進(jìn)行標(biāo)注,以構(gòu)建標(biāo)注數(shù)據(jù)集,為后續(xù)學(xué)術(shù)文本語(yǔ)義分析和理解研究提供分類框架及數(shù)據(jù)支撐;然后,對(duì)該語(yǔ)義功能標(biāo)注數(shù)據(jù)集的語(yǔ)義功能分布特征進(jìn)行揭示;同時(shí),從語(yǔ)義功能的視角出發(fā),對(duì)不同語(yǔ)義功能的關(guān)鍵詞進(jìn)行內(nèi)容分析,以細(xì)粒度地揭示信息計(jì)量學(xué)領(lǐng)域的研究現(xiàn)狀,為該數(shù)據(jù)集的應(yīng)用作初步的探索。
學(xué)術(shù)文本的詞匯語(yǔ)義功能從語(yǔ)義層面對(duì)詞匯進(jìn)行認(rèn)知與理解,指的是詞匯在學(xué)術(shù)文本上下文環(huán)境下所對(duì)應(yīng)的內(nèi)容或用途,其不同于自然語(yǔ)言處理領(lǐng)域的語(yǔ)義角色,語(yǔ)義角色包含核心語(yǔ)義角色(如施事、受事等)和附屬語(yǔ)義角色(如時(shí)間、地點(diǎn)、方式、原因)[5],而學(xué)術(shù)文本的詞匯語(yǔ)義功能一般可以分為研究主題、研究方法、理論模型、指標(biāo)等。
近十年來(lái),國(guó)內(nèi)外學(xué)者針對(duì)學(xué)術(shù)文本的詞匯語(yǔ)義功能的研究取得一定的進(jìn)展。不同學(xué)者依據(jù)不同的研究目的,產(chǎn)生了不同的詞匯語(yǔ)義功能分類框架。比如,Kondo T 等對(duì)文獻(xiàn)的標(biāo)題進(jìn)行分析,將標(biāo)題中的詞匯語(yǔ)義功能分為研究主題、研究方法、研究目的和其他四類[6]。在此基礎(chǔ)上,Nanba H 等又將標(biāo)題以及摘要中的詞匯語(yǔ)義功能分為技術(shù)和效果兩類,其中技術(shù)包含研究中使用的算法、工具、材料以及數(shù)據(jù),效果由屬性以及屬性值組成[7]。隨后,Gupta S 等將摘要中的詞匯語(yǔ)義功能分為話題、技術(shù)和領(lǐng)域,話題指的是該文章的主要貢獻(xiàn),技術(shù)包含采用的方法和工具,領(lǐng)域指的是文章的應(yīng)用領(lǐng)域[8]。Augenstein I 等將詞匯語(yǔ)義功能分為過(guò)程、任務(wù)和原材料,過(guò)程包含研究采用的方法和設(shè)備,任務(wù)指的是研究的問(wèn)題或主題,原材料則包含語(yǔ)料庫(kù)和物理材料[9]。Tsai C T 等將詞匯語(yǔ)義功能分為技術(shù)與應(yīng)用,如“ We apply support vector machine on text classification”中,“support vector machine”代表技術(shù),“text classification”代表應(yīng)用[10]。Dan S等將計(jì)算語(yǔ)言學(xué)領(lǐng)域?qū)W術(shù)文本詞匯的語(yǔ)義功能分為領(lǐng)域和技術(shù),其中的領(lǐng)域有機(jī)器翻譯、信息抽取、自動(dòng)問(wèn)答等[11]。Siddiqui T 等將學(xué)術(shù)文本中的詞匯語(yǔ)義功能分為技術(shù)、應(yīng)用、評(píng)價(jià)指標(biāo)以及數(shù)據(jù)集四類[12]。Mesbah S 等將與數(shù)據(jù)處理相關(guān)的學(xué)術(shù)文本的詞匯語(yǔ)義功能分為數(shù)據(jù)集、方法、軟件、目標(biāo)和結(jié)果[13]。Heffernan K 等把科學(xué)研究看成是提出問(wèn)題以及解決問(wèn)題的過(guò)程,將詞匯語(yǔ)義功能分為研究問(wèn)題和研究方法[14]。程齊凱基于學(xué)術(shù)文本詞匯功能顯現(xiàn)機(jī)理構(gòu)建了一個(gè)領(lǐng)域無(wú)關(guān)詞匯功能和領(lǐng)域相關(guān)詞匯功能相結(jié)合的學(xué)術(shù)文本詞匯功能框架,其中領(lǐng)域無(wú)關(guān)詞匯功能框架主要包含方法和問(wèn)題兩個(gè)維度,領(lǐng)域相關(guān)詞匯功能框架中就計(jì)算機(jī)學(xué)科、數(shù)學(xué)學(xué)科和社會(huì)科學(xué)學(xué)科三個(gè)領(lǐng)域的學(xué)術(shù)文本詞匯功能進(jìn)行簡(jiǎn)單的列舉[15]。王芳等先對(duì)《情報(bào)學(xué)報(bào)》發(fā)表的論文中理論和方法進(jìn)行人工標(biāo)注,以研究我國(guó)情報(bào)學(xué)領(lǐng)域理論和方法的應(yīng)用情況[16-18],隨后將學(xué)術(shù)論文中理論術(shù)語(yǔ)看成是一種特定類型的命名實(shí)體,分別使用條件隨機(jī)場(chǎng)和深度學(xué)習(xí)模型對(duì)學(xué)術(shù)論文的標(biāo)題和摘要中理論術(shù)語(yǔ)進(jìn)行識(shí)別[19-20]。章成志等對(duì)論文中的十大數(shù)據(jù)挖掘算法句進(jìn)行提取與標(biāo)注,并從提及論文數(shù)、總提及次數(shù)、提及位置、使用年代以及使用動(dòng)機(jī)等方面,對(duì)不同算法的影響力進(jìn)行比較分析[21-22]。此外,國(guó)際語(yǔ)義測(cè)評(píng)任務(wù)SemEval 2017 Task 10 致力于解決如何從計(jì)算機(jī)、材料學(xué)以及物理學(xué)等領(lǐng)域的論文中自動(dòng)抽取關(guān)鍵詞、關(guān)鍵詞的類型及其它們之間的關(guān)系,其中涉及到的主要類型有任務(wù)(Task)、過(guò)程(Process)以及材料(Materials)等[23]。
可見(jiàn),不同學(xué)者針對(duì)學(xué)術(shù)文本不同的部分制定不同的詞匯語(yǔ)義功能分類框架,然而首先它們都只是針對(duì)特定的研究目的來(lái)構(gòu)建詞匯語(yǔ)義功能分類框架,導(dǎo)致分類框架不夠完整;其次,學(xué)者們對(duì)不同的詞匯語(yǔ)義功能的內(nèi)涵理解不同,從而分類框架并未達(dá)成一致;此外,較少針對(duì)學(xué)術(shù)文本的關(guān)鍵詞構(gòu)建詞匯語(yǔ)義功能分類框架,因此,筆者擬借鑒上述詞匯語(yǔ)義功能分類框架,同時(shí)結(jié)合對(duì)數(shù)據(jù)集的調(diào)研結(jié)果,構(gòu)建更加完整的信息計(jì)量學(xué)領(lǐng)域?qū)W術(shù)文本關(guān)鍵詞語(yǔ)義功能分類框架,為關(guān)鍵詞語(yǔ)義功能的相關(guān)研究奠定基礎(chǔ)。
目前關(guān)于詞匯語(yǔ)義功能自動(dòng)標(biāo)注,主要采用基于規(guī)則提取和基于機(jī)器學(xué)習(xí)的方法。基于規(guī)則提取,只能針對(duì)具有一定結(jié)構(gòu)特征的文本,如標(biāo)題等,推廣性差;基于機(jī)器學(xué)習(xí)的方法,主要針對(duì)學(xué)術(shù)文本的標(biāo)題和摘要,而且準(zhǔn)確率不高。因此,本研究擬采用人工對(duì)學(xué)術(shù)文本關(guān)鍵詞進(jìn)行語(yǔ)義功能標(biāo)注。當(dāng)人工標(biāo)注數(shù)據(jù)時(shí),需要遵循規(guī)范的流程,并對(duì)標(biāo)注的結(jié)果進(jìn)行恰當(dāng)?shù)臋z驗(yàn),以保證數(shù)據(jù)集的可信度。不同的學(xué)者應(yīng)用不同的方法進(jìn)行數(shù)據(jù)標(biāo)注以及標(biāo)注結(jié)果檢驗(yàn)。Simone Teufel 等對(duì)學(xué)術(shù)文本的引文功能進(jìn)行標(biāo)注時(shí),先抽取一定數(shù)量的引文,三個(gè)人分別獨(dú)立進(jìn)行標(biāo)注,然后使用kappa 系數(shù)對(duì)引文功能分類框架的信度進(jìn)行檢驗(yàn)[24]。Heting Chu 在使用內(nèi)容分析法分析圖書(shū)情報(bào)領(lǐng)域的研究方法時(shí),對(duì)論文中的研究方法進(jìn)行編碼之后,隨機(jī)抽取30篇論文由另一個(gè)人編碼,統(tǒng)計(jì)兩個(gè)人的編碼一致性,一致性達(dá)到86.7%,一般認(rèn)為達(dá)到80%以上即為可接受的[25]。Philip Hider 等在研究圖書(shū)情報(bào)領(lǐng)域中實(shí)證研究方法時(shí),采用兩人同時(shí)對(duì)論文的研究方法進(jìn)行標(biāo)注,最后統(tǒng)計(jì)兩個(gè)人的標(biāo)注結(jié)果的一致率,一致率達(dá)到80%以上,同時(shí)使用Cohen’s kappa coefficient 來(lái)檢驗(yàn)不同分類變量的合理性[26]。Mengnan Zhao 等對(duì)論文全文中有關(guān)數(shù)據(jù)的提及與引用進(jìn)行標(biāo)注時(shí),先隨機(jī)選取一部分?jǐn)?shù)據(jù)集進(jìn)行標(biāo)注來(lái)完善標(biāo)注框架,其次,依照完整的框架,由兩個(gè)具有專業(yè)背景的研究人員對(duì)隨機(jī)選取的50 篇論文進(jìn)行標(biāo)注,其Cohen’s kappa coefficient 達(dá)到0.86,說(shuō)明其中一個(gè)人已經(jīng)足夠完成接下去的所有文章的標(biāo)注[27]。借鑒上述的相關(guān)研究,本文擬使用kappa 系數(shù)進(jìn)行數(shù)據(jù)標(biāo)注結(jié)果檢驗(yàn)。
學(xué)術(shù)論文是學(xué)者研究成果的主要載體之一,是學(xué)術(shù)交流的主要媒介,其中主要包含某個(gè)研究的研究背景、研究對(duì)象、研究問(wèn)題、理論基礎(chǔ)、研究方法、工具以及研究結(jié)論等內(nèi)容。為了方便研究人員對(duì)學(xué)術(shù)論文內(nèi)容的理解以及滿足學(xué)術(shù)論文檢索等需求,大部分期刊要求作者提供學(xué)術(shù)論文的關(guān)鍵詞。一般而言,學(xué)術(shù)論文的關(guān)鍵詞是作者對(duì)學(xué)術(shù)論文的全文進(jìn)行濃縮提煉的結(jié)晶,能夠很好地反應(yīng)學(xué)術(shù)論文的內(nèi)容,其具有豐富的語(yǔ)義信息,即具有不同的語(yǔ)義功能,因此本文認(rèn)為學(xué)術(shù)文本關(guān)鍵詞語(yǔ)義功能是指從語(yǔ)義角度對(duì)關(guān)鍵詞進(jìn)行認(rèn)知與理解,是其在學(xué)術(shù)文本環(huán)境下所對(duì)應(yīng)的內(nèi)容或者用途[15]。
本文中的關(guān)鍵詞語(yǔ)義功能不同于一般的詞匯語(yǔ)義,雖然兩者都是從語(yǔ)義層面對(duì)詞匯進(jìn)行認(rèn)知與理解,但是關(guān)鍵詞語(yǔ)義功能側(cè)重于學(xué)術(shù)文本的環(huán)境下,關(guān)鍵詞在學(xué)術(shù)文本中所起的作用,如研究主題、研究方法等。此外,與本文的關(guān)鍵詞語(yǔ)義功能相關(guān)的概念還有詞匯功能語(yǔ)法以及語(yǔ)義角色。詞匯功能語(yǔ)法是從語(yǔ)法以及心理學(xué)層面對(duì)語(yǔ)言進(jìn)行分析,用于解釋語(yǔ)言習(xí)得的機(jī)制;語(yǔ)義角色屬于自然語(yǔ)言處理領(lǐng)域,其一般包含有時(shí)間,地點(diǎn)等,因而,兩者與關(guān)鍵詞語(yǔ)義功能具有本質(zhì)區(qū)別[15]。
舉2 篇論文說(shuō)明上述語(yǔ)義功能。如圖1所示,該論文有三個(gè)關(guān)鍵詞為Scientometrics、Public research institutes 和 Scientific performance;從論文標(biāo)題、摘要可知,提出了一種新的指標(biāo)來(lái)評(píng)價(jià)公共科研機(jī)構(gòu)的績(jī)效,其中該論文的研究屬于科學(xué)計(jì)量學(xué)領(lǐng)域,關(guān)鍵詞Scientometrics 在該論文中的語(yǔ)義功能為研究范圍,相應(yīng)的標(biāo)注為領(lǐng)域范圍;該研究評(píng)價(jià)的對(duì)象為公共科研機(jī)構(gòu),關(guān)鍵詞Public research institutes 在該論文的語(yǔ)義功能為研究對(duì)象,相應(yīng)的標(biāo)注為研究對(duì)象;該研究的主題為公共科研機(jī)構(gòu)績(jī)效的評(píng)價(jià),關(guān)鍵詞Scientific performance 在該論文的語(yǔ)義功能為研究主題,則標(biāo)注為研究主題。如圖2所示,該論文研究全球不同國(guó)家的科研產(chǎn)出對(duì)經(jīng)濟(jì)增長(zhǎng)的影響;關(guān)鍵詞Research output 和Economic growth 分別標(biāo)注為研究主題;示例論文2 的研究屬于科學(xué)計(jì)量學(xué)范圍,關(guān)鍵詞Scientometrics標(biāo)注為領(lǐng)域范圍;此外,本研究中使用了系統(tǒng)GMM 估計(jì)的方法對(duì)學(xué)術(shù)產(chǎn)出和國(guó)家經(jīng)濟(jì)相關(guān)的面板數(shù)據(jù)進(jìn)行相關(guān)性分析;因此,關(guān)鍵詞Panel data 標(biāo)注為數(shù)據(jù),System GMM estimates 標(biāo)注為研究方法。需要注意的是,同一個(gè)關(guān)鍵詞在不同的學(xué)術(shù)文本中可能具有不同的語(yǔ)義功能;不同的關(guān)鍵詞在同一學(xué)術(shù)文本中,可能具有相同的語(yǔ)義功能。
圖1 示例論文1
圖2 示例論文2
本研究選取信息計(jì)量學(xué)領(lǐng)域影響因子最高的期刊Journal of Informetrics(IF=3.484)發(fā)表的論文作為標(biāo)注的數(shù)據(jù)源;一方面,由于該期刊影響力較大,在信息計(jì)量學(xué)領(lǐng)域具有廣泛的認(rèn)可度;另一方面,該刊創(chuàng)辦于2007年,樣本數(shù)據(jù)能包含其自創(chuàng)刊以來(lái)的數(shù)據(jù),因此,其發(fā)表的論文具有較好的代表性[28]。筆者通過(guò)手工方式從Journal of Informetrics 官網(wǎng)中獲取2007-2017年刊載的每篇論文的鏈接、標(biāo)題、摘要、關(guān)鍵詞等數(shù)據(jù),共獲得842 篇論文的相關(guān)數(shù)據(jù),剔除沒(méi)有關(guān)鍵詞的論文,最終剩下693 篇論文作為標(biāo)注和分析的數(shù)據(jù)源,如表1所示。
表1 標(biāo)注數(shù)據(jù)概覽
3.2.1 研究總體思路
本研究首先采用文獻(xiàn)研究法對(duì)國(guó)內(nèi)外詞匯語(yǔ)義功能分類相關(guān)研究進(jìn)行分析,同時(shí)對(duì)數(shù)據(jù)集進(jìn)行調(diào)研,結(jié)合信息計(jì)量學(xué)領(lǐng)域的研究特性,制定面向信息計(jì)量學(xué)領(lǐng)域的學(xué)術(shù)論文關(guān)鍵詞語(yǔ)義功能分類框架;其次,基于該分類框架,先隨機(jī)抽取10%的論文由兩個(gè)圖書(shū)情報(bào)專業(yè)的研究生分別進(jìn)行獨(dú)立標(biāo)注,之后使用kappa 系數(shù)對(duì)兩個(gè)人的標(biāo)注一致性進(jìn)行檢驗(yàn),標(biāo)注不同的地方通過(guò)協(xié)商達(dá)到一致,當(dāng)一致性檢驗(yàn)通過(guò)后,剩下的論文由其中的一個(gè)人進(jìn)行標(biāo)注;最后,筆者對(duì)該標(biāo)注數(shù)據(jù)集的特征進(jìn)行描述性分析,同時(shí)使用詞頻分析法以及內(nèi)容分析法對(duì)關(guān)鍵詞語(yǔ)義功能視角下的信息計(jì)量學(xué)領(lǐng)域的研究現(xiàn)狀進(jìn)行分析。
3.2.2 學(xué)術(shù)文本關(guān)鍵詞語(yǔ)義功能分類框架
學(xué)術(shù)文本關(guān)鍵詞語(yǔ)義功能分類框架是進(jìn)行數(shù)據(jù)集構(gòu)建的基礎(chǔ)。程齊凱將學(xué)術(shù)文本詞匯功能分為領(lǐng)域無(wú)關(guān)和領(lǐng)域相關(guān),領(lǐng)域無(wú)關(guān)的詞匯功能分為研究問(wèn)題和研究方法,而對(duì)于領(lǐng)域相關(guān)的詞匯功能,由于不同領(lǐng)域的研究特性不同,會(huì)有不同的分類[15]。本文結(jié)合信息計(jì)量學(xué)領(lǐng)域的研究特性以及已有的詞匯語(yǔ)義功能研究,構(gòu)建了信息計(jì)量學(xué)領(lǐng)域?qū)W術(shù)文本關(guān)鍵詞語(yǔ)義功能分類框架,包含領(lǐng)域范圍、研究對(duì)象、研究主題、研究方法、數(shù)據(jù)以及其他共六類,具體如表2所示。
表2 信息計(jì)量學(xué)領(lǐng)域?qū)W術(shù)文本關(guān)鍵詞語(yǔ)義功能分類框架
本研究先隨機(jī)抽取69 篇(9.96%)論文,由兩個(gè)人進(jìn)行標(biāo)注,最后計(jì)算kappa 系數(shù),得kappa=0.83>0.8[32]??紤]到本研究標(biāo)注任務(wù)的難度較大,說(shuō)明該標(biāo)注的一致性較好,可以接受。對(duì)標(biāo)注完的數(shù)據(jù)集,使用Python 自編程序,將數(shù)據(jù)集中的關(guān)鍵詞語(yǔ)義功能部分進(jìn)行抽取與統(tǒng)計(jì),結(jié)果如圖3所示。具有研究主題語(yǔ)義功能的關(guān)鍵詞最多,達(dá)到1353 個(gè),占比40.85%,該類型的關(guān)鍵詞能夠?qū)φ撐牡暮诵膬?nèi)容進(jìn)行表達(dá),符合作者提供論文關(guān)鍵詞的意圖,因此其占比達(dá)到最大;其次,具有研究方法語(yǔ)義功能的關(guān)鍵詞排第二,為1131 個(gè),占比34.15%,研究方法與研究主題兩者共同構(gòu)成一篇論文的核心內(nèi)容,因此其數(shù)量也相對(duì)較多。研究主題和研究方法兩者總的占比達(dá)到75%,占據(jù)了絕大部分;此外,表示數(shù)據(jù)語(yǔ)義功能的關(guān)鍵詞最少,只占3.62%。
圖3 JOI關(guān)鍵詞語(yǔ)義功能分布
本研究除了構(gòu)建數(shù)據(jù)集,還通過(guò)對(duì)數(shù)據(jù)集進(jìn)行分析,為該數(shù)據(jù)集的應(yīng)用做初步的探索。具有不同語(yǔ)義功能的關(guān)鍵詞的集合能夠從不同的方面反映一個(gè)領(lǐng)域的研究現(xiàn)狀。筆者選取研究主題、研究方法以及數(shù)據(jù)共三個(gè)維度,對(duì)不同語(yǔ)義功能分類下的關(guān)鍵詞進(jìn)行內(nèi)容分析,從而細(xì)粒度地揭示信息計(jì)量學(xué)領(lǐng)域的研究現(xiàn)狀。
4.2.1 研究主題關(guān)鍵詞的內(nèi)容分析
某個(gè)領(lǐng)域的研究主題是科研人員關(guān)注的重點(diǎn)。信息計(jì)量學(xué)領(lǐng)域?qū)W者針對(duì)不同的研究對(duì)象,產(chǎn)生了多樣化的研究主題。筆者對(duì)具有研究主題語(yǔ)義功能的關(guān)鍵詞(如圖4所示)進(jìn)行分析,并將其歸為不同的類,從而得到不同的研究主題。
(1)計(jì)量指標(biāo)(特別是h 指數(shù)與影響因子)。bibliometric indicators、 h-index以及impact factor 等表示了計(jì)量指標(biāo)的研究,尤其是h 指數(shù)以及影響因子。比如,Alonso 等介紹了h 指數(shù)和基于h 指數(shù)衍生出的新的指標(biāo)以及這些指標(biāo)的計(jì)算方法,此外還探討了標(biāo)準(zhǔn)化的方法,使得來(lái)自不同學(xué)科領(lǐng)域的學(xué)者的h 指數(shù)更具可比性[33]。Sicilia M A 等以計(jì)算機(jī)領(lǐng)域的期刊為例,研究了基于web of science 計(jì)算的期刊影響因子和基于scopus 計(jì)算的期刊影響因子的關(guān)系,發(fā)現(xiàn)它們具有高度相關(guān)性,可用于指導(dǎo)期刊影響因子的計(jì)算[34]。可見(jiàn),相關(guān)學(xué)者在已有的h 指數(shù)、影響因子等指標(biāo)的基礎(chǔ)上不斷探索更加科學(xué)的計(jì)量指標(biāo);同時(shí)對(duì)這些指標(biāo)應(yīng)用于科學(xué)評(píng)價(jià)的合理性與適用性進(jìn)行了研究。
(2)科學(xué)評(píng)價(jià)及排名。research evaluation、research performance、 evaluation、 peer review、 productivity、 scientific productivity、research productivity、ranking、journal ranking等反映了科學(xué)評(píng)價(jià)及排名相關(guān)研究主題,包含科研成果評(píng)價(jià)、期刊評(píng)價(jià)以及基于評(píng)價(jià)結(jié)果,對(duì)期刊、科研人員、研究機(jī)構(gòu)等進(jìn)行排名。Impact Factor (2-and 5-year), SJR, IPP,SNIP, H index 和 Article Influence Score 等期刊排名的指標(biāo)進(jìn)行比較[35]。Giovanni Abramo 等應(yīng)用某個(gè)研究機(jī)構(gòu)中科學(xué)家平均的高被引論文數(shù)來(lái)對(duì)研究機(jī)構(gòu)進(jìn)行排名[36]。學(xué)者們從不同的角度出發(fā),產(chǎn)生的科學(xué)評(píng)價(jià)的方法不斷增加,為政府等相關(guān)部門(mén)科技政策的制定、基金的資助等提供了有力的支撐。
(3)科研合作。collaboration、co-authorship以及scientific collaboration 等反映了關(guān)于科研合作的研究。隨著研究地不斷深入,研究的問(wèn)題更加復(fù)雜,單靠個(gè)人無(wú)法完成,科研合作現(xiàn)象越發(fā)普遍,信息計(jì)量學(xué)領(lǐng)域?qū)W者對(duì)該現(xiàn)象從不同角度進(jìn)行研究。如Erjia Yan 等通過(guò)對(duì)合作網(wǎng)絡(luò)演化進(jìn)行分析,并從作者、研究機(jī)構(gòu)以及國(guó)家三個(gè)層面來(lái)預(yù)測(cè)未來(lái)可能的合作,并對(duì)此進(jìn)行推薦[37]。而GiovanniAbramo 等則研究不同性別的科研合作模式[38]。針對(duì)科研合作的研究,能夠促進(jìn)個(gè)體、研究機(jī)構(gòu)等不同層面進(jìn)行更好地合作,提高科研產(chǎn)出成果。
(4)引用分析。citations、citation impact、citation distribution、 citation analysis、 normalization 以及field normalization 等表示了關(guān)于引用分析的研究,主要包含了引文分布的研究、基于引文的分析方法研究以及引文分析方法使用過(guò)程中的學(xué)科或領(lǐng)域等標(biāo)準(zhǔn)化問(wèn)題,以保證引文分析的科學(xué)性。如Mike Thelwall 等使用冪律分布、對(duì)數(shù)正態(tài)分布等不同的分布對(duì)某個(gè)學(xué)科或某一年的引文分布進(jìn)行建模,并對(duì)這些分布的擬合情況進(jìn)行比較[39]。Giacomo Vaccario 等對(duì)來(lái)自微軟學(xué)術(shù)的大型引文數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)傳統(tǒng)的基于引文分析的方法、指標(biāo)應(yīng)用于排名時(shí)存在偏倚,并基于z-score 提出標(biāo)準(zhǔn)化的方法來(lái)減少排名的偏倚[40]。由此可知,引文分析的模型得到不斷創(chuàng)新,引文分析的方法得到不斷完善。
除上面四大研究主題之外還存在其他的研究主題。interdisciplinarity 表明跨學(xué)科研究;gender differences 反映了該領(lǐng)域關(guān)注科研人員性別差異的影響;knowledge diffusion 表示了基于引用的知識(shí)擴(kuò)散研究。
圖4 具有研究主題語(yǔ)義功能的高頻關(guān)鍵詞
綜上所述,目前信息計(jì)量學(xué)領(lǐng)域主要的研究主題包含有計(jì)量指標(biāo)(特別是h 指數(shù)與影響因子)、科學(xué)評(píng)價(jià)及排名、科研合作、引用分析,共四類;其中科研合作這個(gè)主題與王偉等發(fā)現(xiàn)的科研協(xié)作網(wǎng)是信息計(jì)量學(xué)的主要研究主題之一相似,都反映了科研合作化趨勢(shì)的增強(qiáng),其中出現(xiàn)的一些科研合作的特征以及規(guī)律等已經(jīng)得到信息計(jì)量學(xué)領(lǐng)域相關(guān)學(xué)者的深入研究[41];h 指數(shù)與影響因子、科學(xué)評(píng)價(jià)及排名和引用分析這三個(gè)研究主題與劉麗敏和王晴的研究發(fā)現(xiàn)的信息計(jì)量學(xué)領(lǐng)域的主題引文分析、h 指數(shù)、影響因子、研究評(píng)價(jià)(績(jī)效評(píng)估)基本吻合[42],反映了這些主題是這個(gè)領(lǐng)域的核心研究主題,相對(duì)穩(wěn)定。
4.2.2 研究方法關(guān)鍵詞的內(nèi)容分析
研究方法在一個(gè)學(xué)科的知識(shí)體系中具有重要的地位。隨著信息計(jì)量學(xué)學(xué)科的發(fā)展,其自身具有特色的研究方法不斷增加,同時(shí)不斷借鑒其他學(xué)科的研究方法,將其應(yīng)用于本學(xué)科。如圖5所示,主要包含有指標(biāo)、引文分析法、內(nèi)容分析法、文本挖掘與可視化、復(fù)雜網(wǎng)絡(luò)分析、模型與算法以及理論與定律等。
(1)指標(biāo)。包含有 h-index、impact factor、g-index、 citation window、 gini coefficient、r-index、percentiles、fss 以及 crown indicator。由此可知,h-index、impact factor 等指標(biāo)不僅是重要的研究主題,而且也作為一種重要的評(píng)價(jià)手段在信息計(jì)量學(xué)領(lǐng)域得到廣泛應(yīng)用,如h-index、 impact factor、 g-index、 r-index、percentiles 以及crown indicator 等經(jīng)常用來(lái)評(píng)價(jià)期刊、作者以及機(jī)構(gòu)等的影響力[43]。citation window 表示引用窗口,不同的引用窗口影響了影響因子等各種基于此的計(jì)量指標(biāo)的值,從而會(huì)影響評(píng)價(jià)對(duì)象的排名;gini coefficient 來(lái)源于經(jīng)濟(jì)學(xué)領(lǐng)域,用于衡量一個(gè)國(guó)家或地區(qū)的居民收入差距的指標(biāo),信息計(jì)量學(xué)領(lǐng)域?qū)W者將其應(yīng)用于基金資助分布、引文分布等的不平等性的衡量,如Jiang Wu 使用基尼系數(shù)衡量了中國(guó)自然科學(xué)基金資助的機(jī)構(gòu)和學(xué)科分布的不平等現(xiàn)象[44]。
(2)引文分析法。包含有citation analysis、bibliographic coupling。引文分析方法具有多種用途。首先,基于引文數(shù)量分析,可以用于評(píng)價(jià)期刊和論文;其次,基于引文網(wǎng)絡(luò)分析,可以揭示科學(xué)結(jié)構(gòu),也可以應(yīng)用于學(xué)科相關(guān)度以及文獻(xiàn)檢索等研究。比如,Yu Xiao 等構(gòu)建引文網(wǎng)絡(luò),同時(shí)結(jié)合網(wǎng)絡(luò)分析,來(lái)研究知識(shí)擴(kuò)散結(jié)構(gòu)[45]。此外,引文耦合分析作為重要的引文分析方法之一,也得到較多的關(guān)注,其可以用于揭示科學(xué)文獻(xiàn)的內(nèi)在聯(lián)系與規(guī)律。如Dar-ZenChen 等采用文獻(xiàn)耦合的方法來(lái)識(shí)別專利文獻(xiàn)中缺失的相關(guān)鏈接,從而構(gòu)建一個(gè)完整的引文網(wǎng)絡(luò)[46]。由此可見(jiàn),引文分析方法作為信息計(jì)量學(xué)領(lǐng)域經(jīng)典的方法得到廣泛的應(yīng)用。
(3)內(nèi)容分析法。包含有content analysis。內(nèi)容分析法本質(zhì)是對(duì)文獻(xiàn)等傳播媒介中的所含的信息量及其變化進(jìn)行分析,信息計(jì)量學(xué)領(lǐng)域?qū)W者主要將其用于學(xué)術(shù)文本內(nèi)容的定量分析。比如,Kai Li 應(yīng)用內(nèi)容分析法對(duì)R 工具包在PLoS 論文中被引用的情況進(jìn)行分析[47]。同時(shí),隨著自然語(yǔ)言處理技術(shù)的快速發(fā)展,引文內(nèi)容分析得到了學(xué)者們的更多關(guān)注,涉及到引文主題、引文情感等語(yǔ)義層次的分析[48]。比如,Ha JinKim 等在以往作者共引分析中加入對(duì)引用內(nèi)容的分析,以判斷不同作者研究主題的關(guān)聯(lián)性[49]。
(4)文本挖掘與可視化分析。包含有cluster analysis、visualization、text mining、machine learning。其中,聚類分析主要應(yīng)用于文本主題的挖掘;可視化分析方法將研究結(jié)果直觀地展示出來(lái),有利于加深對(duì)研究結(jié)果的理解。比如,Yoo KyungJeong 等使用主題建模的技術(shù)進(jìn)行抗胰腺癌藥物聚類分析,并通過(guò)藥物與靶點(diǎn)網(wǎng)絡(luò)分析來(lái)跟蹤藥物靶點(diǎn)的變化,為抗胰腺癌的新藥研究提供參考[50]。隨著人工智能技術(shù)的不斷發(fā)展,作為人工智能重要的技術(shù)之一機(jī)器學(xué)習(xí)也逐漸被應(yīng)用于信息計(jì)量學(xué)領(lǐng)域。比如,Min Song 等將隨機(jī)森林、C4.5、KNN 以及SVM 應(yīng)用于作者姓名消歧,取得比混合編輯距離模型更好的結(jié)果[51]。在學(xué)術(shù)大數(shù)據(jù)時(shí)代,產(chǎn)生了海量的學(xué)術(shù)文本數(shù)據(jù),文本挖掘與可視化方法將得到更廣泛的應(yīng)用。
(5)復(fù)雜網(wǎng)絡(luò)分析。包含有network analysis、social network analysis、 citation network、networks。社會(huì)網(wǎng)絡(luò)分析法是對(duì)社會(huì)網(wǎng)絡(luò)中行動(dòng)者之間的關(guān)系進(jìn)行量化研究的重要方法[52],信息計(jì)量學(xué)領(lǐng)域?qū)W者將其應(yīng)用于引文網(wǎng)絡(luò)、合作網(wǎng)絡(luò)、機(jī)構(gòu)的網(wǎng)絡(luò)、作者的網(wǎng)絡(luò)等的分析。比如,Oguz Cimenler 等應(yīng)用社會(huì)網(wǎng)絡(luò)分析方法對(duì)南佛羅里達(dá)大學(xué)工程學(xué)院的100 名終身教職的基于論文、提案以及專利的合作網(wǎng)絡(luò)進(jìn)行分析,來(lái)評(píng)估合作的情況[53]。
(6)模型與算法。包含有pagerank、stochastic model。pagerank 算法主要應(yīng)用于作者網(wǎng)絡(luò)、論文網(wǎng)絡(luò)、機(jī)構(gòu)網(wǎng)絡(luò)等不同網(wǎng)絡(luò)的結(jié)構(gòu)的研究,從而可對(duì)作者、論文和機(jī)構(gòu)等進(jìn)行排序,如Michal Nykl 等使用pagerank 算法及其變型來(lái)研究作者的引文網(wǎng)絡(luò),從而對(duì)作者進(jìn)行排序[54]。此外,應(yīng)用較多的模型主要為隨機(jī)過(guò)程模型,如Quentin L.Burrell 提出了一種簡(jiǎn)單隨機(jī)模型模擬作者論文的出版和被引的過(guò)程,來(lái)研究作者職業(yè)生涯、引文率等與作者的h 指數(shù)之間的關(guān)系[55]??梢?jiàn),模型常被信息計(jì)量學(xué)領(lǐng)域的學(xué)者用于對(duì)科學(xué)交流活動(dòng)中的某些現(xiàn)象的擬合與解釋。
(7)理論與定律。包含有hooked power law、matthew effect、 zipf’s law、 lotka’s law、entropy、 discretised lognormal distribution、lorenz curve。主要有文獻(xiàn)計(jì)量學(xué)的經(jīng)典定律、信息學(xué)領(lǐng)域的熵、社會(huì)學(xué)領(lǐng)域的馬太效應(yīng)以及洛倫茲曲線。奇普夫定律和洛特卡定律屬于文獻(xiàn)計(jì)量學(xué)領(lǐng)域的經(jīng)典定律,得到廣泛的應(yīng)用。比如,等使用齊普夫定律和對(duì)數(shù)正態(tài)分布來(lái)測(cè)量不同學(xué)科和機(jī)構(gòu)的科研產(chǎn)出[56];而冪律則常被信息學(xué)領(lǐng)域?qū)W者用于引文分布等的研究。此外,馬太效應(yīng)作為一種普遍的社會(huì)現(xiàn)象,也得到信息計(jì)量學(xué)領(lǐng)域?qū)W者的關(guān)注,將馬太效應(yīng)用來(lái)解釋作者論文被引過(guò)程中的某些現(xiàn)象等[57]。
圖5 具有研究方法語(yǔ)義功能的高頻關(guān)鍵詞
由上述的分析可知,信息計(jì)量學(xué)領(lǐng)域的研究方法不斷豐富。對(duì)指標(biāo)、模型、算法、理論等而言,信息計(jì)量學(xué)領(lǐng)域都不僅使用本領(lǐng)域的,同時(shí)也在不斷借鑒和吸收其他領(lǐng)域的研究方法,反映了信息計(jì)量學(xué)領(lǐng)域的研究具有多學(xué)科交叉屬性,也是情報(bào)學(xué)作為一個(gè)計(jì)算機(jī)科學(xué)、社會(huì)科學(xué)等多學(xué)科交叉學(xué)科的一個(gè)具體表現(xiàn)[58]。
4.2.3 數(shù)據(jù)關(guān)鍵詞的內(nèi)容分析
信息計(jì)量學(xué)領(lǐng)域大部分研究是基于數(shù)據(jù)驅(qū)動(dòng)的,隨著信息技術(shù)的不斷發(fā)展,產(chǎn)生的數(shù)據(jù)量以及數(shù)據(jù)的種類不斷增加,如何充分利用這些多源異構(gòu)數(shù)據(jù),給信息計(jì)量學(xué)領(lǐng)域的研究帶來(lái)了機(jī)遇與挑戰(zhàn)。對(duì)具有數(shù)據(jù)語(yǔ)義功能的關(guān)鍵詞詞頻進(jìn)行統(tǒng)計(jì)(如圖6所示),可以一定程度上了解信息計(jì)量學(xué)領(lǐng)域相關(guān)研究所使用的數(shù)據(jù)來(lái)源以及數(shù)據(jù)種類。
圖6 具有數(shù)據(jù)語(yǔ)義功能的高頻關(guān)鍵詞
由圖6可知,信息計(jì)量學(xué)領(lǐng)域的數(shù)據(jù)來(lái)源有引文數(shù)據(jù)庫(kù)、學(xué)術(shù)搜索引擎,此外,隨著替代計(jì)量學(xué)的快速發(fā)展,學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)以及用于替代計(jì)量學(xué)的數(shù)據(jù)庫(kù)也成為了信息計(jì)量學(xué)領(lǐng)域的重要數(shù)據(jù)來(lái)源。其中,引文數(shù)據(jù)庫(kù)包含有web of science、 scopus、 science citation index、pubmed 等;搜索引擎主要有g(shù)oogle scholar、academic search engines 等;學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái)以及替代計(jì)量學(xué)相關(guān)的數(shù)據(jù)庫(kù)主要有mendeley、f1000 等。從這些數(shù)據(jù)源獲取的數(shù)據(jù)主要包含了論文的元數(shù)據(jù)、論文的引用數(shù)據(jù)、論文的使用數(shù)據(jù)如論文的下載數(shù)據(jù)、瀏覽數(shù)據(jù)等以及論文的替代計(jì)量數(shù)據(jù)。從中可見(jiàn),隨著移動(dòng)互聯(lián)網(wǎng)以及社交媒體的興起,該領(lǐng)域的數(shù)據(jù)來(lái)源以及數(shù)據(jù)類型不斷豐富;同時(shí),本研究發(fā)現(xiàn)的該領(lǐng)域的主要三大數(shù)據(jù)來(lái)源:引文數(shù)據(jù)庫(kù)、搜索引擎以及學(xué)術(shù)社交網(wǎng)絡(luò)平臺(tái),與王賢文等總結(jié)歸納的四大數(shù)據(jù)對(duì)象即發(fā)文數(shù)據(jù)、引用數(shù)據(jù)、使用數(shù)據(jù)以及替代計(jì)量數(shù)據(jù)相對(duì)應(yīng)[59],說(shuō)明雖然具有數(shù)據(jù)語(yǔ)義功能的關(guān)鍵詞數(shù)量不多,但是能夠較好地覆蓋各種數(shù)據(jù)類型。
本研究從學(xué)術(shù)文本關(guān)鍵詞語(yǔ)義功能視角出發(fā),構(gòu)建了信息計(jì)量學(xué)領(lǐng)域關(guān)鍵詞語(yǔ)義功能分類框架,同時(shí)基于該框架,構(gòu)建了關(guān)鍵詞語(yǔ)義功能標(biāo)注數(shù)據(jù)集,具有一定的理論和應(yīng)用價(jià)值;對(duì)該標(biāo)注數(shù)據(jù)集進(jìn)行分析,揭示了關(guān)鍵詞語(yǔ)義功能分布特征,同時(shí)能夠比較系統(tǒng)地揭示信息計(jì)量學(xué)領(lǐng)域的研究現(xiàn)狀,幫助該領(lǐng)域的相關(guān)學(xué)者與部門(mén)進(jìn)行科研選題以及管理決策,提供了該數(shù)據(jù)集在研究熱點(diǎn)等領(lǐng)域應(yīng)用的一些思路。
本研究也存在一定的不足:一方面,每篇期刊論文的關(guān)鍵詞數(shù)量有限,同時(shí)不同作者具有不同的關(guān)鍵詞標(biāo)注行為,可能導(dǎo)致部分論文的關(guān)鍵詞不具有代表性;另一方面,由于關(guān)鍵詞語(yǔ)義功能的標(biāo)注難度大,費(fèi)時(shí)費(fèi)力,只選取JOI 期刊的論文關(guān)鍵詞作為標(biāo)注樣本,樣本比較有限;今后,將探索關(guān)鍵詞語(yǔ)義功能的自動(dòng)標(biāo)注,從而可以擴(kuò)大標(biāo)注的樣本量,構(gòu)建更大規(guī)模的語(yǔ)義功能標(biāo)注數(shù)據(jù)集;此外,將進(jìn)一步探索該數(shù)據(jù)集在學(xué)術(shù)檢索、引文推薦以及信息計(jì)量學(xué)等相關(guān)領(lǐng)域的應(yīng)用。