羅卓然,王玉琦,錢佳佳,陸 偉
(1.武漢大學信息管理學院,武漢 430072;2.武漢大學信息檢索與知識挖掘研究所,武漢 430072)
科研成果評價是科研管理活動的重要環(huán)節(jié)之一,從微觀上看,科研成果評價會影響到科研規(guī)劃的方向、科研人員的積極性以及科研工作的開展。從宏觀上看,科研成果評價會對科技政策的制定與經(jīng)濟建設產(chǎn)生作用。2020年2月,我國教育部、科技部印發(fā)了《關于規(guī)范高等學校SCI論文相關指標使用樹立正確評價導向的若干意見》[1](以下簡稱《意見》),《意見》指出,需要規(guī)范各類學術評價工作中SCI論文相關指標的使用,鼓勵定性與定量相結合的綜合評價方式,探索建立科學的評價體系,引導評價工作突出科學精神、創(chuàng)新質量以及服務貢獻,推動高等學?;貧w學術初心,凈化學術風氣,優(yōu)化學術生態(tài)。同時,《意見》要求,在科研評價中,要突出創(chuàng)新的質量和貢獻,審慎選用量化指標。由此可見,學術論文評價作為科研成果評價的重要組成部分,日益受到科研管理部門和科研人員的重視,而做好學術論文創(chuàng)新性評價,則是體現(xiàn)《意見》核心要義的重要環(huán)節(jié)。
學術論文是科研成果的重要載體形式和傳播方式之一,其具有發(fā)現(xiàn)新觀點、傳播新方法、承載新理論、推廣新技術等重要作用,這決定了創(chuàng)新性是學術論文的本質和生命力所在。學術論文評價是學術評價的重要組成部分,是圖書情報領域典型的、頗具挑戰(zhàn)的研究課題之一。學術論文評價是一個涉及諸多復雜因素的價值評價過程,其復雜性主要體現(xiàn)在兩方面:一方面,該過程涉及學術人員、學科發(fā)展、科研生態(tài)、社會關系等對象,這些對象之間相互作用、相互滲透,存在多重宏觀、微觀層面之間復雜的關聯(lián);另一方面,價值評價是主體從自身需要或利益出發(fā),運用一定的價值標準,對客體的價值以及價值量進行評價的活動[2],學術論文評價屬于價值評價的范疇,因此,在一定程度上也會受到評價主體不可測度的主觀認知的影響。總體而言,由于學術論文涉及的領域廣泛、內容復雜、價值多樣,對學術論文作出直接客觀的評價與測度是一項頗具挑戰(zhàn)的任務,目前,尚未有適用于各學科、各類學術論文的評價標準。
從學術論文的內在屬性來看,學術論文評價的本質體現(xiàn)為學術論文創(chuàng)新性的測度[3]。目前,關于論文創(chuàng)新性評價的研究引起了國內外研究者的廣泛關注,針對學術文獻的內部和外部特征,采用了定性、定量的方法和科學計量、數(shù)據(jù)挖掘、深度學習等技術,對學術論文的創(chuàng)新性評價開展了相關研究。系統(tǒng)梳理學術論文創(chuàng)新性評價的相關研究,對把握研究進展、借鑒已有成果和發(fā)現(xiàn)研究問題均具有重要的理論與實踐意義。鑒于此,本文從概念內涵、評價指標和測度方法三個方面,對學術論文創(chuàng)新性評價的相關研究進行梳理,分析目前學術論文創(chuàng)新性評價研究中存在的問題,對未來學術論文創(chuàng)新性評價研究的熱點和趨勢進行展望。
創(chuàng)新不是現(xiàn)代社會新出現(xiàn)的概念,在某種程度上,可以說創(chuàng)新有著和人類文明同樣悠久的歷史。早在一千多年前,我國文學典故中就曾多處提及創(chuàng)新,如南北朝時期的《魏書·列傳第五十》有“革弊創(chuàng)新”;隋唐時期的《周書》中有“創(chuàng)新改舊”的記載[4]。但是,人們對創(chuàng)新理論與概念的研究卻只有百年的時間。創(chuàng)新理論源于產(chǎn)業(yè)的創(chuàng)新,初始人們對創(chuàng)新概念的理解主要是從技術與經(jīng)濟相結合的角度出發(fā),探討技術創(chuàng)新在經(jīng)濟發(fā)展過程中的作用。1912年,奧地利經(jīng)濟學家約瑟夫·熊彼特(Joseph Alois Schumpeter)[5]在其經(jīng)典著作《經(jīng)濟發(fā)展理論》中最先提出了創(chuàng)新的基本概念和思想,其認為創(chuàng)新(innovation)是“生產(chǎn)函數(shù)的建立”,是生產(chǎn)要素和生產(chǎn)條件在生產(chǎn)體系中的新組合,以此開創(chuàng)了創(chuàng)新理論研究的先河。隨著創(chuàng)新研究的不斷深入,前人所提及的技術創(chuàng)新論受到了廣泛的質疑,學術界逐漸利用系統(tǒng)方法來研究創(chuàng)新。目前,國際上關于創(chuàng)新分類和測度方面的權威文件《奧斯陸手冊》中認為,每一個創(chuàng)新都是對已有的思想、能力、技巧、資源等的新組合[6]。
在創(chuàng)新的研究中,對創(chuàng)新進行分類是創(chuàng)新理論構建的基礎[7]和創(chuàng)新測度的前提。每當創(chuàng)新理論發(fā)展到一定階段,必然要求新的創(chuàng)新分類能夠推動理論與實證的研究,這也將促進創(chuàng)新測度的發(fā)展,從而為創(chuàng)新指標體系的建立提供理論依據(jù)和方法支撐。作為世界上最早研究創(chuàng)新理論的機構,英國蘇賽克斯大學的科學政策研究所,將創(chuàng)新分為漸進型創(chuàng)新、根本型創(chuàng)新、技術系統(tǒng)創(chuàng)新和技術——經(jīng)濟范式的變更[8]。Henderson等[9]從知識管理的角度出發(fā),將元件知識和建構知識兩個變量列入創(chuàng)新對現(xiàn)有知識的破壞或強化程度的度量中,將創(chuàng)新分為漸進型創(chuàng)新、構建型創(chuàng)新、模組型創(chuàng)新和根本型創(chuàng)新四類。20世紀90年代,哈佛大學商學院克萊頓·克里斯滕森[10]率先提出了“破壞性創(chuàng)新理論”,1997年,克里斯滕森[11]在他的著作《創(chuàng)新者的窘境》中,根據(jù)創(chuàng)新所依賴的價值網(wǎng)絡的不同將創(chuàng)新分為:延續(xù)性創(chuàng)新(sustaining innovation)與破壞性創(chuàng)新(distributive innovation),構建了一套破壞性創(chuàng)新理論基本框架,破壞性創(chuàng)新也因此成為了創(chuàng)新研究領域的重要范式。
學術論文創(chuàng)新性研究秉承了創(chuàng)新理論研究的核心思想,但不局限于某種單一的文體形式與內容規(guī)范,其是多角度、多元化的,提出新理論、新觀點、新方法、新成果是創(chuàng)新,對已有的觀點的查漏補缺、質疑修正、發(fā)展完善是創(chuàng)新,對前人的假設預言進行探究發(fā)現(xiàn)和實驗論證是創(chuàng)新,對感性層面認識轉換為理性層面的認識也是創(chuàng)新。在科學研究和論文寫作方面,學者們對創(chuàng)新性的研究進行了一些有益的探索。Heinze等[12]將高創(chuàng)新性研究概括為革命性新理論、發(fā)現(xiàn)新現(xiàn)象、提出和使用新方法、發(fā)明新儀器、從新角度整合現(xiàn)有理論。Costanzo等[13]從創(chuàng)新理論原理出發(fā),對論文創(chuàng)新性評價進行了分析,其認為論文的創(chuàng)新性可以大致分為理論創(chuàng)新性和實踐創(chuàng)新性兩方面,且理論創(chuàng)新價值性更高。Foster等[14]則從學者發(fā)起研究的思考角度出發(fā),就化學領域將論文創(chuàng)新分為引進新的化學物質和化學關系的顛覆創(chuàng)新,以及深入研究已知的化學關系的傳統(tǒng)創(chuàng)新,并指出傳統(tǒng)創(chuàng)新由于易操作等原因更受學者青睞,但顛覆性創(chuàng)新的影響力往往會更大。Doubleday等[15]從語言文學的角度,論述了學術論文創(chuàng)新更重要的是觀點的價值,而非語言文字表述形式的新奇。陳建青[16]將學術論文“創(chuàng)新”定義為在相關學術領域內,創(chuàng)立或發(fā)展了有價值的新理論、新專業(yè)、新方法、新技術等,或在綜合前人研究成果和經(jīng)驗的基礎上,加工、整理、提煉、發(fā)掘出新意,在參與論證的課題中,提出與已有結論不同的新結論。高自龍[17]從論文水平的“五看”(看題目、看摘要、看結構、看結論、看參考文獻)入手,設立了論題價值、研究立場、觀點傾向、方法科學性、論證完備性與學風道德這六個方面的指標,對學術論文創(chuàng)新性進行綜合性預判。
目前,對學術論文創(chuàng)新性內涵、定義以及范圍還沒有統(tǒng)一的界定。通過文獻調研分析,本文發(fā)現(xiàn),外文論文中對論文創(chuàng)新性的研究多用“novel‐ty”和“innovation”作為關鍵詞,但并沒未對其進行詳細區(qū)分,僅從使用上看,前者更看重時間維度,強調時間概念上的“新”,后者更多地強調價值維度,與“突破性、顛覆性”的概念內涵更相似。在中文學術論文創(chuàng)新性的研究中,與學術論文創(chuàng)新性特征相關的術語主要有創(chuàng)新性、創(chuàng)新力、新穎性、影響力等關鍵詞。從某種程度上來說,上述特征可以用來描述學術文獻的創(chuàng)新性,但也存在差異之處。首先,從度量的角度,創(chuàng)新力強調創(chuàng)新的范圍和程度。其次,影響力強調論文產(chǎn)生作用或帶來影響的大小,影響力和創(chuàng)新力是兩個不同的概念,二者區(qū)別體現(xiàn)在:有影響力的論文,其創(chuàng)新力不一定高,因為影響力不完全是由論文的創(chuàng)新力決定的,還受到作者聲譽、發(fā)表刊物等因素影響;反之,創(chuàng)新力高的論文,在一定時期內其影響力也不一定高,因為創(chuàng)新力是隨著成果被理解、被利用、被傳播的過程逐漸體現(xiàn)的。最后,新穎性或獨創(chuàng)性是成果具備創(chuàng)新力的必要非充分條件,學術研究的新穎性能夠反映學術成果在某種程度上的創(chuàng)新性或前沿性[18],但新穎的事物不一定就是有創(chuàng)新的,有些新穎性的觀點或概念不一定具有理論或者實踐上的價值,因此,具有新穎性的研究成果是否擁有創(chuàng)新性,還需進一步在理論上論證和在實踐中檢驗。
由于學術評價的復雜性,國內外研究者從多個維度對學術論文的評價開展了研究,但是沒有一個指標或指標體系能普遍地適用于各類學科、各類型論文的評價。在學術論文評價研究中,論文創(chuàng)新性評價與論文內容質量評價、論文影響力評價、論文引用關系分析是緊密結合的。對論文創(chuàng)新性評價的文獻綜述,意在挖掘能夠為論文創(chuàng)新性評價提供思路的相關創(chuàng)新性的評價指標和評價方法,并不強調區(qū)分質量評價、影響力評價、綜合評價等相關研究內容的細分差異。下文將學術論文創(chuàng)新性評價指標分為兩類,即內在評價指標和外在評價指標。
學術論文內在評價指標,是以論文全文為切入點對論文創(chuàng)新進行的評價,本文將從兩部分分析論文的內在評價指標:一是由主題、摘要、創(chuàng)新句等論文元素組成的論文文本內容;二是由論文的作者、機構、基金、刊發(fā)期刊、參考文獻等元素組成的論文關聯(lián)內容。
3.1.1 論文文本內容評價指標
論文的創(chuàng)新性是論文思想內容層面上的判定。一般而言,從論文思想內容層面進行論文創(chuàng)新性評價是需要人工介入來進行判定的。例如,同行評議、專家評議就是使用最為廣泛的論文質量評價方法。這些方法可從論文的內容本質入手,直接揭示論文創(chuàng)新水平的高低,而不受時間和環(huán)境等外部因素影響,但也在一定程度上對評議專家提出了基本判別素質的要求。對于各種原生論文資料,如各階段的學位論文和編輯審稿文獻,一方面,缺乏被引情況、期刊質量等外部計量指標;另一方面,該類論文擁有大量的同行評議數(shù)據(jù),這種情況下,從論文文本內容層面對論文進行創(chuàng)新性評價的方式被廣泛關注。
Uddin等[19]從統(tǒng)計的角度出發(fā),考慮論文關鍵詞的數(shù)量、長度、多樣性和新關鍵詞比例這四個指標,同時,結合關鍵詞網(wǎng)絡中心度對論文創(chuàng)新性作出了相應評價。楊京等[20]認為,同主題下的實證論文結論水平的高低是論文創(chuàng)新的重要因素,因此,利用論文的“IMRD”(Introduction,Methods and Ma‐terials,Results,Discussion)結構,從論文結論中抽取性能指標特征值、相應數(shù)值和相應量綱,用同特征值、同量綱下的論文結論數(shù)值來評估論文的創(chuàng)新能力。盧超等[21]將研究落腳于“科研創(chuàng)新”,系統(tǒng)地梳理了國際核心期刊上與新興研究話題發(fā)現(xiàn)相關的學術論文,其認為創(chuàng)新性是新興研究話題的成長性指標的類別之一。楊建林等[22]定義了帶時間戳關鍵詞逆文檔頻率、帶時間戳關鍵詞對逆文檔頻率和文檔新穎度3個概念,并由此組合給出了計算論文新穎度的公式。任海英等[23]則從主題詞組入手,通過主題詞共現(xiàn)網(wǎng)絡研究學術論文內容的組合新穎性與其學術影響力的關系,為研究論文的學術影響力提供了新的研究視角。李傳兵[24]針對碩士專業(yè)學位論文提出了基于研究性、專業(yè)性、創(chuàng)新性、應用性和規(guī)范性的評價體系,該體系中定義的創(chuàng)新性涵蓋了新論題、新論據(jù)、新方法、新運用和新觀點5個方面。
除了從論文自身文本提取的創(chuàng)新因素外,這類研究也分析了不同時間維度下、同主題的論文創(chuàng)新性研究,比較典型的有基于詞嵌入模型派生的語義特征構建創(chuàng)新指數(shù)[25]、基于網(wǎng)格項對的時間分布構建創(chuàng)新指數(shù)[26],以及基于圖鏈接的多語義因素構建創(chuàng)新指數(shù)[27]等,這些綜合了時間維度和內容文本特征的評價指標能夠在一定程度上反映論文的創(chuàng)新能力高低,同時,能夠有效地提高評價效率。
3.1.2 論文關聯(lián)內容評價指標
從文本內容自身層面評價創(chuàng)新性,是建立在對全文信息進行深度剖析以及相關領域發(fā)展全面了解的基礎之上,然而,獲得全文樣本數(shù)據(jù)并對其分析存在一定的難度,因此,有研究者將學術論文的關聯(lián)內容作為研究切入點。例如,作者名望、發(fā)表期刊、參考文獻、基金指數(shù)等關聯(lián)內容因素均在一定程度上可以客觀反映文獻的創(chuàng)新性。這類研究有單獨從一個影響因素角度進行論文創(chuàng)新性評價,也有綜合多個創(chuàng)新性影響因素進行綜合分析,后者往往以多因素指標量綱或者多層級評價指標體系的形式加以呈現(xiàn)。
1)作者與機構
從論文作者角度的影響因素,可以分為兩個方面:一方面,是基于該作者過往論文質量來評判該篇論文的創(chuàng)新性,典型的有h指數(shù)、論文總被引頻次、論文最大被引次數(shù)、論文平均被引次數(shù)、發(fā)表論文總篇數(shù)等[28-30],其核心思想是過往論文發(fā)表越多、被引頻次越高的作者學術能力越強,更有可能寫出創(chuàng)新性高的論文;另一方面,是基于作者自身身份、經(jīng)歷和其他個人信息,如作者的年齡、學歷及職稱、交流學習經(jīng)歷[31-33]等因素,對論文創(chuàng)新性評價產(chǎn)生影響的相關研究。此外,合著研究也是學術論文創(chuàng)新性評價研究的熱點之一。Schmoch等[34]發(fā)現(xiàn),在多元背景下,學術論文被引頻次和合著文獻之間存在著較強的偏相關關系。Puuska等[35]對多個學科的合著關系研究后發(fā)現(xiàn),10個以上的作者合著會顯著提高被引頻次,在一定程度上說明了論文質量與合著作者數(shù)目有關,在一定范圍內合著作者較多的文章的質量和創(chuàng)新力更高。
2)項目支撐
獲取基金的項目需要經(jīng)歷評審、答辯、考核等一系列環(huán)節(jié),并結合了多名領域專家的評審考核意見,在一定程度上,是從主題層面對論文的創(chuàng)新性進行篩選,故基金項目的支持也可以用來評價論文的創(chuàng)新性水平。Wang等[36]發(fā)現(xiàn),競爭性基金資助的項目與內部基金資助的項目相比,平均具有更高的新穎性,并且資助基金在激發(fā)中高級別研究人員創(chuàng)造性作品的同時,阻礙了初級研究人員的創(chuàng)新力。鄧妍等[37]發(fā)現(xiàn),基金資助對學術論文質量有著正向相關性,有適當基金資助的文章具有相對較高的創(chuàng)新和價值,但論文同時被多項基金資助,并不會增加其學術影響力。
3)期刊質量
“以刊論文”的現(xiàn)象在很長一段時間內被眾多學者質疑,并指出其不合理之處,該現(xiàn)象也從側面反映了論文創(chuàng)新性的好壞和發(fā)表刊登期刊的質量有著相當大的關系,本質上期刊對論文的篩選也是考量論文創(chuàng)新性的門檻之一,好的期刊對其所刊發(fā)的論文創(chuàng)新性要求高,可以間接反映出論文自身的創(chuàng)新性水平。van Dalen等[38]和Boyack等[39]都在學術論文評價中使用期刊影響因子(impact factor,IF)作為其中一項評價因素,后者在不同學科領域運用期刊重要性、參考重要性和作者聲譽這3個因素來衡量學術論文的創(chuàng)新性和重要性,發(fā)現(xiàn)期刊因素得出的結果最為精確,尤其是在計算機領域內得到了較好的評價結果。
4)參考文獻
參考文獻作為學術論文的重要組成部分,在一定程度上反映了論文作者的研究水平、研究思路以及論文的前沿性水平,因此,從參考文獻進行分析是對論文創(chuàng)新性進行評價的一種方式。在參考文獻跨學科因素方面,Larivière等[40]以WoS(Web of Science)數(shù)據(jù)庫2000年收錄論文為研究對象,研究發(fā)現(xiàn)參考文獻的跨學科水平與論文被引頻次之間的關系并沒有出現(xiàn)統(tǒng)一的結論,不同學科差異較大,但高度單一學科和高度綜合學科的被引體現(xiàn)較低的創(chuàng)新性。Onodera等[41]提出,普賴斯指數(shù)(參考文獻中近五年文獻所占比例)和引用半衰期(較新一半的參考文獻距論文發(fā)表的時間差)均與論文自身被引頻次呈現(xiàn)相關關系,可將其作為論文價值評估的指標。
5)綜合指標
綜合指標是結合以上4個方面的影響因素,以及其他主體內容層面因素,進行學術論文創(chuàng)新性的綜合性評價。Bornmann等[42]劃分了論文質量評估的7個方面的因素,包含時間因素、期刊因素、文章因素、作者因素、引文因素、學科因素和文章獲得難度,雖然這7個因素是對論文質量的評定,但論文創(chuàng)新力作為論文質量的一個重要組成部分也具有一定的參考意義。Vieira等[43]也指出,作者合作數(shù)量、論文長度、參考文獻數(shù)量、期刊影響因子和作者機構數(shù)量這5個特征會對論文有所影響。賀婉瑩[44]從論文創(chuàng)新吸收力指標、產(chǎn)出力指標、擴散力指標和主體指標4個層面構建了論文評價指標體系,該體系包含參考文獻的數(shù)量、參考文獻的學科分布廣度、論文的字數(shù)、論文所在期刊的影響因子、第一作者和h指數(shù)等17個相關因素項目。
學術論文外在評價指標,是指在不利用論文全文數(shù)據(jù)情況下,通過分析文獻之間的引用關系,這種文獻外部特征對論文的創(chuàng)新性進行間接評價。下文將從基于組合引用的評價和基于網(wǎng)絡引用的評價兩個外在指標介紹學術論文創(chuàng)新性評價研究情況。
3.2.1 基于組合引用的評價指標
論文引用是科研工作的基礎活動之一,規(guī)范合理的引文標注,說明了該篇論文的前期調研或理論基礎,可以說論文引用關系是科研活動知識傳播關系的體現(xiàn),而探究引文之間組合模式也是研究學術論文創(chuàng)新性的重要方式。Ponomarev等[45]認為,一切開創(chuàng)性成果均是建立在回顧總結的基礎之上,并由此開發(fā)了基于出版物引用動態(tài)檢測方法,使用定量方法識別已知突破性創(chuàng)新論文和大量高引用論文的典型引用模式,由此建立論文的創(chuàng)新性預測模型。Lee等[46]繼承期刊評價中的多元組合創(chuàng)造性的觀念,其認為論文的創(chuàng)新性評價可以借鑒類似的思想,即通過考察引文網(wǎng)絡中不同來源的期刊組合來定義論文創(chuàng)新指數(shù)。Tahamtan等[47]認為,一篇論文引用的大量參考文獻的不尋常組合表明了其較高的創(chuàng)作潛力(或新穎性),同時,在對原作者引用意圖的訪談數(shù)據(jù)的分析中,證實了相關聯(lián)系的存在,通過對論文引文網(wǎng)絡中不同類型、不同主題的組合進行分析,歸納出了具有創(chuàng)新性的單篇論文常用主題組合模式。Wang等[48]將引文網(wǎng)絡的來源期刊構造成組合對的形式,并統(tǒng)計引文期刊對的歷史引用次數(shù),利用歷史引用次數(shù)構建矩陣,計算兩兩組合的期刊對的余弦相似度,其認為論文的創(chuàng)新性指數(shù)可以定義為參考文獻期刊組合對的新穎程度,即所有期刊對組合的數(shù)量與余弦相似度和的差值。
3.2.2 基于引文網(wǎng)絡的評價指標
引文網(wǎng)絡是反映學術論文之間復雜引用關系的重要形式,利用引文關系網(wǎng)絡進行論文創(chuàng)新性的評價也成為了相關評價研究的一個熱點方向。在引文網(wǎng)絡中,節(jié)點的入度數(shù)代表論文的施引文獻數(shù),出度數(shù)代表論文的被引文獻數(shù),即論文的被引頻次。Moed[49]研究表明,在排除了少數(shù)不正當引用的情況下,論文被引頻次越高,可反映其具有較高的學術價值,即研究成果更具有創(chuàng)新性或影響力。此外,引文網(wǎng)絡中加入時間維度可以明確創(chuàng)新的時效性,也成為了眾多學者的研究思維突破點。Chen等[50]探究了利用引文關系快速查找相關創(chuàng)新性文獻的方法,該方法首先利用人工標注的方法創(chuàng)立了權威矩陣,該矩陣描述了引文與被引文之間的權威關系;然后,提出了一種基于引文網(wǎng)絡的評價計算方法,即引文權威擴散,以快速挖掘某一主題中具有較高創(chuàng)新性的論文。宋歌[51-52]研究了科研創(chuàng)新的擴散機制和創(chuàng)新力指標,其研究在原始引文網(wǎng)絡中論文節(jié)點度屬性的基礎上,提出了“S指數(shù)”作為評價學術論文創(chuàng)新力的一項指標,S指數(shù)得分結果蘊含了創(chuàng)新成果在已有研究基礎上的變異程度,此外,他還在該S指數(shù)的基礎上,提出了“累加S指數(shù)”用于創(chuàng)新成果分區(qū)。索傳軍[53]認為,引文傳遞過程是知識價值的折損過程,通過分析文獻中的原創(chuàng)知識元和引文借鑒知識元在時間軸上的分布,可以反映出該篇論文的創(chuàng)新程度。
目前,學術論文創(chuàng)新性測度研究大多數(shù)為定性研究,而將文本內容的創(chuàng)新性量化以評價學術論文創(chuàng)新性的研究相對較少。隨著機器學習、自然語言處理、文本挖掘技術的不斷發(fā)展,有些學者試圖將基于人工甄別的傳統(tǒng)評價方式轉化為自動識別的新型評價方式,采取這種方法既可規(guī)避因個人觀念和水平差異造成的不公正結論,亦能夠有效地提高批量處理效率,為文獻檢索、成果評價等應用提供技術支持。通過調研與分析,本文將學術論文創(chuàng)新性評價測度的相關研究歸納為基于文本內容的測度方法、基于引用關系的測度方法和基于多維指標的指標體系測度法,分別介紹了相關測度方法的研究現(xiàn)狀。
測度學術論文的創(chuàng)新性,最直接的方法是度量學術文本內容的新穎性和創(chuàng)造力。然而,學術論文全文是非結構化的文本數(shù)據(jù),對學術論文全文進行計算是一個復雜度高且耗時長的工作。目前,學者們主要從學術論文主題和文本中創(chuàng)新句的角度來測度學術論文的創(chuàng)新性。
4.1.1 基于文本主題層面的測度方法
論文主題是對論文內容的高度凝練,主題新穎性是體現(xiàn)學術論文創(chuàng)新性的重要特征之一,因此,許多學者通過計算論文主題的新穎性,來度量論文的創(chuàng)新性。楊建林等[22]認為,單個關鍵詞的逆文檔頻率通常比關鍵詞對的逆文檔頻率低得多,故關鍵詞對的逆文檔頻率反映主題新穎性的能力強于單個關鍵詞的逆文檔頻率。他們定義了帶時間戳的關鍵詞逆文檔頻率、帶時間戳的關鍵詞對逆文檔頻率和文檔主題新穎度的概念和計算方法。文檔D的主題新穎度計算公式為
其中,ti、tj分別表示文檔的第i個和第j個關鍵詞;n表示文檔D中關鍵詞的數(shù)量;KPTIDF(D,ti,tj)為帶時間戳的關鍵詞對逆文檔頻率。
該方法的局限性在于作者標注關鍵詞時存在表達的隨意性,文章的關鍵詞存在不準確、不合理等問題,對主題新穎性測度結果的準確性產(chǎn)生影響。許丹等[54]基于楊建林等研究,利用美國國立醫(yī)學圖書館建立的自由文本,到UMLS(Unified Medical Language System)超級敘詞表映射工具MetaMap提取文檔句子中的自然語言詞對,通過計算自然語言詞對的帶時間戳的逆文檔頻率計算文檔主題的新穎性。由于研究的對象不是簡單的作者標記的關鍵詞,而是從文檔句子中提取的自然語言詞,故該研究的計算方法與楊建林等研究有所不同:若一個文檔D中含有k個句子,則文檔D的新穎度應該是所有句子新穎度的平均值;文檔中句子的新穎度則等于文檔D中第S句所有以自身為參照的自然語言詞對的逆時間文檔頻率的平均值。雖然該方法擺脫了文章自帶關鍵詞不準確、不合理等問題,但對于長篇論文的全文本而言,計算其中每個句子的新穎度的計算量較大。
楊京等[55]提出了一種基于研究主題對比的單篇學術論文創(chuàng)新力評價方法,其通過Keygraph算法提取代表論文研究主題的關鍵詞,然后將這些關鍵詞與科學研究前沿主題進行Jaccard相似度計算,最后結合期刊影響因子和替代指標兩項外在指標,利用TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)法提出了一種論文創(chuàng)新力綜合評價模型,計算公式為
其中,C(A)表示論文主題詞個數(shù);C(B)表示科學研究前沿主題詞個數(shù);Simmax和Simmin分別表示最優(yōu)值和最差值;IFmax和IFmin分別表示期刊影響因子的最優(yōu)值和最差值;Altmax和Altmin分別表示替代計量學指標中的最優(yōu)值和最差值。
該方法的不足是無法發(fā)現(xiàn)那些主題未變而研究角度或方法具有重大創(chuàng)新的論文。此外,科學研究前沿主題的確立也是創(chuàng)新研究中一個廣受關注的研究熱點[56]。Mishra等[26]使用Medline中發(fā)布的2230萬篇文章的數(shù)據(jù)集來衡量論文的新穎性,每篇文章的新穎性評分(novelty scores)計算方法為:①論文內最小概念年齡(以年為單位);②N年中論文內概念對最小年齡(以年為單位);③論文中所有概念中的最小概念年齡;④論文中所有概念對中的最小概念對年齡。該方法綜合考慮了時間和文本內容特征因素,僅依據(jù)概念的“年齡”計算創(chuàng)新性,而忽視了其他因素的測度。
除了傳統(tǒng)的逆文檔頻率、Jaccard相似度和統(tǒng)計測度外,深度學習、神經(jīng)網(wǎng)絡等方法也越來越多地被學者應用于學術論文的主題新穎性測度中。逯萬輝等[57]構建了基于深度學習的文本內容特征因子計算模型,首先通過Doc2Vec計算文檔集內文本間的語義相似性,構建文檔的相似性矩陣,進而計算該矩陣網(wǎng)絡中各個文本節(jié)點間的相似性關系,并用隱馬爾科夫模型的方法計算出矩陣網(wǎng)絡中各個節(jié)點的文本特征因子,從而將文檔集內與其他文本相似度較低的文檔識別出來,即構成文檔的主題新穎性測度指標。
He等[25]基于時序嵌入和向量余弦值,度量了某領域學術論文的創(chuàng)新力,并分析了論文創(chuàng)新力對領域文獻數(shù)量增長的預測作用,該方法通過SGNS(Skip-Gram with Negative Sampling)負采樣進行詞嵌入學習,將時間序列上的詞嵌入結果依次排列,構成時序詞嵌入,在向量空間中計算主題詞之間的相似度,從而得到主題創(chuàng)新力指數(shù),某個主題i在t時的創(chuàng)新性指數(shù)的計算公式為
其中,win表示時間窗口的大小。
4.1.2 基于文本句子層面的測度方法
除學術論文主題外,有的研究者利用自然語言處理、數(shù)據(jù)挖掘等技術,從題錄數(shù)據(jù)或者全文本內容中提取能夠表征論文創(chuàng)新的特征等,與領域內的其他論文進行對比,得出論文創(chuàng)新力的相對大小。在文本內容的新穎性測度方面,基于向量空間模型的測度方法是當前使用最為廣泛的方法。Zhang等[58]以向量空間模型為基礎進行文本新穎性的探測,以向量余弦值為文檔相似度,根據(jù)文檔相似度給出新穎性計算方法,具體為
其中,di表示時間i上的文檔,若當前文本和以前文本之間的相似性值越大,則新穎性越小。
Chen等[59]基于Scopus?數(shù)據(jù)庫,研究了論文摘要中創(chuàng)新點的自動提取方法,其選擇了2011—2017年發(fā)表的以語義分析為主題的文章摘要作為實驗文本,提出了一種從技術和工程論文摘要中自動提取創(chuàng)新點的方法。該方法基于詞性標記提取N-grams作為候選創(chuàng)新點,并通過檢索Scopus?數(shù)據(jù)庫以判斷其是否新穎,并且討論了創(chuàng)新思想在不同抽象結構中的分布,提出了一套停用詞列表和研究描述特征列表。該研究結果發(fā)現(xiàn),在去除嘈雜的多元詞性特征后,適當組合N-grams可以有效地提高摘要中創(chuàng)新點自動提取的性能。Amplayo等[27]利用神經(jīng)網(wǎng)絡探測學術文本的創(chuàng)新性,并分別構造了兩個圖:一個是以作者和文章作為節(jié)點的宏觀圖;另一個是以關鍵詞和主題詞作為節(jié)點的微觀圖。在構造種子圖后,文章節(jié)點被逐漸添加進圖中,同時圖中的變化被記錄為文章的特征集,在此基礎上使用一個自編碼的神經(jīng)網(wǎng)絡作為創(chuàng)新性探測模型。該研究實驗發(fā)現(xiàn),在所構造的圖中,通過回歸分析計量的關鍵詞級的圖特征表現(xiàn)最好。并且研究者還結合宏微觀圖和所有特征,發(fā)現(xiàn)使用回歸分析和引文計數(shù)分析中,關鍵詞、主題和詞特征的組合表現(xiàn)最佳。楊京[60]利用規(guī)則抽取技術,從單篇論文中抽取具有研究水平信息的句子;然后,構建正則表達式,從具有研究水平信息的句子中精確抽取出能表征論文研究水平的數(shù)值信息;最后,分類對比分析抽取出的數(shù)值信息,從而判斷出學術論文的創(chuàng)新力。章成志等[61]依據(jù)表征創(chuàng)新性評價的詞語(簡稱“標志詞”)開展了創(chuàng)新研究評價句抽取的研究,按照創(chuàng)新研究的評價句內容,人工將其劃分為“概念理論”“觀點發(fā)現(xiàn)”“模型方法”“派別領域”“系統(tǒng)軟件”以及“實踐應用”6類,該研究以圖書情報領域學術期刊論文全文作為實驗數(shù)據(jù),借助制定的抽取規(guī)則,采用標志詞匹配和人工核對相結合的方式來抽取創(chuàng)新研究評價句。溫浩[62]提出了一種創(chuàng)新點語義識別與分類方法,該方法對科技文摘文本按照句法和語義功能進行6分類算法處理,通過分布統(tǒng)計、語義語序檢驗、二次分類與合并等方法,實現(xiàn)了對科技文摘創(chuàng)新點的問題、方法、結果的分類實驗,分類的準確率達到99%。
在學術創(chuàng)新力評價的研究中,有些學者基于論文的引用關系網(wǎng)絡測度論文的創(chuàng)新力。楊家棟等[63]提出“互引比率”來測度社會科學研究成果的創(chuàng)新力,“互引比率”等于科研成果中引證其他成果的次數(shù)與本成果被引次數(shù)的比值,該比率越小,說明參考他人的成果越少;本成果被借鑒得越多,說明論文的創(chuàng)新力越強。宋歌[51]提出了基于引文網(wǎng)絡的“S”指數(shù)來評價科研成果的創(chuàng)新和影響力,S指數(shù)等于與成果主題直接相關的參考文獻數(shù)量除以該值與成果從發(fā)表年至y年的總被引頻次之和,值域為[0,1],越接近0,則表示成果的創(chuàng)新力越大,計算如式(7)所示。公式為
其中,Sy為某成果在y年的S指數(shù);Din和Dout是成果節(jié)點在引文網(wǎng)絡中的入度和出度;Din與該成果直接相關的參考文獻數(shù);Dout為該成果在對應主題領域從發(fā)表年至y年的總被引次數(shù)。Sy越大,則成果創(chuàng)新力越高。某篇論文的創(chuàng)新性指數(shù)為其在n年的S指數(shù)之和。
Uzzi等[64]利用“共被引”構造文獻對,將文獻對轉換為期刊對,根據(jù)期刊的學科領域,基于隨機引文網(wǎng)絡的標準化分數(shù)Z-Score來測度“文獻對”中知識組合的創(chuàng)新程度。Boyack等[65]在Uzzi等[64]的基礎上進行了實驗,其計算的是共被引期刊對的K50統(tǒng)計值,K50的預期值和標準化值是使用平方共引計數(shù)矩陣的行和列之和計算得到的,而不是使用蒙特卡洛技術,K50值低于0的文章被認為是非典型組合。Wang等[48]從“組合新穎性”量化論文的新穎性,其認為如果一篇論文的參考文獻中出現(xiàn)的某對期刊在之前沒有被其他論文引用過,那么該論文具有一定的創(chuàng)新力。首先,將期刊表示成向量,采用余弦相似度來度量兩個期刊向量之間的相似性,對于每篇論文,使用實現(xiàn)新組合的難度之和度量創(chuàng)新力,沒有新的期刊對出現(xiàn)的論文的創(chuàng)新力定義為0。然而,參考文獻的數(shù)量會受到作者寫作習慣、學術規(guī)范意識等的影響,該類方法的準確度也會受影響。Bornmann等[66]以F1000Prime上專家的評價為標準,比較了Uzzi等[64]和Wang等[48]的測度方法的有效性,結果發(fā)現(xiàn)前者的方法更有效。
指標體系測度法是指從多個不同的角度,提取與論文創(chuàng)新力相關的指標,構建創(chuàng)新性評價指標體系,通過熵權法、層次分析法等方法確定各指標的權重,最后對各項指標進行加權計算,得出論文的創(chuàng)新性分數(shù)。曹妍等[67]參照“學位論文編寫原則”等文件,初步擬定了論文創(chuàng)新性評價指標體系,利用德爾菲法咨詢領域專家以確定指標體系,再結合層次分析法[68]確定各指標的權重。
蔣偉偉[69]基于學術創(chuàng)新的過程,從學術創(chuàng)新吸收力、產(chǎn)出力、擴散力三個階段以及創(chuàng)新數(shù)量、質量、速度、廣度四個維度,構建了學術創(chuàng)新的測度體系,采用熵權法[70]確定每個指標的權重,并且根據(jù)正向指標進行數(shù)據(jù)的標準化處理,標準化處理為
其中,n表示樣本數(shù)量;m表示指標數(shù)量;Xij表示第i個樣本的第j個指標的數(shù)值。最后對標準化的結果進行加權求和,得到學術創(chuàng)新力值。
以往在使用由多個指標構成的指標體系評價論文創(chuàng)新性時,研究者對其中各指標具體值的測度大多基于論文外部特征的簡單統(tǒng)計,許多學者以引文的數(shù)量值為論文的創(chuàng)新吸收力指標,并未深入到文章內容層面評價其創(chuàng)新性。
學術論文評價是學術評價的一項重要任務,而創(chuàng)新性評價又是學術論文評價的重要維度。本文對國內外學術論文創(chuàng)新性評價的研究現(xiàn)狀進行了調研和分析,梳理了創(chuàng)新理論及創(chuàng)新分類研究的主要脈絡,闡述了學術論文創(chuàng)新性的內涵。通過文獻調研與分析,本文發(fā)現(xiàn)目前學術論文評價的影響因素涵蓋了論文的諸多方面。例如,論文主題、觀點、結論等論文文本內容指標,作者、機構、基金、參考文獻、期刊質量等論文的關聯(lián)內容指標,以及論文的引文組合引用特征和引文網(wǎng)絡特征等外在指標。因此,本文第三部分將學術論文創(chuàng)新性評價指標分為內在評價指標和外在評價指標兩大類。學術論文創(chuàng)新性內在評價指標以論文全文數(shù)據(jù)為研究對象,包括文本內容評價指標和關聯(lián)內容評價指標;學術論文創(chuàng)新性外在評價指標包括基于組合引用的評價指標和基于網(wǎng)絡引用的評價指標。為進一步研究學術文本創(chuàng)新性指標的量化機制和測度方法,本文第四部分將學術論文創(chuàng)新性測度的相關研究歸納為基于文本內容的測度方法、基于引用關系的測度方法和基于多維指標的指標體系測度法三類,并從技術層面詳細闡述了論文創(chuàng)新性研究的測度與計算方法。
通過對國內外學術論文創(chuàng)新性評價相關研究的總結與分析,本文發(fā)現(xiàn)有許多研究者將數(shù)據(jù)挖掘、深度學習等技術應用到該研究任務中,為學術文本創(chuàng)新性評價提供了新思路的同時,也存在一些不足,本文將其歸納總結為以下四點:①使用新穎性、影響力等替代指標。在學術論文創(chuàng)新性研究中,存在較多用論文主題的新穎性、論文的影響力等指標來衡量論文創(chuàng)新性的情況。新穎的主題是論文具有創(chuàng)新的必要非充分條件,僅靠論文主題的創(chuàng)新與否還不足以定論文章是否具有創(chuàng)新性。此外,在以影響力測度為主導的學術論文評價體系中,影響力的大小并不能全部歸因于論文創(chuàng)新性的強弱;相反地,評價客體創(chuàng)新性的大小還可能受到影響力的制約。②重視外在指標,而忽略論文本身。引文分析指標、期刊影響因子等外在指標與論文創(chuàng)新性不直接相關,無法充分體現(xiàn)論文的創(chuàng)新價值。目前,基于引文關系的學術論文創(chuàng)新性測度方法主要考慮了論文的引文網(wǎng)絡特征,但是在沒有考慮時間因素、內容因素的情況下,這種測度方式的有效性較低,而且過于重視引文的評價,可能導致其愈加偏離論文的實際內容。③評價指標主觀性強,結果難以被驗證。論文創(chuàng)新性評價存在一定的主觀性,評判者難免將個人的認知和期待帶入創(chuàng)新性評價的過程中。學術論文創(chuàng)新性評價研究仍然缺乏普遍接受的指標體系,已有的基于指標體系的創(chuàng)新性測度法中,各項指標對論文創(chuàng)新性的作用機制復雜,綜合創(chuàng)新性計算缺乏科學依據(jù),缺乏有效的驗證手段,難以確保論文創(chuàng)新性識別結果的準確性。④局限于特定領域。目前,已有關于人文社科、醫(yī)學等領域的學術論文創(chuàng)新性評價的研究,但是學科領域的差異性導致與論文內容相關的特征指標也各不相同,這些研究中提出的方法僅對同領域、同類型的論文評價有效,不具有普遍適用性。
近年來,得益于大數(shù)據(jù)、深度學習等技術的日益成熟,自然語言處理、神經(jīng)網(wǎng)絡語言模型等技術繼續(xù)蓬勃發(fā)展,為文本自動理解的研究提供了重要的技術支撐,也為學術論文自動評價研究帶來了新的發(fā)展契機,有利于研究者從多角度評價論文創(chuàng)新性。鑒于已有研究存在的問題和創(chuàng)新性評價的復雜性,本文將學術論文創(chuàng)新性評價研究的趨勢總結為兩點:第一,針對不同學科、不同類型的科研工作,提出各自論文創(chuàng)新性評價的側重點,建立健全分類評價指標體系。標準化學術論文創(chuàng)新性評價指標體系能夠為論文創(chuàng)新性的識別研究提供參考依據(jù)和評判標準,不僅有利于學術論文評價工作健康有序地開展,也能助力科研管理和凈化學術生態(tài)。第二,綜合了時間特征、內容文本特征、引文特征等指標的評價方式,在兼顧外部和內部指標的同時,較客觀地反映論文的創(chuàng)新性,將是學術論文評價研究的重要發(fā)展趨勢之一。此外,本文認為,自動提取學術論文中的創(chuàng)新句、自動挖掘論文中的創(chuàng)新點、根據(jù)相應的評價模型自動評價論文的創(chuàng)新性等,將是學術論文創(chuàng)新性評價研究有待突破的難點和重要發(fā)展方向。