羅卓然,陸 偉,蔡 樂(lè),程齊凱
(1. 武漢大學(xué)信息管理學(xué)院,武漢 430072;2. 武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢 430072)
從科學(xué)的發(fā)展來(lái)看,科學(xué)研究開始于問(wèn)題發(fā)現(xiàn)[1],美國(guó)著名科學(xué)哲學(xué)家L?勞丹曾在其著作《進(jìn)步及其問(wèn)題——一種新的科學(xué)增長(zhǎng)理論》中強(qiáng)調(diào),科學(xué)研究的目的是解決問(wèn)題;問(wèn)題和方法是科研工作的重要組成內(nèi)容,其中問(wèn)題和方法的描述是科學(xué)話語(yǔ)的重要組成部分[2],它以特定的形式和程度表現(xiàn)在論文中,固化為論文中的某些詞匯或詞匯組合[3]。在創(chuàng)新學(xué)研究中,組合往往被看作創(chuàng)新產(chǎn)生的一個(gè)重要來(lái)源。創(chuàng)新理論的鼻祖約瑟夫·熊彼特(Joseph Alois Schumpeter) 在其著作《經(jīng)濟(jì)發(fā)展理論》中提出創(chuàng)新(innovation)是已有生產(chǎn)要素和生產(chǎn)條件的組合[4],該觀點(diǎn)后來(lái)得到了國(guó)際上許多有影響力學(xué)者的支持[5-6]。目前,學(xué)術(shù)界對(duì)于學(xué)術(shù)文本中的“創(chuàng)新”這一概念還未形成統(tǒng)一定義,常見的指代詞如新穎性、創(chuàng)新力、顛覆性、innovation、novelty、creativity、fresh ideas、disruptive innovation等從創(chuàng)新的內(nèi)容、時(shí)間、價(jià)值、影響等層面描述了創(chuàng)新的特征。學(xué)術(shù)研究成果的新穎性(novelty)能夠在某種程度上反映其創(chuàng)新性或前沿性[7],由于成果的價(jià)值一般需要較長(zhǎng)的時(shí)間才能體現(xiàn)出來(lái),在科研評(píng)價(jià)研究中常用新穎性描述研究成果的創(chuàng)新特質(zhì)。通過(guò)文獻(xiàn)調(diào)研與分析,本文發(fā)現(xiàn)學(xué)術(shù)論文的新穎性主要源于研究問(wèn)題、研究方法、研究結(jié)論等元素的重組與結(jié)合,其中研究問(wèn)題與研究方法的組合是形成創(chuàng)新的重要方式[2]。
在科學(xué)研究領(lǐng)域,研究人員發(fā)現(xiàn)影響最大的科學(xué)研究成果主要基于以往工作的組合,尤其那些非典型的組合[8-11],并提出新穎性的主要來(lái)源是已有元素的重組或既有元素與新概念的組合[12-13]。此外,組合新穎性的內(nèi)容和形式也不拘一格,國(guó)內(nèi)外學(xué)者從參考文獻(xiàn)組合[14]、參考文獻(xiàn)的期刊組合[8-9,15]、詞匯組合共現(xiàn)[12,16-17]等內(nèi)容的組合對(duì)科學(xué)創(chuàng)新進(jìn)行了研究。上述研究從組合創(chuàng)新的視角研究了科研論文的創(chuàng)新范式,為學(xué)術(shù)論文新穎性度量和創(chuàng)新性評(píng)價(jià)提供了理論和方法基礎(chǔ)。然而,這種從期刊組合或參考文獻(xiàn)組合的角度度量新穎性的方法,在脫離論文內(nèi)容的情況下測(cè)度論文新穎性,對(duì)新穎性的解釋力度還有所欠缺。值得注意的是,部分研究從論文詞匯組合的角度開展了新穎性研究,這類研究的對(duì)象更接近創(chuàng)新本體的內(nèi)容層面,但是僅從詞匯組合頻率的角度計(jì)算新穎性[18-19],而缺少考慮詞匯之間的語(yǔ)義差異,這種情況下可能會(huì)忽略新穎性的重要特征。例如,對(duì)生物醫(yī)學(xué)詞匯之間的組合和生物醫(yī)學(xué)與計(jì)算機(jī)科學(xué)詞匯的組合而言,后者是一種跨學(xué)科詞匯的組合,這種組合能為新穎性來(lái)源和創(chuàng)新擴(kuò)散的研究提供重要線索。挖掘組合詞匯的語(yǔ)義內(nèi)涵,可以揭示不同跨領(lǐng)域研究背后的知識(shí)交叉與融合情況[20],有助于從詞匯功能的角度揭示論文新穎性的語(yǔ)義內(nèi)涵[21]。
學(xué)術(shù)文本的詞匯功能是根據(jù)文本所在的語(yǔ)義環(huán)境對(duì)其承擔(dān)的語(yǔ)義角色和功能的認(rèn)知和理解[22]。學(xué)術(shù)論文作為科研成果載體,其核心問(wèn)題和核心方法解釋了論文待研究的問(wèn)題和解決途徑[23],是體現(xiàn)論文新穎性和價(jià)值的重要功能元素。目前,國(guó)內(nèi)外關(guān)于學(xué)術(shù)論文中的研究問(wèn)題或研究方法的研究,主要集中在領(lǐng)域研究主題識(shí)別[24]、研究方法庫(kù)構(gòu)建[25]、跨學(xué)科研究問(wèn)題[26]與研究方法分析[27-28]等方面,而將問(wèn)題與方法的組合應(yīng)用在論文新穎性測(cè)度上的研究相對(duì)較少。
為進(jìn)一步探索面向文本內(nèi)容層面的新穎性度量方法,本文以組合新穎性理論為基礎(chǔ),以學(xué)術(shù)論文細(xì)粒度詞匯功能語(yǔ)義差異為切入點(diǎn),利用深度學(xué)習(xí)預(yù)訓(xùn)練模型獲取蘊(yùn)含語(yǔ)義信息的詞向量,提出面向CS(computer science)領(lǐng)域進(jìn)一步預(yù)訓(xùn)練的詞匯新穎性計(jì)算方法,通過(guò)模型對(duì)比實(shí)驗(yàn)證明本文的預(yù)訓(xùn)練模型表現(xiàn)效果更好。最后,將提出的語(yǔ)義新穎性計(jì)算方法與已有的共現(xiàn)率新穎性計(jì)算方法進(jìn)行比較,結(jié)果表明,本文提出的方法能夠捕獲詞匯及詞匯組合之間更細(xì)粒度的新穎性差異。
術(shù)語(yǔ)抽取是海量文獻(xiàn)內(nèi)容分析研究的基礎(chǔ),其中不同術(shù)語(yǔ)的功能識(shí)別是分析術(shù)語(yǔ)語(yǔ)義功能的重要環(huán)節(jié)。伴隨著細(xì)粒度文本挖掘和實(shí)體抽取研究的深入,文本詞匯功能識(shí)別研究引起了越來(lái)越多的關(guān)注,學(xué)者們從內(nèi)容元素、概念類型、詞匯功能和知識(shí)元等角度開展了詞匯功能相關(guān)研究。Kondo 等[29]將標(biāo)題中的內(nèi)容元素分為head、method、goal 和other 四類,并通過(guò)構(gòu)建特定領(lǐng)域的方法/技術(shù)演化路徑構(gòu)建了技術(shù)趨勢(shì)圖生成系統(tǒng)。Gupta 等[30]將學(xué)術(shù)文獻(xiàn)的詞匯功能分為話題、技術(shù)和領(lǐng)域三類并實(shí)現(xiàn)其自動(dòng)識(shí)別。Tsai 等[31]將收錄于ACL(Associa‐tion for Computational Linguistics) 數(shù)據(jù)庫(kù)中的科學(xué)文獻(xiàn)中的概念分為技術(shù)(technique)和應(yīng)用(appli‐cation)兩個(gè)功能類別,并提出了用于識(shí)別、歸納和聚類這兩類概念的算法,研究結(jié)果可為深入了解ACL 社區(qū)的研究進(jìn)展、變化和趨勢(shì)提供有用的見解。Tuomaala 等[32]對(duì)LIS (library and information science)領(lǐng)域1965—2005 年發(fā)表的研究論文進(jìn)行了內(nèi)容分析,分析了研究論文主題分布與采用的方法和策略,解釋了研究問(wèn)題和研究方法之間的聯(lián)系。Heffernan 等[2]認(rèn)為科學(xué)研究是問(wèn)題提出和解決的過(guò)程,將科學(xué)文獻(xiàn)中的詞匯功能分為研究問(wèn)題和解決方法,并訓(xùn)練分類模型對(duì)短語(yǔ)是否為問(wèn)題或方法進(jìn)行二值判斷。近年來(lái),國(guó)內(nèi)學(xué)者也對(duì)學(xué)術(shù)文本術(shù)語(yǔ)及詞匯功能識(shí)別展開了一些探索和研究。趙洪等[33]構(gòu)建了面向理論術(shù)語(yǔ)的深度學(xué)習(xí)模型,研究了該模型中理論術(shù)語(yǔ)的特征構(gòu)造和標(biāo)注方法,并通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證了該模型的有效性。王昊等[34]對(duì)情報(bào)學(xué)理論方法進(jìn)行研究,利用深度學(xué)習(xí)模型開展了訓(xùn)練與測(cè)試,發(fā)現(xiàn)術(shù)語(yǔ)實(shí)體的長(zhǎng)度、訓(xùn)練語(yǔ)料量、實(shí)體的類型和數(shù)量等因素也與識(shí)別結(jié)果直接相關(guān)。李賀等[35]構(gòu)建了學(xué)術(shù)論文的研究問(wèn)題、理論、方法、結(jié)論4 個(gè)知識(shí)元本體,提出了基于知識(shí)元的學(xué)術(shù)論文創(chuàng)新性判斷方法。章成志等[36]將研究方法分為論文使用研究方法和論文引用研究方法,以《情報(bào)學(xué)報(bào)》10 年的論文全文為數(shù)據(jù)對(duì)象,利用神經(jīng)網(wǎng)絡(luò)模型抽取了研究方法實(shí)體并分析了其使用情況,發(fā)現(xiàn)情報(bào)學(xué)學(xué)科領(lǐng)域中使用頻次和引用頻次最高的均是與實(shí)驗(yàn)相關(guān)的研究方法?;亓諿28]通過(guò)對(duì)文獻(xiàn)中研究方法內(nèi)容描述的分析,將學(xué)術(shù)論文中的方法知識(shí)元總結(jié)為方法定義知識(shí)元、方法關(guān)系知識(shí)元、方法特點(diǎn)知識(shí)元、方法流程知識(shí)元和方法功能知識(shí)元5種類型。程齊凱等[37]提出了一種基于深度學(xué)習(xí)和標(biāo)題生成策略的學(xué)術(shù)文本詞匯功能識(shí)別模型,基于seq2seq 模型和attention 機(jī)制的方式捕獲詞匯的多層語(yǔ)義信息,實(shí)現(xiàn)了學(xué)術(shù)文本中問(wèn)題詞和方法詞的生成。陸偉等[38]構(gòu)造了一種基于規(guī)則標(biāo)題的數(shù)據(jù)標(biāo)注方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,并利用BERT(bidirectional encoder representation from transformers)預(yù)訓(xùn)練模型對(duì)輸入的文本進(jìn)行向量化表征,利用LSTM(long short-term memory)對(duì)關(guān)鍵詞進(jìn)行自動(dòng)判別以實(shí)現(xiàn)論文關(guān)鍵詞的問(wèn)題或方法的識(shí)別。
在學(xué)術(shù)論文新穎性度量與評(píng)價(jià)研究領(lǐng)域,不少學(xué)者試圖將基于人工甄別的傳統(tǒng)新穎性度量方式轉(zhuǎn)化為自動(dòng)識(shí)別的新型評(píng)價(jià)方式。作為創(chuàng)新模式研究的重要范式之一,組合目的是對(duì)創(chuàng)新發(fā)展和創(chuàng)新擴(kuò)散過(guò)程進(jìn)行理論化與建模[39-40]。從組合內(nèi)容和方式來(lái)看,代表性研究為參考文獻(xiàn)的期刊組合。Uzzi等[8]率先提出了基于重組的論文創(chuàng)新性度量,他們分析了來(lái)自Web of Science 中1950—2000 年發(fā)表的近1790 萬(wàn)篇文獻(xiàn),發(fā)現(xiàn)論文新穎性與先前工作的非常規(guī)組合有較大相關(guān)性。Boyack 等[15]基于Uzzi 等[8]的方法,以Scopus 中收錄的期刊為數(shù)據(jù)對(duì)象,利用基于期望標(biāo)準(zhǔn)差的K50 指標(biāo)替代了Z-score 指標(biāo),結(jié)果顯示,該方法可以在文獻(xiàn)發(fā)表后的更早期得出同樣的結(jié)論。Wang 等[9]將科學(xué)研究視為一個(gè)組合過(guò)程,通過(guò)檢查已發(fā)表的論文是否首次對(duì)參考期刊進(jìn)行組合來(lái)衡量科學(xué)的新穎性。除了參考文獻(xiàn)的期刊組合之外,有研究者直接利用參考文獻(xiàn)的組合來(lái)度量文獻(xiàn)的新穎性。Mukherjee 等[14]基于參考文獻(xiàn)的共被引網(wǎng)絡(luò)建立了“常規(guī)性-新穎性”的二維坐標(biāo)系,將論文劃分為4 個(gè)創(chuàng)新類型。Ponomarev 等[41]認(rèn)為,開創(chuàng)性成果是基于對(duì)已有研究的回顧與總結(jié),提出了基于出版物引用動(dòng)態(tài)檢測(cè)方法,并建立了論文創(chuàng)新性預(yù)測(cè)模型。Tahamtan 等[10]認(rèn)為一篇論文中參考文獻(xiàn)的不尋常組合可以揭示其新穎性潛質(zhì),通過(guò)分析論文引文網(wǎng)絡(luò)中不同類型、不同主題的組合,歸納出了創(chuàng)新性論文常見的主題組合模式。此外,部分學(xué)者從與論文直接相關(guān)的詞匯角度度量了論文的新穎性。Azoulay 等[12]通過(guò)檢查論文中的MeSH 主題詞對(duì),計(jì)算未出現(xiàn)在PubMed 上所有先前文獻(xiàn)中的詞對(duì)所占的比例,來(lái)衡量出版物的重組特征與新穎性,發(fā)現(xiàn)論文的重組程度與引文量之間存在負(fù)相關(guān)關(guān)系。Yan 等[40]定義了論文的新組合和新組件,提出了一種利用論文的關(guān)鍵字測(cè)度組合新穎性的方法。從問(wèn)題詞和方法詞的角度,王艷艷等[18]利用人工的方法抽取科技文獻(xiàn)中的問(wèn)題和方法,將問(wèn)題、方法作為兩個(gè)維度構(gòu)建了新穎性評(píng)估方法模型。錢佳佳等[19]根據(jù)詞頻和詞組合的頻次,提出了一種基于問(wèn)題-方法組合的科技論文新穎性度量方法。Luo 等[42]考慮了詞匯的年齡和語(yǔ)義差異,提出了從詞匯生命指數(shù)和語(yǔ)義相似度兩個(gè)角度計(jì)算論文新穎性的方法。綜上,相關(guān)研究從期刊組合、引文組合、主題詞組合等角度開展了組合新穎性研究,也有從問(wèn)題詞和方法詞的不同功能角度探索了論文新穎性測(cè)度,為本文的研究提供了良好借鑒的同時(shí)也存在研究數(shù)據(jù)不足、方法受限等情況。在此現(xiàn)狀下,本文發(fā)現(xiàn)從語(yǔ)義層面度量論文新穎性仍有進(jìn)一步探索的空間。
學(xué)術(shù)論文的研究問(wèn)題與研究方法是表達(dá)學(xué)術(shù)文本新穎性的主要功能詞匯,這種具有特殊語(yǔ)義功能詞匯的組合為新穎性研究提供了新思路。因此,本文在前期學(xué)術(shù)文本詞匯功能研究的基礎(chǔ)上開展詞匯功能在論文新穎性度量上的研究。
在程齊凱等[37]、陸偉等[38]前期關(guān)于詞匯功能的研究基礎(chǔ)上,本文利用論文研究問(wèn)題、研究方法及其組合來(lái)測(cè)度論文的新穎性。為此,需要在論文中預(yù)先提取表征研究問(wèn)題與研究方法的詞匯。由于論文的研究問(wèn)題或研究方法可能不只一個(gè),本文僅抽取了每篇論文中主要的問(wèn)題詞和方法詞,即將論文認(rèn)為是某一問(wèn)題與某一方法的組合。本文中的主要問(wèn)題詞是指能夠代表論文核心研究問(wèn)題的詞或詞組,主要方法詞是指用于表征論文為研究解決問(wèn)題所采用的方法、模型、工具或途徑的詞或詞組。實(shí)際中存在部分論文涉及多個(gè)研究問(wèn)題或方法的情況,對(duì)于本文研究的組合新穎性而言,測(cè)度主要問(wèn)題和主要方法的組合已能夠達(dá)到本文的研究目的,而多問(wèn)題與多方法的自動(dòng)抽取研究是下一步待解決的問(wèn)題。
本 文 將ACM (Association for Computing Ma‐chinery)Digital Library(下稱ACM 數(shù)據(jù)庫(kù))作為數(shù)據(jù)來(lái)源,該數(shù)據(jù)庫(kù)收錄了計(jì)算機(jī)領(lǐng)域權(quán)威和前瞻性的出版物,提供了解計(jì)算機(jī)和信息技術(shù)領(lǐng)域資源的窗口。陸偉等[38]提出的問(wèn)題方法識(shí)別模型整體準(zhǔn)確率、召回率和F1 值分別達(dá)到0.83、0.87 和0.85,優(yōu)于傳統(tǒng)模型的效果。本文利用該模型提取了ACM數(shù)據(jù)庫(kù)中1968—2018 年的200182 篇文獻(xiàn)的研究問(wèn)題詞和研究方法詞,并比較了模型識(shí)別效果與人工判斷的差異,在隨機(jī)篩選的100 條數(shù)據(jù)中主要問(wèn)題方法詞識(shí)別一致性為82%。然后,抽取了每篇論文的DOI 號(hào)、題目、摘要、關(guān)鍵詞、發(fā)表時(shí)間等題錄信息,統(tǒng)計(jì)截止到2021 年2 月論文在ACM 數(shù)據(jù)庫(kù)中顯示的被引量。數(shù)據(jù)清洗操作中刪除了字段為空的數(shù)據(jù)記錄,保留了200103 條包含題錄信息和被引量在內(nèi)的“問(wèn)題-方法”記錄數(shù)據(jù),并將其保存在數(shù)據(jù)庫(kù)中,實(shí)驗(yàn)數(shù)據(jù)隨時(shí)間的數(shù)量分布如圖1 所示。統(tǒng)計(jì)每組“問(wèn)題-方法”對(duì)出現(xiàn)頻數(shù),再按照字母升序的方式為每一個(gè)問(wèn)題詞和方法詞構(gòu)建索引。最后,在數(shù)據(jù)庫(kù)中對(duì)所有的記錄數(shù)據(jù)進(jìn)行條件查詢,并為每條記錄的論文設(shè)置索引ID,從實(shí)驗(yàn)數(shù)據(jù)中隨機(jī)抽取2018 年的200 條記錄作為分析數(shù)據(jù),剩余的199903 條數(shù)據(jù)作為歷史對(duì)照數(shù)據(jù)。
圖1 論文數(shù)量分布
為從語(yǔ)義層面計(jì)算問(wèn)題詞與方法詞的新穎性差異,本文采用深度學(xué)習(xí)預(yù)訓(xùn)練模型,在大規(guī)??茖W(xué)文本數(shù)據(jù)集上訓(xùn)練問(wèn)題方法詞和方法詞的詞向量模型。詞向量是一種將詞表示成向量的無(wú)監(jiān)督學(xué)習(xí)技術(shù),代表性的詞向量訓(xùn)練模型有word2vec[43]、GloVe[44]、BERT[45]等。2018 年,谷歌提出的BERT模型刷新了自然語(yǔ)言處理領(lǐng)域的11 個(gè)方向的最佳指標(biāo),是繼word2vec 之后深度學(xué)習(xí)方法在自然語(yǔ)言處理中的又一突破。BERT 模型利用Transformer[46]構(gòu)造多層雙向編碼,該模型訓(xùn)練的詞向量可用于文本相似度相關(guān)任務(wù)中。Su[47]于2020 年提出的Sim‐BERT 模型是經(jīng)過(guò)微調(diào)的BERT 模型,在文本相似度任務(wù)上效果提升顯著,可見BERT 模型在語(yǔ)義相似度判斷上仍具有較好的表現(xiàn)。此外,SciBERT 是Beltagy 等[48]提出的一種基于BERT 的預(yù)訓(xùn)練語(yǔ)言模型,該模型在BERT 的基礎(chǔ)上進(jìn)一步在大型多領(lǐng)域的科學(xué)出版物語(yǔ)料庫(kù)上進(jìn)行了無(wú)監(jiān)督預(yù)訓(xùn)練,提高了模型處理下游自然語(yǔ)言處理任務(wù)的性能,該模型能用于解決缺乏高質(zhì)量、大規(guī)模標(biāo)注科學(xué)數(shù)據(jù)的問(wèn)題。
鑒于科學(xué)語(yǔ)料在詞匯功能與內(nèi)容含義層面具有高度的專業(yè)性和領(lǐng)域區(qū)分度,直接使用SciBERT 的問(wèn)題在于對(duì)所有的輸入向量都傾向于編碼到一個(gè)較小的空間區(qū)域內(nèi),導(dǎo)致大多數(shù)的問(wèn)題方法詞對(duì)都具有較高的相似度分?jǐn)?shù),不利于語(yǔ)義新穎性差異化度量。為此,本文參考文本表示領(lǐng)域的常規(guī)做法[49-50],再次引入ACM 語(yǔ)料做進(jìn)一步預(yù)訓(xùn)練,在獲取更好語(yǔ)言模型的同時(shí)得到更能表征問(wèn)題詞和方法詞真實(shí)差異的向量表示。語(yǔ)言模型效果的常用評(píng)價(jià)指標(biāo)是困惑度(perplexity),在一個(gè)測(cè)試集上得到的困惑度越低,說(shuō)明建模的效果越好[51]。本文選擇困惑度作為模型評(píng)價(jià)指標(biāo)。
為從語(yǔ)義層面度量學(xué)術(shù)論文中研究問(wèn)題詞匯與研究方法詞匯的新穎性差異,本文基于BERT 模型將詞匯表示成詞向量的形式,將利用這些詞向量表示輔助計(jì)算“問(wèn)題-方法”組合的新穎性。進(jìn)一步地,本文提出一個(gè)面向CS 領(lǐng)域進(jìn)一步預(yù)訓(xùn)練(fur‐ther pretrain)的詞匯新穎性計(jì)算方法,如圖2 所示。本文在SciBERT 的基礎(chǔ)上引入ACM 數(shù)據(jù)庫(kù)中200182 篇論文中的標(biāo)題及摘要信息,通過(guò)無(wú)監(jiān)督訓(xùn)練任務(wù)根據(jù)句子上下文來(lái)預(yù)測(cè)的概率分布,實(shí)現(xiàn)對(duì)SciBERT 的進(jìn)一步預(yù)訓(xùn)練,通過(guò)對(duì)模型調(diào)參和訓(xùn)練,生成面向ACM 論文語(yǔ)料的詞向量表征模型SciBERT-further。
圖2 面向CS領(lǐng)域進(jìn)一步預(yù)訓(xùn)練的詞匯新穎性計(jì)算方法
進(jìn)一步預(yù)訓(xùn)練模型效果驗(yàn)證。首先,對(duì)收集到的ACM 語(yǔ)料進(jìn)行分句并統(tǒng)計(jì)句子信息,結(jié)果表明,25%的句子是短句,在15 詞以內(nèi),75%的句子在27詞以內(nèi),最大句長(zhǎng)76 詞。為盡可能完全覆蓋語(yǔ)料中的句子,再訓(xùn)練時(shí)設(shè)置模型最大句長(zhǎng)為72。在打亂句子順序后,按照9∶1 的方式劃分訓(xùn)練集和測(cè)試集。然后,針對(duì)本文相似的問(wèn)題-方法在編碼后的表示空間中應(yīng)當(dāng)相近,不同的問(wèn)題-方法應(yīng)相距較遠(yuǎn)的需求,為獲取更好的詞匯級(jí)詞向量表示,對(duì)同一樣本利用打亂詞序、特征裁剪兩種方式進(jìn)行數(shù)據(jù)增強(qiáng),同時(shí)利用模型的第一層詞匯編碼和最后一層句子編碼實(shí)現(xiàn)信息融合。最后,在測(cè)試時(shí)選擇了模型困惑度作為評(píng)測(cè)指標(biāo),對(duì)于測(cè)試集,將其測(cè)試樣本全部融合計(jì)算,取平均值計(jì)算該指標(biāo)。訓(xùn)練集的模型損失和測(cè)試集的困惑度分別如圖3a 和圖3b所示。
圖3 進(jìn)一步預(yù)訓(xùn)練中模型損失和困惑度變化圖
此外,本文在文本語(yǔ)義匹配任務(wù)(semantic tex‐tual similarity, STS) 的STS12、 STS13、 STS14、STS15、STS16 這5 個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并對(duì)比了Avg.GloVe、BERT、SciBERT 和SciBERT-further模型在無(wú)標(biāo)注的STS 數(shù)據(jù)上的訓(xùn)練效果,具體得分如表1 所示。結(jié)果顯示,在完全一致的設(shè)置下,本文提出的SciBERT-further 模型相對(duì)于Avg.GloVe 模型平均提升了3%,相對(duì)于BERT 提升了10.5%,相對(duì)于SciBERT 平均提升了17%,表明本文提出的SciBERT-further 模型能較好地表征詞匯真實(shí)特征,且比在類似任務(wù)上采用BERT 模型的表現(xiàn)更好[42]。
表1 SciBERT-further與其他方法在無(wú)監(jiān)督情況下的性能比較
問(wèn)題詞和方法詞新穎性計(jì)算。提取學(xué)術(shù)論文“問(wèn)題-方法”數(shù)據(jù)集中的問(wèn)題詞和方法詞,在Sci‐BERT-further 模型中計(jì)算并獲取上述詞的詞向量。然后計(jì)算當(dāng)前問(wèn)題詞和方法詞與已有詞匯空間中所有詞匯的余弦相似度,取最大值,計(jì)算詞匯的新穎性,問(wèn)題詞和方法詞的新穎性計(jì)算方式分別為
其中,quesNov 表示問(wèn)題詞新穎性,Vq表示當(dāng)前問(wèn)題詞的詞向量,Vqi表示問(wèn)題詞域的第i個(gè)問(wèn)題詞的向量表示,計(jì)算Vq和Vqi的余弦相似度,用1 減去最大的向量余弦相似度,得到quesNov 的值,若Vq與Vqi越相似,則表示Vq的新穎性越?。籱ethodNov表示方法詞新穎性,Vm表示當(dāng)前方法詞的詞向量表示,Vmi表示方法詞域中第i個(gè)方法詞的向量表示,用1 減去最大的向量余弦相似度,得到methodNov的值。
對(duì)于論文中的“問(wèn)題-方法”組合,在學(xué)術(shù)論文“問(wèn)題-方法”數(shù)據(jù)集中查找當(dāng)前問(wèn)題詞或當(dāng)前方法詞是否存在。若存在,則表明是舊的研究問(wèn)題或研究方法;若不存在,則表示當(dāng)前詞在已有的問(wèn)題詞域或方法詞域中不存在,屬于新的研究問(wèn)題或研究方法。組合新穎性計(jì)算的是相對(duì)新穎性,即當(dāng)前組合詞相對(duì)于組合對(duì)象的所有歷史組合詞的新穎性。這里對(duì)問(wèn)題方法詞是否存在進(jìn)行了精確查找,只要之前在數(shù)據(jù)集中未出現(xiàn)過(guò)即為新詞。語(yǔ)義相似度用在計(jì)算組合對(duì)象的新穎性上,即對(duì)舊的問(wèn)題詞或方法詞,計(jì)算它的當(dāng)前組合詞與歷史組合詞序列之間的相似度。在錢佳佳等[19]對(duì)“問(wèn)題-方法“組合劃分的基礎(chǔ)上,本文從詞匯組合方式上將“問(wèn)題-方法”組合進(jìn)一步分為5 種類型:“新問(wèn)題+新方法”組合、“新問(wèn)題+舊方法”組合、“舊問(wèn)題+新方法”組合、“舊方法+舊問(wèn)題”舊組合和“舊方法+舊問(wèn)題”新組合。
對(duì)于“舊問(wèn)題+新方法”和“新問(wèn)題+舊方法”的組合而言,在已有的問(wèn)題空間中分別提取與其組合過(guò)的詞,形成舊問(wèn)題的方法序列和舊方法的問(wèn)題序列。由于本文主要從詞匯功能組合的角度研究“問(wèn)題-方法”組合,因此計(jì)算的是當(dāng)前組合詞與已有組合序列的相似度。因此,對(duì)于“舊問(wèn)題+新方法”組合,“新方法”不是相對(duì)于全部方法詞域來(lái)說(shuō)的,而是相對(duì)于舊問(wèn)題的方法序列而言,即只要當(dāng)前方法詞沒(méi)有與當(dāng)前問(wèn)題的方法詞序列組合過(guò),對(duì)于當(dāng)前的組合來(lái)說(shuō)該方法即為新方法。然后,計(jì)算當(dāng)前方法詞的組合新穎性,分別計(jì)算當(dāng)前方法詞與舊問(wèn)題的組合序列中各個(gè)方法詞的相似度。最后,將當(dāng)前組合詞的新穎性得分賦值給“問(wèn)題-方法”組合,得出最終組合新穎性。基于語(yǔ)義相似度的“問(wèn)題-方法”組合新穎性計(jì)算流程如圖4 所示。
圖4 基于語(yǔ)義相似度的"問(wèn)題-方法"組合新穎度計(jì)算流程
對(duì)于舊問(wèn)題或舊方法的組合而言,本文將“舊問(wèn)題”和“舊方法”稱作當(dāng)前詞,與其組合的對(duì)象稱作組合詞。對(duì)于“問(wèn)題-方法”組合中的當(dāng)前詞t,要測(cè)度其組合的新穎性,則需要判斷其組合詞p的相對(duì)新穎性。例如,對(duì)于現(xiàn)有研究中已存在的舊問(wèn)題t,首先枚舉與該問(wèn)題組合過(guò)的所有方法,形成t的歷史組合序列P(p1,p2,…,pn)。利用SciBERTfurther 模型計(jì)算當(dāng)前組合詞p的向量表征Vp與P中各個(gè)歷史組合詞的詞向量的余弦相似度,計(jì)算方式為
其中,VPi表示序列P中的第i個(gè)元素的詞向量表征;combSimi表示Vp與VPi的余弦相似度。
“問(wèn)題-方法”組合的相似度取當(dāng)前組合詞p與當(dāng)前詞t的歷史組合序列P中各個(gè)元素的最大相似度值,“問(wèn)題-方法”組合的相似性越高,表示該組合的新穎性越低,將“問(wèn)題-方法”的新穎性得分定義為combNov(t,p),計(jì)算方法為
本文將論文的新穎性Novelty(D)定義為問(wèn)題詞新穎性、方法詞新穎性以及問(wèn)題-方法組合新穎性三項(xiàng)的算數(shù)平均值,即
若一篇論文存在多個(gè)問(wèn)題與方法,則逐個(gè)計(jì)算問(wèn)題詞、方法詞以及所有的問(wèn)題-方法組合的新穎性,對(duì)這些新穎性得分取算數(shù)平均值就得到論文新穎性。
采用訓(xùn)練得到的詞向量模型SciBERT-further 計(jì)算得到所選問(wèn)題詞和方法詞的詞向量,并根據(jù)公式(1)~公式(4)計(jì)算詞和組合的新穎性。由于計(jì)算出的新穎性得分均較小,不能顯著體現(xiàn)不同組合之間的差異性,為便于數(shù)據(jù)可視化分析,本文對(duì)數(shù)值小于1的新穎性得分進(jìn)行了分值歸一化處理,計(jì)算方式為
其中,noveltyNormal 表示歸一化后的新穎性得分,取值范圍為[0,1);noveltyScore 表示計(jì)算出的詞和組合的新穎性得分,noveltyScoremin表示測(cè)試集數(shù)據(jù)中新穎性得分的最小值,noveltyScoremax表示測(cè)試集數(shù)據(jù)中新穎性得分最大值;為避免分母為0,在分母中加上常數(shù)t,這里取t=0.001。
通過(guò)上文的模型訓(xùn)練與新穎性計(jì)算,得到了測(cè)試集中200 篇論文的“問(wèn)題-方法”新穎性得分,其中“問(wèn)題”詞、“方法”詞和“問(wèn)題-方法”組合的新穎性得分取值范圍均為[0,1],具體分布如圖5 所示。圖中綠色的圓點(diǎn)表示“問(wèn)題-方法”組合新穎性得分,圓點(diǎn)左邊藍(lán)色和右邊黃色的柱狀線分別表示論文研究問(wèn)題和研究方法的新穎性得分。由統(tǒng)計(jì)數(shù)據(jù)和圖6 可知,2018 年發(fā)表的200 篇論文中,“舊問(wèn)題+舊方法”的論文有1 篇,占所有測(cè)試論文的0.5%,說(shuō)明對(duì)于ACM 數(shù)據(jù)庫(kù)中收錄的計(jì)算機(jī)領(lǐng)域的論文而言,同一個(gè)研究問(wèn)題采用與已有研究完全相同的方法進(jìn)行研究的論文占極少數(shù),而多數(shù)研究屬于“新問(wèn)題+舊方法”或者“舊問(wèn)題+新方法”的組合。此外,“新問(wèn)題+新方法”的論文有95 篇,占所有測(cè)試論文的47.5%,由此可見,近半數(shù)的研究具有問(wèn)題和方法兩個(gè)層面的創(chuàng)新。
圖5 基于語(yǔ)義相似度的“問(wèn)題-方法”新穎性得分(彩圖請(qǐng)見https://qbxb.istic.ac.cn/CN/volumn/home.shtml)
圖6 “問(wèn)題-方法”新穎性取值分布區(qū)間
此外,本文對(duì)三類新穎性得分進(jìn)行了區(qū)間分布統(tǒng)計(jì),按區(qū)間將新穎性取值分為5 個(gè)部分:區(qū)間1,新穎性得分為0;區(qū)間2,新穎性得分取值范圍(0,0.3];區(qū)間3,新穎性得分取值范圍(0.3,0.6];區(qū)間4,新穎性得分取值范圍(0.6,1);區(qū)間5,新穎性得分取值為1。本文將詞匯新穎性的閾值設(shè)置為同類型所有詞新穎性得分的中位數(shù),統(tǒng)計(jì)結(jié)果表明,本實(shí)驗(yàn)中問(wèn)題詞和方法詞新穎性閾值均為1。
由圖6 可見,測(cè)試集中的問(wèn)題詞和方法詞的新穎性值的數(shù)量分布在5 個(gè)區(qū)間的呈現(xiàn)一致性,即位于區(qū)間1 的新穎性為0 的最少,而新穎性為1 的最多,說(shuō)明在ACM 收錄的論文中無(wú)論是研究問(wèn)題還是研究方法,與已有的主題完全重合的占比非常小,只占到所有分析數(shù)據(jù)的0.5%,而70.5%的問(wèn)題詞和方法詞的新穎性為1,即在已有的主題詞空間中均未出現(xiàn)過(guò)。從“問(wèn)題-方法”組合的角度看,組合新穎性值要整體小于單個(gè)問(wèn)題詞或單個(gè)方法詞的新穎性值的分布,新穎性為1 的組合占所有測(cè)試數(shù)據(jù)的47.5%,組合新穎性值位于區(qū)間3 和區(qū)間4 的數(shù)據(jù)占所有數(shù)據(jù)的51.5%,表明“問(wèn)題-方法”組合中有一半是具有中度新穎性的。整體而言,通過(guò)詞向量語(yǔ)義相似度計(jì)算的不同新穎性區(qū)間的數(shù)值差異明顯,問(wèn)題詞和方法詞在不同新穎性區(qū)間的數(shù)量分布呈現(xiàn)相同的分布特征,亦表明不同功能的詞匯在語(yǔ)義相似度上具有一致性,說(shuō)明本文提出的基于詞向量語(yǔ)義距離計(jì)算的“問(wèn)題-方法”組合新穎性能夠測(cè)度不同詞匯之間的新穎性差異。
采用以上方式計(jì)算出論文的“問(wèn)題-方法”組合新穎性的得分后,為進(jìn)一步解釋該方法的度量效果,本文分別從高新穎性的高被引和高頻詞兩個(gè)角度對(duì)結(jié)果進(jìn)行實(shí)例分析。
從高新穎性和高被引角度來(lái)看,本文結(jié)合論文的被引量指標(biāo),從高新穎性得分(問(wèn)題、方法、組合新穎性得分均為1)的論文中,列舉了排名前五的論文,如表2 所示。由表2 可知,新穎的研究主題包括用戶和項(xiàng)目關(guān)系學(xué)習(xí)、Ad-Hoc 搜索、上下文感知計(jì)算系統(tǒng)、網(wǎng)絡(luò)型數(shù)據(jù)挖掘、個(gè)性化檢索等,與主題相對(duì)應(yīng)的新穎的研究方法包括潛在關(guān)系度量學(xué)習(xí)、語(yǔ)法軟匹配、將語(yǔ)境利用在遞歸推薦系統(tǒng)中、基于相似度的多功能圖嵌入和隨機(jī)點(diǎn)擊模型。由此可見,對(duì)計(jì)算機(jī)領(lǐng)域近些年的研究而言,若以論文的被引量代表論文的影響力,從問(wèn)題和方法組合新穎性的角度來(lái)看,ACM 數(shù)據(jù)庫(kù)中收錄的新穎性和影響較強(qiáng)的論文研究主題與信息檢索、用戶信息行為、推薦系統(tǒng)密切相關(guān),問(wèn)題的解決方法則采用深度學(xué)習(xí)、人機(jī)協(xié)同、圖網(wǎng)絡(luò)等衍生方法,與用戶行為、情境感知、決策匹配等情景的相關(guān)性更高。
表2 ACM數(shù)據(jù)庫(kù)2018年高新穎性論文示例
從詞頻角度來(lái)看,詞的出現(xiàn)次數(shù)能夠反映該話題的熱度和關(guān)注度。本文統(tǒng)計(jì)了測(cè)試集中問(wèn)題詞和方法詞的頻次,并分別選取了2 個(gè)高頻問(wèn)題詞和2個(gè)高頻方法詞,獲取與其相關(guān)的論文信息,如表3所示。高頻問(wèn)題詞“人機(jī)交互(human-robot interac‐tion)”和“無(wú)線網(wǎng)絡(luò)(wireless network)”是計(jì)算機(jī)領(lǐng)域經(jīng)典的研究問(wèn)題。示例論文Q1-1 和Q1-2 圍繞經(jīng)典研究問(wèn)題“人機(jī)交互”開展了研究,Q1-1 討論了如何進(jìn)一步探索不同的反饋方法,并研究它們對(duì)信任、控制分配和工作負(fù)載的影響,屬于采用新方法解決舊問(wèn)題的研究。論文Q1-2 開發(fā)了一個(gè)基于任務(wù)對(duì)話和聊天機(jī)器人的人機(jī)交互多通道系統(tǒng),并證明了該系統(tǒng)中應(yīng)用強(qiáng)化學(xué)習(xí)是有益的,是舊問(wèn)題+舊方法新組合類的研究。這兩篇論文研究了同樣的舊研究問(wèn)題,Q1-2 采用了熱門的深度學(xué)習(xí)模型強(qiáng)化學(xué)習(xí)(reinforce learning),在發(fā)表后獲得了比Q1-1 更高的被引量,表明用舊方法+舊問(wèn)題組合在新穎性上可能比新方法+舊問(wèn)題弱一點(diǎn),但是影響力不一定比新方法低,因?yàn)榕f方法可能在某階段引起了大量的研究興趣,例如,Q1-2 中的“強(qiáng)化學(xué)習(xí)”一詞雖然在1998 年就已出現(xiàn),但隨著近些年智能計(jì)算和深度學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)再度受到了較多的關(guān)注。示例論文Q2-1 和Q2-2 研究了計(jì)算機(jī)工程領(lǐng)域無(wú)線網(wǎng)絡(luò)(wireless network)的問(wèn)題。Q2-1提出了一個(gè)處理器支持的超低延遲調(diào)度實(shí)現(xiàn)PULS(propellant utilization loading system),用于測(cè)試無(wú)限網(wǎng)絡(luò)下行調(diào)度協(xié)議的超低延遲需求。Q2-2 提出了無(wú)線網(wǎng)絡(luò)拓?fù)溥x擇和組件規(guī)模調(diào)整的設(shè)計(jì)空間探索方法,其新穎性類別為舊問(wèn)題+舊方法的新組合,研究方法是舊方法且受到的關(guān)注較少,發(fā)表后獲得的被引量較低。
表3 高頻問(wèn)題詞和方法詞組合論文示例
高頻方法詞社交媒體(social media)和機(jī)器學(xué)習(xí)(machine learning)是近年來(lái)人工智能方向的熱點(diǎn)詞,示例論文M1-1 和M1-2 研究了“社交媒體”作為研究方法時(shí)的應(yīng)用。M1-1 研究了人們?nèi)绾慰创缃幻襟w在其社區(qū)中支持預(yù)防犯罪的使用,屬于常規(guī)舊問(wèn)題+舊方法的新組合,新穎性較低且發(fā)表后獲得的引文量較少。M1-2 研究了人們對(duì)社交媒體新聞的態(tài)度,研究結(jié)果突出了打擊假新聞傳播的困難,該研究是將舊的研究方法應(yīng)用在新的熱門研究問(wèn)題“虛假新聞檢測(cè)”上的案例,問(wèn)題的新穎性使論文獲得了較大的關(guān)注。示例論文M2-1 和M2-2是將機(jī)器學(xué)習(xí)作為研究方法的應(yīng)用案例。M2-1 開展了將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于預(yù)測(cè)醫(yī)院重癥監(jiān)護(hù)室病人死亡率的研究,是用舊方法解決新問(wèn)題的案例。M2-2 圍繞機(jī)器學(xué)習(xí)在軟件工程中所面臨的挑戰(zhàn),以及機(jī)器學(xué)習(xí)如何從軟件工程方法中受益開展了研究,是舊問(wèn)題與舊方法的新組合的案例。這兩篇論文是機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于不同領(lǐng)域的案例,均獲得了10 次引用,表明機(jī)器學(xué)習(xí)技術(shù)具有較強(qiáng)的推廣應(yīng)用性。整體而言,無(wú)論是對(duì)于高頻問(wèn)題詞還是方法詞而言,新穎性僅是從詞的新舊層面測(cè)量新穎性,而論文發(fā)表后的被引量不僅取決于研究問(wèn)題或研究方法的新穎程度,還受到研究問(wèn)題本身的適用性的影響。
由上述分析可知,論文研究問(wèn)題或方法的新穎性與發(fā)表后一定時(shí)期內(nèi)能獲得的被引量有一定聯(lián)系,但計(jì)算組合新穎性得分與被引量之間的相關(guān)性發(fā)現(xiàn),其未達(dá)到顯著程度,將其可能的原因總結(jié)為兩點(diǎn)。其一,對(duì)于某些研究問(wèn)題,方法的創(chuàng)新可能獲得更大的影響,這是由于有的經(jīng)典問(wèn)題本身就帶著“光環(huán)效應(yīng)”,它可能是一個(gè)還未攻克的難題或瓶頸,也可能本就屬于熱點(diǎn)問(wèn)題。其二,論文發(fā)表后的被引量或許可以反映一定的新穎性,但卻不能完全揭示新穎性或創(chuàng)新性的特征內(nèi)涵。一方面,對(duì)于經(jīng)典的理論或方法,新穎性的研究會(huì)面臨一些來(lái)自外部的阻力,包括來(lái)自現(xiàn)有科學(xué)范式的抵制[52];另一方面,由于受限于研究問(wèn)題范圍的影響,也許在該問(wèn)題上某方法的新穎性較高,但是這個(gè)問(wèn)題還沒(méi)有受到相應(yīng)的關(guān)注,或許需要更長(zhǎng)的時(shí)間才能發(fā)現(xiàn)其新穎性并將其納入后續(xù)的研究中。
本文提出的基于語(yǔ)義相似度的“問(wèn)題-方法”組合新穎性計(jì)算方法是深度學(xué)習(xí)模型在詞匯新穎性度量上的應(yīng)用。為進(jìn)一步比較本文提出的方法與已有方法的差異,利用錢佳佳等[19]提出的基于問(wèn)題-方法組合共現(xiàn)率的科技論文新穎性計(jì)算公式,計(jì)算了200 條分析數(shù)據(jù)的共現(xiàn)率新穎性,將該方法計(jì)算的問(wèn)題新穎性、方法新穎性、組合新穎性和論文新穎性的結(jié)果與本文提出的語(yǔ)義新穎性計(jì)算結(jié)果進(jìn)行了比較,如圖7a~圖7d 所示。其中quesNov、meth‐odNov、combNov 和paperVov 分別表示問(wèn)題詞、方法詞、組合和論文的語(yǔ)義新穎性計(jì)算結(jié)果,nov_Q、nov_M、nov_Q2M 和nov_D 分別表示問(wèn)題詞、方法詞、組合和論文的詞頻共現(xiàn)率新穎性計(jì)算結(jié)果。圖7 中三角形表示本文語(yǔ)義新穎性計(jì)算結(jié)果,圓點(diǎn)表示共現(xiàn)率新穎性的計(jì)算結(jié)果。對(duì)于單個(gè)詞的新穎性,由圖7a 和圖7b 可知,共現(xiàn)率新穎性的計(jì)算結(jié)果呈現(xiàn)明顯的兩極分化,集中在新穎性為1 和新穎性小于0.6。相較而言,語(yǔ)義新穎性的分布更為均勻,表明基于詞匯語(yǔ)義方法捕捉到的新穎性更為精準(zhǔn),這一現(xiàn)象在圖7c 中得到了更為顯著的驗(yàn)證。由圖7c 可知,共現(xiàn)率新穎性的計(jì)算結(jié)果幾乎全部集中在新穎性為1 的區(qū)域,表明用該方法計(jì)算的組合新穎得分幾乎全部是1,象征著問(wèn)題-方法組合都是一樣的新穎性,然而實(shí)際情況中的組合并不都是新穎的,受限于基于詞頻共現(xiàn)率的新穎性計(jì)算的局限性,該方法不能區(qū)分更為細(xì)微的新穎性差異;而基于語(yǔ)義的新穎性計(jì)算方法彌補(bǔ)了該方法的這一局限,能夠捕獲細(xì)微的差異。例如,語(yǔ)義新穎性計(jì)算方法計(jì)算的augment reality 和augment reality game 之間的差異就比augment reality 和blockchain 之間的差異要小,前兩者在向量空間中更為接近,相似度更高且相對(duì)新穎性不如后兩者;而基于詞頻共現(xiàn)率的新穎性計(jì)算認(rèn)為這兩組詞的相對(duì)新穎性是一樣的,這將會(huì)在較大程度上損失新穎性測(cè)度精度。共現(xiàn)率新穎性計(jì)算方法中的實(shí)驗(yàn)將論文新穎性計(jì)算公式中的問(wèn)題、方法和問(wèn)題-方法對(duì)的權(quán)重分別設(shè)為0.25、0.25 和0.5,即給問(wèn)題-方法組合更大的權(quán)重,該做法在組合新穎性的理論層面是有意義的,然而受限于基于詞頻共現(xiàn)的新穎性計(jì)算方法,論文新穎性結(jié)果的整體分布更為緊密(聚集在0.8 附近),導(dǎo)致新穎性結(jié)果的差異更小,如圖7d 所示??偟膩?lái)說(shuō),對(duì)比實(shí)驗(yàn)的結(jié)果表明,基于語(yǔ)義相似度的問(wèn)題-方法組合新穎性計(jì)算方法要優(yōu)于基于詞頻共現(xiàn)的新穎性計(jì)算方法,前者利用詞向量的空間語(yǔ)義捕捉優(yōu)勢(shì)能計(jì)算出更為精細(xì)的新穎性。
圖7 兩種新穎性計(jì)算方法對(duì)比
科學(xué)問(wèn)題作為科學(xué)研究的邏輯起點(diǎn),其解決方法是促進(jìn)科學(xué)研究深入與發(fā)展的助推器??茖W(xué)研究問(wèn)題和研究方法的識(shí)別對(duì)科技前沿追蹤和創(chuàng)新研究發(fā)現(xiàn)具有重要研究意義。近年來(lái)隨著內(nèi)容分析研究的流行,從學(xué)術(shù)文本內(nèi)容視角對(duì)學(xué)術(shù)論文進(jìn)行細(xì)粒度挖掘,是圖書情報(bào)學(xué)領(lǐng)域的一個(gè)新視角,其中學(xué)術(shù)論文詞匯語(yǔ)義功能的識(shí)別能夠幫助學(xué)者快速了解學(xué)術(shù)論文的核心內(nèi)容,有助于厘清研究問(wèn)題、研究方法的演化過(guò)程和發(fā)展模式,輔助于論文創(chuàng)新識(shí)別和新穎性度量研究。
本文以組合創(chuàng)新理論為基礎(chǔ),以具備詞匯語(yǔ)義功能的學(xué)術(shù)論文問(wèn)題詞和方法詞為數(shù)據(jù),從問(wèn)題與方法組合的語(yǔ)義層面研究了論文新穎性度量方法。與已有新穎性計(jì)算方法進(jìn)行比較,發(fā)現(xiàn)本文提出的方法能捕獲問(wèn)題詞、方法詞和問(wèn)題-方法組合之間更為精細(xì)的新穎性差異。本文的不足之處是問(wèn)題詞和方法詞的識(shí)別效果在某種程度上會(huì)影響論文新穎性計(jì)算結(jié)果。本文提出的計(jì)算方法更類似于計(jì)算機(jī)領(lǐng)域新穎性追蹤(novelty track)的方法,該方法是獨(dú)立于問(wèn)題詞和方法詞本身的,但結(jié)果的解釋卻依賴于詞匯識(shí)別結(jié)果,更為準(zhǔn)確的詞匯識(shí)別結(jié)果將會(huì)使本文的研究結(jié)果更具有可解釋性和延伸價(jià)值,如用于新穎性和影響力之間的關(guān)系分析、創(chuàng)新擴(kuò)散的規(guī)律分析等研究上。此外,問(wèn)題新穎性、方法新穎性及組合新穎性與論文影響力之間的聯(lián)系也是值得進(jìn)一步探索的方向。