關(guān)鍵詞: 文本語(yǔ)義; 開(kāi)放同行評(píng)審; 自動(dòng)評(píng)審分類; 深度學(xué)習(xí)
DOI:10.3969 /j.issn.1008-0821.2024.05.008
〔中圖分類號(hào)〕G254 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 05-0001-02
科技評(píng)價(jià)是科技活動(dòng)的重要一部分, 擔(dān)任著科技研究“指揮棒” 的角色, 對(duì)于促進(jìn)科研事業(yè)的蓬勃發(fā)展發(fā)揮著重要作用[1] ??萍颊撐淖鳛榭萍汲晒闹匾d體之一, 對(duì)于成果總結(jié)、學(xué)術(shù)交流、科研發(fā)展等有著不可忽視的作用。同行評(píng)議是目前國(guó)際上使用最廣泛的科技論文評(píng)審方法[2] , 被學(xué)界公認(rèn)為是確保公正、合理、有效地評(píng)價(jià)科技論文的重要制度[3] 。相比于客觀性指標(biāo), 同行評(píng)議對(duì)科技論文的內(nèi)容質(zhì)量評(píng)價(jià)更為直接和全面。但同行評(píng)議的缺點(diǎn)也很明顯, 例如時(shí)間周期長(zhǎng)、受干擾性強(qiáng), 也容易受到專家偏好、社會(huì)關(guān)系、學(xué)科背景等因素的影響, 具有較強(qiáng)的主觀性。在開(kāi)放同行評(píng)議背景下誕生的OpenReview 平臺(tái)將評(píng)審過(guò)程公開(kāi)化, 允許評(píng)審人員和作者互動(dòng)討論, 增加評(píng)審過(guò)程的可信度和透明度, 在促進(jìn)開(kāi)放、透明和共享的評(píng)審方面發(fā)揮了積極作用。開(kāi)放同行評(píng)審的基本審稿流程如圖1所示。
盡管開(kāi)放同行評(píng)審將評(píng)審過(guò)程公開(kāi)透明化, 在一定程度上彌補(bǔ)了雙盲制同行評(píng)審的缺點(diǎn), 但最終的決策意見(jiàn)仍需由編輯綜合評(píng)審意見(jiàn)和得分做出拒絕或接受的決策。然而, 隨著科技的發(fā)展, 自動(dòng)評(píng)審分類技術(shù)的應(yīng)用可以為編輯減輕工作負(fù)擔(dān), 提供決策支持。自動(dòng)評(píng)審分類可以對(duì)大量的論文進(jìn)行初步篩選, 能夠快速對(duì)論文進(jìn)行質(zhì)量和合適性的初步判斷, 幫助編輯將目光聚焦在最有潛力的論文上,節(jié)省時(shí)間和精力。同時(shí), 自動(dòng)評(píng)審分類還可以幫助消除人為的主觀因素, 可以根據(jù)自動(dòng)評(píng)審分類結(jié)果和評(píng)審人員的意見(jiàn)進(jìn)行比對(duì)和分析, 從而更好地進(jìn)行決策, 確保公正評(píng)審。
本文基于開(kāi)放同行評(píng)審中OpenReview 平臺(tái)的科技論文數(shù)據(jù)及對(duì)應(yīng)的評(píng)審得分, 構(gòu)建科技論文評(píng)審分類預(yù)測(cè)模型, 通過(guò)實(shí)驗(yàn)方法探究自動(dòng)評(píng)審分類方法的準(zhǔn)確度和可用性, 以期為科技論文評(píng)審智能化發(fā)展提供幫助。本文的主要研究?jī)?nèi)容為:
1) 運(yùn)用人工智能技術(shù)模擬編輯對(duì)科技論文評(píng)審預(yù)分類, 探究科技論文智能評(píng)審發(fā)展路徑。
2) 構(gòu)建多種科技論文的文本表示及分類模型,對(duì)OpenReview 平臺(tái)的科技論文文本內(nèi)容代表的語(yǔ)義信息和評(píng)分信息進(jìn)行特征融合, 探究自動(dòng)評(píng)審分類方法的準(zhǔn)確度和可用性。
1 相關(guān)研究
1.1 同行評(píng)議方法與開(kāi)放評(píng)審
同行評(píng)議作為歷史最悠久的科技論文評(píng)價(jià)方法經(jīng)久不衰, 是期刊和會(huì)議遴選論文的主要方式[4] 。但其使用范圍一直受限, 其原因主要有以下幾點(diǎn)[5-7] : 首先, 新興技術(shù)發(fā)展和學(xué)科交叉融合催生了許多新的學(xué)科和研究方向, 不同學(xué)科之間因?qū)I(yè)領(lǐng)域差異不能進(jìn)行同行評(píng)議, 甚至同一學(xué)科因細(xì)分領(lǐng)域和研究方向不同也難以實(shí)現(xiàn)精準(zhǔn)同行評(píng)議; 然后, 評(píng)議專家絕大部分自己也是科研人員, 需要時(shí)時(shí)兼顧自身工作, 不適合用硬性規(guī)定要求評(píng)議專家們花費(fèi)過(guò)多時(shí)間參與各類同行評(píng)議活動(dòng)[8] 。最后,評(píng)議專家需要具備較高的個(gè)人素質(zhì)和學(xué)術(shù)水平, 既要在學(xué)界有代表性成果和突出貢獻(xiàn), 又要處于一線科研工作當(dāng)中, 而這類專家的日程往往更加飽滿。因此, 完全依賴同行評(píng)議完成論文評(píng)審與評(píng)價(jià), 從時(shí)間成本、技術(shù)成本和實(shí)施難度上都絕非易事, 經(jīng)常很難在指定時(shí)間內(nèi)完成任務(wù)[4,9] 。而在評(píng)價(jià)效果上, 同行評(píng)議難免受評(píng)價(jià)主體個(gè)人學(xué)術(shù)背景、研究視野、學(xué)術(shù)偏好和興趣甚至是人際關(guān)系、親緣派系等方面的影響[10] , 造成其評(píng)價(jià)結(jié)果有時(shí)難以實(shí)現(xiàn)真正的客觀性和公正性, 對(duì)于研究人員少、相對(duì)冷門的研究領(lǐng)域, 這種現(xiàn)象可能尤為明顯[11-12] 。
然而隨著當(dāng)前網(wǎng)絡(luò)技術(shù)快速發(fā)展, 開(kāi)放存取(Open Access)、開(kāi)放科學(xué)的概念為同行評(píng)議注入了新的活力, 彌補(bǔ)了傳統(tǒng)同行評(píng)議的諸多不足, 特別是在透明度、公平性和規(guī)范性等方面[13] , 開(kāi)放同行評(píng)議(Open Peer Review, OPR)由此誕生并迅速發(fā)展。相關(guān)研究也初步發(fā)現(xiàn), 相較于同一專業(yè)背景、影響力相當(dāng)?shù)膫鹘y(tǒng)期刊, 開(kāi)放同行評(píng)議的期刊論文在引文和社會(huì)關(guān)注度等方面具有較為顯著的優(yōu)勢(shì)[14-16] 。同時(shí), 當(dāng)前開(kāi)放同行評(píng)議的期刊或會(huì)議大多以線上網(wǎng)絡(luò)為基礎(chǔ), 學(xué)術(shù)成果可以在網(wǎng)絡(luò)開(kāi)放獲取, 這樣一方面可以及時(shí)高效地實(shí)現(xiàn)科技論文的廣泛傳播與交流討論; 另一方面使評(píng)審主體趨于多元化, 在大多數(shù)開(kāi)放同行評(píng)審的網(wǎng)絡(luò)平臺(tái), 同領(lǐng)域?qū)<乙约八芯W(wǎng)站瀏覽者都有機(jī)會(huì)在平臺(tái)上點(diǎn)評(píng)論文, 甚至是直接和作者進(jìn)行學(xué)術(shù)討論和交談[17] 。
OpenReview 是一個(gè)典型的開(kāi)放同行評(píng)審平臺(tái),致力于在同行評(píng)審過(guò)程中促進(jìn)開(kāi)放性。該平臺(tái)內(nèi)容涉及計(jì)算機(jī)、人工智能等多個(gè)領(lǐng)域, 包括ICLR、NIPS、ACL 等會(huì)議文章, 每篇文章的評(píng)論、評(píng)分、觀點(diǎn)探討和最終決策都在網(wǎng)站上向公眾公布。不擔(dān)任評(píng)論員的廣大專業(yè)讀者可以自己判斷論文的貢獻(xiàn),也可以自己判斷論文評(píng)審的公平性。雖然評(píng)論者的個(gè)人信息可能不會(huì)對(duì)外公布, 但由于公眾監(jiān)督的壓力, 評(píng)論者會(huì)趨向于給出更客觀、公平的評(píng)論和得分[18] 。上傳到OpenReview 的論文通常由3 名左右同行專家獨(dú)立評(píng)估, 作者可以對(duì)專家的評(píng)論進(jìn)行回應(yīng)。開(kāi)放評(píng)審期限過(guò)后, 項(xiàng)目主席團(tuán)會(huì)為每篇論文撰寫(xiě)元評(píng)論, 并做出最終的評(píng)審決策, 即接受或拒絕。項(xiàng)目主席團(tuán)不為投稿論文打分, 評(píng)議內(nèi)容由同行評(píng)論的評(píng)審分?jǐn)?shù)(1~10 之間的整數(shù))、評(píng)審員信心水平(1 ~ 5 之間的整數(shù)) 和詳細(xì)評(píng)論意見(jiàn)組成,官方評(píng)論和元評(píng)論都對(duì)公眾開(kāi)放。
1.2 評(píng)審分類預(yù)測(cè)模型
科技論文內(nèi)容是非結(jié)構(gòu)化的文本數(shù)據(jù), 因此對(duì)科技論文內(nèi)容本身, 尤其是包含緒論、模型和方法、實(shí)驗(yàn)、結(jié)果等模塊的全文內(nèi)容進(jìn)行計(jì)算和學(xué)習(xí)過(guò)于復(fù)雜, 且設(shè)備要求高、耗時(shí)長(zhǎng)[19] 。因此, 合理利用科技論文相關(guān)信息, 構(gòu)建有效的科技論文文本表示模型對(duì)科技論文文本內(nèi)容的計(jì)算和學(xué)習(xí)大有裨益。
對(duì)于科技論文的文本表示方面主要有兩種構(gòu)建方式。一種是基于各種指標(biāo)體系, 將各指標(biāo)分值輸入模型, 得出論文不同維度的評(píng)分, 其中的指標(biāo)體系既可以基于現(xiàn)有研究, 也可以在前人的基礎(chǔ)上總結(jié)梳理。例如萬(wàn)昊等[20] 構(gòu)建項(xiàng)目評(píng)價(jià)三層指標(biāo)體系, 將36 個(gè)三級(jí)指標(biāo)作為模型的輸入, 通過(guò)有監(jiān)督的機(jī)器學(xué)習(xí)來(lái)模擬評(píng)審專家組的決策打分值, 實(shí)現(xiàn)了較準(zhǔn)確的預(yù)測(cè)。賀婉瑩[21] 構(gòu)建學(xué)術(shù)論文創(chuàng)新力評(píng)價(jià)指標(biāo)體系, 構(gòu)建并檢驗(yàn)多種機(jī)器學(xué)習(xí)模型,得出各個(gè)特征指標(biāo)對(duì)創(chuàng)新力的作用效果, 并發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型, 獲得最佳實(shí)驗(yàn)效果。
另一種運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)科技論文評(píng)價(jià)的方法是直接輸入論文的部分或全部?jī)?nèi)容的文本表示,通過(guò)有監(jiān)督訓(xùn)練預(yù)測(cè)評(píng)分或相關(guān)評(píng)價(jià)。例如林原等[22] 將論文標(biāo)題、摘要、Twitter 評(píng)論文本和同行評(píng)議文本輸入機(jī)器學(xué)習(xí)模型, 把論文的評(píng)審得分的算術(shù)平均值當(dāng)作實(shí)際得分, 運(yùn)用情感分析的方法獲取,根據(jù)評(píng)論文本的情感極性評(píng)價(jià)論文。通過(guò)實(shí)驗(yàn)證明了該定性評(píng)價(jià)定量化模型的有效性。Lu Y 等[23] 利用層次注意力機(jī)制和Transformer 編碼模塊的組合以及開(kāi)源知識(shí)圖譜, 提出了一種融合上下文、詞性、詞義等多角度信息的科技論文文本表示模型, 用于實(shí)現(xiàn)科技論文評(píng)審二分類(錄用、不錄用) 預(yù)測(cè)。實(shí)驗(yàn)表明, 增加詞性信息和詞義信息能夠有效地提高分類的準(zhǔn)確率, 作者、摘要信息對(duì)科技論文評(píng)審分類的貢獻(xiàn)較大。Leng Y 等[24] 運(yùn)用注意力機(jī)制提出了一個(gè)結(jié)合語(yǔ)義、語(yǔ)法和創(chuàng)新特征等信息的模型以實(shí)現(xiàn)自動(dòng)論文評(píng)審, 該模型在二分類甚至七分類上都取得了最優(yōu)效果并優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。
科技論文評(píng)審分類預(yù)測(cè)模型是利用人工智能技術(shù)搭建神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)模型, 提取科技論文中具有代表性語(yǔ)義特征的部分進(jìn)行學(xué)習(xí)和計(jì)算, 從而判定科技論文是被接收或者拒絕、抑或是更為細(xì)分的評(píng)審分類[25] 。作為當(dāng)前科技論文評(píng)價(jià)研究中的熱點(diǎn)問(wèn)題, 其具有客觀性強(qiáng)、效率高、融合語(yǔ)義計(jì)算等優(yōu)勢(shì), 但目前成果有待豐富, 值得進(jìn)一步探索。
2 科技論文評(píng)審分類模型設(shè)計(jì)
2.1 總體研究設(shè)計(jì)
科技論文一般由標(biāo)題、作者、摘要、關(guān)鍵詞、方法與實(shí)驗(yàn)、結(jié)果與結(jié)論、參考文獻(xiàn)等部分組成,有著相對(duì)固定的文本結(jié)構(gòu)模塊。每個(gè)結(jié)構(gòu)模塊的命名可能存在細(xì)微差別, 組成每個(gè)結(jié)構(gòu)模塊的文本句子數(shù)量和長(zhǎng)度都不一樣, 因此, 科技論文的文本屬于半結(jié)構(gòu)化數(shù)據(jù)。
對(duì)于科技論文標(biāo)題而言, 作者一般通過(guò)一句簡(jiǎn)短語(yǔ)句, 對(duì)科技論文主題和創(chuàng)新點(diǎn)簡(jiǎn)練與概括[26] ;對(duì)于科技論文摘要而言, 作者一般按照研究問(wèn)題或背景、研究目的、研究方法、結(jié)果與結(jié)論的思路展開(kāi), 同時(shí)包含創(chuàng)新點(diǎn)和主要貢獻(xiàn)??梢钥闯觯?科技論文的標(biāo)題和摘要結(jié)構(gòu)模塊的文本內(nèi)容, 很大程度上精要概括了本篇科技論文的主題、大致內(nèi)容和主要特征[27-28] 。也有實(shí)驗(yàn)表明, 科技論文的標(biāo)題和摘要部分的內(nèi)容能夠概括其主要信息, 可以使用標(biāo)題和摘要來(lái)表征全文的主題內(nèi)容甚至研究?jī)?nèi)容[29-30] 。因此, 本文將科技論文的標(biāo)題、摘要內(nèi)容作為科技論文代表文本, 通過(guò)對(duì)“標(biāo)題+摘要”的聯(lián)合文本進(jìn)行文本表示和文本分類, 得出科技論文的評(píng)審分類。
本文基于OpenReview 平臺(tái)中的科技論文數(shù)據(jù),通過(guò)將論文的標(biāo)題和摘要信息輸入到機(jī)器學(xué)習(xí)模型中, 設(shè)計(jì)了4 種機(jī)器學(xué)習(xí)模型構(gòu)成科技論文文本表示及評(píng)審分類模型, 探究不同模型獲取語(yǔ)義信息的能力和分類預(yù)測(cè)能力。通過(guò)將標(biāo)題和摘要組成的語(yǔ)義信息和評(píng)分信息進(jìn)行融合, 分析加入評(píng)分信息的評(píng)審分類模型的提升效果, 總體研究設(shè)計(jì)如圖2 所示。
2.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的評(píng)審分類模型
對(duì)于文本分類任務(wù), 在傳統(tǒng)機(jī)器學(xué)習(xí)模型的構(gòu)建當(dāng)中, 文本表示和文本分類的處理往往是獨(dú)立的。本文選擇Word2vec 和Doc2vec 分別進(jìn)行科技論文的文本表示, 選擇SVM 作為主要分類器, 探究傳統(tǒng)機(jī)器學(xué)習(xí)模型的評(píng)審分類效果。
使用Word2vec[31-32] 進(jìn)行文本表示有兩種方法:一種方法是直接調(diào)用Google 預(yù)訓(xùn)練好的模型, 通過(guò)加載Google 預(yù)訓(xùn)練好的模型, 可以針對(duì)輸入的每個(gè)單詞生成一個(gè)300 維的稠密詞向量。另一種方法是通過(guò)自己建立的語(yǔ)料庫(kù)訓(xùn)練模型, 該方法可以自定義生成詞向量的維度, 對(duì)于不常見(jiàn)詞匯、生僻詞匯也可以通過(guò)訓(xùn)練生成詞向量, 或者通過(guò)劃定低頻詞閾值的方式直接過(guò)濾掉這些不常見(jiàn)詞匯。Doc2vec 是Word2vec 的拓展, 是將句子、段落、文檔等文本轉(zhuǎn)化為向量的模型[33] 。它與Word2vec類似, 區(qū)別在于除了單個(gè)詞語(yǔ)向量, Doc2vec 引入了段落向量。Word2vec 和Doc2vec 在實(shí)際應(yīng)用當(dāng)中也存在一些較為明顯的不足, 它們僅在文本表示層發(fā)揮作用, 與文本分類等下游任務(wù)相互獨(dú)立, 因此所得到的文本表示向量是不包含具體任務(wù)的背景信息。
支持向量機(jī)(Support Vector Machine, SVM)[34]是一種有監(jiān)督學(xué)習(xí)的分類器, 被廣泛運(yùn)用于文本分類、人像識(shí)別等領(lǐng)域。SVM 本質(zhì)上可以看作是一種二類分類模型, 通過(guò)構(gòu)建多個(gè)決策邊界才能實(shí)現(xiàn)多分類。SVM 的核心思想就是, 在特征空間中找到一個(gè)超平面使得分布在特征空間中的兩類樣本數(shù)據(jù)的間隔最大。
SVM 是傳統(tǒng)機(jī)器學(xué)習(xí)中效果最好、應(yīng)用最廣泛的模型之一, 它的泛化能力較為突出, 過(guò)擬合的風(fēng)險(xiǎn)低, 對(duì)于未知數(shù)據(jù)常常能表現(xiàn)較好的預(yù)測(cè)效果,同時(shí)計(jì)算復(fù)雜度低, 原理和結(jié)果的可解釋性都相對(duì)較強(qiáng)。因此, 本文選擇SVM 作為傳統(tǒng)機(jī)器學(xué)習(xí)模型的代表構(gòu)建評(píng)審分類模型。圖3 和圖4 分別是Word2vec 和Doc2vec 模型與SVM 構(gòu)成的評(píng)審分類模型。
基于Doc2vec 和SVM 的科技論文評(píng)審分類模型和圖3 類似, 不同之處在于Doc2vec 可以直接得出文本向量, 無(wú)需進(jìn)行詞向量求平均。在獲得文本向量后進(jìn)行特征融合, 將科技論文的評(píng)分信息(評(píng)分、均值或標(biāo)準(zhǔn)差)與文本向量進(jìn)行前后拼接, 得到的融合向量作為SVM 的整體輸入, 最終得到評(píng)審分類結(jié)果。
2.3 基于深度學(xué)習(xí)的文本分類模型
在深度學(xué)習(xí)模型中, 文本表示和文本分類由于模型特性一般不明確區(qū)分, 二者往往作為一個(gè)整體相互更新和促進(jìn)。在自然語(yǔ)言處理領(lǐng)域, 以CNN類和BERT 類模型為代表。
TextCNN 是CNN 類模型中處理文本數(shù)據(jù)的首選模型, 它的優(yōu)點(diǎn)是能夠清晰地獲取到文本中全局結(jié)構(gòu)信息, 可以提取句子中不同視野范圍的特征, 且結(jié)構(gòu)相對(duì)簡(jiǎn)單, 計(jì)算量較少。但缺點(diǎn)也較為明顯——僅僅獲取了整體特征信息卻沒(méi)有包含句子中的詞序信息。因此, 不能完全獲取文本全部語(yǔ)義信息, 甚至可能因詞序問(wèn)題導(dǎo)致理解錯(cuò)誤, 由此也導(dǎo)致往往對(duì)于長(zhǎng)文本的處理效果一般。
BERT 是基于Attention 機(jī)制的大規(guī)模語(yǔ)料預(yù)訓(xùn)練模型[35] 。在自然語(yǔ)言處理領(lǐng)域的詞嵌入技術(shù)中,BERT 模型已經(jīng)成為了Word2vec 的替代。BERT 模型主要有3 種功能: 預(yù)訓(xùn)練、微調(diào)和特征抽取。預(yù)訓(xùn)練是指在計(jì)算性能滿足的情況下用一個(gè)較大的數(shù)據(jù)集訓(xùn)練出一個(gè)較好的模型, 在有效降低運(yùn)行成本的同時(shí)以一個(gè)更好的初始狀態(tài)進(jìn)行學(xué)習(xí)并提高收斂速度。微調(diào)方法是通過(guò)網(wǎng)絡(luò)下載預(yù)訓(xùn)練好的BERT模型到本地, 根據(jù)輸入的數(shù)據(jù)集不斷調(diào)整優(yōu)化原有模型的權(quán)重值, 最后獲得一個(gè)適用于新的特定任務(wù)的模型。特征抽取方法是調(diào)用預(yù)訓(xùn)練好的BERT 模型, 對(duì)新任務(wù)的單詞或者句子做編碼, 作為下游任務(wù)的輸入, 這種方法和傳統(tǒng)的Word2vec 和Doc2vec的應(yīng)用非常相似, 沒(méi)有反向傳播過(guò)程發(fā)生, 本質(zhì)上只運(yùn)用了BERT 的文本表示部分。
2.3.1 基于TextCNN 的評(píng)審分類模型
在TextCNN 中, 一個(gè)完整的句子中的每個(gè)詞語(yǔ)首先都被表示為固定維度的向量, 句子中所有的詞向量構(gòu)成了一個(gè)大小為n?k 的詞向量矩陣。其中, n 代表句子詞語(yǔ)的個(gè)數(shù), 也就是句子的長(zhǎng)度,k 則代表詞向量的維度。圖5 為融合語(yǔ)義信息和評(píng)分信息的TextCNN 評(píng)審分類模型。
該模型在數(shù)據(jù)預(yù)處理階段中, 以列表形式存儲(chǔ)數(shù)據(jù), 第一列為“標(biāo)題+摘要” 直接拼接的聯(lián)合文本; 第二列為對(duì)應(yīng)投稿論文的評(píng)分, 每篇論文有3個(gè)評(píng)分; 第三列為對(duì)應(yīng)標(biāo)簽, “0” 代表接收, “1”代表拒絕。
在嵌入層中的輸入分為兩種方式, 一種是基于語(yǔ)義信息的詞向量矩陣, 一種是基于論文評(píng)分的評(píng)分矩陣。
對(duì)于詞向量矩陣, 由于所有“標(biāo)題+摘要” 聯(lián)合文本只有一個(gè)長(zhǎng)度超過(guò)500, 該數(shù)據(jù)為一篇被拒絕的投稿論文, 其余文本長(zhǎng)度均不超過(guò)500, 因此將文本的長(zhǎng)度固定值設(shè)為500。每個(gè)單詞是由300維詞向量組成的, 即單個(gè)文本的輸入矩陣大小為500?300。
對(duì)于評(píng)分矩陣, 每篇投稿論文有3 個(gè)評(píng)分, 3個(gè)評(píng)分可以計(jì)算得出評(píng)分均值和標(biāo)準(zhǔn)差。因此, 評(píng)分矩陣的寬度為1, 根據(jù)輸入要求長(zhǎng)度最短為1、最長(zhǎng)為5。評(píng)分矩陣不參與卷積層和池化層的訓(xùn)練, 只在全連接層之前和基于語(yǔ)義信息的最終特征向量進(jìn)行拼接, 得到同時(shí)包含語(yǔ)義信息和評(píng)分信息的特征向量, 用以輸入全連接層進(jìn)行分類判斷。
2.3.2 基于SCIBERT 的評(píng)審分類模型SCIBERT[36] 是基于BERT 架構(gòu)利用科學(xué)語(yǔ)料庫(kù)訓(xùn)練的模型, 它使用生物醫(yī)學(xué)(82%)以及計(jì)算機(jī)科學(xué)(12%)方向總共114 萬(wàn)篇科技論文全文數(shù)據(jù)預(yù)訓(xùn)練出來(lái), 有自己特有的詞匯表, 更加適用于科技論文方向的自然語(yǔ)言處理任務(wù), 因此, 本文基于SCIBERT 進(jìn)行微調(diào), 建立科技論文的質(zhì)量評(píng)審分類模型。圖6 為融合語(yǔ)義信息和評(píng)分信息的SCIB?ERT 評(píng)審分類模型。
根據(jù)圖6 所示, 該模型的具體步驟如下:
1) 數(shù)據(jù)預(yù)處理。首先, 在輸入層做特征融合,將每個(gè)科技論文的評(píng)分信息直接拼接在“標(biāo)題+摘要” 的聯(lián)合文本之后。其次, 劃分訓(xùn)練集、驗(yàn)證集、測(cè)試集比例為8 ∶1 ∶1, 并分別存儲(chǔ)。然后, 將數(shù)據(jù)轉(zhuǎn)為方便模型讀取的Json 格式, 同時(shí)將聯(lián)合文本的所有字母轉(zhuǎn)化為小寫(xiě)形式, 不區(qū)分大小寫(xiě),刪除“ \(反斜杠)”、英文雙引號(hào)等特殊符號(hào)。最后, 將標(biāo)簽類別“Accept” “Reject” 對(duì)應(yīng)標(biāo)簽編號(hào)為“0” “1”, 訓(xùn)練集和驗(yàn)證集格式一致, 測(cè)試集數(shù)據(jù)不標(biāo)注標(biāo)簽信息。
2) 讀取數(shù)據(jù)。讀取訓(xùn)練集和驗(yàn)證集數(shù)據(jù), 包括融合語(yǔ)義信息和評(píng)分信息的聯(lián)合文本和對(duì)應(yīng)標(biāo)簽編號(hào), 根據(jù)SCIBERT 的特定詞匯表對(duì)聯(lián)合文本進(jìn)行分詞。
3) 特征轉(zhuǎn)換。BERT 模型將文本信息轉(zhuǎn)化為3種類型的特征向量, 然后對(duì)3 種特征向量進(jìn)行算術(shù)相加得到一個(gè)全新的特征向量, 這就完成了特征轉(zhuǎn)換。3 種類型的特征向量分別為:
Token 嵌入: 根據(jù)分詞后每一個(gè)詞語(yǔ)在詞匯表(Vocab)中的id 記錄文本中的單詞, [CLS]和[SEP]同樣有對(duì)應(yīng)id, 詞匯表識(shí)別到的各個(gè)單詞將轉(zhuǎn)換成768 維的向量。
分割嵌入: 基礎(chǔ)模型默認(rèn)最多兩個(gè)句子——第一個(gè)句子對(duì)應(yīng)的全為0, 第二個(gè)句子對(duì)應(yīng)的全為1。本文通過(guò)修改源代碼中segment_type 的類別, 根據(jù)句子數(shù)量重新編號(hào), 可以標(biāo)記多個(gè)句子。將得到的數(shù)值賦給Token 嵌入得到的向量, 即第一個(gè)句子的Token 嵌入各個(gè)向量與0 相加, 第二個(gè)句子的To?ken 嵌入各個(gè)向量與1 相加……, 以此類推。
位置嵌入: 根據(jù)公式和每個(gè)詞的順序編號(hào)計(jì)算。同樣將得到的數(shù)值賦給Token 嵌入得到的向量。
4) 序列編碼?;谧⒁饬C(jī)制訓(xùn)練詞向量,計(jì)算每個(gè)詞之間的相關(guān)性, 使得每個(gè)詞都獲得文本中其他詞的語(yǔ)義信息。然后取每個(gè)文本對(duì)應(yīng)的[CLS]向量作為文本特征向量, 代表整個(gè)聯(lián)合文本作為文本表示步驟的最終輸出, 以便輸入到后續(xù)模型進(jìn)行訓(xùn)練和測(cè)試。
5) 分類訓(xùn)練。模型訓(xùn)練部分主要是加載預(yù)訓(xùn)練模型并進(jìn)行微調(diào)。根據(jù)標(biāo)簽格式選擇對(duì)應(yīng)的損失函數(shù)和準(zhǔn)確率計(jì)算方式, 調(diào)用Adam 算法并設(shè)置初始學(xué)習(xí)率, 同時(shí)給模型添加對(duì)抗訓(xùn)練, 增加擾動(dòng)因子, 每個(gè)Epoch 后會(huì)在驗(yàn)證集上進(jìn)行驗(yàn)證, 并給出相應(yīng)的準(zhǔn)確率, 若是準(zhǔn)確率的值大于此前最高值,則保存模型參數(shù), 否則不更新模型參數(shù), 直至達(dá)到設(shè)定的Epoch 數(shù)。
6) 模型測(cè)試。模型訓(xùn)練結(jié)束后得到訓(xùn)練好的模型權(quán)重, 將該權(quán)重信息加載到測(cè)試集上進(jìn)行評(píng)審分類預(yù)測(cè), 并計(jì)算測(cè)試集的準(zhǔn)確率等指標(biāo)。
2.4 評(píng)估指標(biāo)
本文使用準(zhǔn)確率(Accuracy)作為模型效果的評(píng)估指標(biāo), 即預(yù)測(cè)正確的結(jié)果占所有參與預(yù)測(cè)樣本的百分比。模型對(duì)不同類別數(shù)據(jù)的特征提取能力和預(yù)測(cè)能力, 則用精確率、召回率和F1 值進(jìn)行評(píng)估。
3實(shí)證研究
3.1 數(shù)據(jù)收集
本文所用的數(shù)據(jù)集全部來(lái)自OpenReview 網(wǎng)站中的ICLR 會(huì)議投稿論文, ICLR 是深度學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議, 采用了雙盲審查、反駁和最終決策的審查流程。本文通過(guò)Python 爬蟲(chóng)抓取了該網(wǎng)站中ICLR2019-2022 年共10 190篇會(huì)議投稿科技論文,每篇論文包括標(biāo)題、摘要、關(guān)鍵詞、網(wǎng)站鏈接、評(píng)審得分、得分標(biāo)準(zhǔn)差和均值等。其中, 被接收的論文3 144篇, 被拒絕的論文7 046篇。被接收的論文會(huì)被評(píng)為Oral、Spotlight、Poster 3 個(gè)等級(jí)。被評(píng)為Oral 等級(jí)的論文可以參與會(huì)議詳細(xì)報(bào)告, 介紹論文的研究?jī)?nèi)容; 被評(píng)為Spotlight 等級(jí)的論文可以進(jìn)行簡(jiǎn)短口頭報(bào)告, 以突出他們論文的主要貢獻(xiàn)、新穎性和主要成果。其余被接受的論文評(píng)為Poster, 主要以海報(bào)形式展示。
ICLR 近4 年投稿論文的關(guān)鍵詞主要集中于深度學(xué)習(xí)、自然語(yǔ)言處理、歸一化、強(qiáng)化學(xué)習(xí)等主題。關(guān)鍵詞云如圖7 所示。
由于2019 年ICLR 并未設(shè)置Spotlight 類, 且每年投稿論文量非常大, 被拒絕的科技論文占比約70%, 因此, 圖8 顯示不同評(píng)審細(xì)分類的科技論文數(shù)量差距較大。從時(shí)間維度上看, ICLR 每年接收的科技論文數(shù)量也呈逐年上升趨勢(shì), 被評(píng)為Oral、Spotlight 和Poster 的論文數(shù)量均呈現(xiàn)這種趨勢(shì)。
一般ICLR 的評(píng)審專家習(xí)慣將1~10 的評(píng)分區(qū)間按照強(qiáng)拒絕、弱拒絕、弱接收、強(qiáng)接收4 個(gè)評(píng)審分類, 1 代表強(qiáng)拒絕、3 代表弱拒絕、6 代表弱接收、8 代表強(qiáng)接收。通過(guò)統(tǒng)計(jì)所有評(píng)審專家的評(píng)分?jǐn)?shù)據(jù), 發(fā)現(xiàn)絕大多數(shù)評(píng)分落在3~6 的區(qū)間, 其中6分最多, 如圖9 所示。對(duì)每篇論文計(jì)算平均分, 分布如圖10 所示。統(tǒng)計(jì)所有投稿論文的評(píng)審平均分(保留1 位小數(shù)), 計(jì)算得出ICLR 4 年所有投稿論文的平均分為5 069, 中位數(shù)為5 25。平均分位4、5、6 分的科技論文占多數(shù), 基本符合正態(tài)分布。
3.2 樣本均衡
在實(shí)際的科技論文評(píng)審過(guò)程中, 評(píng)審專家往往不是出于概率給出評(píng)審分類, 而是基于內(nèi)容本身,因此一篇科技論文是被接收和拒絕的概率應(yīng)該是均等的, 對(duì)于模型同樣如此。出于這樣的考慮, 將數(shù)據(jù)集的二分類進(jìn)行大致均等的劃分。通過(guò)類別均衡采樣的方法, 排除部分樣本量較多的類別數(shù)據(jù)實(shí)現(xiàn)樣本均衡的效果。最終選?。?282條科技論文數(shù)據(jù),其中3 111篇被接收論文、3 171篇被拒絕論文。
將標(biāo)題作為文本的第一句話, 把標(biāo)題和摘要的文本內(nèi)容前后拼接, 形成6 282條聯(lián)合文本數(shù)據(jù)。聯(lián)合文本的長(zhǎng)度分布如圖11 所示, 1 個(gè)單詞代表1個(gè)單位長(zhǎng)度。由圖11 可知, 所有文本長(zhǎng)度均小于500, 除了1 個(gè)文本以外所有文本長(zhǎng)度均大于50。絕大多數(shù)“標(biāo)題+摘要” 的文本長(zhǎng)度在120~220 的范圍之間。
3.3 實(shí)驗(yàn)結(jié)果
3.3.1 基于“標(biāo)題+摘要” 語(yǔ)義信息的實(shí)驗(yàn)結(jié)果分析
本文實(shí)驗(yàn)一以文本語(yǔ)義信息作為模型的全部輸入, 用以比較和展示不同機(jī)器學(xué)習(xí)模型獲取語(yǔ)義信息能力和評(píng)審分類預(yù)測(cè)能力, 各個(gè)模型的準(zhǔn)確率結(jié)果如表1 所示。
由表1 可知, 單純以“標(biāo)題+摘要” 的文本內(nèi)容作為評(píng)審分類的判斷依據(jù), 其效果并不顯著, 但是以BERT 為基準(zhǔn)模型的SCIBERT 仍然展現(xiàn)了強(qiáng)大的語(yǔ)義獲取能力, 通過(guò)對(duì)標(biāo)題和摘要內(nèi)容的語(yǔ)義信息預(yù)測(cè)科技論文的評(píng)審分類, 準(zhǔn)確率達(dá)到了64.52%, 不僅和傳統(tǒng)機(jī)器學(xué)習(xí)模型拉開(kāi)差距, 還遠(yuǎn)遠(yuǎn)優(yōu)于同為深度學(xué)習(xí)模型的TextCNN。SCIBERT模型的具體每個(gè)評(píng)審分類的精確率、召回率、F1值如表2 所示, 在“接收” 分類中, SCIBERT 的精確率達(dá)到了71. 75%, 表現(xiàn)出對(duì)被接收的科技論文良好的特征獲取能力。
3.3.2 融合語(yǔ)義信息和評(píng)分信息的實(shí)驗(yàn)結(jié)果分析
本文的實(shí)驗(yàn)二以文本語(yǔ)義信息和評(píng)論得分信息作為模型輸入, 是本文提出的主要模型——融合語(yǔ)義信息和評(píng)分信息的科技論文質(zhì)量評(píng)審分類模型,驗(yàn)證融合語(yǔ)義信息和評(píng)分信息能提升評(píng)審分類效果,其中評(píng)分信息的輸入包括: 評(píng)分; 評(píng)分+均值; 評(píng)分+均值+標(biāo)準(zhǔn)差。
以“標(biāo)題+摘要” 的文本語(yǔ)義信息與評(píng)分信息的特征融合作為模型的全部輸入, 各個(gè)模型的準(zhǔn)確率結(jié)果如表3 所示。
其中序號(hào)13 是對(duì)照組, 是指直接以科技論文的所有評(píng)論得分的算術(shù)平均值作為評(píng)審分類的判斷依據(jù), 其中0 ~ 6 分(不包含6.0) 預(yù)測(cè)為“被拒絕”, 超過(guò)6 分預(yù)測(cè)為“被接收”。該實(shí)驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)為選取的全部數(shù)據(jù), 即6 282條科技論文數(shù)據(jù),其中3 111篇被接收論文、3 171篇被拒絕論文。
整體來(lái)看, 融合語(yǔ)義信息和評(píng)分信息的評(píng)審分類模型比單純依靠評(píng)分的均值進(jìn)行評(píng)審判斷更為有效, 各個(gè)模型的準(zhǔn)確率均有大幅的提升, 所有子實(shí)驗(yàn)的準(zhǔn)確率均超過(guò)87%, 都優(yōu)于評(píng)分均值直接判斷。從運(yùn)用的模型來(lái)看, 深度學(xué)習(xí)模型較優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型, 但差距并不如單純基于語(yǔ)義信息的實(shí)驗(yàn)明顯; 從評(píng)分輸入來(lái)看, 評(píng)分和均值作為科技論文的評(píng)分信息能展現(xiàn)更強(qiáng)的評(píng)審分類預(yù)測(cè)能力,標(biāo)準(zhǔn)差的數(shù)值對(duì)評(píng)審分類的預(yù)測(cè)無(wú)明顯影響。
所有實(shí)驗(yàn)中, 序號(hào)11——以評(píng)分+均值為評(píng)分信息輸入、基于SCIBERT 的質(zhì)量評(píng)審分類模型準(zhǔn)確率最高, 達(dá)到90.17%。該模型的具體每個(gè)評(píng)審分類的精確率、召回率、F1 值如表4 所示。
4 結(jié)論與展望
盡管在使用“標(biāo)題+摘要” 的語(yǔ)義信息作為評(píng)審分類模型的輸入數(shù)據(jù)時(shí), 模型的準(zhǔn)確度并不高,但是當(dāng)加入評(píng)分信息后, 模型的準(zhǔn)確度顯著上升。這表明評(píng)分信息對(duì)于評(píng)審分類的準(zhǔn)確性具有積極地影響, 評(píng)分信息是評(píng)審人員對(duì)論文質(zhì)量的綜合評(píng)估,可以反映其對(duì)論文質(zhì)量的整體感知。因此, 將評(píng)分信息納入評(píng)審分類模型會(huì)增加模型對(duì)論文接受或拒絕的預(yù)測(cè)能力。
但是標(biāo)題和摘要作為論文的概述, 提供了論文的主題、研究目的、方法和結(jié)果的簡(jiǎn)要描述。這些信息對(duì)于編輯和評(píng)審人員來(lái)說(shuō)仍然具有重要的參考價(jià)值, 完全依賴于評(píng)分信息來(lái)預(yù)測(cè)評(píng)審結(jié)果可能會(huì)忽略標(biāo)題和摘要中質(zhì)量相關(guān)的細(xì)節(jié), 綜合考慮標(biāo)題、摘要和評(píng)分信息可以為評(píng)審分類提供更全面和準(zhǔn)確的預(yù)測(cè)能力。
從實(shí)驗(yàn)結(jié)果來(lái)看, 融合語(yǔ)義信息和評(píng)分信息的SCIBERT 模型的準(zhǔn)確率達(dá)到90 17%, 這說(shuō)明利用科技論文的標(biāo)題和摘要為內(nèi)容代表的語(yǔ)義信息, 以及評(píng)審專家的評(píng)分信息進(jìn)行自動(dòng)評(píng)審分類的方法具有可用性, 準(zhǔn)確率較高, 可以輔助期刊編輯快速篩選有潛力的科技論文, 促進(jìn)科技論文智能評(píng)審的發(fā)展, 加速有價(jià)值的知識(shí)傳播進(jìn)程。
未來(lái)的研究將會(huì)考慮用同行評(píng)審專家的評(píng)論文本作為科技論文評(píng)審分類模型的輸入。評(píng)論文本含有對(duì)科技論文內(nèi)容質(zhì)量的多維度評(píng)價(jià), 包括論文的創(chuàng)新點(diǎn)、領(lǐng)域貢獻(xiàn)以及不足之處, 同時(shí)評(píng)論內(nèi)容具有一定的結(jié)構(gòu)化特征和情感極向, 考慮融合評(píng)審意見(jiàn)信息的自動(dòng)評(píng)審分類模型將會(huì)融合更多語(yǔ)義信息,提供更智能化的自動(dòng)評(píng)審方法。
(責(zé)任編輯: 郭沫含)