林 原,王凱巧,楊 亮,林鴻飛,任 璐,丁 堃
1.大連理工大學(xué) 科學(xué)學(xué)與科技管理研究所,遼寧 大連 116024
2.中國科學(xué)院 聲學(xué)研究所 南海研究站,???570105
3.大連理工大學(xué) 信息檢索實驗室,遼寧 大連 116023
同行評議(peer review)是定性評價的一種主要方法,亦稱同行專家評審,雖然同行評議的質(zhì)量、隨機性、偏差和不一致性在學(xué)術(shù)界存在著廣泛的爭論[1-2],但目前同行評議仍然是最受普遍的論文評審過程[3]。同行評議是指作者將完成的論文提交給某一期刊或會議,該期刊或會議的編輯/主席將其分發(fā)給多個領(lǐng)域?qū)<疫M行評審,以達到相應(yīng)期刊或會議的標(biāo)準(zhǔn)。通常情況下,專業(yè)審稿人收到審稿請求后會仔細(xì)審稿,并為論文寫一篇審稿意見和推薦分?jǐn)?shù)。之后,編輯/會議主席將根據(jù)幾個審稿人的評議文本和分?jǐn)?shù)為論文撰寫一篇總評并決定論文的最終狀態(tài)。
近年來,開放數(shù)字運動使得有些期刊會議開始嘗試著開放學(xué)術(shù)評價過程,例如Nature Communication,PLOS,Open review等。其中,Open review網(wǎng)站(https://openreview.net/)是其中較為成熟的開放同行評議平臺,數(shù)據(jù)集的獲取較為方便且完整,因此本文選取了Open review中的開放同行評議文本作為研究對象。Open review主要用于計算機人工智能領(lǐng)域會議的同行評議過程的交流,該網(wǎng)站目前支持ICLR、UAI、NIPS、ICML等60多個會議公開同行評議過程,這些會議在接收稿件時會詢問作者是否公開同行評議過程,經(jīng)作者同意的同行評議過程會公開在該網(wǎng)站中,作者以及公眾可以看到審稿人寫的同行評議文本,作者還可以在一定時間內(nèi)根據(jù)審稿人的意見進行回復(fù)。以ICLR會議為例,表1為通過python爬蟲程序從該網(wǎng)站中爬取到的在該網(wǎng)站中公開同行評審過程的論文統(tǒng)計數(shù)據(jù),檢索日期為2020年3月20日。此外,加入Open review網(wǎng)站的國際會議每年都在增加,數(shù)據(jù)集的公布也越來越規(guī)范化與結(jié)構(gòu)化,這為論文的刊前定性評價研究提供了大量的、良好的數(shù)據(jù)集。
表1 2017—2020 ICLR公開同行評議過程的論文統(tǒng)計Table 1 Paper statistics of 2017—2020 ICLR public peer review process
表2為本文從Open review網(wǎng)站收集到的一篇同行評議文本樣例,一般來說,在評審文本中,審稿人首先會對論文的貢獻進行總結(jié)(見表2中的前兩句),然后審稿人會對論文發(fā)表自己的觀點,包括正反兩方面(見表2中的3~8句)。推薦分?jǐn)?shù)是審稿人綜合論文的各方面表現(xiàn)給出的總分,根據(jù)推薦分?jǐn)?shù),審稿人還會給出推薦論文的決策狀態(tài),即接收或拒絕,有時還會有臨界狀態(tài)。
表2 同行評議文本樣例Table 2 Sample of peer review text
本文將同行評議文本分類的任務(wù)分成了兩個子任務(wù):
任務(wù)1挖掘同行評議文本中審稿人的正向、負(fù)向情感,預(yù)測審稿人的兩種推薦狀態(tài),即接收/拒絕(二分類)。
任務(wù)2挖掘同行評議文本中審稿人的正向、中性、負(fù)向情感,預(yù)測審稿人的三種推薦狀態(tài),即接收/臨界/拒絕(三分類)。
第一個任務(wù)是同行評議文本的二分類任務(wù),根據(jù)審稿人的實際推薦分?jǐn)?shù)將論文劃分成兩類,拒絕(1≤分?jǐn)?shù)≤5)和接收(6≤分?jǐn)?shù)≤10),通過情感分析模型挖掘同行評議文本的情感極性并據(jù)此為同行評議文本分類,當(dāng)同行評議文本情感極性為正向時,模型將預(yù)測論文的審稿人推薦狀態(tài)為接收,當(dāng)同行評議文本的情感極性為負(fù)向時,模型將預(yù)測論文的審稿人推薦狀態(tài)為拒絕,通過對比論文的實際推薦狀態(tài)和預(yù)測推薦狀態(tài)來評估模型的準(zhǔn)確率。第二個任務(wù)是同行評議文本的三分類任務(wù),它根據(jù)審稿人的實際推薦分?jǐn)?shù)將論文劃分成三類,拒絕(1≤分?jǐn)?shù)≤4)、臨界狀態(tài)(5≤分?jǐn)?shù)≤6)和接收(7≤分?jǐn)?shù)≤10),其他的設(shè)置與第一個任務(wù)一樣。
文本情感分析又稱意見挖掘,是指通過計算技術(shù)對文本的主客觀性、觀點、情緒、極性的挖掘和分析,從而分析文本情感極性。情感極性分為兩極,即正面(positive)的贊賞和肯定、負(fù)面(negative)的批評與否定,也有一些學(xué)者在正面和負(fù)面之間加入了中性(neutral)。情感分類的方法大致可分為基于詞典的方法[4-5]、基于機器學(xué)習(xí)的方法[6-7],其中,基于機器學(xué)習(xí)的方法,尤其是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型[7-10]具有優(yōu)越的性能。深度學(xué)習(xí)情感分析目前已廣泛應(yīng)用于各種文本分類任務(wù),并取得了顯著的效果,包括產(chǎn)品評論[11-12]、電影評論[9,12]、推特[7-8]、新聞文章[13]等。
正例和無標(biāo)記樣本學(xué)習(xí)(positive-unlabeled learning)簡稱pu-leanrning,是一種半監(jiān)督的二元分類模型,與普通分類問題不同,pu-learning問題中P的規(guī)模通常相當(dāng)小,擴大正樣本集合也比較困難;而U的規(guī)模通常很大。其可以在檢索、異常檢測、序列數(shù)據(jù)監(jiān)測中應(yīng)用。pu-learning可以訓(xùn)練一個基于正樣本P和未標(biāo)記樣本U(包括正樣本和負(fù)樣本)的二元分類器,計算每個樣本屬于正樣本的概率。
此前,有學(xué)者對同行評議文本進行了研究,研究表明,審稿人通常在評論的開頭一段描述對于論文的總體意見,如這篇論文有什么貢獻,解決了一個什么樣的問題,是否具有一定的創(chuàng)新性[14],而論文存在的主要問題,特別是可能使論文無法錄取的問題一般會在同行評議文本的后面部分列出,同樣的,審稿人對于文章的贊賞一般也是在審稿文本后半部分列出[15]。因此,為了讓情感分析模型將注意力放在更有可能包含審稿人情感的后半部分審稿文本,本文在情感分析模型中引入了pu-learning方法,基于同行評議文本中的開頭部分更有可能是審稿人的非觀點句的假設(shè),通過pu-learning中的“兩步法”[16]訓(xùn)練一個可以區(qū)別化同行評議文本中觀點句和非觀句的分類器,使得情感分析模型加大對觀點句的分析權(quán)重,從而使得情感分析模型達到更好的效果。為了驗證引入pu-learning的有效性,本文分別采用了三個傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)來進行同行評議文本的情感挖掘。
如果能自動區(qū)分同行評議文本中審稿人對于論文的觀點句(如論文的優(yōu)缺點)和非觀點句,一方面,在情感分析過程中,可以通過改變不同句子的重要性,使得模型能將注意力放在包含了審稿人情感極性的觀點句中,從而可以使得模型達到更好的分類效果,另一方面,通過可視化的方法可以給予同行評議文本觀點句和非觀點句不同的強調(diào)顏色,這將不僅有助于編輯/會議主席撰寫一篇全面的總評,也將便于作者進一步改進論文。此外,完成訓(xùn)練的情感分析模型可以用于大量沒有分?jǐn)?shù)的同行評議文本,為其分類,從而為學(xué)術(shù)論文質(zhì)量評價體系提供新指標(biāo)。
目前存在一些關(guān)于同行評議文本的情感分析研究,由于同行評議文本篇幅太長,觀點句和非觀點句混雜、優(yōu)缺點交織,現(xiàn)有的模型均引入了論文或摘要作為外部資源嵌入其中,這使得模型算法變得很復(fù)雜,但效果并沒有實質(zhì)性的提高。不同于傳統(tǒng)方法,本文創(chuàng)新性地提出了針對這一任務(wù)的基于觀點句注意力機制的同行評議文本研究模型,簡稱OSA(opinionated sentence attention)機制。本文巧妙地將同行評議文本中的前N個句子標(biāo)記為正例,將其他句子標(biāo)記為未標(biāo)記的樣本,通過兩步法使每個句子得到一個觀點句權(quán)重,并用倒數(shù)第二層的編碼器對這些權(quán)重進行點乘,得到最終的預(yù)測結(jié)果。模型在ICLR 2017—2018的數(shù)據(jù)集上進行了評估,實驗結(jié)果驗證了OSA的高效性,并在兩個數(shù)據(jù)集上取得了優(yōu)異的性能。
圖1為本文提出的OSA機制的總體架構(gòu)。該機制有兩個部分,第一部分是pu-learning的兩步法,在這一部分,將每一篇同行評議文本的前N個句子標(biāo)記為正例,其他句子標(biāo)記為未標(biāo)記樣本。訓(xùn)練一個觀點句和非觀點句的句子分類器,為每一個句子分配一個非觀點句的權(quán)重。第二部分是情感分析編碼器與兩步法相結(jié)合,在情感分析編碼器的倒數(shù)第二層,將每句話的觀點句權(quán)重乘以這一層的值并求和來得到最終的分類概率。
圖1 同行評議觀點句注意力機制模型研究Fig.1 Study on attention mechanism model of peerreview opinion sentences
本文首先采用谷歌預(yù)訓(xùn)練的句向量語言模型BERT[17]來對同行評議中的每一句話進行編譯,從而得到每一句的表示向量,如圖2所示,這里的BERT是谷歌將多個transformer encoder疊加起來訓(xùn)練好的可直接外部使用的句向量語言模型,其中,句向量長度為768維。
圖2 BERT句向量語言模型Fig.2 Sentence vector language model BERT
圖2展示了兩步法的具體過程,這里模型的輸入是通過句向量語言模型編譯好的所有同行評議文本的M個句子,兩步法包含了兩個步驟:
步驟1為了從未標(biāo)記的樣本中提出到相對可靠的負(fù)例樣本RN(reliable nagative),以每篇同行評議文本的前N個句子P(positive samples)為正例,以其余未標(biāo)記樣本U(unlabeled samples)為負(fù)例,采用隨機森林分類器訓(xùn)練一個分類器RF1,接著用訓(xùn)練完成的RF1應(yīng)用于未標(biāo)記樣本集U,設(shè)定一個閾值,將概率小于該閾值的樣本標(biāo)記為相對可靠的負(fù)例樣本集RN[18],那些在U中未被標(biāo)記為RN的樣本被記為樣本集Q。
步驟2在這個步驟,另一個隨機森林分類器RF2不斷地以P、RN和Q進行迭代訓(xùn)練,在每一次的迭代中,RF2以P為正例、RN為負(fù)例進行訓(xùn)練,將訓(xùn)練完的RF2分類器應(yīng)用于Q樣本集,在Q中被確定為新的負(fù)例的樣本會被添加到RN中,構(gòu)成新的RN,如此迭代直到Q中不再產(chǎn)生沒有新的負(fù)例被添加到RN。
通過兩步法,所有的同行評議的句子都會得到一個權(quán)值q:
這個權(quán)值代表了這句話為非觀點句的概率,通過a=1-q的計算可以得到代表了這句話屬于觀點句的概率a。
在這個部分,通過預(yù)訓(xùn)練的詞向量語言模型查找將每一個單詞表示為一個固定長度的詞向量wi∈Rd,這里d為詞向量的維度,一個長度為L的句子S則可以表示為:
其中,⊕是拼接操作,因此,一篇具有n個句子的同行評議文本可以表示為:
接著,采用一個情感分析編碼器來對每一篇同行評議文本進行編碼來得到模型的倒數(shù)第二層的值:
此外,模型訓(xùn)練過程中采用交叉熵?fù)p失函數(shù)來最小化預(yù)測值與實際值之間的誤差:
這里Treview代表了同行評議文本中的訓(xùn)練數(shù)據(jù)集。
本文從Open review平臺中爬取了2017—2018年ICLR(國際學(xué)習(xí)代表大會)的所有同行評議文本作為研究數(shù)據(jù)集,包括論文的同行評議文本和每篇同行評議文本對應(yīng)的1~10分推薦分?jǐn)?shù)作為實驗數(shù)據(jù)。表3展示了ICLR各年數(shù)據(jù)的基本統(tǒng)計信息。
表3 ICLR 2017—2018數(shù)據(jù)集基本統(tǒng)計信息Table 3 ICLR 2017—2018 dataset basic statistics
為了研究將同行評議文本的開頭句子作為pulearning分類器正例的可行性,本文抽取了ICLR 2018的200篇同行評議文本作為樣本進行了分析,人工標(biāo)注這200篇同行評議文本的第一個句子,結(jié)果發(fā)現(xiàn)有13篇同行評議文本的第一句為審稿人情感句,其他的187篇為非情感句,這一結(jié)果與之前的研究是一致的[14-15],這也驗證了將同行評議文本的開頭句作為pu-learning正例的可行性。
本節(jié)采用了不同的情感分析編碼器和正樣本句子進行了實驗。對于兩步法的參數(shù)設(shè)置,本節(jié)使用了預(yù)訓(xùn)練的詞向量模型Googles BERT-Base Uncased模型來將同行評議文本中的每一個句子表示成768維的表示向量,在步驟1使用的是n-estimators為1 000且n-jobs為-1的隨機森林分類器來獲取相對可靠的負(fù)樣本RN;在步驟2中同樣使用的是n-estimators為1 000且n-jobs為-1的隨機森林分類器來不斷的迭代從Q中獲取新的相對可靠的負(fù)樣本。步驟2進行了100次迭代且使用了早停機制。對于情感分析部分,本節(jié)分別使用了CNN[7]、LSTM[19]、CNN-BiLSTM、CNN-BiLSTM-Att[8]模型來進行實驗。
為了評估OSA機制的有效性,本節(jié)還使用了不加兩步法的三個情感分析原始模型作為基線參考模型。使用預(yù)先訓(xùn)練好的wiki百科200維詞向量作為初始詞嵌入,在訓(xùn)練過程中對詞向量進行固定,每篇同行評審文本分別設(shè)置了最大句子數(shù)M1=130和句子最大序列長度M2=100,通過隨機梯度下降和Adam優(yōu)化器的超參數(shù)進行訓(xùn)練。采用十折交叉驗證法來訓(xùn)練模型并計算模型的準(zhǔn)確率,每個數(shù)據(jù)集被隨機分成10個部分,每次使用一個部分進行測試,另外9個部分進行訓(xùn)練。也就是說,對于ICLR-2017數(shù)據(jù)集,使用1 366條評論作為訓(xùn)練集,151條評論作為測試集;對于ICLR-2018數(shù)據(jù)集,使用2 588條評論作為訓(xùn)練集,286條評論作為測試集,最終模型的準(zhǔn)確率為模型10次訓(xùn)練結(jié)果的平均值。
為了找到更準(zhǔn)確的同行評議文本的前N句作為兩步法中的正例樣本,首先用CNN情感分析模型來分別對前1、前2、前3、前4和前5個句子進行了實驗。表4的實驗結(jié)果表明,將前兩個句子作為正例樣本可以使得兩步法得到最佳的實驗結(jié)果。從表4可以看出,前1句的結(jié)果比前2句的結(jié)果稍差,超過2句會使結(jié)果越來越差,其中,括號中的數(shù)字是十折交叉驗證結(jié)果準(zhǔn)確率的標(biāo)準(zhǔn)差。因此,在以后的實驗中,采用了Top-2機制。
表4 不同的前N句作為正例結(jié)果Table 4 Result of taking different first N sentences as positive examples
圖3是從ICLR-2018數(shù)據(jù)集中提取的同行文本的一個例子,由于篇幅有限,本節(jié)展示了一些句子。本文通過兩步法得到了每個句子是觀點句的權(quán)重,圖中不同的紅色代表句子的不同權(quán)重,顏色越深表示權(quán)重越大。從圖中可以看出,OSA機制可以直觀地從同行評議文本中識別出非觀點句和觀點句。例如,在這里,同行評議文本中的前四句話顯然是評論人對論文貢獻的總結(jié),它們是非觀點句,因此它們在圖中的顏色較淺。此外,即使非觀點句混合在觀點句的句子中,如數(shù)字8,兩步法仍然可以捕捉到它并給出較小的權(quán)重,在圖中表現(xiàn)為較淺的顏色,而那些給出了審稿人意見的觀點句,如圖中的9、10、11、12得到較深的顏色。通過這樣的可視化可以直觀地感受到OSA機制帶來的貢獻,它可以很好地區(qū)分同行評議文本的觀點句和非觀點句,并定量化給予它們不同的權(quán)重,使得情感分析模型能更加注意審稿人的觀點句,從而使得情感分析模型達到更好的分類效果。
圖3 同行評議觀點句注意力機制的可視化Fig.3 Visualization of attention mechanism in peerreview opinion sentences
表5列出了本文的OSA機制和基線參考模型的實驗結(jié)果。本文分別在ICLR-2017和ICLR-2018兩個數(shù)據(jù)集上進行了實驗,評價結(jié)果證明了本文提出的OSA機制的有效性。本文采用了平均準(zhǔn)確率和標(biāo)準(zhǔn)偏差作為評估指標(biāo)??偟膩碚f,CNN、CNN-BiLSTM、CNNBiLSTM-Att這三個模型在添加了OSA機制以后準(zhǔn)確率都有了不同程度的提升。顯然,基本的CNN模型表現(xiàn)得最不佳,添加了BiLSTM和Att后可以使稍微改善模型結(jié)果。但OSA機制的應(yīng)用可以使得三個基線參考模型有很大的改進。
表5 二分類實驗結(jié)果Table 5 Experimental results of two classification 單位:%
從表5也可以看到,對于不同的基線參考模型,OSA的效果也不盡相同。在這里,OSA對CNN的促進作用最大,在ICLR-2017和ICLR-2018的數(shù)據(jù)集上分別提升了12.99和4.69個百分點,將其歸因于OSA的使用:即使不使用論文和摘要信息,這種機制也能成功捕捉到同行評議文本中的觀點句。另外,CNN-BiLSTMAtt+OSA模型在兩個數(shù)據(jù)集上取得了最好的結(jié)果,分別比CNN-BiLSTM-Att模型的結(jié)果高出3.37和1.30個百分點的準(zhǔn)確率,低于CNN的提升率,這也表明了為兩步法尋找一個更加合適的情感分析模型仍然是一個需要繼續(xù)研究的問題。
在本節(jié)中,將展示三分類任務(wù)的結(jié)果,該任務(wù)比任務(wù)1多了一個邊界狀態(tài)類別。表6是任務(wù)2的實驗結(jié)果,總的來說,與二分類任務(wù)相比,三分類任務(wù)難度更大。在這里,CNN-BiLSTM-Att在所有基線參考模型中表現(xiàn)最好,而添加了OSA機制的CNN-BiLSTM-Att機制可以得到更好的結(jié)果,說明OSA機制是一種強大的注意到觀點句的工具。更重要的是,三個變體模型仍然可以極大地提升它們的基礎(chǔ)模型,這證實了OSA機制在不同的任務(wù)上仍然具有有效性。在任務(wù)2中,CNN+OSA仍然得到了最大的準(zhǔn)確率提升,而CNN-BiLSTMAtt+OSA在所有模型中都獲得了最好的性能。
表6 三分類實驗結(jié)果Table 6 Experimental results of three classification單位:%
以完成預(yù)測審稿人推薦狀態(tài)準(zhǔn)確率最好的CNNBiLSTM-Att+OSA二分類模型為例,通常情況下每篇論文會有三篇同行評議文本,因此采用該模型進行同行評議文本定量化可以得到論文的三個預(yù)測推薦狀態(tài),如接收、接收、拒絕,可以認(rèn)為這三個預(yù)測推薦狀態(tài)代表了該論文在三位審稿人之間的接受度,顯然得到接收個數(shù)越多的論文,代表該論文在審稿人中的普遍接受度越高,認(rèn)可度越高,論文被錄取的可能性就越大,本文將這種審稿人的三種推薦狀態(tài)稱為論文接受度指標(biāo)。
因此本節(jié)嘗試著采用論文接受度指標(biāo)對最終決策狀態(tài)進行預(yù)測,規(guī)定高接受度的論文決策狀態(tài)將被預(yù)測為接收,低接受度的論文決策狀態(tài)將被預(yù)測為拒絕。如圖4所示,通過定量化論文的三篇同行評議文本可以得到論文的接受度指標(biāo),這里本文規(guī)定了“少數(shù)服從多數(shù)”的投票法,如果一篇論文通過訓(xùn)練好的模型預(yù)測得到兩個接收、一個拒絕的結(jié)果,則規(guī)定論文的最終預(yù)測決策狀態(tài)為接收,如果一篇論文得到一個接收、兩個拒絕的預(yù)測結(jié)果,則規(guī)定論文的最終預(yù)測決策狀態(tài)為拒絕,規(guī)定當(dāng)一篇論文得到的接收個數(shù)和拒絕個數(shù)相等時,論文的最終預(yù)測決策狀態(tài)隨機獲取。對比論文的預(yù)測決策狀態(tài)和實際決策狀態(tài),當(dāng)預(yù)測決策狀態(tài)與實際決策狀態(tài)一致時,判定模型成功地通過同行評議文本預(yù)測了論文的最終決策狀態(tài),否則判定模型預(yù)測失敗。
圖4 接受度指標(biāo)預(yù)測論文決策狀態(tài)Fig.4 Acceptance index predicts paper decision-making status
將收集到的約10%的ICLR 2017—2018年論文數(shù)據(jù)作為測試集,其中2017年和2018年各有49篇和95篇論文,對比論文的預(yù)測決策狀態(tài)和實際最終決策狀態(tài)來判定模型是否成功完成預(yù)測。這樣便可以得到ICLR 2017和ICLR 2018的論文決策狀態(tài)預(yù)測準(zhǔn)確率分別為81.63%和83.16%,可以看出,通過論文接受度指標(biāo),可以使得模型得到很好的決策狀態(tài)預(yù)測準(zhǔn)確率,是用于劃分未發(fā)表論文質(zhì)量的有效指標(biāo)。
同行評議是一種定性評價,是當(dāng)前國內(nèi)外學(xué)術(shù)期刊與會議最普遍的學(xué)術(shù)評價方式,是把控學(xué)術(shù)論文質(zhì)量的最重要的方式。本文收集了開放獲取的同行評議文本作為研究數(shù)據(jù)集,采用情感分析模型挖掘文本情感極性,為同行評議文本分類,從而達到了定性評價定量化的目標(biāo),完成訓(xùn)練的情感分析模型可以用于大量沒有分?jǐn)?shù)的同行評議文本,為其分類,從而為學(xué)術(shù)論文質(zhì)量評價體系提供新指標(biāo)。
為了進一步提升情感分析模型對于同行評議文本的分類準(zhǔn)確率,本文將機器學(xué)習(xí)方法pu-leaning引入到同行評議文本情感挖掘任務(wù)中。通過pu-learning中的兩步法可以使得同行評議文本中的每一個句子得到一個觀點句權(quán)值,這個權(quán)值可以使得情感分析模型更加注意到同行評議文本的觀點句,從而使得情感分析模型能更好地挖掘到審稿人的情感極性,OSA的可視化直觀地表明,該方法能夠成功地捕獲評論文本中的觀點句。本文將這種機制稱為OSA機制,本文使用了三個情感分析編碼器來驗證OSA機制的有效性。本文提出的方法在不融合論文和摘要信息的情況下,可以在兩個子任務(wù)中使得使用了OSA機制的模型優(yōu)于所有的基線參考模型。最后,通過論文接受度指標(biāo)探討了本文提出的模型的實際應(yīng)用場景,該指標(biāo)可以有效地用于論文決策狀態(tài)預(yù)測任務(wù)。