陳大文
(江蘇金盾檢測(cè)技術(shù)股份有限公司,江蘇 南京 210000)
隨著互聯(lián)網(wǎng)迅速發(fā)展與學(xué)術(shù)競(jìng)爭(zhēng)的加劇,學(xué)術(shù)期刊投稿過(guò)程中產(chǎn)生的學(xué)術(shù)不端行為日益嚴(yán)峻。 這種現(xiàn)象侵害他人知識(shí)產(chǎn)權(quán),擾亂學(xué)界秩序,阻礙了科學(xué)的生產(chǎn)和進(jìn)步。 中國(guó)科協(xié)早在2007 年就發(fā)布《科技工作者科學(xué)道德規(guī)范》進(jìn)行規(guī)約,美國(guó)科學(xué)技術(shù)政策辦公室則在2000 年就對(duì)學(xué)術(shù)不端行為進(jìn)行了定義。 學(xué)術(shù)不端是一個(gè)較為宏觀的概念,根據(jù)2019 年5 月所發(fā)表的《學(xué)術(shù)出版規(guī)范——期刊學(xué)術(shù)不端行為的定義》中的新界定,可初步將學(xué)術(shù)不端行為分為剽竊、偽造、篡改、一稿多投等類(lèi)型。 當(dāng)前所面臨的不端行為現(xiàn)象日益復(fù)雜,需要通過(guò)更有針對(duì)性的技術(shù)方法進(jìn)行有效檢測(cè)和識(shí)別。
面對(duì)嚴(yán)峻的學(xué)術(shù)不端境況,國(guó)內(nèi)外都積極展開(kāi)了一系列的預(yù)防與監(jiān)管措施。 國(guó)內(nèi)的CNKI 科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(AMLC)[1]從2006 開(kāi)始正式立項(xiàng)到目前已經(jīng)規(guī)?;褂?具備相當(dāng)?shù)某墒於取?AMLC 可以進(jìn)行快速的文獻(xiàn)對(duì)比,以CNKI 的文獻(xiàn)數(shù)據(jù)庫(kù)為依托,在幾秒內(nèi)完成文獻(xiàn)復(fù)制比率的檢測(cè),其核心為內(nèi)容重復(fù)比,系統(tǒng)中連續(xù)13 個(gè)字重復(fù)就算抄襲并被標(biāo)紅。但是此抄襲檢測(cè)方法具有很大弊端,如一旦查重規(guī)律被摸透,抄襲者就可以輕易繞開(kāi)系統(tǒng)監(jiān)測(cè)。 國(guó)外的CrossCheck[2]是由CrossRef 組織推出的一項(xiàng)服務(wù),主要用于檢測(cè)論文是否存在抄襲和剽竊行為,自然出版集團(tuán)(NPG)、愛(ài)思唯爾、施普林格等都是CrossCheck 的使用成員。 同AMLC 類(lèi)似,其也是將上傳論文與數(shù)據(jù)庫(kù)中的海量文獻(xiàn)進(jìn)行分析比對(duì),從而檢測(cè)文字抄襲或剽竊。 其缺點(diǎn)也較為明顯,一旦作者有意將文字進(jìn)行掩飾或通過(guò)相關(guān)機(jī)構(gòu)幫助潤(rùn)色而間接地消除了“痕跡”,系統(tǒng)將很難檢測(cè)并識(shí)別。
本文提出一種角色行為的偽孿生網(wǎng)絡(luò)學(xué)術(shù)不端檢測(cè)模型,克服了用戶(hù)通過(guò)文字修改而造成的檢測(cè)難題,利用多種角色的行為數(shù)據(jù),綜合分析用戶(hù)異常狀態(tài),從而識(shí)別不端行為。
近年來(lái),媒體曝光的學(xué)術(shù)不端事件涵蓋種類(lèi)多樣化趨勢(shì)明顯,既有抄襲手段,又有身份偽造、惡意投稿等不同類(lèi)型,試圖通過(guò)一種檢測(cè)技術(shù)或方法識(shí)別所有學(xué)術(shù)不端行為是不可能的。 從田瑞強(qiáng)等[3]對(duì)Retraction Watch 數(shù)據(jù)庫(kù)的分析發(fā)現(xiàn),因重復(fù)、造假等原因而撤銷(xiāo)的文獻(xiàn)達(dá)到70%。 當(dāng)今主流的檢測(cè)技術(shù)也是針對(duì)諸如此類(lèi)學(xué)術(shù)不端行為,而其他學(xué)術(shù)不端類(lèi)型的檢測(cè)技術(shù)和方法尚不完善。 目前,剽竊檢測(cè)技術(shù)可大致分為3 類(lèi)[4]。
基于字符的檢測(cè)方法只考慮對(duì)文本中的字符、單詞或字符串進(jìn)行相似度計(jì)算。 該方法最合適識(shí)別復(fù)制和粘貼的抄襲情況。 常用的方法有數(shù)字指紋、詞袋模型[5]、最長(zhǎng)公共子序列等算法。 在詞袋模型中,文本被重新表示為多個(gè)單詞構(gòu)成的集合,不考慮其語(yǔ)法和單詞順序[6]。 基于字符的剽竊檢測(cè)的技術(shù)最大的問(wèn)題是不能識(shí)別經(jīng)過(guò)同義替換或是文字修飾后的剽竊行為。Grozea 等人使用16-gram 來(lái)匹配16 個(gè)連續(xù)實(shí)體序列的相似性從而檢測(cè)文檔的相似內(nèi)容。
基于語(yǔ)義的剽竊檢測(cè)在語(yǔ)義層面計(jì)算文本相似度,從而判斷文本內(nèi)容是否存在剽竊行為。 即該方法假設(shè)兩個(gè)段落的語(yǔ)義相似性取決于這些段落中相似語(yǔ)義單元的出現(xiàn)。 在分析中包括語(yǔ)義特征,如同義詞、上位詞和下位詞,這可以提高釋義識(shí)別的性能[7]。 對(duì)每個(gè)單詞使用規(guī)范的同義詞有助于檢測(cè)同義詞替換混淆并減少向量空間維度。 Tschuggnall 和Specht 僅分析文本文檔的語(yǔ)法,通過(guò)句子的語(yǔ)法上找到不合理的地方,區(qū)別了一般基于字符的檢測(cè)技術(shù)。 Salvador 等人通過(guò)使用skip-grams 改進(jìn)了加權(quán)過(guò)程,并應(yīng)用圖相似性度量產(chǎn)生文檔的語(yǔ)義相似性得分[8]。
基于非文本的剽竊檢測(cè)主要利用了文章中的非文本元素進(jìn)行比對(duì)識(shí)別。 Meuschke 等提出了基于數(shù)學(xué)表達(dá)式的檢測(cè)方法,并進(jìn)行實(shí)驗(yàn)證明數(shù)學(xué)公式是獨(dú)立于文本的有效特征[9]。 Daniel 等人對(duì)文獻(xiàn)中的圖形元素進(jìn)行了比對(duì)分析,并使用圖像相似性檢測(cè)算法發(fā)現(xiàn)了大量的圖像重用和剽竊行為。 另外,還有通過(guò)基于參考文獻(xiàn)引用的檢測(cè)手段。
針對(duì)現(xiàn)有技術(shù)方法的不足和缺陷,本研究拓展了基于非文本元素的學(xué)術(shù)不端檢測(cè)方法。 本研究提出了一種分析多角色行為的偽孿生網(wǎng)絡(luò)模型,用來(lái)檢測(cè)用戶(hù)在期刊投稿過(guò)程中的異常行為,以此檢測(cè)出存在的學(xué)術(shù)不端行為。 該模型主要有3 個(gè)任務(wù):數(shù)據(jù)集預(yù)處理、對(duì)數(shù)據(jù)進(jìn)行采樣和篩選等操作;角色行為分析,通過(guò)對(duì)文章作者和文章審稿人行為計(jì)算分析得出異常概率;結(jié)果輸出,對(duì)偽孿生網(wǎng)絡(luò)計(jì)算的結(jié)果綜合權(quán)衡得到結(jié)果。 模型的整體框架,如圖1 所示。
圖1 偽孿生網(wǎng)絡(luò)檢測(cè)模型框架
基于偽孿生網(wǎng)絡(luò)對(duì)于相似性檢測(cè)具有很好反饋的特性,使用兩對(duì)偽孿生網(wǎng)絡(luò),并對(duì)稱(chēng)組建了如上圖的角色分析模型。 模型輸入可以被分為兩塊:文章作者行為數(shù)據(jù)和審稿人行為數(shù)據(jù),分別輸入到上方偽孿生網(wǎng)絡(luò)和下方網(wǎng)絡(luò)進(jìn)行分析計(jì)算。 每一對(duì)偽孿生網(wǎng)絡(luò)不共享彼此的權(quán)重參數(shù)w,而是使用各自訓(xùn)練的參數(shù)w1,w2,w3,w4。 偽孿生網(wǎng)絡(luò)訓(xùn)練采用對(duì)比損失函數(shù),以此評(píng)估網(wǎng)絡(luò)區(qū)分一對(duì)給定數(shù)據(jù)的能力或效果,對(duì)比損失函數(shù)公式如下:
為了度量當(dāng)前角色的行為異常性,每對(duì)偽孿生網(wǎng)絡(luò)都被設(shè)計(jì)成左、右兩個(gè)分支網(wǎng)絡(luò),左分支網(wǎng)絡(luò)的輸入是需要判斷的當(dāng)前角色操作行為樣本,右分支網(wǎng)絡(luò)輸入則是符合該角色行為合理區(qū)間的任一常規(guī)行為樣本。Owi(inputi) 為分支網(wǎng)絡(luò)對(duì)當(dāng)前輸入樣本input i的計(jì)算結(jié)果,即異常概率。 特別的,因?yàn)橛曳种ЬW(wǎng)絡(luò)使用的是角色合理區(qū)間的行為樣本,所以輸出結(jié)果始終在正常概率區(qū)間內(nèi)。 偽孿生網(wǎng)絡(luò)的兩個(gè)輸出結(jié)果的差值決定了角色行為的偏差距離。 本研究使用了歐氏距離計(jì)算了結(jié)果的偏差程度。 最后,模型決策器會(huì)考慮兩位角色的行為偏差程度,輸出最終結(jié)果。
為了提高模型的效率,本文簡(jiǎn)化了單個(gè)分支網(wǎng)絡(luò)的組成元素。 分支網(wǎng)絡(luò)層次架構(gòu)如圖2 所示。 本文實(shí)驗(yàn)數(shù)據(jù)可總體分為文本數(shù)據(jù)和行為統(tǒng)計(jì)數(shù)據(jù),將統(tǒng)計(jì)的數(shù)值型數(shù)據(jù)直接送入已構(gòu)建的多層前饋神經(jīng)網(wǎng)絡(luò)中計(jì)算,而對(duì)于部分文本數(shù)據(jù)則需要通過(guò)語(yǔ)義分析將句子化為分詞,然后進(jìn)行詞向量表達(dá),構(gòu)成詞嵌入矩陣w,每個(gè)句子都可構(gòu)成單獨(dú)的詞嵌入矩陣wi。 在自然語(yǔ)言處理模型中,將詞嵌入向量求取平均值以獲取整個(gè)文本在向量空間中的表示。 這是通用的做法,本研究延續(xù)了這種經(jīng)典的做法。 最后使用余弦公式計(jì)算向量之間的夾角余弦值,這樣就得到了文本間相似度。
圖2 分支網(wǎng)絡(luò)層次模型
經(jīng)過(guò)實(shí)驗(yàn)和調(diào)整,本文中的多層神經(jīng)網(wǎng)絡(luò)最終由3層構(gòu)成。 第一層作為輸入層由8 個(gè)神經(jīng)單元構(gòu)成,接收來(lái)自角色的不同行為統(tǒng)計(jì)數(shù)據(jù)和經(jīng)過(guò)語(yǔ)義分析計(jì)算后文本相似度數(shù)值。 如上圖所示,經(jīng)過(guò)語(yǔ)義層得到的相似概率作為輸入層的輸入之一。 在隱藏層,本研究設(shè)置了5 個(gè)神經(jīng)單元計(jì)算特征向量,再多的神經(jīng)單元?jiǎng)t會(huì)產(chǎn)生過(guò)擬合的風(fēng)險(xiǎn),這一層使用了PRelu 激活函數(shù),xj表示第j 個(gè)feature map,αi為需要學(xué)習(xí)的參數(shù),公式參照如下:
最后,在輸出層設(shè)置一個(gè)神經(jīng)單元,并采用softmax激活函數(shù)計(jì)算分類(lèi)概率得出預(yù)測(cè)結(jié)果。 每一對(duì)偽孿生網(wǎng)絡(luò)都會(huì)得出兩個(gè)輸出結(jié)果,則一共計(jì)算得到2 對(duì)概率數(shù)值,可分別表示當(dāng)前行為所隱藏的異常性與普通操作所隱藏的異常性。 顯然,計(jì)算兩者的歐氏距離Dis(Lout,Rout) 可獲得異常偏差值,其中,Lout為左分支網(wǎng)絡(luò)輸出結(jié)果,Rout為右分支網(wǎng)絡(luò)輸出結(jié)果。 這代表了此時(shí)行為與正常行為的偏離程度,值越大代表隱含的異??赡茉酱?越小則越接近普通行為。
本文的實(shí)驗(yàn)數(shù)據(jù)從合作出版商拿到了相關(guān)用戶(hù)的行為數(shù)據(jù)集,包括作者的登錄、數(shù)據(jù)修改、文章投稿、文章接受時(shí)間、文章出版時(shí)間等,同行評(píng)議相關(guān)的審稿數(shù)據(jù)包括審稿次數(shù)、審稿時(shí)長(zhǎng)、文章建議等多種數(shù)據(jù),共計(jì)3 萬(wàn)多平臺(tái)用戶(hù)的相關(guān)信息被采用。 其中,對(duì)原始數(shù)據(jù)進(jìn)行了大量的前期處理,將部分臟數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)清除,同時(shí)計(jì)算了相關(guān)行為數(shù)據(jù)的影響因子,篩出與本次實(shí)驗(yàn)關(guān)聯(lián)度較低的變量,得到了更精煉的數(shù)據(jù)集。角色行為數(shù)據(jù)集如表1 所示。
表1 角色行為數(shù)據(jù)集
為了評(píng)估模型的性能和有效性,本文采用了混淆矩陣中的查準(zhǔn)率(precision)、準(zhǔn)確率(accuracy)和召回率(recall)3 個(gè)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn)。 查準(zhǔn)率指模型判定為正例的樣本中真正的正例樣本的比重,準(zhǔn)確率指模型判定正確樣本在所用樣本中的比重,召回率指模型判定正例占總的正例的比重。 公式如(3)(4)和(5)所示。
其中,FP表示將真實(shí)負(fù)例預(yù)測(cè)為正例的數(shù)量,TP表示將真實(shí)正例預(yù)測(cè)為正例的數(shù)量,TN表示將真實(shí)負(fù)例預(yù)測(cè)為負(fù)例的數(shù)量,FN表示將真實(shí)正例預(yù)測(cè)為負(fù)例的數(shù)量。
本文采用了多角色行為變量作為模型參數(shù),預(yù)測(cè)當(dāng)前用戶(hù)在期刊投稿平臺(tái)中是否存在不端行為。 根據(jù)角色的不同,本研究設(shè)計(jì)了3 次對(duì)比實(shí)驗(yàn),分別對(duì)僅有作者、僅有審稿人和多角色進(jìn)行實(shí)驗(yàn)驗(yàn)證。
經(jīng)過(guò)對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn),僅通過(guò)單一角色行為進(jìn)行檢測(cè)分析,模型性能并不能達(dá)到令人滿(mǎn)意的結(jié)果。當(dāng)把多角色的行為一起考慮并加入模型中訓(xùn)練,整體預(yù)測(cè)水平得到了一定的提高。 實(shí)驗(yàn)結(jié)果如表2 所示。
表2 對(duì)比實(shí)驗(yàn)結(jié)果
第一次實(shí)驗(yàn)僅考慮通過(guò)作者的行為進(jìn)行預(yù)測(cè),從表中看出模型有了相當(dāng)?shù)念A(yù)測(cè)水準(zhǔn),準(zhǔn)確率和查準(zhǔn)率分別為66.8%和71.2%,介于兩者之間,而召回率已達(dá)到較高水平。 第二次實(shí)驗(yàn)僅考慮審稿人行為作為模型輸入,訓(xùn)練后的模型性能最差,其3 個(gè)評(píng)價(jià)指標(biāo)都為最低,說(shuō)明審稿人行為對(duì)其預(yù)測(cè)任務(wù)的影響因素要遠(yuǎn)低于作者。 第三次實(shí)驗(yàn)綜合了兩者,模型性能有所提高,準(zhǔn)確率的提升最為明顯達(dá)到76.5%,召回率提升有限,僅提高了0.4%。 從3 次實(shí)驗(yàn)可以看出,僅靠單一角色不能有效提升模型預(yù)測(cè)性能,而加入多位角色的行為進(jìn)行分析評(píng)估可以有效檢測(cè)出潛在的學(xué)術(shù)不端行為。
如今,涵蓋多種學(xué)術(shù)不端的現(xiàn)象越發(fā)突出,面向?qū)W術(shù)不端場(chǎng)景的檢測(cè)模型需要更加敏感和全面,僅通過(guò)檢測(cè)抄襲或剽竊類(lèi)型的方法無(wú)法滿(mǎn)足當(dāng)前日益突出的學(xué)術(shù)問(wèn)題。 文本提出了一種基于多角色行為的偽孿生網(wǎng)絡(luò)檢測(cè)模型,分析多個(gè)角色在期刊平臺(tái)上的操作行為,并通過(guò)構(gòu)建偽孿生網(wǎng)絡(luò)計(jì)算角色行為偏差值,獲取行為異常性從而發(fā)現(xiàn)潛在的學(xué)術(shù)不端行為。 實(shí)驗(yàn)證明,該模型可以有效地檢測(cè)出其中具有的惡意投稿、重復(fù)投稿、審稿合謀等非文本層面的學(xué)術(shù)不端現(xiàn)象,提高了關(guān)于平臺(tái)學(xué)術(shù)不端的檢測(cè)效率。