楊生舉
(甘肅省科學(xué)技術(shù)情報(bào)研究所,甘肅 蘭州 730000)
近年來(lái),國(guó)家實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,科技經(jīng)費(fèi)持續(xù)增加,科研項(xiàng)目數(shù)量大幅增長(zhǎng)。隨之而來(lái)的問(wèn)題是,科研項(xiàng)目不端行為(Scientific Research Project Misconduct,SRPM)層出不窮,如重復(fù)申報(bào)、多頭立項(xiàng),申請(qǐng)書偽造、抄襲、剽竊等現(xiàn)象。
從2006年“漢芯事件”開始,越來(lái)越多的科研不端行為被披露、調(diào)查、處理。2015年科技部在申報(bào)的項(xiàng)目中發(fā)現(xiàn),因重復(fù)申報(bào),有13%的973計(jì)劃項(xiàng)目和20%的高新技術(shù)領(lǐng)域項(xiàng)目未能通過(guò)審查[1]。2016年12月12日,國(guó)家自然科學(xué)基金委員會(huì)通報(bào)了61份科研不端行為案件處理決定[2]。甘肅省通過(guò)項(xiàng)目相似度檢查系統(tǒng)查出2016-2017年5904項(xiàng)申報(bào)項(xiàng)目中相似性80%以上的占4.5%。
SRPM治理具有復(fù)雜性和艱巨性,不端行為很難被發(fā)現(xiàn),原因可能是單一數(shù)據(jù)庫(kù)源查全率低,新的項(xiàng)目、成果、獎(jiǎng)勵(lì)、報(bào)告和論文數(shù)據(jù)庫(kù)同步滯后,申請(qǐng)者對(duì)申報(bào)書有意識(shí)“修飾”,以及網(wǎng)絡(luò)時(shí)代造假手段多樣化等。
深入研究SRPM識(shí)別技術(shù)對(duì)遏止學(xué)術(shù)腐敗、保護(hù)原創(chuàng)成果、凈化學(xué)術(shù)氛圍、推進(jìn)科研誠(chéng)信有重要的現(xiàn)實(shí)意義。SRPM治理是一個(gè)世界性難題,也是我國(guó)科技創(chuàng)新面臨的重大課題。
治理和防范科研不端行為需要先進(jìn)的技術(shù)手段作為支撐。國(guó)外高校對(duì)于反剽竊的研究高度重視,技術(shù)較成熟,科研不端識(shí)別系統(tǒng)已成為歐美高校的必用軟件。Turnitin是全球最權(quán)威的學(xué)術(shù)不端識(shí)別系統(tǒng),幫助科研工作者偵測(cè)和比對(duì)科研成果中含有的不恰當(dāng)引用、潛在的剽竊行為。CrossCheck能最大程度檢查學(xué)術(shù)不端行為,全球會(huì)員單位包括自然出版集團(tuán)(NPG)、英國(guó)醫(yī)學(xué)期刊出版集(BMJ)和美國(guó)科學(xué)進(jìn)步協(xié)會(huì)(AAAS)等。
國(guó)內(nèi)科研不端識(shí)別系統(tǒng)代表性的是CNKI科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(AMLC)、萬(wàn)方論文相似性檢測(cè)系統(tǒng)和維普通達(dá)論文引用檢測(cè)系統(tǒng)[3]。
科研項(xiàng)目不端識(shí)別的核心技術(shù)是語(yǔ)義相似度計(jì)算。最早的神經(jīng)網(wǎng)絡(luò)詞義相似度計(jì)算模型是神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型,最有影響力的是Bengio等于2003年提出的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM),研究者相繼提出CBOW及Skip-gram等簡(jiǎn)易模型,訓(xùn)練詞向量一般采用的算法是Hierarchical softmax[4]。
國(guó)內(nèi)外學(xué)者對(duì)將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)義相似度計(jì)算進(jìn)行了卓有成效的研究。蔡旭勛(2017)研究基于神經(jīng)網(wǎng)絡(luò)的詞義相似度計(jì)算及其在文本檢索技術(shù)中的應(yīng)用,其算法提升文本檢索的準(zhǔn)確率、召回率與綜合評(píng)價(jià)指標(biāo)[4]。K. Selvi(2014)為了應(yīng)用奇異值分解,在給定的文檔中建立了詞對(duì)的頻率,提出了一種求解相似度量的人工神經(jīng)網(wǎng)絡(luò)算法[5]。Rui Cao(2015)基于語(yǔ)義相似性算法和人工神經(jīng)網(wǎng)絡(luò)的知識(shí)密集型的研究,提出了一種廣義回歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)義相似度算法[6]。Hua He(2016)顯式地模擬成對(duì)詞的相互作用,并提出一種新的相似焦點(diǎn)機(jī)制來(lái)識(shí)別重要的對(duì)應(yīng)關(guān)系,以便更好地進(jìn)行相似性度量[7]。戶保田(2016)提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)句表示模型,通過(guò)多層交疊的卷積和最大池化操作對(duì)語(yǔ)句進(jìn)行建模[8]。幸凱(2017)提出了基于主題詞向量和長(zhǎng)距離關(guān)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)句子文本表示模型[9]。Zeng Shuifei(2017)提出了一種改進(jìn)的文本表示模型提取文本特征詞向量方法,能較好處理高質(zhì)量的文本特征向量提取和表達(dá)序列[10]。以上研究為本研究提供了借鑒和參考。
如圖1所示,將語(yǔ)句SX和SY中的詞向量按照詞的順序排列。詞向量通過(guò)Word2vec訓(xùn)練得到,維度為50,在兩個(gè)語(yǔ)句上分別使用窗口大小為k1和k2的滑動(dòng)窗口。
圖1 基于卷積深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)句匹配架構(gòu)圖
g(·)—為“門函數(shù)”;
式中,θ—卷積架構(gòu)與多層感知機(jī)的模型參數(shù);
α—正確的匹配對(duì) s (x,y+)得分比錯(cuò)誤的匹配對(duì)s (x,y-)得分至少大的差值。
對(duì)于給定的語(yǔ)句對(duì)(x,y),其輸出的匹配分?jǐn)?shù)為s (x,y)。然后在其上使用邏輯回歸分類器(logistic regression),則其類別“1”的概率見公式(6):
對(duì)于給定的語(yǔ)句對(duì)(x,y)的損失函數(shù),見公式(7):
式中,?取值為“0”或“1”,參數(shù)的更新采用基于隨機(jī)批處理的后向傳播算法。
試驗(yàn)數(shù)據(jù)采用MSRP (Microsoft Research Paraphrase Corpus)。每個(gè)句子對(duì)的語(yǔ)義等效結(jié)果用0和1表示,1表示等效,0則反之。
試驗(yàn)結(jié)果采用了精度Prec、準(zhǔn)確度Acc、召回率Rec和F值作為衡量標(biāo)準(zhǔn)[11]。4個(gè)評(píng)價(jià)指標(biāo)定義如下:
Prec=(TP)/(TP+FP)
Acc=(TP+TN)/(TP+TN+FP+FN)
Rec=(TP)/(TP+FN)
F=(2×Prec×Rec)/(Prec+Rec)
其中,F(xiàn)P、TP分別是預(yù)測(cè)相似但實(shí)際不相似、預(yù)測(cè)和實(shí)際都相似的句子數(shù)量;TN、FN分別是預(yù)測(cè)和實(shí)際都不相似、實(shí)際相似但預(yù)測(cè)不相似的句子數(shù)量[12]。
結(jié)果如表1所示。表中L&C和Lin是基于知識(shí)庫(kù)實(shí)現(xiàn)的方法,PMI-IR和LSA是基于語(yǔ)料庫(kù)實(shí)現(xiàn)的方法。
表1 文本相似性計(jì)算結(jié)果對(duì)比%
從表1可以看出,本文所用建模及計(jì)算方法有較高可行性。
SRPM造成了學(xué)術(shù)資源和學(xué)術(shù)生命的極大浪費(fèi),破壞了正常的學(xué)術(shù)秩序,扼殺了創(chuàng)新活力,違背科學(xué)精神,加劇了社會(huì)腐敗的蔓延,阻礙了科技進(jìn)步和社會(huì)發(fā)展。本文研究大數(shù)據(jù)環(huán)境下科研項(xiàng)目不端行為的特征提取方法,提出基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的語(yǔ)句表示模型和匹配架構(gòu),并對(duì)其進(jìn)行有效訓(xùn)練,以學(xué)習(xí)得到語(yǔ)句匹配在不同層次上的表示,提高模型的表示能力,從而提高文本相似度計(jì)算的準(zhǔn)確度和精度。