亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度卷積神經(jīng)網(wǎng)絡(luò)的科研項(xiàng)目不端行為識(shí)別研究

2021-03-21 07:04:48楊生舉

中國(guó)建材科技 2021年4期

楊生舉

（甘肅省科學(xué)技術(shù)情報(bào)研究所，甘肅蘭州 730000）

0 引言

近年來(lái)，國(guó)家實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略，科技經(jīng)費(fèi)持續(xù)增加，科研項(xiàng)目數(shù)量大幅增長(zhǎng)。隨之而來(lái)的問(wèn)題是，科研項(xiàng)目不端行為（Scientific Research Project Misconduct，SRPM）層出不窮，如重復(fù)申報(bào)、多頭立項(xiàng)，申請(qǐng)書偽造、抄襲、剽竊等現(xiàn)象。

從2006年“漢芯事件”開始，越來(lái)越多的科研不端行為被披露、調(diào)查、處理。2015年科技部在申報(bào)的項(xiàng)目中發(fā)現(xiàn)，因重復(fù)申報(bào)，有13%的973計(jì)劃項(xiàng)目和20%的高新技術(shù)領(lǐng)域項(xiàng)目未能通過(guò)審查[1]。2016年12月12日，國(guó)家自然科學(xué)基金委員會(huì)通報(bào)了61份科研不端行為案件處理決定[2]。甘肅省通過(guò)項(xiàng)目相似度檢查系統(tǒng)查出2016-2017年5904項(xiàng)申報(bào)項(xiàng)目中相似性80%以上的占4.5%。

SRPM治理具有復(fù)雜性和艱巨性，不端行為很難被發(fā)現(xiàn)，原因可能是單一數(shù)據(jù)庫(kù)源查全率低，新的項(xiàng)目、成果、獎(jiǎng)勵(lì)、報(bào)告和論文數(shù)據(jù)庫(kù)同步滯后，申請(qǐng)者對(duì)申報(bào)書有意識(shí)“修飾”，以及網(wǎng)絡(luò)時(shí)代造假手段多樣化等。

深入研究SRPM識(shí)別技術(shù)對(duì)遏止學(xué)術(shù)腐敗、保護(hù)原創(chuàng)成果、凈化學(xué)術(shù)氛圍、推進(jìn)科研誠(chéng)信有重要的現(xiàn)實(shí)意義。SRPM治理是一個(gè)世界性難題，也是我國(guó)科技創(chuàng)新面臨的重大課題。

1 國(guó)內(nèi)外研究現(xiàn)狀

1.1 科研不端識(shí)別系統(tǒng)及技術(shù)分析

治理和防范科研不端行為需要先進(jìn)的技術(shù)手段作為支撐。國(guó)外高校對(duì)于反剽竊的研究高度重視，技術(shù)較成熟，科研不端識(shí)別系統(tǒng)已成為歐美高校的必用軟件。Turnitin是全球最權(quán)威的學(xué)術(shù)不端識(shí)別系統(tǒng)，幫助科研工作者偵測(cè)和比對(duì)科研成果中含有的不恰當(dāng)引用、潛在的剽竊行為。CrossCheck能最大程度檢查學(xué)術(shù)不端行為，全球會(huì)員單位包括自然出版集團(tuán)（NPG）、英國(guó)醫(yī)學(xué)期刊出版集（BMJ）和美國(guó)科學(xué)進(jìn)步協(xié)會(huì)（AAAS）等。

國(guó)內(nèi)科研不端識(shí)別系統(tǒng)代表性的是CNKI科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)（AMLC）、萬(wàn)方論文相似性檢測(cè)系統(tǒng)和維普通達(dá)論文引用檢測(cè)系統(tǒng)[3]。

1.2 神經(jīng)網(wǎng)絡(luò)在語(yǔ)義相似度計(jì)算中應(yīng)用分析

科研項(xiàng)目不端識(shí)別的核心技術(shù)是語(yǔ)義相似度計(jì)算。最早的神經(jīng)網(wǎng)絡(luò)詞義相似度計(jì)算模型是神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型，最有影響力的是Bengio等于2003年提出的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型（Neural Network Language Model，NNLM），研究者相繼提出CBOW及Skip-gram等簡(jiǎn)易模型，訓(xùn)練詞向量一般采用的算法是Hierarchical softmax[4]。

國(guó)內(nèi)外學(xué)者對(duì)將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)義相似度計(jì)算進(jìn)行了卓有成效的研究。蔡旭勛（2017）研究基于神經(jīng)網(wǎng)絡(luò)的詞義相似度計(jì)算及其在文本檢索技術(shù)中的應(yīng)用，其算法提升文本檢索的準(zhǔn)確率、召回率與綜合評(píng)價(jià)指標(biāo)[4]。K. Selvi（2014）為了應(yīng)用奇異值分解，在給定的文檔中建立了詞對(duì)的頻率，提出了一種求解相似度量的人工神經(jīng)網(wǎng)絡(luò)算法[5]。Rui Cao（2015）基于語(yǔ)義相似性算法和人工神經(jīng)網(wǎng)絡(luò)的知識(shí)密集型的研究，提出了一種廣義回歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)義相似度算法[6]。Hua He（2016）顯式地模擬成對(duì)詞的相互作用，并提出一種新的相似焦點(diǎn)機(jī)制來(lái)識(shí)別重要的對(duì)應(yīng)關(guān)系，以便更好地進(jìn)行相似性度量[7]。戶保田（2016）提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)句表示模型，通過(guò)多層交疊的卷積和最大池化操作對(duì)語(yǔ)句進(jìn)行建模[8]。幸凱（2017）提出了基于主題詞向量和長(zhǎng)距離關(guān)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)句子文本表示模型[9]。Zeng Shuifei（2017）提出了一種改進(jìn)的文本表示模型提取文本特征詞向量方法，能較好處理高質(zhì)量的文本特征向量提取和表達(dá)序列[10]。以上研究為本研究提供了借鑒和參考。

2 基于卷積深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)句匹配架構(gòu)

2.1 語(yǔ)句匹配架構(gòu)

如圖1所示，將語(yǔ)句SX和SY中的詞向量按照詞的順序排列。詞向量通過(guò)Word2vec訓(xùn)練得到，維度為50，在兩個(gè)語(yǔ)句上分別使用窗口大小為k1和k2的滑動(dòng)窗口。

圖1 基于卷積深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)句匹配架構(gòu)圖

g(·)—為“門函數(shù)”；

2.2 語(yǔ)句匹配架構(gòu)的訓(xùn)練

式中，θ—卷積架構(gòu)與多層感知機(jī)的模型參數(shù)；

α—正確的匹配對(duì) s (x，y+)得分比錯(cuò)誤的匹配對(duì)s (x，y-)得分至少大的差值。

對(duì)于給定的語(yǔ)句對(duì)(x，y)，其輸出的匹配分?jǐn)?shù)為s (x，y)。然后在其上使用邏輯回歸分類器（logistic regression），則其類別“1”的概率見公式（6）：

對(duì)于給定的語(yǔ)句對(duì)(x，y)的損失函數(shù)，見公式（7）：

式中，?取值為“0”或“1”，參數(shù)的更新采用基于隨機(jī)批處理的后向傳播算法。

3 結(jié)果與分析

3.1 試驗(yàn)數(shù)據(jù)

試驗(yàn)數(shù)據(jù)采用MSRP (Microsoft Research Paraphrase Corpus)。每個(gè)句子對(duì)的語(yǔ)義等效結(jié)果用0和1表示，1表示等效，0則反之。

3.2 評(píng)價(jià)指標(biāo)

試驗(yàn)結(jié)果采用了精度Prec、準(zhǔn)確度Acc、召回率Rec和F值作為衡量標(biāo)準(zhǔn)[11]。4個(gè)評(píng)價(jià)指標(biāo)定義如下：

Prec=(TP)/(TP+FP)

Acc=（TP+TN）/（TP+TN+FP+FN）

Rec=(TP)/(TP+FN)

F=(2×Prec×Rec)/(Prec+Rec)

其中，F(xiàn)P、TP分別是預(yù)測(cè)相似但實(shí)際不相似、預(yù)測(cè)和實(shí)際都相似的句子數(shù)量；TN、FN分別是預(yù)測(cè)和實(shí)際都不相似、實(shí)際相似但預(yù)測(cè)不相似的句子數(shù)量[12]。

3.3 試驗(yàn)結(jié)果

結(jié)果如表1所示。表中L&C和Lin是基于知識(shí)庫(kù)實(shí)現(xiàn)的方法，PMI-IR和LSA是基于語(yǔ)料庫(kù)實(shí)現(xiàn)的方法。

表1 文本相似性計(jì)算結(jié)果對(duì)比%

從表1可以看出，本文所用建模及計(jì)算方法有較高可行性。

4 結(jié)語(yǔ)

SRPM造成了學(xué)術(shù)資源和學(xué)術(shù)生命的極大浪費(fèi)，破壞了正常的學(xué)術(shù)秩序，扼殺了創(chuàng)新活力，違背科學(xué)精神，加劇了社會(huì)腐敗的蔓延，阻礙了科技進(jìn)步和社會(huì)發(fā)展。本文研究大數(shù)據(jù)環(huán)境下科研項(xiàng)目不端行為的特征提取方法，提出基于深度卷積神經(jīng)網(wǎng)絡(luò)（DCNN）的語(yǔ)句表示模型和匹配架構(gòu)，并對(duì)其進(jìn)行有效訓(xùn)練，以學(xué)習(xí)得到語(yǔ)句匹配在不同層次上的表示，提高模型的表示能力，從而提高文本相似度計(jì)算的準(zhǔn)確度和精度。