亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的科研項(xiàng)目不端行為識(shí)別研究

        2021-03-21 07:04:48楊生舉
        中國(guó)建材科技 2021年4期
        關(guān)鍵詞:語(yǔ)義文本模型

        楊生舉

        (甘肅省科學(xué)技術(shù)情報(bào)研究所,甘肅 蘭州 730000)

        0 引言

        近年來(lái),國(guó)家實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,科技經(jīng)費(fèi)持續(xù)增加,科研項(xiàng)目數(shù)量大幅增長(zhǎng)。隨之而來(lái)的問(wèn)題是,科研項(xiàng)目不端行為(Scientific Research Project Misconduct,SRPM)層出不窮,如重復(fù)申報(bào)、多頭立項(xiàng),申請(qǐng)書偽造、抄襲、剽竊等現(xiàn)象。

        從2006年“漢芯事件”開始,越來(lái)越多的科研不端行為被披露、調(diào)查、處理。2015年科技部在申報(bào)的項(xiàng)目中發(fā)現(xiàn),因重復(fù)申報(bào),有13%的973計(jì)劃項(xiàng)目和20%的高新技術(shù)領(lǐng)域項(xiàng)目未能通過(guò)審查[1]。2016年12月12日,國(guó)家自然科學(xué)基金委員會(huì)通報(bào)了61份科研不端行為案件處理決定[2]。甘肅省通過(guò)項(xiàng)目相似度檢查系統(tǒng)查出2016-2017年5904項(xiàng)申報(bào)項(xiàng)目中相似性80%以上的占4.5%。

        SRPM治理具有復(fù)雜性和艱巨性,不端行為很難被發(fā)現(xiàn),原因可能是單一數(shù)據(jù)庫(kù)源查全率低,新的項(xiàng)目、成果、獎(jiǎng)勵(lì)、報(bào)告和論文數(shù)據(jù)庫(kù)同步滯后,申請(qǐng)者對(duì)申報(bào)書有意識(shí)“修飾”,以及網(wǎng)絡(luò)時(shí)代造假手段多樣化等。

        深入研究SRPM識(shí)別技術(shù)對(duì)遏止學(xué)術(shù)腐敗、保護(hù)原創(chuàng)成果、凈化學(xué)術(shù)氛圍、推進(jìn)科研誠(chéng)信有重要的現(xiàn)實(shí)意義。SRPM治理是一個(gè)世界性難題,也是我國(guó)科技創(chuàng)新面臨的重大課題。

        1 國(guó)內(nèi)外研究現(xiàn)狀

        1.1 科研不端識(shí)別系統(tǒng)及技術(shù)分析

        治理和防范科研不端行為需要先進(jìn)的技術(shù)手段作為支撐。國(guó)外高校對(duì)于反剽竊的研究高度重視,技術(shù)較成熟,科研不端識(shí)別系統(tǒng)已成為歐美高校的必用軟件。Turnitin是全球最權(quán)威的學(xué)術(shù)不端識(shí)別系統(tǒng),幫助科研工作者偵測(cè)和比對(duì)科研成果中含有的不恰當(dāng)引用、潛在的剽竊行為。CrossCheck能最大程度檢查學(xué)術(shù)不端行為,全球會(huì)員單位包括自然出版集團(tuán)(NPG)、英國(guó)醫(yī)學(xué)期刊出版集(BMJ)和美國(guó)科學(xué)進(jìn)步協(xié)會(huì)(AAAS)等。

        國(guó)內(nèi)科研不端識(shí)別系統(tǒng)代表性的是CNKI科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(AMLC)、萬(wàn)方論文相似性檢測(cè)系統(tǒng)和維普通達(dá)論文引用檢測(cè)系統(tǒng)[3]。

        1.2 神經(jīng)網(wǎng)絡(luò)在語(yǔ)義相似度計(jì)算中應(yīng)用分析

        科研項(xiàng)目不端識(shí)別的核心技術(shù)是語(yǔ)義相似度計(jì)算。最早的神經(jīng)網(wǎng)絡(luò)詞義相似度計(jì)算模型是神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型,最有影響力的是Bengio等于2003年提出的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM),研究者相繼提出CBOW及Skip-gram等簡(jiǎn)易模型,訓(xùn)練詞向量一般采用的算法是Hierarchical softmax[4]。

        國(guó)內(nèi)外學(xué)者對(duì)將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)義相似度計(jì)算進(jìn)行了卓有成效的研究。蔡旭勛(2017)研究基于神經(jīng)網(wǎng)絡(luò)的詞義相似度計(jì)算及其在文本檢索技術(shù)中的應(yīng)用,其算法提升文本檢索的準(zhǔn)確率、召回率與綜合評(píng)價(jià)指標(biāo)[4]。K. Selvi(2014)為了應(yīng)用奇異值分解,在給定的文檔中建立了詞對(duì)的頻率,提出了一種求解相似度量的人工神經(jīng)網(wǎng)絡(luò)算法[5]。Rui Cao(2015)基于語(yǔ)義相似性算法和人工神經(jīng)網(wǎng)絡(luò)的知識(shí)密集型的研究,提出了一種廣義回歸神經(jīng)網(wǎng)絡(luò)的語(yǔ)義相似度算法[6]。Hua He(2016)顯式地模擬成對(duì)詞的相互作用,并提出一種新的相似焦點(diǎn)機(jī)制來(lái)識(shí)別重要的對(duì)應(yīng)關(guān)系,以便更好地進(jìn)行相似性度量[7]。戶保田(2016)提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)句表示模型,通過(guò)多層交疊的卷積和最大池化操作對(duì)語(yǔ)句進(jìn)行建模[8]。幸凱(2017)提出了基于主題詞向量和長(zhǎng)距離關(guān)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)句子文本表示模型[9]。Zeng Shuifei(2017)提出了一種改進(jìn)的文本表示模型提取文本特征詞向量方法,能較好處理高質(zhì)量的文本特征向量提取和表達(dá)序列[10]。以上研究為本研究提供了借鑒和參考。

        2 基于卷積深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)句匹配架構(gòu)

        2.1 語(yǔ)句匹配架構(gòu)

        如圖1所示,將語(yǔ)句SX和SY中的詞向量按照詞的順序排列。詞向量通過(guò)Word2vec訓(xùn)練得到,維度為50,在兩個(gè)語(yǔ)句上分別使用窗口大小為k1和k2的滑動(dòng)窗口。

        圖1 基于卷積深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)句匹配架構(gòu)圖

        g(·)—為“門函數(shù)”;

        2.2 語(yǔ)句匹配架構(gòu)的訓(xùn)練

        式中,θ—卷積架構(gòu)與多層感知機(jī)的模型參數(shù);

        α—正確的匹配對(duì) s (x,y+)得分比錯(cuò)誤的匹配對(duì)s (x,y-)得分至少大的差值。

        對(duì)于給定的語(yǔ)句對(duì)(x,y),其輸出的匹配分?jǐn)?shù)為s (x,y)。然后在其上使用邏輯回歸分類器(logistic regression),則其類別“1”的概率見公式(6):

        對(duì)于給定的語(yǔ)句對(duì)(x,y)的損失函數(shù),見公式(7):

        式中,?取值為“0”或“1”,參數(shù)的更新采用基于隨機(jī)批處理的后向傳播算法。

        3 結(jié)果與分析

        3.1 試驗(yàn)數(shù)據(jù)

        試驗(yàn)數(shù)據(jù)采用MSRP (Microsoft Research Paraphrase Corpus)。每個(gè)句子對(duì)的語(yǔ)義等效結(jié)果用0和1表示,1表示等效,0則反之。

        3.2 評(píng)價(jià)指標(biāo)

        試驗(yàn)結(jié)果采用了精度Prec、準(zhǔn)確度Acc、召回率Rec和F值作為衡量標(biāo)準(zhǔn)[11]。4個(gè)評(píng)價(jià)指標(biāo)定義如下:

        Prec=(TP)/(TP+FP)

        Acc=(TP+TN)/(TP+TN+FP+FN)

        Rec=(TP)/(TP+FN)

        F=(2×Prec×Rec)/(Prec+Rec)

        其中,F(xiàn)P、TP分別是預(yù)測(cè)相似但實(shí)際不相似、預(yù)測(cè)和實(shí)際都相似的句子數(shù)量;TN、FN分別是預(yù)測(cè)和實(shí)際都不相似、實(shí)際相似但預(yù)測(cè)不相似的句子數(shù)量[12]。

        3.3 試驗(yàn)結(jié)果

        結(jié)果如表1所示。表中L&C和Lin是基于知識(shí)庫(kù)實(shí)現(xiàn)的方法,PMI-IR和LSA是基于語(yǔ)料庫(kù)實(shí)現(xiàn)的方法。

        表1 文本相似性計(jì)算結(jié)果對(duì)比%

        從表1可以看出,本文所用建模及計(jì)算方法有較高可行性。

        4 結(jié)語(yǔ)

        SRPM造成了學(xué)術(shù)資源和學(xué)術(shù)生命的極大浪費(fèi),破壞了正常的學(xué)術(shù)秩序,扼殺了創(chuàng)新活力,違背科學(xué)精神,加劇了社會(huì)腐敗的蔓延,阻礙了科技進(jìn)步和社會(huì)發(fā)展。本文研究大數(shù)據(jù)環(huán)境下科研項(xiàng)目不端行為的特征提取方法,提出基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的語(yǔ)句表示模型和匹配架構(gòu),并對(duì)其進(jìn)行有效訓(xùn)練,以學(xué)習(xí)得到語(yǔ)句匹配在不同層次上的表示,提高模型的表示能力,從而提高文本相似度計(jì)算的準(zhǔn)確度和精度。

        猜你喜歡
        語(yǔ)義文本模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        中文字幕美人妻亅u乚一596| 成年无码aⅴ片在线观看| 亚洲精华国产精华液的福利| 1000部精品久久久久久久久| 自拍 另类 综合 欧美小说| 国产免费午夜a无码v视频| 国产在线91观看免费观看| 国产一精品一aⅴ一免费| 一区二区三区四区日韩亚洲| 尤物蜜桃视频一区二区三区| 国产亚洲一区二区三区| 浪货趴办公桌~h揉秘书电影| 国产av永久无码天堂影院| 亚洲精品国产第一区二区尤物| 在线观看视频一区| AV中文码一区二区三区| 亚洲中字永久一区二区三区| 漂亮丰满人妻被中出中文字幕| 亚洲av无码电影在线播放| 久久国产劲暴∨内射| 成全视频高清免费| 国产精品1区2区| 日本成人三级视频网站| 亚洲av乱码一区二区三区人人| 免费a级毛片在线播放| 日本亚洲欧美色视频在线播放| 国产精品毛片无码| 久久99久久久无码国产精品色戒| 日本高清在线一区二区| 亚洲精品中文字幕视频色| 在线播放真实国产乱子伦| 亚洲精品毛片一区二区三区| 99久久国语露脸国产精品| 日韩av一区二区在线观看| 国产欧美在线观看不卡| 国产精品麻豆成人av电影艾秋| AV永久天堂网| 国产成人色污在线观看| 国产av一区二区三区性入口 | av天堂一区二区三区| 一区二区在线观看视频高清|