亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        實驗報告抄襲檢測系統(tǒng)的研究

        2021-06-21 01:39:36于海浩黃成哲
        關(guān)鍵詞:特征文本檢測

        于海浩,汪 偉,黃成哲,孫 栩

        (黑龍江工程學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150050)

        抄襲檢測是反抄襲的有效手段,是幫助教師評價學(xué)生學(xué)習(xí)成果的有力工具,對學(xué)校教育教學(xué)質(zhì)量的提高有重大的促進(jìn)作用[1]。許多學(xué)校和機(jī)構(gòu)都制定了各種學(xué)術(shù)規(guī)范和標(biāo)準(zhǔn)來檢測抄襲[2-4]。國內(nèi)應(yīng)用最廣泛的是CNKI,國外抄襲檢測系統(tǒng)主要有Turnitin、PlagScan、Dupli Checker、Plagiarism Checker、Copyleaks等系統(tǒng)。

        針對抄襲檢測技術(shù)的應(yīng)用,學(xué)生不斷實施反抄襲技術(shù)。他們利用改變語序、相似詞替換、主被動語句修改、概念泛化等多種手段來逃避抄襲系統(tǒng)的檢測。這種行為對抄襲檢測軟件構(gòu)成嚴(yán)峻挑戰(zhàn),需要抄襲檢測軟件不斷地改進(jìn)抄襲檢測的算法和模型。抄襲語料是抄襲檢測技術(shù)的研究基礎(chǔ),反映真實抄襲文本的語料庫對抄襲現(xiàn)象和規(guī)律的分析、抄襲檢測算法的設(shè)計起著至關(guān)重要的作用[5]。但抄襲者一般不會同意將他所采用的多種反抄襲手段和反抄襲改寫的內(nèi)容應(yīng)用于研究中,使得真實抄襲檢測語料庫的獲取比較困難。

        針對學(xué)生多變的抄襲手段和抄襲語料匱乏的問題,開發(fā)了實驗報告抄襲檢測系統(tǒng),在實現(xiàn)實驗、實習(xí)報告、課程論文、作業(yè)等抄襲檢測的基礎(chǔ)上,創(chuàng)新性地增加了以下三項功能:

        1)針對不同抄襲類型的自適應(yīng)抄襲檢測。系統(tǒng)使用自適應(yīng)抄襲類型檢測算法[6],動態(tài)判別不同抄襲類型,涵蓋了對照搬照抄、簡單修改的低模糊抄襲、釋義修改的高模糊抄襲的檢測。

        2)抄襲語料自動獲取。系統(tǒng)使用基于自然標(biāo)注的抄襲語料獲取算法[7-9],從學(xué)生多次提交的同一主題的文檔中自動獲取高質(zhì)量的釋義抄襲語料。

        3)抄襲算法自動更新。系統(tǒng)通過自動獲得的抄襲語料不斷訓(xùn)練抄襲檢測模型,實現(xiàn)抄襲檢測算法的自動更新。

        在實現(xiàn)創(chuàng)新性功能的基礎(chǔ)上,使用實驗報告抄襲檢測系統(tǒng),對提高高校教學(xué)質(zhì)量、減輕教師工作負(fù)擔(dān)具有重要價值。主要作用有如下幾個方面:

        1)方便了解學(xué)生專業(yè)知識的掌握情況。教師利用系統(tǒng)的智能化分析,能夠很好地了解學(xué)生對專業(yè)知識的掌握情況,并能夠做出合理的作業(yè)評價,有利于學(xué)生水平的整體提高。

        2)減輕教師的工作負(fù)擔(dān)和壓力。系統(tǒng)的重復(fù)性檢測可以讓教師免去審查學(xué)生是否具有抄襲行為的工作,極大地減輕了教師的工作負(fù)擔(dān)和壓力,同時通過報告質(zhì)量檢測中的自動打分,可以輔助教師完成作業(yè)、報告的批改工作,減少教師的工作量。

        3)有利于改變學(xué)校學(xué)風(fēng)。反抄襲技術(shù)在教學(xué)活動中的使用,能夠促進(jìn)學(xué)生的自主學(xué)習(xí)和創(chuàng)新意識,保證學(xué)校畢業(yè)生的質(zhì)量,營造學(xué)生良好的學(xué)習(xí)氛圍。

        1 系統(tǒng)框架和核心算法

        實驗報告抄襲檢測系統(tǒng)以在抄襲檢測國際評測PAN@CLEF上多次獲得第一名的抄襲檢測算法為技術(shù)基礎(chǔ),圍繞高校與課程相關(guān)的各種文檔的原創(chuàng)性檢查這一主要功能,實現(xiàn)實驗、實習(xí)報告、作業(yè)等全過程質(zhì)量管理,輔助教師評估學(xué)生報告質(zhì)量,實時發(fā)現(xiàn)報告中的學(xué)術(shù)不端問題,有效預(yù)防抄襲行為,引導(dǎo)學(xué)生遵守學(xué)術(shù)規(guī)范,樹立學(xué)術(shù)誠信。

        在本系統(tǒng)中,教師的主要任務(wù)是建立課程和該課程下的所有實驗,導(dǎo)入學(xué)生數(shù)據(jù),設(shè)定相關(guān)參數(shù)。教師人工檢查學(xué)生報告是否抄襲交由系統(tǒng)自動完成,極大地減輕了教師的工作負(fù)擔(dān),降低了抄襲率。具體對比情況見表1。學(xué)生主要任務(wù)是將自己的報告形成電子文檔后上傳到系統(tǒng)中,對于報告沒有通過的學(xué)生,需要修改后重新上傳報告。系統(tǒng)通過從學(xué)生多次提交的同一主題文檔中自動獲取高質(zhì)量的釋義抄襲語料,并且利用這些語料不斷訓(xùn)練更準(zhǔn)確的抄襲檢測算法和模型[6]。具體對比情況見表2。

        表1 抄襲比重與效率對比調(diào)查

        表2 抄襲檢測時間與準(zhǔn)確率對比

        1.1 系統(tǒng)總體框架

        系統(tǒng)總體框架如圖1所示。其中,文本的深度匹配模塊實現(xiàn)針對不同抄襲類型的自適應(yīng)抄襲檢測,抄襲語料構(gòu)建器實現(xiàn)抄襲語料自動獲取,并且向文本的深度匹配模塊提供模型訓(xùn)練和更新的數(shù)據(jù)。

        圖1 系統(tǒng)總體框架

        1.2 抄襲語料自動獲取

        圖2 抄襲語料構(gòu)建過程

        1.3 自適應(yīng)抄襲檢測

        1.3.1 多類型文本特征提取

        現(xiàn)有的研究大多以文本在某類特征上(如詞匯、語義等)的相似度作為是否存在抄襲的依據(jù)。這樣的方法在低模糊的抄襲和非模糊的抄襲上取得了較好的效果,但在高模糊抄襲的識別上卻丟失了大量的抄襲種子,最終無法獲得令人滿意的效果。筆者采用的多類型文本特征主要有詞匯特征、語義特征和句法特征。詞匯特征采用的是基于單詞的n-gram和基于字符的n-gram。這些特征包括N-gram距離、Dice系數(shù)、Jaccard系數(shù)等;語義特征采用WordNet3.0作為語義庫,利用語義距離,根據(jù)文獻(xiàn)[10]計算兩個概念的語義相似度,從而獲得待比較文本片段在語義上的相似度;句法特征方面采用文獻(xiàn)[11]POS n-gram距離;結(jié)構(gòu)特征采用文獻(xiàn)[12]的Word Pair Order,該特征用于計算兩個文本片段中以相同順序出現(xiàn)的兩個單詞。

        1.3.2 基于邏輯回歸模型的抄襲檢測自適應(yīng)算法

        使用邏輯回歸模型結(jié)合詞匯、句法、語義和結(jié)構(gòu)特征來自適應(yīng)各類型的抄襲,并通過利用各種特征來捕獲更多抄襲種子。

        (1)

        系統(tǒng)通過訓(xùn)練這個基于二項邏輯回歸的分類器C,學(xué)習(xí)各類抄襲特征的預(yù)測結(jié)果在最終分類決策中的權(quán)重,據(jù)此判斷文本片段si∈dplg與rj∈dsrc存在抄襲的概率。如果si與rj存在抄襲的概率大于si與rj不存在抄襲的概率,則分類器輸出為1,否則輸出為-1。利用分類器C(si,rj),對給定的dplg=(s1,s2,…,sn)和dsrc=(r1,r2,…,rn),獲得dplg和dsrc中所有疑似抄襲片段對(si,rj)的列表,這些抄襲片段對將作為抄襲種子。

        2 應(yīng)用效果及分析

        系統(tǒng)目前支持用戶并發(fā)數(shù)1 000以上,單篇論文詳細(xì)分析時間5.9 s以內(nèi),日檢測量可達(dá)10 000篇,可疑片段召回率70%,抄襲檢測精確率96%,系統(tǒng)界面展示如圖3所示。

        圖3 系統(tǒng)界面展示

        文中選取三門課程,對每門課程同一實驗內(nèi)容的所有學(xué)生的實驗報告分別通過人工方式和系統(tǒng)自動檢測方式進(jìn)行數(shù)據(jù)對比,如表1所示。其中,合格抄襲率是教師設(shè)定的學(xué)生報告確認(rèn)為合格的抄襲率最高值,抄襲率=抄襲字?jǐn)?shù)/全文字?jǐn)?shù),抄襲占比=抄襲學(xué)生數(shù)/全部學(xué)生數(shù)。從表1—2可以看出,使用系統(tǒng)的教師平均檢查時間降低至原來的1/6,學(xué)生的抄襲占比下降近38%。

        將上述三門課程實驗內(nèi)容每名學(xué)生的實驗報告分別在兩個抄襲檢測算法中運(yùn)行,一個抄襲檢測算法是使用自動獲取抄襲語料來不斷訓(xùn)練、更新抄襲檢測模型的機(jī)器學(xué)習(xí)算法,另一個使用傳統(tǒng)的啟發(fā)式算法。從表1—2對比可知,每篇抄襲檢測平均時間提高近5 s,準(zhǔn)確率提高近3%。

        3 結(jié)束語

        文中設(shè)計實現(xiàn)了一個基于統(tǒng)計機(jī)器學(xué)習(xí)的實驗報告抄襲檢測系統(tǒng)。該系統(tǒng)采用基于自然標(biāo)注的抄襲語料自動獲取方法,從學(xué)生多次提交的同一主題的文檔中自動獲取高質(zhì)量的釋義抄襲語料,利用這些語料不斷訓(xùn)練更準(zhǔn)確的抄襲檢測算法,模型的應(yīng)用提升了抄襲檢測的性能。實際應(yīng)用表明,該系統(tǒng)能夠滿足高校教學(xué)科研活動的需要,對實踐教學(xué)質(zhì)量的提升有良好的促進(jìn)作用。

        猜你喜歡
        特征文本檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        小波變換在PCB缺陷檢測中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        日日拍夜夜嗷嗷叫国产| 亚洲国产精品日韩专区av| 国内精品女同一区二区三区| 午夜视频国产在线观看| 亚洲国产成人片在线观看无码| 怡春院欧美一区二区三区免费| 中文无码制服丝袜人妻AV| 亚洲一区二区三区日韩在线观看| 无码aⅴ精品一区二区三区浪潮| 无尽动漫性视频╳╳╳3d| www.av在线.com| 少妇人妻精品久久888| 精品乱码一区内射人妻无码| 亚洲精品无码av片| 强d乱码中文字幕熟女1000部| 一本色道久久综合亚洲| 亚洲日韩av无码| 亚州精品无码人妻久久| 国产精品一区一区三区| 欧美怡春院一区二区三区| 1区2区3区高清视频| 精品的一区二区三区| 亚洲国产区中文在线观看| 亚洲av无码一区二区三区天堂古代 | 国产亚洲精品成人无码精品网站| 综合图区亚洲偷自拍熟女| 色综合天天综合网国产成人网 | 日韩av一区在线播放| 国产av精品一区二区三区久久| 亚洲人成影院在线观看| 亚洲不卡无码高清视频| a级三级三级三级在线视频| 久久久亚洲欧洲日产国码aⅴ| 美女大量吞精在线观看456| 国产人成视频免费在线观看| 91日韩东京热中文字幕 | 天天综合天天爱天天做| 热re99久久精品国产99热| 国产av天堂亚洲国产av麻豆| 国内自拍偷国视频系列| 日本高清h色视频在线观看|