董 冰
(河南省科學(xué)院地理研究所,河南 鄭州 450052)
計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)設(shè)計(jì)及應(yīng)用
董 冰
(河南省科學(xué)院地理研究所,河南 鄭州 450052)
計(jì)算機(jī)信息技術(shù)的飛速發(fā)展及網(wǎng)絡(luò)共享資源的拓展在為人們帶來便利的同時(shí),也產(chǎn)生了一些不利的影響。比如利用網(wǎng)絡(luò)的便捷性進(jìn)行學(xué)術(shù)抄襲,嚴(yán)重影響了當(dāng)下的學(xué)術(shù)氛圍以及研究者健康成長(zhǎng),所以探討計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)及應(yīng)用具有現(xiàn)實(shí)意義。本文立足現(xiàn)實(shí),具體分析計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)的相關(guān)技術(shù)理論,并探討計(jì)算機(jī)程序被應(yīng)用于抄襲檢測(cè)系統(tǒng)的功能需求性,最后對(duì)計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)設(shè)計(jì)方案進(jìn)行簡(jiǎn)單分析。
計(jì)算機(jī)程序;抄襲檢測(cè)系統(tǒng);設(shè)計(jì);應(yīng)用
計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)是為了防止學(xué)術(shù)抄襲和學(xué)術(shù)造假情況發(fā)生而逐漸被開發(fā)設(shè)計(jì)出的平臺(tái)軟件。雖然已經(jīng)有諸多計(jì)算機(jī)程序檢測(cè)系統(tǒng)被研發(fā)出來,但隨之而來的各種反抄襲軟件也層出不窮。由此,我們要在追求檢測(cè)文檔抄襲語(yǔ)句準(zhǔn)確率的基礎(chǔ)上,從適用性及高性能上追求更高級(jí)別檢測(cè)系統(tǒng)的實(shí)用性[1]。僅僅圍繞對(duì)反抄襲軟件的對(duì)抗作為設(shè)計(jì)標(biāo)準(zhǔn),會(huì)模糊計(jì)算機(jī)程序的發(fā)展內(nèi)涵?,F(xiàn)階段,我國(guó)大多數(shù)計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)都是針對(duì)中文文檔而設(shè)計(jì)的,而國(guó)外先進(jìn)的在英文環(huán)境下開發(fā)的計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)無法被借鑒應(yīng)用。針對(duì)這一現(xiàn)狀,我國(guó)學(xué)術(shù)界正在逐步與世界接軌,爭(zhēng)取優(yōu)化自己的程序系統(tǒng),以使其服務(wù)于學(xué)術(shù)研究,凈化學(xué)術(shù)環(huán)境。
1.1 模擬匹配技術(shù)
模擬匹配技術(shù)的使用范圍最為廣泛,是從基礎(chǔ)檢測(cè)技術(shù)、文檔搜尋檢索及語(yǔ)句之間的匹配等方面進(jìn)行深入研究,同時(shí)也是支撐我國(guó)現(xiàn)階段計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)正常運(yùn)轉(zhuǎn)的精確算法之一。模擬匹配技術(shù)主要包括單模式匹配算法和多模式匹配算法。其中,單模式匹配算法指的是從語(yǔ)句的長(zhǎng)度對(duì)所需檢測(cè)的文檔進(jìn)行抄襲檢索,如果找到相同語(yǔ)句內(nèi)的相似字符數(shù)超過N個(gè)就會(huì)被認(rèn)定為抄襲語(yǔ)句,如果沒有對(duì)應(yīng)的相似文檔,就會(huì)返回到初始位置;多模式匹配算法指的是將所要檢索的文檔按照相應(yīng)的字符數(shù),在集合以內(nèi)對(duì)語(yǔ)句進(jìn)行識(shí)別,反之就會(huì)回到零。兩種模式的匹配算法相互配合可以大大提升抄襲檢測(cè)效率和使用性能[2]。
1.2 相似度算法技術(shù)
隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步,計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)日臻完善。針對(duì)抄襲者調(diào)換字符串或者使用同等功能的詞語(yǔ)進(jìn)行掩蓋來逃避抄襲檢測(cè)系統(tǒng)的行為,相似度算法能準(zhǔn)確識(shí)別出來。從相比較程度來講,相似度算法屬于匹配度模式的一種,是對(duì)不同字符串相似度進(jìn)行計(jì)算的方法,包含了文本相似度、空間模型相似度及集合模擬相似度等多種計(jì)算方法。
1.3 中文分詞技術(shù)
如果僅僅按照相似整句文本進(jìn)行相關(guān)信息檢測(cè),那么反抄襲的行為不可能從根本上得到遏制,且會(huì)降低檢測(cè)結(jié)果的準(zhǔn)確率和檢測(cè)效率?;诖?,中文分詞技術(shù)對(duì)檢測(cè)的文本進(jìn)行科學(xué)合理劃分,在使用計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)時(shí)進(jìn)行必要的文本處理,可以利用語(yǔ)句匹配分詞技術(shù)、統(tǒng)計(jì)處理分詞技術(shù)及對(duì)文檔觀點(diǎn)理解的分詞技術(shù)等。
首先,基于當(dāng)前對(duì)反抄襲程序的研究成果,把握對(duì)計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)進(jìn)行綜合改造核心技術(shù)。計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)的核心技術(shù)是抄襲檢測(cè)技術(shù),從上述介紹可知,相似度技術(shù)最大的特點(diǎn)是計(jì)算選擇文本和對(duì)照文本在文檔內(nèi)容方面的相似度。這種檢測(cè)方法的應(yīng)用范圍極其廣泛,已經(jīng)被數(shù)字技術(shù)、軟件工程代碼管理、知識(shí)產(chǎn)權(quán)及學(xué)術(shù)界領(lǐng)域所采納,且發(fā)揮著不可替代的作用,只有在應(yīng)用中明確檢測(cè)系統(tǒng)的功能、需求,才能更好地設(shè)計(jì)開發(fā)[3]。
其次,從計(jì)算機(jī)程序電子文檔特征的檢測(cè)角度來講,必須要求編碼有足夠的長(zhǎng)度,預(yù)防過短的抄襲檢測(cè)影響整個(gè)文檔的檢測(cè)結(jié)果。在此要求下,還應(yīng)保證提取出來的編碼語(yǔ)句有一定數(shù)量的關(guān)鍵詞,且關(guān)鍵詞要科學(xué)有效。比如,在設(shè)定程序代碼的有效關(guān)鍵詞數(shù)低于計(jì)算機(jī)程序所設(shè)置的程序電子文檔,就可判定為無效檢測(cè)。
最后,需要分析計(jì)算機(jī)程序電子文檔編碼的專業(yè)用語(yǔ),按照各種標(biāo)點(diǎn)符號(hào)進(jìn)行文檔內(nèi)容合理轉(zhuǎn)換,把一般意義上的文檔語(yǔ)句轉(zhuǎn)變?yōu)楸匾恼Z(yǔ)句序列?;诖?,利用詞法分析的方法劃分檢測(cè)文檔語(yǔ)句適合檢測(cè)抄襲詞句排列。
我國(guó)計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)仍存在挖掘的潛力。根據(jù)發(fā)展迅猛的計(jì)算機(jī)技術(shù)及反抄襲檢測(cè)系統(tǒng)的功能需求,筆者考慮從中英文環(huán)境出發(fā),研究開發(fā)技術(shù)工具[4]。從計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)的服務(wù)對(duì)象來看,在進(jìn)行功能模塊設(shè)計(jì)時(shí)需要包含以下幾個(gè)層面。
第一,計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)是立足于用戶的需求而設(shè)計(jì)出的檢測(cè)系統(tǒng),面對(duì)的是整個(gè)系統(tǒng)的用戶功能設(shè)計(jì),因此,在設(shè)計(jì)時(shí),需要為用戶提供維護(hù)個(gè)人信息的資源,并及時(shí)更新信息。比如,在信息資源程序文檔的提交過程中,會(huì)提示操作步驟,怎樣查詢檢測(cè)的結(jié)果要有清晰的字體標(biāo)示,對(duì)于這些系統(tǒng)性功能,設(shè)計(jì)者要根據(jù)互聯(lián)網(wǎng)技術(shù)的發(fā)展不斷進(jìn)行更新完善。
第二,計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)面向系統(tǒng)管理員的功能設(shè)計(jì),基于對(duì)系統(tǒng)管理員的檢測(cè)需求提供完備的信息資源庫(kù)。包括添加刪除中英文程序的文檔,維護(hù)資源信息和及時(shí)更新信息表等多方面的操作處理。與此同時(shí),還為系統(tǒng)管理員提供了需要的參照數(shù)據(jù)庫(kù)[5]。
第三,整個(gè)運(yùn)行過程是計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)運(yùn)轉(zhuǎn)的核心,首先通過系統(tǒng)管理員對(duì)操作頁(yè)面輸入相應(yīng)口令登錄到檢測(cè)系統(tǒng)平臺(tái),然后添加所要檢測(cè)的中英文文檔進(jìn)入對(duì)應(yīng)的數(shù)據(jù)資源庫(kù),為用戶提供經(jīng)過抄襲檢測(cè)后的文檔。系統(tǒng)用戶只需在系統(tǒng)平臺(tái)完成注冊(cè)便可執(zhí)行這一檢測(cè)過程,系統(tǒng)平臺(tái)會(huì)自動(dòng)將信息資源庫(kù)中的文檔與用戶所傳送的文檔進(jìn)行相似匹配,完成相似匹配度較高的文檔。最后將相似度較高的文檔與抄襲檢測(cè)過的文檔進(jìn)行深入的對(duì)比分析,完成抄襲檢測(cè)程序流程的最后一步,最終結(jié)果呈現(xiàn)在計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)頁(yè)面上反饋給用戶。
通過對(duì)計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)相關(guān)技術(shù)的介紹,我們認(rèn)識(shí)到在設(shè)計(jì)過程中需要遵循的功能需求及設(shè)計(jì)原則,最終實(shí)現(xiàn)對(duì)被檢測(cè)對(duì)象所提交計(jì)算機(jī)程序的文檔內(nèi)容的處理,這對(duì)研究當(dāng)前的計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)具有現(xiàn)實(shí)意義,是提高整個(gè)抄襲檢測(cè)水平的重要途徑。目前,計(jì)算機(jī)程序檢抄襲檢測(cè)系統(tǒng)已經(jīng)被廣泛應(yīng)用于社會(huì)的各個(gè)行業(yè),且發(fā)揮著不可替代的作用,對(duì)凈化學(xué)術(shù)界氛圍具有重要的意義。
[1]王鵬.計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)的設(shè)計(jì)方案[J].電子技術(shù)與軟件工程,2017(18):153.
[2]王鵬.計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)的設(shè)計(jì)方案[J].電子技術(shù)與軟件工程,2017(18):153.
[3]張淑娟.計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)的設(shè)計(jì)方案研究[J].吉林廣播電視大學(xué)學(xué)報(bào),2014(4):75-76.
[4]房德安.計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)的設(shè)計(jì)方案分析[J].黑龍江科技信息,2013(6):94.
[5]李旭東.計(jì)算機(jī)程序抄襲檢測(cè)系統(tǒng)的設(shè)計(jì)方案[J].電腦知識(shí)與技術(shù),2012(4):799-800.
Design and Application of Computer Program Plagiarism Detection System
Dong Bing
(Institute of Geography Sciences,Henan Academy of Sciences,Zhengzhou Henan 450052)
The rapid development of computer information technology and the development of network shar?ing resources have brought convenience to people,but also have some adverse effects.For example,the aca?demic plagiarism of the convenience of the network has seriously affected the current academic atmosphere and the healthy growth of the researchers.Therefore,it is of practical significance to explore the computer program plagiarism detection system and its application.Based on reality,this paper analyzed the related technology theory of computer program plagiarism detection system,and discussed the function requirement of computer program applied to plagiarism detection system.Finally,it made a simple analysis of the de?sign scheme of computer program plagiarism detection system.
computer program;plagiarism detection system;design;application
TP311.11
A
1003-5168(2017)12-0039-02
2017-11-01
董冰(1984-),女,碩士,助理研究員,研究方向:區(qū)域經(jīng)濟(jì)發(fā)展。