●李萬武
識別畢業(yè)論文抄襲的實驗研究
●李萬武
近幾年來,大學生畢業(yè)論文抄襲現(xiàn)象較為嚴重,通過組織學生參加設計論文抄襲識別系統(tǒng)實踐,即可人工智能識別出抄襲的論文,又能提高學生的實踐能力。文章通過整理分析計算機學院現(xiàn)存的大量論文資料,設計了符合專業(yè)特征的論文抄襲識別系統(tǒng),用一定數(shù)量的論文進行了系統(tǒng)檢驗,識別的結(jié)論正確。
論文抄襲 面向?qū)ο?特征選擇 相似度計算
近年來,部分計算機學院大學畢業(yè)論文中總會出現(xiàn)全部或部分抄襲他人論文的現(xiàn)象。受我國大學生就業(yè)壓力的影響,部分大四畢業(yè)生于畢業(yè)設計期間在外實習工作,這部分學生的畢業(yè)設計活動指導教師不好控制,容易出現(xiàn)抄襲的畢業(yè)設計論文。畢業(yè)生指導教師根據(jù)學校制度,以開題答辯、中期檢查和畢業(yè)答辯形式指導、檢查和監(jiān)督學生的設計,在整個設計期間指導教師負責任地和畢業(yè)生保持緊密的聯(lián)系,但以目前的工作方式并不能阻擋抄襲行為上升勢頭。
受經(jīng)濟利益驅(qū)使,網(wǎng)絡上出現(xiàn)販賣計算機專業(yè)畢業(yè)設計論文的網(wǎng)站,這使畢業(yè)生花錢能輕易獲得論文。學校制定嚴格的懲處措施處理畢業(yè)論文抄襲的學生,指導教師只接觸少量畢業(yè)生論文,因此發(fā)現(xiàn)論文抄襲的幾率不高,大部分違紀學生還是逃脫了懲罰。
我們針對計算機專業(yè),利用實驗室設備組織了學生設計抄襲論文識別實驗。教師提出論文相似性計算方法和編制實驗方案,學生在理解論文相似性算法后,按照實驗方案做信息分析和編寫軟件,并將完成的作品發(fā)布在網(wǎng)絡上,初步使用在本院的畢業(yè)設計論文抄襲檢查中。該實驗一定程度上制約了學生論文抄襲行為,并激發(fā)了學習興趣、提高了學生動手能力。
相似的文本具有相似的關鍵詞或相對詞頻,因此可以基于關鍵詞向量或關鍵詞相對詞頻向量來計算一組文本的相似度。文本與詞的相關矩陣如圖1所示,其中表示第i篇文本與第j個詞的相關程度,取值范圍為[0,1]。相關矩陣中的行描述一篇文本的特征,稱之為文本特征向量,列表示每個特征項與文獻集的相關程度。
圖1 文本與詞的相關矩陣
文本相似性算法有多種,但考慮到本校學生的接受能力,算法選擇《數(shù)據(jù)挖掘》課程中教授的余弦算法。
利用文本與詞的相關矩陣可以通過分析文本之間的相關性。相關性的大小可以用相關系數(shù)S來度量,第i篇文本與第j篇文本的相關系數(shù)可以表示為Sij。
文檔向量之間的關系用余弦法表示為:
學院共有3臺供教學實驗用的SUN品牌服務器和四個計算機實驗室,在教務科存儲有歷年學生提交的畢業(yè)設計論文光盤(估計有11000張左右),每個實驗室有學生實驗用的計算機50臺左右,均網(wǎng)絡連接。從實際情況出發(fā),實驗按如下四個階段進行:
圖2 實驗室計算機網(wǎng)絡結(jié)構(gòu)拓撲圖
1.建設網(wǎng)絡平臺。四個計算機實驗室通過交換機級聯(lián)能互相訪問,其中的信息控制實驗室有一條專用線路與學校網(wǎng)絡信息中心的主路由器連接,理論上此鏈路能到達全校網(wǎng)絡上開放的每個計算機。3臺SUN品牌服務器中,2臺作為應用服務器,1臺作為數(shù)據(jù)庫服務器。實驗室內(nèi)計算機實驗室網(wǎng)絡連接拓撲結(jié)構(gòu)如圖2。
應用服務器1安裝Windows Server2003操作系統(tǒng)+IIS服務,應用服務器2安裝linux操作系統(tǒng)+Tomcat服務,數(shù)據(jù)庫服務器安裝Windows Server2003操作系統(tǒng)+SQL Server數(shù)據(jù)庫。
2.建論文信息庫。如果用常用的漢語詞典的詞表示文本特征的詞匯,則因為詞匯數(shù)量大,造成相應詞頻矩陣的維度過高、信息處理的效率低。為此首先應建立能表示計算機專業(yè)畢業(yè)論文特征的低維詞匯庫。初步從大量論文中提取2000個左右的計算機專業(yè)詞匯庫,利用編制的計算機專業(yè)詞匯庫建立論文的特征向量矩陣,即建立教務科存儲的光盤中每篇論文的特征向量矩陣,存儲到已建好的數(shù)據(jù)庫服務器中。
3.開發(fā)應用軟件。應用服務器1中的應用程序用asp.net開發(fā),應用服務器2中的信息處理應用Jsp+Ajax開發(fā)。軟件開發(fā)采用面向?qū)ο蠓椒?,系統(tǒng)中完成一定功能的核心代碼asp.net中封裝為Activex組件,java環(huán)境中封裝為類庫,使用CSS美化頁面。
微軟公司提供了office產(chǎn)品外部訪問的com接口。C++訪問接口主要代碼如下:
教師用c++開發(fā)工具設計了獲取word文件中文本的COM組件,即為學生開發(fā)的軟件提供訪問word文檔的接口。
學生開發(fā)web應用軟件實現(xiàn)如下功能:①獲取word文件中文本,根據(jù)計算機專業(yè)詞匯集合建立論文特征向量矩陣,將向量矩陣存入到paper數(shù)據(jù)庫中;②假設有n個論文,應用余弦算法后臺計算n個論文之間的相似度,得到n×n的數(shù)據(jù)表格存入paper數(shù)據(jù)庫中;③從paper數(shù)據(jù)庫中排序讀取相似度表格,根據(jù)相似度識別出抄襲的論文。
從學院各班級中選拔出優(yōu)秀學生10名,按上述的設計方案進行實驗。
1.網(wǎng)絡環(huán)境搭建。首先在實驗室中三臺服務器中分別安裝操作系統(tǒng)和數(shù)據(jù)庫,并配置相應Web服務,新建名為paper的數(shù)據(jù)庫。經(jīng)過測試檢查確認實驗室網(wǎng)絡運行正常。
2.信息分析。從教務科調(diào)出有代表性的100篇電子版畢業(yè)論文,每個學生分配10篇論文,安排他們從各自論文集中挖掘出2000個計算機專業(yè)詞匯,按規(guī)定格式保存在Excel文件中。教師對收集的Excel文件中詞匯集進行比對篩選,最終選出2015個計算機專業(yè)詞匯,并將這2015個詞匯導入到已建好的paper數(shù)據(jù)庫中。
3.軟件開發(fā)。5個學生一組用asp.net開發(fā)運行在IIS服務環(huán)境下的信息處理系統(tǒng),其他5個學生用java開發(fā)運行在tomcat服務環(huán)境下的應用。經(jīng)過35天開發(fā),學生開發(fā)的應用軟件在服務器調(diào)試運行。兩組學生使用了一致的算法,將100篇論文進行了比對,得出論文之間相似度矩陣,將結(jié)論以行列100×100關系型數(shù)據(jù)表格形式顯示。對數(shù)據(jù)按相似度排序,有2篇論文之間的明顯相似度數(shù)值大,相似度為0.891,可認為是抄襲的論文。經(jīng)人工判斷,2篇論文內(nèi)容大部分相似,計算機自動判斷結(jié)論正確。
雖然已完成的論文抄襲識別系統(tǒng)能初步滿足要求,但實際應用中還需要改進。主要改進的方面有:提煉計算機專業(yè)詞庫;提高算法精度;加快識別速度。
1.提煉計算機專業(yè)詞庫。編制的計算機專業(yè)詞庫沒有經(jīng)過實踐的檢驗,需要在學院保存11000篇論文進行識別過程中,進一步迭代整理詞庫,使之能精確反映計算機專業(yè)論文特征。
2.提高算法精度。沒有考慮詞的權(quán)重,也沒考慮詞與詞之間的依賴性,在一定程度上影響了精確度,需要改進算法。
3.加快識別速度。由于在論文相似性比對過程中,處理的信息量巨大,僅依靠實驗室中兩臺服務器處理,運行時間慢長、效率低。計劃將實驗室中計算機(大約200臺)參與到分布式計算中,期待提高論文相似度計算速度。
互聯(lián)網(wǎng)上提供的大量計算機專業(yè)論文資料,使畢業(yè)生能輕易抄襲他人論文。目前僅靠學校嚴格的管理手段和指導教師的認真負責并不能完全杜絕論文抄襲現(xiàn)象,而利用計算機技術(shù)人工智能識別論文抄襲,在技術(shù)上高效地打消了畢業(yè)生僥幸心理。
組織學生實現(xiàn)的論文抄襲識別系統(tǒng)實驗作品,經(jīng)進一步改進后可以實際使用在計算機教學管理工作中。通過本項目實驗活動,提高了學生的網(wǎng)絡、程序開發(fā)、信息整理等方面的實踐能力,同時也教育了大學生努力學習、拒絕抄襲。
[1] 于守健,夏小玲,樂嘉錦.基于語義描述的分布式W eb服務發(fā)布與發(fā)現(xiàn)[J].計算機工程,2007
[2] 于守健,朱勤,樂嘉錦.一種基于分布式哈希表的W eb服務目錄系統(tǒng)[J].計算機工程,2007
[3] 李曉暉等.基于O racle的文獻資料庫全文檢索技術(shù)[J].成都信息工程學院學報,2003
[4] 閔小玲.W eb應用系統(tǒng)設計的JSP技術(shù)方法[J].黃石理工學院學報,2005
[5] 陳治綱,何丕廉,孫越恒.基于向量空間模型的文本分類系統(tǒng)的研究與實現(xiàn).中文信息學報,2005
[6] 王秀娟.文本檢索中若干問題的研究[D].北京:北京郵電大學,2006
[7] 劉群,李素建.基于“知網(wǎng)”的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會,2002
[8] R.Yangaber,R.Grishman,P.Tapainen.Unsupervised Discovery of Scenario LevelPatterns for Information Extraction.In Proceedings of the Sixth Applied NaturalLanguage Processing Conference,Seattle A,2000,282-289
[9] Zhang YiQi,Zhou Qiang.The auto identification of Chinesebase phrase[J].Journal of Chinese Information Processing,2003,16(3):1-8
[10] 劉群,張華平,張浩.計算所漢語詞性標記集Version3.0[Z].2004
[11] Roger Levy and Christopher D.Manning.Is it harderto parse Chinese or the Chinese Treebank?[A].In:proceedings of the 41st Annual Meeting of theAssociation for Computational Linguistics[C].200
[12] Daniel M.Bikel and David Chiang.Two statisticalparsing models applied to the Chinese Tree-bank[A].In::proceedings of the Second ChineseLanguage Processing W orkshop,ACL[C],2000
[13] 張浩,劉群,白碩等.結(jié)構(gòu)上下文相關的概率句法分析[A].第一屆學生計算語言學研討會論文集[C].北京大學,2002
[14] Zhengping Jiang.Statistical Chinese parsing[Z].Honours thesis,2004,National University of Singapore
[15] M ichael Conllins.Head-Driven Statistical Models for Natural Language Parsing[D].University of Pennsylvania,1999
(作者單位:黑龍江科技大學計算機學院 黑龍江哈爾濱 150027)
(責編:呂尚)
G645
A
1004-4914(2014)01-263-03