付 兵,謝本貴
(長江大學(xué)a.文理學(xué)院;b.計(jì)算機(jī)科學(xué)學(xué)院,湖北 荊州434023)
教育信息化是國家信息化的重要組成部分,對提高教育質(zhì)量和效益,培養(yǎng)創(chuàng)新人才具有深遠(yuǎn)意義,是實(shí)現(xiàn)教育跨越式發(fā)展的必然選擇?!皣抑虚L期教育改革和發(fā)展規(guī)劃綱要(2010-2020 年)”強(qiáng)調(diào)要加快教育信息化建設(shè)[1]。教育信息化首先是教學(xué)信息化,教學(xué)信息化的重頭戲在作業(yè)環(huán)節(jié)的信息化。電子作業(yè)反抄襲技術(shù),對于減輕老師工作量、提高學(xué)生作業(yè)質(zhì)量具有積極意義。
校園網(wǎng)已經(jīng)普及,WiFi 熱點(diǎn)也覆蓋了90%的大學(xué)校園,基于固定和移動網(wǎng)絡(luò)的作業(yè)發(fā)布與提交方式已逐漸在大學(xué)教育中得以廣泛采用。教師通過網(wǎng)絡(luò)發(fā)布作業(yè),其實(shí)時、便捷性等方面具有傳統(tǒng)紙質(zhì)作業(yè)所無法比擬的優(yōu)勢。但隨之而來的是電子作業(yè)抄襲現(xiàn)象嚴(yán)重。我們就湖北省部分高校的電子作業(yè),走訪聽取一線教師的意見,就電子作業(yè)環(huán)節(jié)中的抄襲現(xiàn)象進(jìn)行調(diào)查。經(jīng)兩學(xué)年收集了12768 份電子作業(yè)樣本,抄襲分①網(wǎng)絡(luò)抄襲、②同學(xué)間抄襲或③其他抄襲,根據(jù)機(jī)器分析和人工核對,確定部分抄襲甚至完全拷貝的電子作業(yè)樣本656 份,涉嫌抄襲比例為5.1%。其中網(wǎng)絡(luò)抄襲、同學(xué)間抄襲及其它抄襲的比例如表1 所示。
表1 不同抄襲方式所占比例
學(xué)生抄襲作業(yè)的行為主要發(fā)生在兩種環(huán)境下:
(1)機(jī)房環(huán)境下完成老師布置的電子作業(yè),學(xué)生之間電子文檔相互拷貝抄襲;
(2)網(wǎng)絡(luò)環(huán)境下,在家、在寢室或移動設(shè)備通過Internet 搜索網(wǎng)絡(luò)文檔,片段拷貝。
針對這兩種典型環(huán)境我們提出了反抄襲的不同策略。
計(jì)算機(jī)房是高校計(jì)算機(jī)普及教育的實(shí)驗(yàn)場所,教師、實(shí)驗(yàn)師針對機(jī)房的管理、提高學(xué)習(xí)效率進(jìn)行了很多研究[2-4],但目前就機(jī)房環(huán)境下反抄襲研究還沒涉及。典型的機(jī)房環(huán)境是指在計(jì)算機(jī)房進(jìn)行實(shí)踐教學(xué)時,老師布置的實(shí)時任務(wù),如“計(jì)算機(jī)基礎(chǔ)”O(jiān)FFICE 辦公系列的文字輸入、編輯排版練習(xí)等,本身電子作業(yè)的文字內(nèi)容就完全一樣,這類情況采用比較文本相似度的方法是無法達(dá)到甄別抄襲作業(yè)的目的?;谛畔㈦[藏技術(shù)的電子作業(yè)反抄襲策略能較好解決此類問題。信息隱藏技術(shù)在數(shù)字圖像版權(quán)保護(hù)方面的應(yīng)用較為成熟[5-7],數(shù)字水印的設(shè)計(jì)已進(jìn)入大學(xué)的實(shí)驗(yàn)室教學(xué)[8-9],但電子作業(yè)防拷貝抄襲的水印嵌入的要求不同于隱蔽通信和版權(quán)保護(hù),對信息隱藏量和魯棒性要求較高[10],其所用的水印算法要求不易察覺且兼顧大的信息嵌入量,在格式字符中嵌入機(jī)器編號、學(xué)號及時間等原創(chuàng)信息。
單純的文本信息隱藏對嵌入信息進(jìn)行加密是為了提高信息的安全性,在電子作業(yè)文本格式中嵌入個人信息除考慮信息的安全性外還應(yīng)兼顧個人隱私及人權(quán)保障等因素。我們在嵌入信息前對待嵌入信息進(jìn)行加密與置亂[11]。
首先生成混沌數(shù)據(jù),利用公式1 采用Logistic Map方法生成混沌數(shù)據(jù):
設(shè)x0=0.1(0 <x0<1),得到實(shí)數(shù)系列:
將實(shí)數(shù)序列(2)經(jīng)歸一化處理,得到二值序列函數(shù)T(x):
利用二值函數(shù)(3)得到混沌二值序列
得到的混沌二值序列(4)是原創(chuàng)者信息置亂,將要嵌入的的漢字和外文字符通過Unicode 和十六進(jìn)制變換生成二進(jìn)制數(shù)字序列:
用混沌序列(4)與二進(jìn)制序列(5)進(jìn)行模2 加,得到需要的新序列,即已加密二進(jìn)制系列。
系列(6)即為要嵌入的秘密信息。
原創(chuàng)者的秘密信息嵌入算法根據(jù)作業(yè)內(nèi)容的不同有多種選擇,如果電子作業(yè)是全中文可以采用“改變漢字西文字體的方法”實(shí)現(xiàn)信息的隱藏。將需嵌入的信息比特流每字節(jié)逐個隱藏,再根據(jù)每字節(jié)比特位的“1”和“0”的情況,分別將Word 文檔中漢字的西文字體依次相應(yīng)設(shè)置成“Times New Roman”或“BasemicTimes”,每個字符隱藏1Bit 位,實(shí)現(xiàn)秘密信息比特流的嵌入。漢字西文字體的變化,在顯示上字體特征不發(fā)生任何變化,對嵌入的原創(chuàng)信息抄襲者是察覺不到的。嵌入算法還可以采用字移編碼、行移編碼、字號大小編碼、等傳統(tǒng)的格式化文本隱藏信息的方法[12]。
如果是中英混排的電子作業(yè),改變漢字西文字體的方法就無能為力了,同樣對于圖多字符少的電子作業(yè),如電子實(shí)驗(yàn)報(bào)告,由于上述算法每個字符只能隱藏1Bit 的秘密信息,存在信息隱藏率低的問題,針對電子作業(yè)的特殊性,提出了針對性的“高嵌入率水印算法”。
高嵌入率水印算法同時利用字體RGB 顏色低位和下劃線RGB 顏色的部分字節(jié)來嵌入秘密信息,達(dá)到每1 個字符隱藏12 bit 秘密信息。根據(jù)人眼視錐細(xì)胞對顏色敏感度理論,人眼對藍(lán)色最不敏感,置換字符RGB 值的低位,如圖1 所示是一個字符RGB 值藍(lán)色分量的最后兩位B1、B0,綠色分量的最后一位G0、紅色分量的最后一位R0 用來嵌入原創(chuàng)信息,這一步每一字符實(shí)現(xiàn)4 bit 的嵌入量。
第二步將同一字符下劃線顏色值中的藍(lán)色分量的后4 位,下劃線顏色值中綠色分量的后2 位,下劃線顏色值中紅色分量的后2 位,用來嵌入秘密原創(chuàng)信息,如圖2 所示,在下劃線顏色分量中每一字符實(shí)現(xiàn)8 bit 的嵌入量。
圖1 嵌入秘密原創(chuàng)信息的字符RGB 分量
圖2 嵌入秘密原創(chuàng)信息的字符下劃線RGB 分量
因?yàn)橐话汶娮幼鳂I(yè)字符顯示下劃線的幾率較少,也不引人注意,我們利用下劃線顏色值嵌入更多的秘密信息,使秘密信息嵌入率達(dá)到每1 字符12 bit。
機(jī)房環(huán)境反抄襲設(shè)計(jì)實(shí)現(xiàn)分:嵌入原創(chuàng)秘密信息和提取抄襲秘密信息兩部分。
嵌入原創(chuàng)秘密信息的過程是當(dāng)學(xué)生完成電子作業(yè),點(diǎn)擊“保存”、“另存為”和“退出”都會觸發(fā)office中VBA 的Autoclose 過程。這一過程的自動運(yùn)行調(diào)用了嵌入原創(chuàng)秘密信息的函數(shù)HideOriginalInformation(),該函數(shù)具有在全文循環(huán)嵌入原創(chuàng)秘密信息的功能。
提取秘密信息的過程是當(dāng)學(xué)生的電子作業(yè)被批閱時,首先就進(jìn)行自動檢查字符格式的變化,是否含有他人的原創(chuàng)信息。本設(shè)計(jì)利用了打開文檔時自動運(yùn)行的Autoopen 過程,核心設(shè)計(jì)室該過程中調(diào)用了中英文字符格式檢測函數(shù)DetectCharacterFormat()和提取秘密信息的函數(shù)GetOriginalInformation()。
由于網(wǎng)絡(luò)環(huán)境抄襲的來源甚廣,加之抄襲程度的不同,一篇作業(yè)可能抄襲自不同來源的多篇網(wǎng)絡(luò)文本,且從抄襲短句到抄襲整篇都有可能。另外網(wǎng)絡(luò)上與作業(yè)內(nèi)容相關(guān)的網(wǎng)頁總是處于不斷更新、增加中。因此準(zhǔn)確的檢測抄襲與否及抄襲程度、抄襲來源等比較困難,理想的方法是使用基于搜索引擎的技術(shù),但是基于搜索引擎的技術(shù)需要投入的太多,對于檢測作業(yè)抄襲這種情況是得不償失的。因此采用折中方法,建立一個數(shù)據(jù)庫,存儲和課程相關(guān)的電子文檔,最典型的就是與課程內(nèi)容相關(guān)的各種文獻(xiàn),同時包含歷屆學(xué)生的所有作業(yè)以及當(dāng)前要檢測的所有作業(yè),每次檢測新的作業(yè)時可以自動將其加入到數(shù)據(jù)庫中。
一般來說電子作業(yè)還有以下兩個特點(diǎn):①相對于學(xué)術(shù)論文等長篇文字來說,學(xué)生作業(yè)一般字?jǐn)?shù)不多;②學(xué)生作業(yè)具有較高的相似性。作業(yè)的題目是教師擬定的,因此作業(yè)內(nèi)容主題相對固定。對于概念性原理性的問題,學(xué)生多會照抄教科書或參考書上的原話。作業(yè)字?jǐn)?shù)不多且內(nèi)容高度相似的特性,在利用程序自動檢測抄襲的過程中很容易引起對作業(yè)抄襲與否的誤判。而實(shí)踐中對作業(yè)抄襲的檢測往往是檢測整篇復(fù)制或者大段復(fù)制的情況,這種情況正好對應(yīng)于相似性指數(shù)非常高的情形。更細(xì)力度的抄襲檢測(比如單句話的抄襲)是沒有必要的。網(wǎng)絡(luò)環(huán)境下,反抄襲的策略主要是基于文本相似性檢測的。判斷文本內(nèi)容相似性的方法有很多種,鑒于各種方法都有其優(yōu)劣性。針對電子作業(yè)的特點(diǎn),在本研究中我們嘗試將向量空間法和編輯距離法兩種方法相結(jié)合來進(jìn)行作業(yè)抄襲檢測,取得了良好的效果。
向量空間法的原理是將文檔映射為向量,通過計(jì)算向量夾角的余弦即得到兩個文檔的相似性指數(shù)[13-14],向量空間法實(shí)現(xiàn)步驟如下:
(1) 對要比較的電子作業(yè)進(jìn)行分詞。在對電子作業(yè)進(jìn)行分詞時,我們首先采用MMSEG 算法進(jìn)行中文分詞。如果作業(yè)中含有英文,MMSEG 算法也會將英文單詞分出但不會進(jìn)行詞干提取,對于英文單詞,繼續(xù)用Porter2 算法提取詞干。最后剔除中英文的停止詞(stop words),合并MMSEG 分出的中文詞和Porter2 處理過的英文詞,得到單篇文檔的分詞詞集。合并所有作業(yè)的分詞詞集,得到構(gòu)建向量空間的詞集W。為提高分詞準(zhǔn)確性,可以在MMSEG 算法所使用的詞典中導(dǎo)入專業(yè)詞匯。
(2) 生成各作業(yè)的向量。上一步中得到的詞集W的元素?cái)?shù)n 即為我們所要構(gòu)建的向量空間的維數(shù)。對于每個要比較的文檔k,構(gòu)建一個n 維向量Vk=(wk1,wk2,…,wkn)。如果詞集W 的第i 個元素Wi也出現(xiàn)在文檔k 的分詞詞集中,則wki=1,否則wki=0。
(3) 計(jì)算兩個向量V1、V2夾角θ 的余弦。以此數(shù)值作為文檔相似性指數(shù)SI1。
編輯距離法是基于編輯距離計(jì)算的。所謂編輯距離是指一個字符串轉(zhuǎn)變成另一個字符串所需要的最小編輯操作次數(shù)。這些編輯操作包括插入、刪除、替換、顛換。當(dāng)編輯操作只包括前三種時,稱為Levenshtein距離,如果四種編輯操作都包括,則稱為Damerau-Levenshtein 距離[15]。編輯距離法很適合檢測作業(yè)抄襲,由編輯距離法計(jì)算兩個文檔相似性指數(shù)SI2的公式為:式中:tl 為兩個文檔總長;d 為編輯距離。
最后,通過對作業(yè)計(jì)算相似性指數(shù)SI1、SI2,當(dāng)對比文檔的兩種相似性指數(shù)達(dá)到指定閥值時,則判定為疑似抄襲。
基于網(wǎng)絡(luò)環(huán)境反抄襲策略中提出的方法,對作業(yè)樣本進(jìn)行了抄襲檢測。實(shí)驗(yàn)結(jié)果表明,如果將相似性指數(shù)的臨界值設(shè)為0.91,則程序能正確判別出所有嚴(yán)重抄襲樣本。根據(jù)每次作業(yè)的不同情況,相應(yīng)調(diào)整相似性指數(shù)臨界值,能得到更好的判別結(jié)果。檢測時也可限定只檢測本次作業(yè)中的樣本,這樣可以判斷本次作業(yè)中學(xué)生間相互抄襲的程度。對于疑似抄襲的作業(yè),通過查找共同字符串及用加亮顯示等方式可進(jìn)一步人工可視化判讀抄襲程度,如圖3 所示,程序截圖后對學(xué)生姓名做了馬賽克處理。
圖3 加亮顯示的抄襲檢測結(jié)果
本研究的特點(diǎn)在于將電子作業(yè)反抄襲分為網(wǎng)絡(luò)環(huán)境抄襲和機(jī)房環(huán)境抄襲,采用不同的反抄襲策略進(jìn)行處理:針對機(jī)房環(huán)境下的直接部分甚至全部拷貝抄襲,采用了信息隱藏技術(shù),創(chuàng)新點(diǎn)有:①將原創(chuàng)信息進(jìn)行了加密,保護(hù)了同學(xué)隱私;②針對電子作業(yè)的特點(diǎn)設(shè)計(jì)了高嵌入率、不易察覺的信息隱藏算法;網(wǎng)絡(luò)環(huán)境下的反抄襲設(shè)計(jì)特點(diǎn)是根據(jù)電子作業(yè)的特點(diǎn)綜合應(yīng)用向量空間法和編輯距離法對同學(xué)之間的電子作業(yè)的相似度及網(wǎng)絡(luò)相關(guān)主題文檔相似度進(jìn)行判斷,降低了誤判率。
電子作業(yè)反抄襲研究是2011 年湖北省高等學(xué)校省級教學(xué)研究項(xiàng)目“計(jì)算機(jī)基礎(chǔ)教學(xué)融合專業(yè)應(yīng)用的研究”(2011468)成果之一,在計(jì)算機(jī)基礎(chǔ)教學(xué)立體網(wǎng)絡(luò)平臺的電子作業(yè)收集、批改部分發(fā)揮了重要作用,有效杜絕了學(xué)生電子作業(yè)的多種抄襲方式。
[1] 國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020)[M]. 北京:人民出版社,2010.
[2] 林先津. 機(jī)房實(shí)驗(yàn)教學(xué)管理系統(tǒng)學(xué)生狀態(tài)監(jiān)控的設(shè)計(jì)與實(shí)現(xiàn)[J]. 實(shí)驗(yàn)技術(shù)與管理,2011,28(10):96-99.
[3] 王 強(qiáng),張江露,何才輝.整合資源,構(gòu)建高效的開放計(jì)算機(jī)實(shí)驗(yàn)室[J]. 實(shí)驗(yàn)技術(shù)與管理,2011,28(4):163-166.
[4] 何 俊. 計(jì)算機(jī)公共機(jī)房管理資源整合[J]. 實(shí)驗(yàn)室研究與探索. 2010,29(2):65-67.
[5] Fu Bing,Zhou xianshan. Information Hiding Technique in Most Significant Bit of Still Image[C] // 2009 International Conference on Image Analysis and Signal Processing. USA: Institute of Electrical and Electronics Engineers. 2009:74-76.
[6] 周清雷,黃明磊. JPEG 圖像的信息隱藏方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2010,31(19):4178-4180
[7] 張 民,郭玉彬,張德偉. 基于小波系數(shù)塊能量和HVS 的FCM水印算法[J]. 微電子學(xué)與計(jì)算機(jī),2010,27(05):139-142.
[8] 向德生,彭獻(xiàn)武,梁 偉. 數(shù)字水印實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].實(shí)驗(yàn)室研究與探索,2009,28(10):51-53.
[9] 石紅芹,呂方亮,劉遵雄. 彩色圖像的數(shù)字水印系統(tǒng)設(shè)計(jì)[J]. 實(shí)驗(yàn)室研究與探索,2011,30(5):9-12.
[10] Fu Bing. Research on the Model of Similar Electronic Coursework Detection[C] // Third International Conference on Genetic and Evolutionary Computing. USA:Institute of Electrical and Electronics Engineers,2009:814-817.
[11] 王海春,邱寄帆,邱敦國. 一種基于Word 文檔的數(shù)字密寫設(shè)計(jì)與實(shí)現(xiàn)[J]. 微計(jì)算機(jī)信息,2006,22(10):47-48.
[12] 付兵. 基于Word 字符RGB 值的信息隱藏技術(shù)[J],電腦知識與技術(shù),2007(2):78-80.
[13] Peter D. Turney ,Patrick Pantel,F(xiàn)rom frequency to meaning:vector space models of semantics [J]. Journal of Artificial Intelligence Research,2010(37):141-188.
[14] 樊旭琴;張永奎,基于詞對向量空間模型的新事件檢測方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2010,46(12):123-125.
[15] T. Batu,F(xiàn). Ergun,J. Kilian,A. Magen,S. Raskhodnikova,R.Rubinfeld,Rahul Sami. A sublinear algorithm for weakly approximating edit distance[C] // Proceedings of the Thirty-Fifth Annual ACM Symposium on the Theory of Computing. USA:Association for Computing Machinery,2003:316-324.