k系列指數(shù)、g2、錯同率的抄襲識別效能比較研究*

2015-02-25 05:09:34甘媛源,余嘉元

心理學(xué)探新 2015年5期

甘媛源1，2，余嘉元2

(1.江蘇省教育評估院，南京 210024；2.南京師范大學(xué)心理學(xué)系，南京 210097)

摘要：采用蒙特卡洛模擬的方法進(jìn)行k系列指數(shù)、g2、錯同率的抄襲識別效能比較實(shí)驗(yàn)，探討影響五種抄襲統(tǒng)計量抄襲識別效能的因素。結(jié)果表明：(1)在被試樣本量、項(xiàng)目數(shù)、被抄者的能力水平、抄襲率四個因素中，抄襲率對抄襲識別效能的影響最大，被抄者的能力水平、項(xiàng)目數(shù)次之，被試樣本量的影響最?。?2)在上述因素相當(dāng)?shù)那闆r下，g2的抄襲識別經(jīng)驗(yàn)I型錯誤率遠(yuǎn)高于α 水平，抄襲識別率也最高，k1、k2的經(jīng)驗(yàn)I型錯誤率遠(yuǎn)低于α 水平，抄襲識別率較高，錯同率的經(jīng)驗(yàn)I型錯誤率略高于α 水平，抄襲識別率較低，k*′的經(jīng)驗(yàn)I型錯誤率幾乎均為0，抄襲識別率最低；(3)在被懷疑的被抄者已確定的情況下，k1、k2的抄襲識別效能最高，是較理想的抄襲統(tǒng)計量；(4)在同等條件下，當(dāng)被懷疑的被抄者和抄襲者均未確定時，五種抄襲統(tǒng)計量的抄襲識別效能較被懷疑的被抄者已確定的情形均大幅下降；(5)在缺乏被懷疑者信息的情況下，需設(shè)定更為保守的指標(biāo)臨界值，以降低誤判風(fēng)險。

關(guān)鍵詞：k系列指數(shù)；g2；錯同率；經(jīng)驗(yàn)I型錯誤率；抄襲識別率

1引言

從古至今，考試和作弊就像一對孿生兄弟一樣形影不離，在古代的科考中，最為常見的作弊手段是夾帶、賄賂主考官及請人代考，隨著社會的不斷進(jìn)步，各種高科技作弊工具不斷涌現(xiàn)，作弊現(xiàn)象就更加泛濫。作弊現(xiàn)象的存在不僅降低了考試的信效度，破壞了考試的公平、公正性，而且制約了考試評估、選拔功能的正常發(fā)揮，因此，它引起了考生、家長、教育機(jī)構(gòu)、考試中心、政府部門的廣泛關(guān)注。在眾多的作弊方式中，抄襲是最難以識別的一種作弊方式，它是指一個考生從另一個考生那里得到部分試題答案或全部試題答案的行為，最終呈現(xiàn)為兩份試卷作答反應(yīng)的雷同。

從20世紀(jì)20年代開始，國外研究者陸續(xù)構(gòu)建了一些用于考試抄襲識別的統(tǒng)計量，如：ESA(Bay，1995)、Bm(Bay，1995)、g2(Frary，1997)、k(Holland，1996；Belov，2010)、s2(Sotaridona，2006)、ω(Wollack，2004；van der Linden，2009)、kappa(Sotaridona，2006)等，有的統(tǒng)計量還在實(shí)際考試情景中得以應(yīng)用，如：k指數(shù)在SAT中的應(yīng)用(Lewis，1998)、ω指數(shù)在MPRE中的應(yīng)用等(Wollack，2003)。但在國內(nèi)，查處考試作弊的方式多為考場監(jiān)測，對試后抄襲甄別方法的探究非常有限：韓丹等對國外學(xué)者構(gòu)建的抄襲統(tǒng)計量的綜述并對其中的一些指標(biāo)進(jìn)行了模擬實(shí)驗(yàn)研究(韓丹，2009)，劉景玉對g2、ω進(jìn)行的抄襲識別效能比較模擬實(shí)驗(yàn)(劉景玉，2008)，胡艷對轉(zhuǎn)換二項(xiàng)式、kappa進(jìn)行了抄襲識別效能比較研究(胡艷，2009)，關(guān)丹丹等對kappa的抄襲識別能力進(jìn)行了驗(yàn)證(關(guān)丹丹，2009)，張穎等結(jié)合醫(yī)師資格考試數(shù)據(jù)，對錯同率的抄襲識別效能進(jìn)行了初步探討(張穎，2002；甘媛源，2012)。由此可見，國內(nèi)關(guān)于抄襲統(tǒng)計量的探究才剛剛起步，模擬研究的實(shí)驗(yàn)條件單一、零散，沒有與國內(nèi)考試實(shí)際相結(jié)合，本文的主要目的在于設(shè)計系統(tǒng)的實(shí)驗(yàn)比較k系列指數(shù)、g2及錯同率的抄襲識別效能，之所以選擇這五種抄襲統(tǒng)計量是基于以下考慮：(1)在國外，k已經(jīng)被用于實(shí)際考試的抄襲甄別，然而，無論Holland的研究還是韓丹的研究，都沒有明確提出計算k所涉及的參數(shù)b的方法(Holland，1996；韓丹，2009)；(2)Sotaridona認(rèn)為k1、k2較k的抄襲識別效能更高(Sotaridona，2002)，韓丹的研究也支持這一結(jié)論(韓丹，2009)，然而他們的研究設(shè)計都建立在已知被懷疑范圍的抄襲者和被抄者基礎(chǔ)上，但在國內(nèi)一些高利害考試中會出現(xiàn)大規(guī)模的集團(tuán)作弊，這樣的作弊方式可能使得被懷疑的被抄者和抄襲者均不確定，而這一點(diǎn)可能會對它們的抄襲識別性能產(chǎn)生影響；(3)在以往的比較實(shí)驗(yàn)研究中，常將ω作為一種“好”的統(tǒng)計量，用于評估其他甄別方法的優(yōu)劣，然而，ω是建立在項(xiàng)目反應(yīng)理論基礎(chǔ)上的，在國內(nèi)的適用范圍有限，而g2識別抄襲的基本思路與ω相同，它既是基于經(jīng)典測量理論的方法，又是同時考慮錯同(兩考生做出相同錯誤反應(yīng)的數(shù)目)和對同(兩考生做出相同正確反應(yīng)的數(shù)目)的方法(甘媛源，2012)；(4)錯同率是唯一已經(jīng)在國內(nèi)的考試實(shí)際中得以應(yīng)用的方法。因此，研究嘗試結(jié)合國內(nèi)考試實(shí)際設(shè)計實(shí)驗(yàn)條件，對這五個抄襲統(tǒng)計量進(jìn)行比較，探討影響其抄襲識別效能的因素，以期推進(jìn)我國心理測量學(xué)的發(fā)展。

2研究方法與過程

2.1五種抄襲統(tǒng)計量簡介

2.1.1抄襲統(tǒng)計量的統(tǒng)計原理

抄襲統(tǒng)計量的基本原理是在假設(shè)沒有抄襲的條件下建立被試反應(yīng)概率的模型，在此基礎(chǔ)上可以得到被試間存在相似回答模式的概率，進(jìn)而發(fā)現(xiàn)異常的相似回答模式，存在這一模式的被試就被認(rèn)為是可能的抄襲者。

任何兩個獨(dú)立的被試都存在一些相同的作答反應(yīng)，例如，被試選擇相同的正確答案是非常普遍的，相應(yīng)地，任何兩個被試也有可能選擇相同的錯誤答案，因?yàn)槟切┚哂辛己脜^(qū)分度的多項(xiàng)選擇題一般都會設(shè)置一些誘惑性強(qiáng)的錯誤選項(xiàng)來吸引能力較低的被試，讓他們趨于選擇這一錯誤選項(xiàng)，因此，兩個獨(dú)立的被試選擇了相同的錯誤選項(xiàng)是正常的。但是，某些類型的一致回答卻是異常的，例如，能力很低的被試不可能連續(xù)正確回答出非常難的項(xiàng)目，這就是所謂的異常相似反應(yīng)模式。當(dāng)然，一些偶然因素也可能造成這種異常相似反應(yīng)模式，但如果這種異常模式很多，就具有了統(tǒng)計學(xué)意義。抄襲統(tǒng)計量就是基于以上假定提出來的，因此，所有的抄襲統(tǒng)計量的計算依據(jù)都是被懷疑抄襲者和被抄者得分模式的相似概率。

2.1.2k系列指數(shù)

在k指數(shù)的計算中，首先將具有相同錯誤答案數(shù)目的被試分成一組，所有被試就被分為R組，第r組(r=1，2，…R)中的被試記為j(j=1，2，…Jr)，也就是說，在第r組中的Jr個被試有相同的錯誤項(xiàng)目數(shù)，將含有被懷疑抄襲者(c)的被試組定義為第c′組，用Jc′表示第c′組中所包含的被試人數(shù)，因此，rj表示在r組中的被試j，Uirj為在r組中的被試j對項(xiàng)目i的反應(yīng)，設(shè)ws為被抄者(s)的錯誤項(xiàng)目數(shù)，對于每一個被試rj就有一個指示變量Airj，當(dāng)?shù)趓組中的被試j對項(xiàng)目i的反應(yīng)與s對項(xiàng)目i的反應(yīng)相同時，Airj=1，否則，Airj=0，設(shè)Mrj為被試rj與s錯誤答案匹配的數(shù)目，因此，Mrj=ΣAirj，因?yàn)樵谟嬎鉱指數(shù)時指出是哪一個被試所對應(yīng)的與抄襲來源的錯誤答案匹配數(shù)目是不必要的，以下將Mrj簡記為M，用二項(xiàng)分布近似的估計M的分布，數(shù)學(xué)表達(dá)式如(1)，

(1)

其中，ws為s錯誤回答的數(shù)目，mc′c為c與s做出相同錯誤反應(yīng)的數(shù)目，Pc′是第c′組中的被試與s做出相同錯誤反應(yīng)的平均數(shù)目在s做錯的項(xiàng)目數(shù)中所占比例。所以，k即是在偶然因素條件下的錯誤答案匹配比mc′c大的概率。當(dāng)k值較小時，c抄襲s的可能性較大。在求k的過程中，Holland建議用Qc′的分段線性回歸來估計Pc′，用數(shù)學(xué)表達(dá)式如(2)，

(2)

其中，Qc′表示c的錯誤反應(yīng)數(shù)占總項(xiàng)目數(shù)的比率，b恒大于零并隨考試類型的變化而隨之變化，但在Holland的研究中并沒有明確提出參數(shù)b的求取方法，在研究中，先將Qc′和Pc′的經(jīng)驗(yàn)值代入式(2)求對應(yīng)的b值，然后取這些值中的最大者作為調(diào)節(jié)變量b的值，由于該方法有別于Holland通過畫圖進(jìn)行估計的方式，因此通過這一方法求得的k另記為k*′。

實(shí)際上，k1、 k2主要在Pc′估計方法方面進(jìn)行了改進(jìn)，它們分別通過一次線性回歸和二次回歸來估計Pc′；并通過R2和RSE來評價回歸方程的有效性。

2.1.3g2

g2指數(shù)是s和c作出相同反應(yīng)的數(shù)目(hcs)的標(biāo)準(zhǔn)化，因此，該抄襲指標(biāo)的計算分三步：(1)求E(hcs)，(2)求σhcs2，(3)其標(biāo)準(zhǔn)化。具體計算過程如下：

(1)在計算期望時，假設(shè)s的作答反應(yīng)Us固定，隨后確定c與s選擇了相同答案的概率Pc(uis)，hcs的期望即為在考試所有項(xiàng)目n上的匹配概率之和，其數(shù)學(xué)表達(dá)式如(3)，

(3)

(2)因?yàn)楸辉噷?xiàng)目的回答只有正確和錯誤兩種，所以被試間的項(xiàng)目答案匹配服從二項(xiàng)分布，那么，s與c做出相同反應(yīng)的數(shù)目的方差如(4)，

(4)

(3)將hcs標(biāo)準(zhǔn)化即為g2的值，其數(shù)學(xué)表達(dá)式如(5)，

(5)

一般地，g2近似服從均值為0，標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布，因此，其值可用標(biāo)準(zhǔn)正態(tài)分布來進(jìn)行顯著性檢驗(yàn)，其值越大，c從s處抄襲答案的可能性就越大。

2.1.4錯同率

錯同率是指c與s都答錯并且選擇相同錯誤答案的項(xiàng)目數(shù)占s答錯項(xiàng)目數(shù)的比例，它基于經(jīng)驗(yàn)分布，其臨界值需要根據(jù)每個樣本分布來定。這一指標(biāo)是抄襲統(tǒng)計量中算法最簡單、操作最容易的一種方法，張穎的研究也證明，錯同率可以作為一種有效的抄襲識別統(tǒng)計量在實(shí)際考試情景中加以應(yīng)用，但是，正是由于該指標(biāo)的計算過于簡單，并沒有考慮到被試間的能力水平差異，也沒有用到除c和s外的被試樣本信息，可能會在一定程度上影響它的抄襲識別效能。

2.2實(shí)驗(yàn)設(shè)計

采用模擬實(shí)驗(yàn)比較k系列、g2及錯同率在已知被懷疑范圍的c、s和c、s均不確定的情況下的抄襲識別性能，實(shí)驗(yàn)考察的因素有7個：測驗(yàn)長度、樣本量大小、被抄襲者的能力水平、抄襲者的抄襲率、理論I型錯誤率、抄襲統(tǒng)計量及被懷疑對象是否確定。實(shí)驗(yàn)包括兩部分(1)實(shí)驗(yàn)一至實(shí)驗(yàn)五對應(yīng)具備被懷疑對象確定的情況；(2)實(shí)驗(yàn)六對應(yīng)被懷疑對象不確定的情況，具體設(shè)計如下：

實(shí)驗(yàn)一：測驗(yàn)長度對k系列、g2及錯同率的抄襲識別性能的影響，在具備被懷疑對象信息的情況下，將樣本量、被抄襲者的能力水平、抄襲者的抄襲率、理論I型錯誤率分別固定為500人、60百分等級、30%、0.01，考察測驗(yàn)長度對五種抄襲統(tǒng)計量的抄襲識別性能的影響。測驗(yàn)項(xiàng)目數(shù)分別?。?0(短)、80(中)、120(長)。

實(shí)驗(yàn)二：樣本量對k系列、g2及錯同率的抄襲識別性能的影響，在具備被抄襲對象信息的情況下，將測驗(yàn)長度、被抄者的能力水平、抄襲者的抄襲率、理論I型錯誤率分別固定為80題、60百分等級、30%、0.01，考察樣本量對五種抄襲統(tǒng)計量的抄襲識別性能的影響。測驗(yàn)人數(shù)分別取：200(少)、500(中)、1000(多)。

實(shí)驗(yàn)三：被抄者的能力水平對k系列、g2及錯同率的抄襲識別性能的影響，將測驗(yàn)長度、樣本量、抄襲者的抄襲率、理論I型錯誤率分別固定為80題、500人、30%、0.01，考察被抄者的能力水平對五種抄襲統(tǒng)計量的抄襲識別性能的影響。被抄襲者的能力水平分別?。?0百分等級(低)、90百分等級(高)。

實(shí)驗(yàn)四：抄襲者的抄襲率對k系列、g2及錯同率的抄襲識別性能的影響。將測驗(yàn)長度、樣本量、被抄襲者的能力水平、理論I型錯誤率分別固定為80題、500人、60百分等級、0.01，考察抄襲率對五種抄襲統(tǒng)計量的抄襲識別性能的影響。抄襲率分別取：10%(低)、30%(中)、50%(高)。

實(shí)驗(yàn)五：在不同的α水平下，k系列、g2及錯同率的抄襲識別性能。將測驗(yàn)長度、樣本量、被抄襲者的能力水平、抄襲者的抄襲率分別固定為80題、500人、60百分等級、30%，考察五種抄襲統(tǒng)計量在不同理論I型錯誤率下的抄襲識別性能。理論I型錯誤率由大到小分別取：0.01、0.008、0.006、0.004、0.002。

實(shí)驗(yàn)六：為了考察五種抄襲統(tǒng)計量在被懷疑對象不確定情況下的可行性，本實(shí)驗(yàn)設(shè)樣本量為500人、項(xiàng)目數(shù)為80題、被抄者的能力水平為60百分等級，計算在不同的理論I型錯誤率下，不同抄襲率下五種抄襲統(tǒng)計量的抄襲識別性能，并與被懷疑范圍確定情況下的識別性能作比較。

2.3實(shí)驗(yàn)方法

(1)采用Montecarlo模擬數(shù)據(jù)方法生成模擬數(shù)據(jù)。測驗(yàn)長度分別為40、80、120，樣本量分別為200、500、1000，共6種實(shí)驗(yàn)條件。用稱名反應(yīng)模型(nominalresponsemodel，NRM)生成被試模擬反應(yīng)矩陣。實(shí)驗(yàn)中，測驗(yàn)采用四選一多項(xiàng)選擇題，相應(yīng)地，每個項(xiàng)目分別生成4個區(qū)分度和難度，其區(qū)分度服從以0為均值，1為標(biāo)準(zhǔn)差的對數(shù)正態(tài)分布，難度服從標(biāo)準(zhǔn)正態(tài)分布，被試的能力水平也服從標(biāo)準(zhǔn)正態(tài)分布。每種實(shí)驗(yàn)條件重復(fù)模擬100次。

(2)按照被試的能力水平排序，確定被抄者s(隨機(jī)選取90百分等級和60百分等級的被試)，每一個數(shù)據(jù)文件對應(yīng)唯一的被抄者。

(3)在能力水平低于s的被試中隨機(jī)抽取5%的被試作為模擬抄襲者c。c在抄襲項(xiàng)目上的反應(yīng)通過如下步驟取得：從全部項(xiàng)目中隨機(jī)選取10%、30%、50%的項(xiàng)目，將c在這些項(xiàng)目上的反應(yīng)替換為s的反應(yīng)。

(4)區(qū)分度值最大的選項(xiàng)即為項(xiàng)目的正確答案，將被試的反應(yīng)與正確反應(yīng)進(jìn)行對比取得被試的得分矩陣，計算每個被試的正確及錯誤反應(yīng)數(shù)目，并根據(jù)被試錯誤反應(yīng)數(shù)目進(jìn)行分組，把錯誤數(shù)相同的被試分在同一組。

(5)在被懷疑對象確定的條件下，s不參與計算，實(shí)驗(yàn)?zāi)康脑谟谕ㄟ^比較其他被試與s的反應(yīng)矩陣找出抄襲者；在被懷疑對象不確定的條件下，s參與計算，實(shí)驗(yàn)?zāi)康脑谟谕ㄟ^被試間的兩兩比較找出抄襲者。

(6)各抄襲統(tǒng)計量的抄襲性能用經(jīng)驗(yàn)I型錯誤率(I)和識別率(P)來衡量，I型錯誤率即為被抄襲統(tǒng)計量誤判為抄襲者的被試在被試樣本量中所占比例，抄襲識別率即為被抄襲統(tǒng)計量識別出的抄襲者在抄襲者中所占比例。為降低隨機(jī)誤差，I、P均取100次實(shí)驗(yàn)的均值。

3研究結(jié)果

3.1被懷疑的被抄者確定

3.1.1實(shí)驗(yàn)一至實(shí)驗(yàn)四研究結(jié)果

表1　測驗(yàn)長度對五種抄襲統(tǒng)計量的抄襲識別性能的影響(α=0.01)

表2　樣本量對五種抄襲統(tǒng)計量的抄襲識別性能的影響(α=0.01)

表3　被抄者的能力水平(百分等級)對五種抄襲統(tǒng)計量的抄襲識別性能的影響(α=0.01)

表4　抄襲率對五種抄襲統(tǒng)計量的抄襲識別性能的影響(α=0.01)

3.1.2實(shí)驗(yàn)五研究結(jié)果

圖1　經(jīng)驗(yàn)I型錯誤率與抄襲識別率(500人、80題、60百分等級、抄襲30%)

3.2被懷疑的被抄者與抄襲者均未確定(實(shí)驗(yàn)六)

表5　被懷疑的被抄者是否確定對五種抄襲統(tǒng)計量的抄襲識別性能的影響(α=0.01)

表6　在無前期信息條件下，五種抄襲統(tǒng)計量的臨界值(經(jīng)驗(yàn)I型錯誤率設(shè)為0.01)

4結(jié)果討論

4.1被懷疑的被抄者已確定

4.1.1被試樣本、項(xiàng)目數(shù)、被抄者能力水平、抄襲率對抄襲識別效能的影響

表1表明，在被抄者的能力水平、抄襲者的抄襲率固定的情況下，隨著項(xiàng)目數(shù)的增加，無論是k系列指數(shù)、g2還是錯同率的抄襲識別率均不斷提高，經(jīng)驗(yàn)I型錯誤率變化不顯著；表2表明，在項(xiàng)目數(shù)、被抄者的能力水平及抄襲者的抄襲率固定的情況下，隨著被試樣本量的增加，五種抄襲統(tǒng)計量的抄襲識別率均不斷提高，經(jīng)驗(yàn)I型錯誤率略微降低；表3表明，在項(xiàng)目數(shù)、被試樣本、抄襲者的抄襲率固定的情況下，隨著被抄者能力水平的提高，五種抄襲統(tǒng)計量的抄襲識別率均不斷降低，經(jīng)驗(yàn)I型錯誤率不斷提高；表4表明，在項(xiàng)目數(shù)、被試樣本、被抄者的能力水平固定的情況下，隨著抄襲者抄襲率的提高，五種抄襲統(tǒng)計量的抄襲識別率均不斷提高，經(jīng)驗(yàn)I型錯誤率不斷降低。比較發(fā)現(xiàn)，抄襲率是對抄襲效能影響最大的因素，被抄者的能力水平、項(xiàng)目數(shù)次之，被試樣本量對抄襲統(tǒng)計量的抄襲效能影響最小。

4.1.2k系列指數(shù)、g2及錯同率的抄襲識別效能比較

表1至表4的研究結(jié)果還表明，(1)從經(jīng)驗(yàn)I型錯誤率來看，g2的經(jīng)驗(yàn)I型錯誤率是α水平的4倍以上，錯同率在除項(xiàng)目數(shù)最大(120個項(xiàng)目)、抄襲率最高(50%)的情況下，其經(jīng)驗(yàn)I型錯誤率均略高于α水平，k系列指數(shù)的經(jīng)驗(yàn)I型錯誤率均低于α水平，其中，k*′的經(jīng)驗(yàn)I型錯誤率幾乎全為0，這表明，用k*′進(jìn)行抄襲識別的準(zhǔn)確性最高，幾乎不存在將未抄襲者誤判為抄襲者的情況；k1、k2也能將誤判率控制在α水平以下；用錯同率進(jìn)行抄襲識別的誤判率與α水平基本相當(dāng)；只有g(shù)2的經(jīng)驗(yàn)I型錯誤率數(shù)倍于α水平，使得其抄襲識別的準(zhǔn)確性降低，存在將被試誤判為抄襲者的高風(fēng)險，因此，在將g2作為抄襲識別指標(biāo)時，應(yīng)設(shè)置更為嚴(yán)格的α水平，選取更大的指標(biāo)臨界值，以降低其將被試誤判為抄襲者的風(fēng)險。(2)從抄襲識別率來看，在同等條件下，g2的抄襲識別率最高，k2次之，k1略低于k2，錯同率第四，k*′最低。由于g2是這些抄襲統(tǒng)計量中唯一既考慮被試間的錯誤答案匹配又考慮正確答案匹配的指標(biāo)，能獲得更多被試間匹配的信息，因此，它更易于將抄襲者從被試樣本中甄別出來；前已述及，k系列指數(shù)的區(qū)別僅在于二項(xiàng)分布的參數(shù)P的求取方法的差異，k*′用分段線性函數(shù)求P，而分段線性函數(shù)的調(diào)節(jié)變量b選取了通過經(jīng)驗(yàn)P、Q求得的b值中的最大者，b越大，參數(shù)P越大，k*′的值越大，在臨界值不變的條件下，就越容易出現(xiàn)漏判抄襲者的情況，因此，k*′的抄襲識別率較低；k1、k2分別用線性函數(shù)和二次函數(shù)取代分段線性函數(shù)，通過分析兩回歸方程的R2和RSE可知，兩回歸方程均有效，相對而言，二次回歸模型擬合更優(yōu)，因此，k1、k2較k*′更不易出現(xiàn)漏判，相應(yīng)地，k2的抄襲識別率略高于k1；錯同率的計算相對簡單，也沒有將被試按能力進(jìn)行分組，可能會漏掉一些有用的信息，其抄襲識別率也較低。

4.1.3α水平對抄襲識別效能的影響

前已述及，經(jīng)驗(yàn)I型錯誤率是指將未抄襲者誤判為抄襲者的比例，因此，經(jīng)驗(yàn)I型錯誤率不高于α水平即表示該抄襲統(tǒng)計量能很好地控制I型錯誤，在抄襲者甄別中趨于保守估計，這也使得其抄襲識別率將會下降。圖1A和圖1B分別表示在被試樣本為500、項(xiàng)目數(shù)為80、被抄者的能力水平為60百分等級、抄襲率為30%情況下，各個抄襲統(tǒng)計量的經(jīng)驗(yàn)I型錯誤率和抄襲識別率，在圖1A中的分界線表示α水平和經(jīng)驗(yàn)I型錯誤率相等，可將五種抄襲統(tǒng)計量的經(jīng)驗(yàn)I型錯誤率連線與之比較，由圖可知，k系列指數(shù)的經(jīng)驗(yàn)I型錯誤率連線均在分界線之下，表明k系列指數(shù)將被試判定為抄襲者的標(biāo)準(zhǔn)很好，據(jù)此作出的被試抄襲判定非常謹(jǐn)慎；而錯同率和g2的經(jīng)驗(yàn)I型錯誤率連線均在分界線之上，相對而言，g2對應(yīng)連線向上遠(yuǎn)離分界線更多，表明g2在抄襲者甄別中趨于放松估計，其將被試判定為抄襲的標(biāo)準(zhǔn)較低，由于把未抄襲被試誤判為抄襲者對個體發(fā)展將產(chǎn)生非常嚴(yán)重的后果，因此，如前所述，在采用g2進(jìn)行抄襲甄別時應(yīng)設(shè)定更嚴(yán)格的α水平以降低其經(jīng)驗(yàn)I型錯誤率。圖1B直觀地顯示了五種抄襲統(tǒng)計量的抄襲識別率高低：g2的抄襲識別率最高，k1、k2的抄襲識別率也較高，錯同率和k*′的抄襲識別率較低，綜合考慮經(jīng)驗(yàn)I型錯誤率和抄襲識別率這兩個反映抄襲識別效能的指標(biāo)可知，k1、k2是較為理想的抄襲統(tǒng)計量。

4.2被懷疑的被抄者與抄襲者均未確定

4.2.1被懷疑的被抄者是否確定對抄襲識別效能的影響

表5表明，在同等條件(500人，80題，60百分等級，抄襲30%，α=0.01)下，當(dāng)被懷疑的被抄者與抄襲者均未確定時，五種抄襲統(tǒng)計量的經(jīng)驗(yàn)I型錯誤率和抄襲識別率均大幅提高，由此可知，將抄襲識別建立在已知被懷疑范圍的被抄者和抄襲者基礎(chǔ)上是非常重要的，據(jù)此做出的抄襲判定才具有較高的準(zhǔn)確性，若只能在被試樣本中進(jìn)行兩兩比較，而無法確定被懷疑的被抄者與抄襲者，五種抄襲統(tǒng)計量的抄襲識別效能均下降，據(jù)此將未抄襲被試誤判為抄襲者的風(fēng)險很大，因此，在這種情況下，五種抄襲統(tǒng)計量都需設(shè)置更嚴(yán)格的α水平，調(diào)整指標(biāo)臨界值，以降低誤判率，提高抄襲判定的準(zhǔn)確性和嚴(yán)謹(jǐn)性。

4.2.2五種抄襲統(tǒng)計量的臨界值

表6列出了在被試樣本為500、項(xiàng)目數(shù)為80、被試能力水平為60百分等級、抄襲率為30%條件下，將抄襲識別的經(jīng)驗(yàn)I型錯誤率設(shè)定在0.01左右時，各抄襲統(tǒng)計量的臨界值，由表6可知，當(dāng)將誤判率設(shè)定為0.01時，k系列指數(shù)的臨界值均縮小到小數(shù)點(diǎn)后第六位，其抄襲識別率均在0.3~0.4之間；錯同率的臨界值為0.5842，抄襲識別率最低，g2的臨界值為5.3，其抄襲識別率最高，達(dá)到了0.8以上。當(dāng)然，當(dāng)被試樣本、項(xiàng)目數(shù)、被試能力水平、抄襲率發(fā)生變化時，這些抄襲統(tǒng)計量的臨界值也會隨之變化，因此，針對跨區(qū)域的高科技團(tuán)伙作弊，需參照真實(shí)的被試作答數(shù)據(jù)規(guī)模，設(shè)定更為保守的臨界值，以達(dá)到不誤判每一個考生的目的。

5研究結(jié)論

采用蒙特卡洛模擬的方法進(jìn)行了k系列指數(shù)、g2、錯同率的抄襲識別效能比較實(shí)驗(yàn)研究。結(jié)果表明：(1)在被試樣本量、項(xiàng)目數(shù)、被抄者的能力水平、抄襲率四個因素中，抄襲率對抄襲識別效能的影響最大，被抄者的能力水平、項(xiàng)目數(shù)次之，被試樣本量的影響最??；(2)在上述因素相當(dāng)?shù)那闆r下，g2的抄襲識別經(jīng)驗(yàn)I型錯誤率遠(yuǎn)高于α水平，抄襲識別率也最高，k1、k2的經(jīng)驗(yàn)I型錯誤率遠(yuǎn)低于α水平，抄襲識別率較高，錯同率的經(jīng)驗(yàn)I型錯誤率略高于α水平，抄襲識別率較低，k*′的經(jīng)驗(yàn)I型錯誤率幾乎均為0，抄襲識別率最低；(3)在被懷疑的被抄者已確定的情況下，k1、k2的抄襲識別效能最高，是較理想的抄襲統(tǒng)計量；(4)在同等條件下，當(dāng)被懷疑的被抄者和抄襲者均未確定時，五種抄襲統(tǒng)計量的抄襲識別效能較被懷疑的被抄者已確定的情形均大幅下降；(5)在缺乏被懷疑者信息的情況下，需設(shè)定更為保守的指標(biāo)臨界值，以降低誤判風(fēng)險。

當(dāng)然研究是采用蒙特卡洛模擬的方法進(jìn)行的比較實(shí)驗(yàn)，實(shí)際考試的數(shù)據(jù)可能更加復(fù)雜，因此，結(jié)合真實(shí)考試數(shù)據(jù)對各個抄襲統(tǒng)計量的抄襲識別效能進(jìn)行比較是未來研究的方向；同時，限于篇幅，研究只討論了k系列指數(shù)、g2及錯同率的考試抄襲識別效能，對于s系列指數(shù)、kappa、個人擬合指數(shù)、人工神經(jīng)網(wǎng)絡(luò)等抄襲統(tǒng)計量的抄襲識別效能均未涉及，這些也有待于更進(jìn)一步的探討。

參考文獻(xiàn)

甘媛源，田金亭，余嘉元.(2012).兼顧兩種匹配的抄襲統(tǒng)計量研究評述.心理學(xué)探新，32(1)，86-90.

甘媛源，余嘉元，張穎，等.(2012).K系列指數(shù)在執(zhí)業(yè)醫(yī)師資格考試抄襲識別中的應(yīng)用.中國衛(wèi)生事業(yè)管理，10，760-761.

關(guān)丹丹，孫曉敏.(2009).考試抄襲識別的統(tǒng)計方法—kappa統(tǒng)計量.中國考試，11，8-13.

韓丹.(2009).考試抄襲識別的心理測量學(xué)研究.碩士論文.遼寧師范大學(xué).

胡艷.(2009).查作答抄襲的兩種新指標(biāo)的比較研究.碩士論文.江西師范大學(xué).

劉景玉，肖立宏.(2008).甄別多項(xiàng)選擇題考試中答案抄襲的不同方法的比較.考試研究，4(3)，90-101.

張穎，趙世明,等.(2002).多選題雷同的判定標(biāo)準(zhǔn)研究.考試研究，9，15-17.

Bay，L.G.(1995).Detectionofcheatingonmultiple-choicetestsexaminations.Annual Meeting of the American Educational Research Association.

Belov，I.D.(2010).Armstrong R D.Automatic detection of answer copying via kullback-leibler divergence and k-index.AppliedPsychologicalMeasurement，34(6),379-392.

Frary，R.B.(1997).Comparison of two indices of answer copying and development of a spliced index.EducationalandPsychologicalMeasurement，57(1)，20-32.

Holland，P.W.(1996).Assessingunusualagreementbetweentheincorrectanswersoftwoexamineesusingthekindex：Statisticaltheoryandempiricalsupport.Princeton，NJ：Education Testing Service.

Lewis，C.，& Thayer,D.T.(1998).Thepowerofthekindextodetect.Princeton，NJ：Education Testing Service.

Sotaridona,L.S.,& Meijer,R.R.(2002).Statistical properties of k-index for detecting answer copying.JournalofEducationalMeasurement，39,115-132.

Sotaridona,L.S.，& Van der Linden,W.J.(2006).Detecting answer copying when the regular response process follows a known response model.AppliedPsychologicalMeasurement，31(3),283-304.

Sotaridona,L.S.，Van der Linden,W.J.，& Meijer,R.R.(2006).Detecting answer copying using the kappa statistic.AppliedPsychologicalMeasurement，30,412-431.

van der Linden,W.J.(2009).A bivariate lognormal response-time model for the detection of collusion between test takers.JournalofEducationalandBehavioralStatistics，34(3),378-394.

Wollack,J.A.(2003).Comparison of answer copying indices with real data.MeasurementinEducation，40,189-205.

Wollack,J.A.(2004).Detecting answer copying on high-stakes tests.TheBarExaminer，73,35-45.

Comparision of Series ofk-index，g2-index，and

False Same Rate of Answer Copying

Gan Yuanyuan1，2，Yu Jiayuan2

(1.Jiangsu Agency for Educational Evaluation，Nanjing 210024；

2.Psychology Department，Nanjing Normal University，Nanjing 210097)

Abstract：In order to compare the power of answer copying detection of the answer copying statistics such as series of k-index，g2-index，and false same rate，the comparison experiment was carried out under various copying conditions，sample size，test length，source’s ability，and copier’s detection rate.Which one was the most influencing factor of their answer copying detection power and which one was the best answer-copying statistics were investigated.The results indicated the following：(1)among sample size，test length，source’s ability，and copier’s detection rate，the copier’s detection rate was the most influential factor of their answer-copying detection power，test length and source’s ability were the second ones，and sample size was the least one.(2)With the same sample size，test length，source’s ability，and copier’s detection rate，the empirical type I error rate of g2-index was above the nominal α level，and the detection rate of it was the highest；k1-index and k2-index were able to hold the empirical type I error rates below the nominal α level，and their detection rates were the second higher；the empirical type I error rate of k*′-index was close to 0，and its detection rate was the lowest；the empirical type I error rate of false same rate was slightly above the nominal α level，and its detection rate was the second lower.(3)k1-index and k2-index were the best answer-copying statistics when the source under suspicion was determined，because their powers of answer copying detection were the highest.(4)With the same sample size，test length，source’s ability，and copier’s detection rate，the powers of answer copying detection of series of k-index，g2-index，and false same rate were sharp decreased when the source and copier under suspicion were undetermined.(5)In order to reduce misjudgment risk，the conservative critical value of the answer-copying statistics would be determined when the examinees under suspicion were undetermined.

Key words：series of k-index；g2-index；false same rate；empirical type I error rate；detection rate

中圖分類號：B841.2

文獻(xiàn)標(biāo)識碼：A

文章編號：1003-5184(2015)05-0464-07

基金項(xiàng)目：*國家社會科學(xué)基金“十一五”規(guī)劃課題(BBA080050)。

心理學(xué)探新2015年5期

心理學(xué)探新的其它文章: 道德:刻板印象內(nèi)容的新維度＊; “大五”人格、依戀與青少年孤獨(dú)感的關(guān)系研究＊; 社會建構(gòu)論心理學(xué)：輪廓、流派和局限*; 一種新的多維IRT模型——高階IRT模型; 中小學(xué)教師勝任力迫選式測驗(yàn)的編制及應(yīng)用*; 探索性因子分析中主軸法下的平行分析

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

k系列指數(shù)、g2、錯同率的抄襲識別效能比較研究*

k系列指數(shù)、g2、錯同率的抄襲識別效能比較研究*