張忠 宋繼紅 付笑晗
摘 要:近年來,隨著眾包的發(fā)展,對工作者的準(zhǔn)確率估計越來越受到關(guān)注。而作為一種特殊的眾包形式,學(xué)生互評也被MOOC平臺(大規(guī)模開放式在線課程)廣泛應(yīng)用。本篇文章研究MOOC課程中的在線互評機(jī)制,通過結(jié)合學(xué)生互評質(zhì)量與學(xué)生的學(xué)習(xí)能力對其互評能力做出估計,以此設(shè)計互評分配算法。通過更精準(zhǔn)地分配互評任務(wù),得到更符合學(xué)生作業(yè)質(zhì)量情況的互評結(jié)果。
關(guān)鍵詞:MOOC;推薦互評;眾包;質(zhì)量控制;分配算法
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
Abstract:In recent years,with the rapid development of crowd-sourcing,estimating the precision ratio of crowd workers has attracted more and more attention.As a special form of crowd-sourcing,peer grading has been used by most of Massive Open Online Courses (MOOCs).This paper studies peer grading mechanism in MOOCs,and estimates students' peer grading ability through a combination of their peer assessment and study ability,so as to design an allocation algorithm and achieve more accurate results in compliance with students' works by means of more accurate assignments of peer assessment.
Keywords:MOOC;peer grading;crowd-sourcing;quality control;allocation algorithm
1 引言(Introduction)
近年來,隨著大型在線開放課程MOOC平臺的流行,使得越來越多的人可以通過觀看視頻的形式學(xué)習(xí)具有大學(xué)水平的在線課程。然而,新型互聯(lián)網(wǎng)科技雖然可以讓學(xué)生獲取視頻資源,同時也使得對學(xué)生給出的復(fù)雜的、開放式的作業(yè)進(jìn)行評估和反饋的能力大大受限,例如數(shù)學(xué)證明、設(shè)計問題和文章等形式的作業(yè)[1]。相比較于學(xué)校中常規(guī)的課程,MOOC課程的規(guī)模是非常大的,每個課程通常超過20000名學(xué)生,因此,學(xué)生直接互評作業(yè)機(jī)制的引入勢在必行[2]。
同學(xué)間的互評之所以受到質(zhì)疑和挑戰(zhàn),是因為學(xué)生的知識和能力與教師存在很大的差距,因此把單純而隨機(jī)地通過給學(xué)生分配互評任務(wù)得到的互評評價結(jié)果作為課程的反饋在一定程度上會遭到學(xué)生的質(zhì)疑。而在大規(guī)模的在線課程中,學(xué)生的能力、語言又不盡相同,這可能給學(xué)生的互評帶來新的挑戰(zhàn)[3]。因此,本文的主要思路是在沒有黃金標(biāo)準(zhǔn)[4]的條件下,結(jié)合學(xué)生以往的互評工作經(jīng)驗對學(xué)生的評價能力進(jìn)行估計,并設(shè)計互評分配算法。
2 互評質(zhì)量控制的簡述(Overview of quality control of peer grading)
學(xué)生互評本質(zhì)上是一種眾包,而眾包是一種將任務(wù)通過互聯(lián)網(wǎng)外包給個人的方法。這種方法將具有特殊需求的任務(wù)分布式地發(fā)放出去,其目的是結(jié)合群眾的智慧。然而眾包之所以受到很多爭議,正是由于參與眾包任務(wù)的工作者大多不是專業(yè)人士。如果任務(wù)涉及了專業(yè)的知識,那么并不能保證工作者們給出的結(jié)果的準(zhǔn)確性[5]。
目前,三大MOOC平臺之一的Coursera已經(jīng)將互評機(jī)制引入課程學(xué)習(xí)的過程中。學(xué)生的作業(yè)全部需要上傳到服務(wù)器,每個作業(yè)包含一個評估準(zhǔn)則,它描述了該作業(yè)的打分標(biāo)準(zhǔn)[6]。在學(xué)生評閱之前,工作人員大約需要完成12份作業(yè)的評閱工作,其中8份用來對每個學(xué)生進(jìn)行訓(xùn)練,剩下的4份用來估計學(xué)生評閱的準(zhǔn)確率。學(xué)生在每個作業(yè)的評閱過程都包含兩個階段:校正和評價。
在學(xué)生完成校正過程后,便開始正式的評閱過程。在此過程中,學(xué)生會被分配五份作業(yè)進(jìn)行評閱。但學(xué)生不知道這五份作業(yè)中的一份是工作人員所評閱過的作業(yè),這份作業(yè)用來對學(xué)生評閱的準(zhǔn)確度進(jìn)行評估。綜上所述,每個學(xué)生會收到四份隨機(jī)分配的其他同學(xué)的作業(yè),以及一份與工作人員共同評閱的作業(yè)。本算法應(yīng)用于在線互評系統(tǒng)中,將學(xué)生評閱質(zhì)量估計與學(xué)習(xí)能力結(jié)合起來進(jìn)行學(xué)生評閱作業(yè)的分配,實現(xiàn)以更小的評閱數(shù)目得到更準(zhǔn)確的評閱結(jié)果。
3 評閱質(zhì)量估計方法及實驗分析(Estimation method and experiment analysis on Quality of Peer Grading)
3.1 問題定義
每次發(fā)布的作業(yè)會有k個評分標(biāo)準(zhǔn),而每個評分標(biāo)準(zhǔn)又分為m個不同的評分。因此每個學(xué)生對某一作業(yè)給出的反饋為一組k維的向量S,而每份作業(yè)又會交給隨機(jī)選擇的n個人進(jìn)行評閱,那么作業(yè)ti得到的反饋為一個由n個向量組成的集合,用表示該集合:
為作業(yè)ti得到的學(xué)生s1的評分。為中的第k個元素,則表示集合中每個向量的第k個元素組成的集合:
3.2 學(xué)生能力估計
在所有學(xué)生都完成評閱之后,我們可以得到由學(xué)生的評閱數(shù)據(jù)所產(chǎn)生的集合。若想對學(xué)生的評閱質(zhì)量進(jìn)行估計,那么需要得到每個作業(yè)的各標(biāo)準(zhǔn)分?jǐn)?shù)。由于互評的特點(diǎn),自身能力較強(qiáng)的同學(xué)傾向于給出較平均分更低的結(jié)果,而能力較弱的同學(xué)又有很大的幾率給出較平均分更高的結(jié)果[1]。每份作業(yè)的評閱者都會包含能力較強(qiáng)和較弱的學(xué)生,因此我們需要在n個評閱結(jié)果中將最高分和最低分去除,以將偏差較大的數(shù)據(jù)點(diǎn)去除。
定義1 表示作業(yè)ti的標(biāo)準(zhǔn)分?jǐn)?shù),則有:
其中為的第k個標(biāo)準(zhǔn)所得分?jǐn)?shù),是由集合所有向量的第k個元素的集合去除最大值和最小值后取均值得出。對所有k∈(1,n)進(jìn)行計算后可以得到一個n維向量,則將該向量作為作業(yè)ti的標(biāo)準(zhǔn)分?jǐn)?shù),我們以此分?jǐn)?shù)向量各元素的和來代表上傳了作業(yè)ti的學(xué)生s的能力估計值as,既:
3.3 評價質(zhì)量估計
在前面介紹了對學(xué)生能力估計的方法,所得到的估計值結(jié)果質(zhì)上是作業(yè)ti的標(biāo)準(zhǔn)分?jǐn)?shù),那么只要計算某學(xué)生給出的作業(yè)ti的評分與標(biāo)準(zhǔn)分?jǐn)?shù)之間的偏差,便可以對學(xué)生的評價質(zhì)量進(jìn)行估計。
而計算該偏差需要選取適當(dāng)?shù)木嚯x函數(shù)。歐氏距離和余弦相似度被廣泛應(yīng)用于計算用戶評分的相似度。但是余弦相似度函數(shù)只能判斷出兩個評分方向上的相似程度,而無法識別距離上的相似程度。因此,我們選用歐氏距離來計算學(xué)生評分與標(biāo)準(zhǔn)得分之間的相似度。設(shè)兩個向量、的相似度為:
則學(xué)生si對作業(yè)ti評價的偏差為。由于每份作業(yè)會被n名同學(xué)評閱,為了保證平均分配,那么每個學(xué)生同樣需要評閱n份作業(yè)。即只要綜合學(xué)生評閱的n份作業(yè)的偏差均值便可以求得學(xué)生評閱的總體偏差。
定義2 設(shè)為學(xué)生s的總體偏差,則有:
3.4 歸一化和排序
依據(jù)3.2節(jié)和3.3節(jié)中所敘述的方法,我們可以分別計算出學(xué)生s的評價質(zhì)量估計值ds和學(xué)習(xí)能力估計值as。但所得ds和as的標(biāo)量卻并不相同,因此并不能將兩個估計值簡單相加和比較,而是需要依據(jù)各自的范圍區(qū)間分別對兩個值進(jìn)行歸一化,將兩個標(biāo)量映射到一個相同的范圍,以產(chǎn)生相互可比較的結(jié)果。
由于所有學(xué)生完成某次課程作業(yè)的互評工作后,評閱數(shù)據(jù)已經(jīng)不再變動,即不會再有新生成的數(shù)據(jù)集加入,因此我們可以采用離差標(biāo)準(zhǔn)化的方法的同時將ds和as歸一化。用D代表所有學(xué)生的評價質(zhì)量估計值d所產(chǎn)生的集合,則對學(xué)生s的歸一化方法如式(5)所示:
(5)
同理,對as采用相同的方法歸一化后,便可通過賦予相應(yīng)的線性系數(shù)加權(quán)產(chǎn)生本次作業(yè)的評閱估計值es:
(6)
在MOOC中,由于在一門課程的學(xué)習(xí)周期中教師會布置多次作業(yè),若只考慮學(xué)生單次的評閱偏差,并不能準(zhǔn)確地反映學(xué)生的真實能力。因此本文采用跟蹤評閱質(zhì)量的方法對學(xué)生的互評能力進(jìn)行估計。將本次的評閱結(jié)果估計值和以往作業(yè)的估計值賦予一定的權(quán)值后結(jié)合起來,形成該學(xué)生的總體評閱估計值。用Sk代表學(xué)生s在完成第k次作業(yè)的評閱后得到的估計值es。
3.5 分層評閱
根據(jù)求得的總體估計值es,我們可以得到學(xué)生的評閱結(jié)果排名R。設(shè)某次作業(yè)參與評閱的學(xué)生總數(shù)為n。首先,在R中選取排名靠前的k個學(xué)生作為上層學(xué)生,其他的學(xué)生作為下層學(xué)生,則我們的目的是盡可能地將上層學(xué)生和下層學(xué)生按比例分配作為每份作業(yè)的評閱者,即假設(shè)每份作業(yè)的評閱人數(shù)為m,那么對于任意提交的作業(yè),我們要選取或名上層學(xué)生來評閱。例如每份作業(yè)要求10人來評閱,而我們從排名中選取前60%的學(xué)生作為上層學(xué)生,則每份作業(yè)應(yīng)該由6名上層學(xué)生和4名下層學(xué)生評閱。
在整個分配的過程中,我們采用了同班級回避的方法。因為如果不采取這樣的策略,那么可能會存在同一個班級甚至同一個寢室的學(xué)生相互評閱。若學(xué)生在完成作業(yè)的過程中存在相互討論的情況,那么會影響最終評閱的準(zhǔn)確性。
(1)實驗數(shù)據(jù)集描述
在本實驗中,我們共計選取789名學(xué)生參加此次實驗。這些學(xué)生共同參與大學(xué)計算機(jī)相關(guān)課程,共有48課時,經(jīng)歷12周完成教學(xué)任務(wù)。其中在課程中期依次布置三次作業(yè):數(shù)據(jù)處理作業(yè)、圖片處理作業(yè)和科技論文寫作。數(shù)據(jù)集統(tǒng)計見表1。
(2)實驗過程
每次作業(yè)的評閱過程中,對學(xué)生提交的作業(yè)會分配10名學(xué)生進(jìn)行評閱。而每次作業(yè)會由教師根據(jù)課程的需要制定7—10個評分標(biāo)準(zhǔn),學(xué)生會根據(jù)作業(yè)的完成質(zhì)量在評閱時對每個評分標(biāo)準(zhǔn)給出0—5的打分。
在課程的第一次作業(yè)中,老師會將課程的作業(yè)發(fā)布在網(wǎng)上。然后通過班級回避的隨機(jī)分配算法分配學(xué)生之間的評閱關(guān)系。最后,學(xué)生登錄互評系統(tǒng)并完成在線評閱。整個過程是單盲實驗,學(xué)生既無法知道他所評閱的作業(yè)來自哪一位同學(xué),又無法知道自己的作業(yè)被哪些同學(xué)評閱。這會盡量使得學(xué)生給出的評閱分?jǐn)?shù)不存在作弊的行為。第一次作業(yè)所得到的結(jié)果作為下一次作業(yè)分配算法的輸入數(shù)據(jù)。
在第二次作業(yè)中,為了直觀地比較實驗結(jié)果,我們通過學(xué)號把這些學(xué)生分為四組,其中第一組不做任何特殊的處理,只是依據(jù)班級回避的策略進(jìn)行隨機(jī)分配。而第二、三、四組學(xué)生使用第一次作業(yè)的評閱結(jié)果作為上述分層評閱的分配算法的輸入數(shù)據(jù),對學(xué)生進(jìn)行排序和分配。其中第二組學(xué)生依據(jù)第一次作業(yè)的評閱結(jié)果,選取60%的學(xué)生作為上層學(xué)生;第三組選取70%的學(xué)生作為上層學(xué)生;第四組選取80%的學(xué)生作為上層學(xué)生。而代表學(xué)生能力估計和評價能力所占比重的權(quán)值k1和k2則各設(shè)置為0.5。
而在第三次作業(yè)中,仍然沿用第二次作業(yè)的分組方法進(jìn)行評閱分配,但與其不同的是將前兩次作業(yè)的評閱估計結(jié)果作為輸入數(shù)據(jù),實現(xiàn)迭代的計算過程。由于相比較來說,學(xué)生當(dāng)次作業(yè)的評閱結(jié)果要比之前的評閱結(jié)果更為重要,因此我們設(shè)置權(quán)值a1=0.25,a2=0.75。
(3)實驗結(jié)果
得到學(xué)生的評閱結(jié)果后,我們通過計算每個學(xué)生各個評分標(biāo)準(zhǔn)所得所有分?jǐn)?shù)的均值作為該標(biāo)準(zhǔn)所得的最終分?jǐn)?shù)。設(shè)學(xué)生s1對學(xué)生s2的某一評分標(biāo)準(zhǔn)t1的評分為g1,s2的t1標(biāo)準(zhǔn)的最終得分為g,用ε表示該分?jǐn)?shù)的偏差,則ε=g1-g。假設(shè)某學(xué)生的某個標(biāo)準(zhǔn)的最終得分為3.8分,那么無論是4或5分都是正確的分?jǐn)?shù),即|ε|<1。因此,我們可以根據(jù)所有學(xué)生評閱的打分情況統(tǒng)計出其中給出正確結(jié)果的學(xué)生票數(shù)的比例。更高的正確比例代表著這組學(xué)生有著更為一致的評閱結(jié)果,其評閱準(zhǔn)確程度也會更高。實驗結(jié)果詳見表2和表3。
可以看出在根據(jù)第一次作業(yè)計算排名后所分出的排名靠前的學(xué)生相比較靠后的學(xué)生普遍具有更高的一致性。其中將上層學(xué)生的百分比設(shè)置為60%時取得了較好的結(jié)果,|ε|<1的比例相差5.9%,而當(dāng)選取80%的學(xué)生作為上層學(xué)生時,該比例相差3.6%。
而在第三次作業(yè)的評閱中,由于結(jié)合了第二次的評閱結(jié)果估計值以及當(dāng)前的評閱情況,因此產(chǎn)生了好的結(jié)果??梢钥闯?,設(shè)置60%的上層學(xué)生依然產(chǎn)生了最好的結(jié)果,上層學(xué)生和下層學(xué)生|ε|<1的比例相差17.7%,而相差最小的是按照7:3分配上下層學(xué)生的9%,大于第二次作業(yè)中的相差的最大值5.9%。這說明結(jié)合以往的估計值會大大提升算法的魯棒性,可以更好地識別出評閱更為準(zhǔn)確的學(xué)生。而將上層學(xué)生和下層學(xué)生的比例設(shè)置為6:4時得到了最好的結(jié)果,因而可以看出算法對評閱
4 結(jié)論(Conclusion)
本文通過結(jié)合學(xué)生評閱能力和學(xué)習(xí)能力來對互評中學(xué)生的評閱準(zhǔn)確性做出估計,準(zhǔn)確地識別出評閱工作中的上層學(xué)生和下層學(xué)生。在后續(xù)的工作中,我們將研究如何通過算法所產(chǎn)生的估計值轉(zhuǎn)化為對學(xué)生評閱準(zhǔn)確率的估計,進(jìn)而將此算法應(yīng)用于更為一般的眾包系統(tǒng)中,實現(xiàn)對眾包工作者的工作能力估計,以及實現(xiàn)使用更少的上層眾包工作者來實現(xiàn)較為準(zhǔn)確的結(jié)果,以此來降低發(fā)布眾包任務(wù)的成本。
參考文獻(xiàn)(References)
[1] Kulkarni.C,Wei K.P,Le H.Peer and self assessment in massive online classes[J].ACM Transactions on Computer-Human Interaction,2013(39):1-32.
[2] Joglekar.M,Garcia-Molina.H,Parameswaran.A.Evaluating the crowd with confidence[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2013:686-694.
[3] Guo.S,Parameswaran.A,Garcia-Molina.H So who won?:dynamic max discovery with the crowd[C].ACM SIGMOD International Conference on Management of Data.ACM,2012:385-396.
[4] Welinder.P,Perona.P.Online crowdsourcing:Rating annotators and obtaining cost-effective labels[C].Computer Vision and Pattern Recognition Workshops.IEEE,2010:25-32.
[5] Bellare.K,Iyengar.S,Parameswaran.A,et al.Active Sampling for Entity Matching with Guarantees[J].ACM Transactions on Knowledge Discovery from Data,2013,7(3):12.
作者簡介:
張 忠(1990-),男,碩士生.研究領(lǐng)域:推薦系統(tǒng).
宋繼紅(1963-),女,碩士,副教授.研究領(lǐng)域:計算機(jī)網(wǎng)絡(luò)通信,計算機(jī)網(wǎng)絡(luò)遠(yuǎn)程控制,嵌入式技術(shù).
付笑晗(1990-),男,碩士,工程師.研究領(lǐng)域:大數(shù)據(jù)信息安全.