王平
基于AP聚類分析的學(xué)生成績評價研究
王平
高校數(shù)據(jù)中心中存儲了大量的學(xué)生成績數(shù)據(jù),開展深入的數(shù)據(jù)挖掘分析對于提高教學(xué)質(zhì)量具有重要意義,因此,提出了一種基于仿射傳播(AP)聚類的學(xué)生成績評價方法。首先,對數(shù)據(jù)進行預(yù)處理,然后,利用仿射傳播聚類技術(shù)對數(shù)據(jù)進行自動聚類分析,獲得學(xué)生成績的聚類中心和分布情況,以此為基礎(chǔ)給出學(xué)生成績的合理評價。通過對某專業(yè)第一學(xué)期學(xué)生成績的分析結(jié)果表明,其方法能夠更為合理的評價學(xué)生的成績分布情況,有助于教學(xué)質(zhì)量的提高和改善。
仿射傳播;聚類分析;綜合評價;學(xué)生成績分析
近年來,隨著高校信息化建設(shè)的深入開展,高校數(shù)據(jù)中心中存儲了越來越多的教學(xué)數(shù)據(jù)。然而,目前的信息化建設(shè)往往側(cè)重于教學(xué)數(shù)據(jù)的收集、報表和存儲,忽視對這些數(shù)據(jù)的自動深入挖掘分析。實際上,這些教學(xué)數(shù)據(jù)是教學(xué)過程信息的真實記錄,反映了教學(xué)過程的實時狀態(tài),對其開展深入的數(shù)據(jù)挖掘分析具有重要意義。
學(xué)生成績是評估教學(xué)質(zhì)量和評價學(xué)生學(xué)習(xí)效果的重要依據(jù)。傳統(tǒng)的優(yōu)良等級劃分制可以簡便直接的劃定學(xué)生成績的分布區(qū)域,但是,無法體現(xiàn)不同課程之間的成績評定差異。如何科學(xué)、合理的評價學(xué)生的成績,為后續(xù)的學(xué)生管理和教學(xué)改進提供基礎(chǔ)信息,是值得深入研究和思考的問題。
針對上述問題,本文提出一種基于仿射傳播(AP)聚類分析的學(xué)生成績綜合分析方法。該方法通過數(shù)據(jù)預(yù)處理技術(shù)消除不同課程成績之間的尺度差異,然后對所有學(xué)生數(shù)據(jù)進行聚類分析,獲取學(xué)生成績的聚類中心和分布情況,解讀學(xué)生成績內(nèi)在的蘊含信息,進而給出學(xué)生成績分布的合理評價。
目前對學(xué)生成績的評價方式大都是依據(jù)卷面分?jǐn)?shù)進行的,根據(jù)不同的分?jǐn)?shù)段來劃分優(yōu)、良等級[1-2],例如,將劃分標(biāo)準(zhǔn)統(tǒng)一定為成績90分以上為優(yōu)秀,80-90分為良好等。這種評價方式的優(yōu)點是操作簡單,易于處理,對各分?jǐn)?shù)段的情況一目了然,缺點是由于劃分標(biāo)準(zhǔn)統(tǒng)一,當(dāng)所有學(xué)生成績都偏高或都偏低的時候,再簡單的以90分或80分劃分優(yōu)秀或良好,則有失偏頗。例如,某次考試中所有學(xué)生的成績都低于90分,則應(yīng)將劃分標(biāo)準(zhǔn)進行調(diào)整,可將80分以上定為優(yōu)秀。同時,上述評價方式不利于不同班級不同任課教師間的橫向比較,例如,同一門課程有不同教師任教,其中某位教師要求嚴(yán)格、評分標(biāo)準(zhǔn)高,則可能會導(dǎo)致學(xué)生成績整體偏低。如果仍然以上述簡單的處理方式進行評價,不但不能合理有效的評價學(xué)生的學(xué)習(xí)情況,也不能客觀公正的評價教師的教學(xué)效果。
鑒于此,近些年一些研究人員開始開展基于聚類分析的學(xué)生成績綜合評價研究。聚類分析[3]是將研究對象根據(jù)其自身屬性,按照某種規(guī)律分到不同的類或者簇的統(tǒng)計分析技術(shù),所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的差異性。如果聚類分析的研究對象是學(xué)生成績,那么聚類分析中的每個簇就是一個成績?nèi)海幱诿總€簇中心的數(shù)據(jù)就是該成績?nèi)旱闹行某煽?,而這些中心成績就可以作為學(xué)生成績等級劃分的參考標(biāo)準(zhǔn)之一。因此,基于聚類分析的學(xué)生成績劃分不再是統(tǒng)一標(biāo)準(zhǔn)的絕對劃分,而是根據(jù)中心成績修改標(biāo)準(zhǔn)的相對劃分,評價結(jié)果會更加合理,符合實際。
目前的分析方法主要有K-means聚類分析方法、模糊C均值聚類方法等。這些算法對于離散和噪聲數(shù)據(jù)比較敏感,聚類之前必須預(yù)先設(shè)定初始聚類中心和聚類數(shù)目,參數(shù)選擇的好壞直接影響到聚類結(jié)果的優(yōu)劣。
仿射傳播(Affinity Propagation,AP)聚類算法[4]是2007年由Frey等人在SCIENCE上提出的一種新的聚類算法。與傳統(tǒng)的聚類算法不同,AP聚類算法無需提前指定聚類中心初值和數(shù)目,而是通過算法優(yōu)化自行尋找類別中心。
該聚類算法的原理[5-8]是根據(jù)數(shù)據(jù)點之間的相似度進行聚類,其相似度的測度指標(biāo)一般采用歐氏距離,相似度值越大說明點與點的距離越近。令數(shù)據(jù)集 ,n為數(shù)據(jù)點的個數(shù), ( )為一個數(shù)據(jù)點。AP聚類算法以 n個數(shù)據(jù)點之間的相似度矩陣 為基礎(chǔ)進行聚類,則相似度的計算公式如公式(1):
AP算法中傳遞兩種類型的消息:吸引度r(i,k)表示從點i發(fā)送到候選聚類中心k的數(shù)值消息,反映k點作為i點的聚類中心的適合程度;歸屬度a(i,k)則從候選聚類中心k發(fā)送到i的數(shù)值消息,反映i點選擇k作為其聚類中心的適合程度。吸引度r(i,k)與歸屬度a(i,k)越強,則k點作為聚類中心的可能性就越大,并且i點隸屬于以k點為聚類中心的聚類的可能性也越大。AP算法通過迭代過程不斷更新每一個點的吸引度和歸屬度值,直到產(chǎn)生m個高質(zhì)量的聚類中心,同時,迭代次數(shù)超過最大值或者聚類中心連續(xù)多少次迭代不發(fā)生改變,此時將其余的數(shù)據(jù)點分配到相應(yīng)的聚類中,這m個聚類中心即是聚類結(jié)果。吸引度r(i,k)與歸屬度a(i,k)如公式如(1)~(2):
在消息傳遞過程中有兩個重要參數(shù),其中一個是參考度p(k),它是以S矩陣的對角線上的數(shù)值s(k,k)作為k點能否成為聚類中心的評判標(biāo)準(zhǔn),該值越大,這個點成為聚類中心的可能性也就越大,聚類的數(shù)量也會受到參考度p(k)的影響。如果取相似度的均值作為p(k)的值,得到聚類數(shù)量是中等的。如果取相似度的最小值,就會得到類數(shù)較少的聚類。如果認(rèn)為每個數(shù)據(jù)點都有可能作為聚類中心,那么p就應(yīng)該取相同的值。
由公式(2)-(4)可以看出,當(dāng) 較大使得 較大時, 也較大,從而類代表k作為最終聚類中心的可能性較大。因此,增大或減小 可以增加或減少AP輸出的聚類數(shù)目。
消息傳遞過程中的另一個重要參數(shù)是阻尼因子 ,它在迭代過程中針對r與a的更新,改進收斂性。每次迭代,吸引度 和歸屬度 要與上一次的 和 進行加權(quán)更新。如公式如(5)、(5):
3.1 數(shù)據(jù)采集
從學(xué)校信息化建設(shè)的共享數(shù)據(jù)庫中抽取我校2011級某專業(yè)4個班級121位學(xué)生在大學(xué)第一學(xué)期的課程成績數(shù)據(jù)進行分析,如表1所示:
表1 某專業(yè)大一學(xué)生的第一學(xué)期成績
3.2 數(shù)據(jù)的預(yù)處理
在一般的成績統(tǒng)計評價中,人們習(xí)慣使用原始卷面分?jǐn)?shù)來評價學(xué)生的課程成績。然而,原始卷面成績具有絕對性,即不同課程相同成績可能代表了不同的學(xué)生能力,所以原始成績無法真實反映某學(xué)生個體在學(xué)生群體中的差異性。如兩門課程A、B平均分分別為70、80,如果某學(xué)生兩門課程的成績均為75分,顯而易見,該學(xué)生在A課程的評價等級應(yīng)該高于B課程,這是從原始卷面成績上反應(yīng)不出來的。這個問題是由不同課程的考評尺度不一致而決定的,所以在對學(xué)生成績進行評價時有必要進行一定的預(yù)處理。
本文采用的數(shù)據(jù)預(yù)處理如公式(8):
公式(8)中, 、 分別為某學(xué)生的原始成績、標(biāo)準(zhǔn)化成績, 、 為原始成績的樣本均值和樣本標(biāo)準(zhǔn)差。
3.3 AP聚類結(jié)果
將AP聚類算法應(yīng)用于學(xué)生成績的評價分析中,具體工作過程如下:先計算n個點之間的相似度,將該值放在S矩陣中,再合理選取p值,并設(shè)置一個最大迭代次數(shù)(文中設(shè)默認(rèn)值為1000),迭代過程開始后,計算每一次的r值和a值,根據(jù) 與 之和來判斷是否為聚類中心(文中指定當(dāng) 時認(rèn)為是一個聚類中心)。
以體育課和高等數(shù)學(xué)課的成績?yōu)槔?,使用AP聚類算法后,結(jié)果分別如表1和表2所示:
表1 體育AP聚類結(jié)果
表2 高等數(shù)學(xué)AP聚類結(jié)果
3.4 對比結(jié)果討論
對體育課和高等數(shù)學(xué)課的成績進行等級分類,結(jié)果如表3和表4所示:
表3 體育等級分類結(jié)果
表4 高等數(shù)學(xué)等級分類結(jié)果
從表3可以看出,體育課的成績普遍偏高,所有人的成績都在70分以上。從表4可以看出,高等數(shù)學(xué)課的成績分布相對寬泛,70分以下有40人。因此,同樣的分?jǐn)?shù)對于高等數(shù)學(xué)和體育課具有不同的評價意義。如某同學(xué)體育課為80分,高等數(shù)學(xué)也為80分。按照傳統(tǒng)的等級劃分法,該同學(xué)的兩門課均為B類,這明顯是不合理的,因為100多人的體育課成績高于80分,只有50人的高數(shù)課成績高于80分。單純的以分?jǐn)?shù)絕對值衡量某同學(xué)的學(xué)習(xí)過程和結(jié)果顯然是不合理的。
按照AP聚類結(jié)果,體育課成績80分只能劃到D類中,高等數(shù)學(xué)課成績80分卻可以劃到B類中,這個結(jié)果明顯更為合理。因此,經(jīng)過AP聚類算法處理后,能夠更加準(zhǔn)確合理的描述成績的分布情況。
利用AP聚類分析不但可以對單門課程的成績進行合理評價,還可以對多門課程成績進行關(guān)聯(lián)分析。以高等數(shù)學(xué)和英語為例,將這兩門課聯(lián)合在一起進行聚類分析。我們可以發(fā)現(xiàn)聚類結(jié)果也有5種情形,如表5所示:
表5 綜合考慮兩門課程的AP聚類結(jié)果
A類學(xué)生數(shù)學(xué)和外語成績均比較理想,占總?cè)藬?shù)的19.01%;B類學(xué)生數(shù)學(xué)較好,但是外語略差,占總?cè)藬?shù)25.62%;C類學(xué)生數(shù)學(xué)較差,外語較好,占總?cè)藬?shù)21.49%;D類學(xué)生數(shù)學(xué)稍好,但是外語非常不好,占總?cè)藬?shù)15.7%;E類學(xué)生數(shù)學(xué)外語都比較差,占總?cè)藬?shù) 18.18%。在后續(xù)的學(xué)生管理中,教學(xué)輔導(dǎo)員和指導(dǎo)教師應(yīng)該更加關(guān)注D類和E類的學(xué)習(xí)情況。
本文基于AP聚類算法對學(xué)生成績進行評價,通過分析得出此方法可有效消除不同課程成績之間的尺度差異,獲得的評價結(jié)果更為客觀、合理。與傳統(tǒng)的聚類算法不同,AP聚類算法無需提前指定聚類中心初值和數(shù)目,而是通過算法優(yōu)化自行尋找類別中心,它能在很短的時間內(nèi)發(fā)現(xiàn)帶有更低誤差的聚類結(jié)果。在學(xué)生原始卷面成績一樣或者差別較小的情況下,也可以根據(jù)成績分布情況合理的進行評價,解決了不同任課教師標(biāo)準(zhǔn)不一帶來的評價不公的問題。
[1] 樊同科,孫姜燕.基于數(shù)據(jù)挖掘的高校學(xué)生學(xué)習(xí)成績分析應(yīng)用研究[J].計算機與現(xiàn)代化,2013,(3):82-84.
[2] 于寧.聚類分析方法在學(xué)生信息管理系統(tǒng)中的應(yīng)用[D].青島:中國海洋大學(xué),2010:45-51.
[3] 張秀梅,王濤.模糊聚類分析方法在學(xué)生成績評價中的應(yīng)用[J].渤海大學(xué)學(xué)報(自然科版),2007,28(2):169-172.
[4] FreyBJ,DueckD.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.
[5] 李雅芹,楊慧中.基于仿射傳播聚類和高斯過程的多模型建模方法[J].計算機與應(yīng)用化學(xué),2010,27(1):51-54.
[6] 趙健,唐潔,謝瑜.仿射傳播算法在圖像聚類應(yīng)用中的實現(xiàn)與分析[J].計算機應(yīng)用研究,2012,29(10):3980-3982.
[7] 王羨慧,覃征,張選平,高洪江.采用仿射傳播的聚類集成算法[J].西安交通大學(xué)學(xué)報,2011,45(8):1-6.
[8] 王開軍,張軍英,李丹,張新娜,郭濤.自適應(yīng)仿射傳播聚類[J].自動化學(xué)報,2007,33(12):1242-1246.
TP311 文獻標(biāo)志碼:A
1007-757X(2015)08-0057-02
王 平(1979-),女,山東威海人,中國石油大學(xué)(華東),網(wǎng)絡(luò)及教育技術(shù)中心,工程師,碩士,研究方向:網(wǎng)絡(luò)信息化,數(shù)據(jù)挖掘,青島,266580