孫景峰,李秀麗,王彥波,歐陽曉松,時圣永,張欣榮,鄒璐璐
?
基于K-means聚類分析與偏相關(guān)分析的高考質(zhì)量評價體系構(gòu)建與實施
孫景峰1,李秀麗2,王彥波2,歐陽曉松2,時圣永2,張欣榮2,鄒璐璐2
(1. 齊齊哈爾市實驗中學(xué),黑龍江 齊齊哈爾 161006;2. 齊齊哈爾市招生考試辦公室,黑龍江 齊齊哈爾 161006)
闡述了高考成績中多學(xué)科間K-means聚類分析和偏相關(guān)分析的高考成績分析方法,構(gòu)建基于數(shù)據(jù)挖掘技術(shù)的高考質(zhì)量評價體系分析方法,并利用齊齊哈爾市高考考生成績數(shù)據(jù)進行評價體系分析,為高考質(zhì)量評價方法提供了一種新的嘗試.
K-means聚類分析;偏相關(guān)分析;高考質(zhì)量評價體系
普通高等學(xué)校招生全國統(tǒng)一考試(以下簡稱“高考”)是為全國各類普通高等學(xué)校選拔優(yōu)質(zhì)生源的重要考試,也是評價本地普通高中教育教學(xué)水平與教學(xué)質(zhì)量的重要內(nèi)容之一[1].如何充分、科學(xué)、客觀地評價本地高中教育工作,全面、科學(xué)、公平地分析高考質(zhì)量,是各級教育行政部門、高中學(xué)校最為關(guān)心的問題.高考成績不僅是考生錄取的重要依據(jù),還是衡量一個地區(qū)或高中學(xué)校的教育教學(xué)水平的重要依據(jù),所以高考成績歷來受到各級教育行政部門及高中學(xué)校的高度重視[2].因此,各地教育行政部門、招生考試部門、普通高中學(xué)校都會對本地高考成績情況進行統(tǒng)計分析.
由于高考成績的特殊性、保密性等性質(zhì)決定,除招生考試部門以外,其他人員幾乎無法接觸到,所以在國內(nèi)進行高考成績分析研究工作者較少.現(xiàn)階段,高考質(zhì)量受到社會各界的普遍關(guān)注,促使各級教育行政部門和教育工作者必須利用先進的理論進行高考成績分析.在這樣的環(huán)境和背景下,利用數(shù)據(jù)挖掘技術(shù)進行高考成績質(zhì)量分析符合社會的實際需要,也必將為高考成績的分析注入生機和活力[3].
高考成績分析主要進行2個方面的工作,一方面是進行常規(guī)的數(shù)據(jù)統(tǒng)計,另一方面是對高考成績數(shù)據(jù)進行深層次的數(shù)據(jù)相關(guān)性、數(shù)據(jù)內(nèi)在聯(lián)系等方面的分析,而后者是高考成績分析的重點,也是難點[4].數(shù)據(jù)挖掘技術(shù)正是能夠進行數(shù)據(jù)相關(guān)性及數(shù)據(jù)間關(guān)聯(lián)分析.通過數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析[5]、聚類分析[6]等數(shù)據(jù)挖掘方法對高考成績進行分析,將有助于高考成績分析的深入研究,這些方法也是數(shù)據(jù)挖掘技術(shù)在高考成績分析中的主要研究內(nèi)容.
本文提出了通過數(shù)據(jù)挖掘技術(shù)相關(guān)性分析中的偏相關(guān)分析、聚類分析中的K-means聚類分析,構(gòu)建高考質(zhì)量評價體系,并利用齊齊哈爾市2014年高考成績數(shù)據(jù)作為數(shù)據(jù)分析對象,實施實驗分析,得出分析結(jié)論.實驗數(shù)據(jù)分析過程中,采取對全市高考成績數(shù)據(jù)進行分析,通過學(xué)科間偏相關(guān)系數(shù)檢驗學(xué)科間的關(guān)聯(lián)程度,并以此為基礎(chǔ)利用聚類分析數(shù)據(jù)進行檢驗,評估學(xué)科成績是否符合預(yù)期效果.通過此方法,為各地、普通高中學(xué)校進行高考質(zhì)量評價提供參考和借鑒.
K?means算法(也稱K均值算法)是一種基于劃分的聚類分析算法.K?mean聚類分析算法的基本思想是在聚類分析數(shù)據(jù)中按照相關(guān)選取準則選取個數(shù)據(jù)對象作為初始聚類中心,通過聚類目標函數(shù)度量準則對數(shù)據(jù)集進行處理,選取聚類中心最近數(shù)據(jù)合成一類,重新計算新類的聚類中心,反復(fù)迭代進行聚類處理,直至達到聚類收斂條件為止,完成數(shù)據(jù)集聚類,按照度量準則要求達到相似性較高的數(shù)據(jù)聚為一類.
在K?mean聚類分析過程中,通過設(shè)立的目標函數(shù)進行類與數(shù)據(jù)對象間的距離計算,在距離計算內(nèi)容上選取標準偏移量為各數(shù)據(jù)個體的距離衡量.標準偏移量為目標對象與整體數(shù)據(jù)平均數(shù)之差除以整體數(shù)據(jù)標準差(Standard Deviation,縮寫SD).標準差表示組內(nèi)個體間的離散程度,通過數(shù)據(jù)偏移量與標準差的比值計算,能夠反映出個體數(shù)據(jù)在整體數(shù)據(jù)中的狀況.標準差計算公式為
標準偏移量計算公式為
由此可以定義目標函數(shù)為
通過考生學(xué)科成績與該學(xué)科成績平均分偏離值除以標準差,借助標準差這一離散分布量,能夠衡量學(xué)生該學(xué)科成績的整體偏離程度,從而衡量出偏離值大的課程成績,表明這一聚類集存在偏科現(xiàn)象,為成績評估提供參考依據(jù).標準偏移量有正負之分,正負代表評估數(shù)據(jù)與平均值之差的大小,正值代表大于平均值,負值代表小于平均值;標準偏移量的絕對值代表評估數(shù)據(jù)的偏離程度,數(shù)值越大,偏離程度越高.
相關(guān)性數(shù)據(jù)分析是數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)性分析的一部分,是對統(tǒng)計學(xué)上2個及2個以上變量的相互關(guān)聯(lián)關(guān)系的分析和描述.2個變量參與的相關(guān)性分析為簡單相關(guān)分析,2個以上變量參與的相關(guān)性分析為多元相關(guān)分析.簡單相關(guān)分析多采用皮爾遜積差相關(guān)法(又稱“積差相關(guān)法”)計算兩變量的相關(guān)系數(shù)來表示兩變量的相關(guān)關(guān)系,其基本計算公式為
在多學(xué)科課程分析過程中,各學(xué)科間成績是相互影響的,僅僅對2個學(xué)科進行相關(guān)性分析,割裂了各個學(xué)科間的相關(guān)關(guān)系,無法真實反映學(xué)科間的相關(guān)性.對多學(xué)科間兩學(xué)科相關(guān)性表述,需借助偏相關(guān)分析法.偏相關(guān)分析是對具有多個變量相互影響下,考量2個變量剔除其它變量影響的相關(guān)關(guān)系.偏相關(guān)分析的量化結(jié)果也用偏相關(guān)系數(shù)來表示,偏相關(guān)系數(shù)可以利用簡單相關(guān)系數(shù)進行表示,簡單相關(guān)系數(shù)可以用式(4)計算而得.
偏相關(guān)計算公式的通式為
一階偏相關(guān)系數(shù)計算公式為
即消除第3變量影響,分析兩變量的相關(guān)關(guān)系.
二階偏相關(guān)系數(shù)計算公式為
即消除第3、第4變量影響,分析兩變量的相關(guān)關(guān)系.
對求得的相關(guān)系數(shù),可以用顯著性檢驗方法進行顯著性檢驗.對相關(guān)系數(shù)顯著性檢驗方法多選取檢驗進行檢測.檢驗又稱方差齊性檢驗,主要通過對比2個變量數(shù)據(jù)的方差,以確定其吻合度是否有顯著性差異.當數(shù)據(jù)變量個數(shù)充分大時,統(tǒng)計量近似服從分布.
在高考考生成績中,黑龍江省現(xiàn)行高考科目實行“3+綜合”的設(shè)置,即理科為語文、理科數(shù)學(xué)、外語、理科綜合(包括物理、化學(xué)、生物)四大學(xué)科;文科為語文、文科數(shù)學(xué)、外語、文科綜合(包括地理、歷史、政治)四大學(xué)科.在考生成績數(shù)據(jù)相關(guān)性分析與聚類分析過程中,將文理科中的綜合學(xué)科分解成獨自的3個學(xué)科,即每名考生高考成績由6個學(xué)科構(gòu)成.因此,可以將考生數(shù)據(jù)看做具有六維度的數(shù)據(jù)對象.
表1 黑龍江省高考各學(xué)科滿分分值
在進行標準偏移量聚類分析過程中,要分別計算6個學(xué)科成績的各自偏移量,將6科偏移量相加算出總偏移量.由于高考各學(xué)科成績滿分值(見表1)存在差異,所占總分比重的不同,在各個學(xué)科成績偏移量計算過程中,要對其偏移量值進行調(diào)整,即設(shè)置各個學(xué)科在總偏移量中所占比重(見表2).
表2 文理科權(quán)重值
在進行各學(xué)科間相關(guān)性分析過程中,為挖掘數(shù)據(jù)間的相關(guān)屬性,將對理科的總分、語文、數(shù)學(xué)、英語、理科綜合、物理、化學(xué)、生物兩兩學(xué)科簡單相關(guān)和一階偏相關(guān)的相關(guān)性進行計算,對文科的總分、語文、數(shù)學(xué)、英語、文科綜合、歷史、政治、地理兩兩學(xué)科簡單相關(guān)和一階偏相關(guān)的相關(guān)性進行計算.
通過標準偏移量K-means聚類分析算法,將具有學(xué)科成績屬性特征的考生聚集到各自的聚類項中,通過計算各個聚類項的平均分、標準差、最高分和最低分4個特征值,進行數(shù)據(jù)分析對比,驗證聚類結(jié)果.各學(xué)科間簡單相關(guān)性分析中的相關(guān)系數(shù),能夠反映出2個學(xué)科間是否具有相關(guān)性及相關(guān)程度.偏相關(guān)分析能夠剔除其它學(xué)科因素影響,而真實的表達出2個學(xué)科間的相關(guān)關(guān)系.如果2個學(xué)科間的相關(guān)性較強,即2個學(xué)科間高度相關(guān),通過標準偏移量K-means聚類分析所得2個學(xué)科也具有相同的特征屬性;如果2個學(xué)科間相關(guān)程度較低,即2個學(xué)科間不相關(guān),那么這2個學(xué)科間標準偏移量K-means聚類分析特征屬性值不具有可比性,其值相互間不影響.
在基于標準偏移量K-means聚類分析與學(xué)科相關(guān)性分析過程中,對學(xué)科間具有相關(guān)性學(xué)科聚類分析結(jié)果進行對比分析,利用分析結(jié)果進行高考質(zhì)量評價.在評價過程中,利用全市高考成績數(shù)據(jù)分析進行對比,得出評估結(jié)論,為高考質(zhì)量評估提供一個新的途徑.
高考質(zhì)量評價體系實驗數(shù)據(jù)分析中,選取齊齊哈爾市2014年普通高中理科14 489名考生、文科8 796名考生高考成績作為數(shù)據(jù)分析對象(為消除極值對實驗數(shù)據(jù)的影響,實驗數(shù)據(jù)已剔除總分小于180分及單科成績?yōu)?分的考生和非英語語種考生),對文理科分別進行相關(guān)性分析和標準偏移量K-means聚類分析,并得出數(shù)據(jù)分析結(jié)果.理科各學(xué)科間簡單相關(guān)系數(shù)見表3,文科各學(xué)科間簡單相關(guān)系數(shù)見表4.剔除其他學(xué)科影響而得理科一階偏相關(guān)系數(shù)和文科一階偏相關(guān)系數(shù).
通過表3可以看出,理科中除語文、英語與總分相關(guān)系數(shù)高,與其他各學(xué)科相關(guān)系數(shù)值都很低,學(xué)科間相關(guān)關(guān)系不顯著;物理、化學(xué)、生物3科間相關(guān)系數(shù)值相對不高,這3個學(xué)科間簡單相關(guān)關(guān)系成顯著相關(guān);其他學(xué)科間簡單相關(guān)系數(shù)值都很高,按照相關(guān)性顯著檢驗標準,這些學(xué)科間呈現(xiàn)極其顯著相關(guān)關(guān)系.
由表4可以看出,文科中除總分與各學(xué)科、文綜合與地理、歷史、政治學(xué)科相關(guān)系數(shù)高外,其他學(xué)科間相關(guān)系數(shù)都不高,即總分與各學(xué)科、文綜合與地理、歷史、政治學(xué)科呈極其顯著相關(guān),其他各學(xué)科間呈顯著相關(guān).
表3 理科各學(xué)科簡單相關(guān)系數(shù)
表4 文科各學(xué)科簡單相關(guān)系數(shù)
在學(xué)科間簡單相關(guān)系數(shù)基礎(chǔ)上,進行剔除第3科影響的一階偏相關(guān)系數(shù)計算,得出一階偏相關(guān)系數(shù)(見表5、表6).由表5可以看出,理科各學(xué)科間偏相關(guān)系數(shù)中,受數(shù)學(xué)學(xué)科影響程度較大,除綜合與物理、化學(xué)、生物外,剔除數(shù)學(xué)學(xué)科影響的兩學(xué)科間偏相關(guān)系數(shù)比簡單相關(guān)系數(shù)變化較大.例如:物理與化學(xué)學(xué)科間簡單相關(guān)系數(shù)為0.769 8,而剔除數(shù)學(xué)影響的偏相關(guān)系數(shù)為0.285 1;物理與生物學(xué)科間簡單相關(guān)系數(shù)為0.736 8,而剔除數(shù)學(xué)影響的偏相關(guān)系數(shù)為0.248 8.說明在物理和化學(xué)、物理和生物學(xué)科間受數(shù)學(xué)學(xué)科影響較大,這與數(shù)學(xué)學(xué)科基礎(chǔ)性性質(zhì)相關(guān)聯(lián).在總分和數(shù)學(xué)學(xué)科間,剔除第3科影響因素后,兩者之間偏相關(guān)系數(shù)仍然很顯著,如兩者簡單相關(guān)系數(shù)為0.884 3,剔除語文學(xué)科影響后,兩者偏相關(guān)系數(shù)為0.910 6.這說明總分與數(shù)學(xué)間關(guān)聯(lián)關(guān)系較為緊密,即如果數(shù)學(xué)學(xué)科成績高,總分相應(yīng)成績也會較高;如果數(shù)學(xué)成績低,總分也會低.
表5 理科各學(xué)科一階偏相關(guān)系數(shù)
通過表6可以看出,文科各學(xué)科間,數(shù)學(xué)與總分的偏相關(guān)系數(shù)較高,兩學(xué)科間未受其他學(xué)科影響,兩學(xué)科間具有較強的關(guān)聯(lián)關(guān)系.地理、歷史、政治學(xué)科,在剔除語文學(xué)科影響后,偏相關(guān)系數(shù)都有所降低.例如:歷史和政治間的簡單相關(guān)系數(shù)為0.749 5,而剔除語文學(xué)科影響,其偏相關(guān)系數(shù)為0.461 7;地理和歷史學(xué)科間的簡單相關(guān)系數(shù)為0.717 6,而剔除語文學(xué)科影響,其偏相關(guān)系數(shù)為0.442 4.這說明在地理、歷史、政治學(xué)科中,受語文學(xué)科影響較大,這與語文學(xué)科的基礎(chǔ)屬性相關(guān).
表6 文科各學(xué)科一階偏相關(guān)系數(shù)
按照標準偏移量K-means聚類分析算法,對實驗數(shù)據(jù)進行聚類分析,并將各個聚類項進行聚類項內(nèi)平均分、標準差、最大值和最小值4個屬性值統(tǒng)計計算,理科4個屬性值見表7、表8.
表7 理科聚類項平均分與標準差統(tǒng)計
由表7可見,語文、數(shù)學(xué)、外語學(xué)科平均分中,除數(shù)學(xué)最大值聚類項數(shù)學(xué)成績高外,其他聚類項中數(shù)學(xué)成績都是最低的,與物理、化學(xué)、生物學(xué)科相比,數(shù)學(xué)成績也偏低;在各聚類項物理和化學(xué)平均分都較為接近,相對差別不大;標準差項除總分外,數(shù)學(xué)標準差較大,說明數(shù)學(xué)成績離散程度較大,數(shù)學(xué)差值變化較多,數(shù)學(xué)成績的變化必將影響到考生的成績變化.通過分析,也印證了在偏相關(guān)分析中的數(shù)學(xué)學(xué)科具有影響總分、物理、化學(xué)學(xué)科成績的結(jié)論.
表8 理科聚類項最大值與最小值統(tǒng)計
由表8可見,最大值項數(shù)學(xué)偏大,最小值項數(shù)學(xué)偏小;物理、化學(xué)與數(shù)學(xué)最大最小值變化具有一致性.
利用偏相關(guān)系數(shù)可以剔除其他學(xué)科因素影響,進而確定兩學(xué)科間的相關(guān)關(guān)系,并通過標準偏移量K-means聚類分析結(jié)果進行相關(guān)性驗證,找出學(xué)科間影響關(guān)系,實現(xiàn)了高考質(zhì)量評價的目的.本文對全市整體數(shù)據(jù)進行評價分析,利用此方法對縣區(qū)、高中學(xué)校高考成績數(shù)據(jù)進行分析,并進行縣區(qū)、高中學(xué)校與全市間數(shù)據(jù)對比評估,將有助于提高縣區(qū)、高中學(xué)校的高考質(zhì)量評價的效能.
[1] 汪朝杰.大學(xué)生在校成績與高考成績的統(tǒng)計分析研究[D].合肥:合肥工業(yè)大學(xué),2012
[2] 曾水光.基于數(shù)據(jù)挖掘的河北省高考數(shù)據(jù)分析研究[D].石家莊:河北師范大學(xué),2013
[3] 徐楊峰.數(shù)據(jù)挖掘在高考成績影響因素分析中的應(yīng)用研究[D].蘇州:蘇州大學(xué),2015
[4] 龐業(yè)偉.高考理科綜合成績相關(guān)性分析[J].廣西教育,2013(42):87-88
[5] 張峰,胡學(xué)鋼.基于關(guān)聯(lián)規(guī)則的高職學(xué)生成績分析應(yīng)用研究[J].滁州學(xué)院學(xué)報,2011(2):103-106
[6] 華婷婷.K-means聚類算法研究[J].黃山學(xué)院學(xué)報,2013(5):17-19
[7] 孫菲,張健沛,董野,等.基于標準偏移量的K-means聚類分析算法研究[J].齊齊哈爾大學(xué)學(xué)報:自然科學(xué)版,2015(2):57-64
[8] 任福棟,張宏烈,孫景峰,等.簡單相關(guān)分析與偏相關(guān)分析在高考成績相關(guān)性分析中的對比研究[J].高師理科學(xué)刊,2014,34(2):24-27
Construction and implementation of college entrance examination quality evaluation system based on K-means cluster analysis and partial correlation analysis
SUN Jing-feng1,LI Xiu-li2,WANG Yan-bo2,OUYANG Xiao-song2,SHI Sheng-yong2,ZHANG Xin-rong2,ZOU Lu-lu2
(1. Qiqihar Experimental Middle School,Qiqihar 161006,China;2. Qiqihar Admission Office,Qiqihar 161006,China)
The college entrance examination scores of the college entrance examination scores among the disciplines partial correlation analysis,K-means clustering analysis of the analysis method, the construction of college entrance examination quality evaluation system of technical analysis method based on data mining,and the Qiqihar city college entrance examination scores and data evaluation system analysis.It aims that providing a new attempt for the college entrance examination quality evaluation method.
K-means cluster analysis;partial correlation analysis;quality evaluation system of college entrance examination
1007-9831(2016)09-0032-06
TP301.6
A
10.3969/j.issn.1007-9831.2016.09.010
2016-08-15
黑龍江省教育科學(xué)“十二五”規(guī)劃2013年度重點課題(JJB1213032)——基于數(shù)據(jù)挖掘技術(shù)的高考質(zhì)量評價分析方法研究與應(yīng)用
孫景峰(1966-),男,黑龍江齊齊哈爾人,副教授,博士,從事高中教學(xué)評價與高考成績分析研究.E-mail:sunjingfeng@163.com