劉佳佳 劉志杰
摘要:介紹了統(tǒng)計(jì)分析方法中的主成分分析法,對(duì)考生考試成績(jī)數(shù)據(jù)利用matlab軟件進(jìn)行了主成分分析,得出了數(shù)據(jù)的主成分和綜合評(píng)價(jià)函數(shù), 并結(jié)合學(xué)生成績(jī)進(jìn)行分析,了解到了每個(gè)考生在數(shù)學(xué)學(xué)科學(xué)習(xí)上有哪些優(yōu)勢(shì)和不足,從而為改善學(xué)習(xí)方法和提高學(xué)習(xí)成績(jī)方面的提供重要參考。
關(guān)鍵詞:主成分分析;考生考試數(shù)據(jù);matlab軟件
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)01-0010-05
Principal Component Analysis of Test Data Based on Matlab
LIU jia-jia, LIU Zhi-jie
(Guizhou Normal University & Laboratory of Information and Computation Science Guizhou Provience, Guiyang 55001, China)
Abstract:This paper introduces the methods of principal component analysis of multivariate statistical analysis method, and use matlab to conduct the principal component analysis on student achievement, concluded that principal components and the comprehensive evaluation function of the data, , and combining the students' test scores to analyze, in order to understand the advantages and disadvantages of each of the students in the subject, as an important reference to improve the learning methods and enhance academic performance indicators.
Key words:principal component analysis; test data of student;Matlab software
1 概述
考試是用來教學(xué)評(píng)價(jià)和檢查考生學(xué)習(xí)情況的基本手段,但每一次考試帶給我們的信息,絕不僅僅是每個(gè)考生的具體得了多少分?jǐn)?shù)。其實(shí)我們還可以了解到更多考生的學(xué)習(xí)情況,那么我們就需要對(duì)批改試卷產(chǎn)生的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,根據(jù)分析結(jié)果得到的結(jié)論,能夠?yàn)榻虒W(xué)和學(xué)習(xí)提供參考,從而能不斷改進(jìn)我們教學(xué)和學(xué)習(xí)工作。
對(duì)試卷進(jìn)行統(tǒng)計(jì)分析時(shí),我們會(huì)發(fā)現(xiàn)試卷各試題之問往往存在一定的相關(guān)性,即有些題目考察了相似的知識(shí)點(diǎn)和考點(diǎn),對(duì)得到的數(shù)據(jù)不進(jìn)行任何處理就進(jìn)行分析,勢(shì)必會(huì)把試卷分析的變得復(fù)雜化.就不容易抓住數(shù)據(jù)的主要規(guī)律并對(duì)事物的性質(zhì)做出準(zhǔn)確的評(píng)價(jià)。因此,我們需要把原來的指標(biāo)轉(zhuǎn)化為一個(gè)或少數(shù)幾個(gè)互相獨(dú)立的綜合指標(biāo)來達(dá)到分析的目的。該文講的主成分分析法就是能達(dá)到這種目的的統(tǒng)計(jì)分析方法。
2 主成分分析的基本原理
2.1 主成分分析的基本思想[1]
主成分分析首先是Hotelling于1933年時(shí)提出的。主成分分析是一種利用數(shù)學(xué)思想達(dá)到降低維數(shù)的統(tǒng)計(jì)方法,即通過找出幾個(gè)綜合指標(biāo)來代替眾多的原始指標(biāo), 并盡可能多的反映原始數(shù)據(jù)所提供的信息量,而且彼此之間相互獨(dú)立。主成分分析所要做的內(nèi)容就是要設(shè)法把原來具有一定相關(guān)性的眾多變量,重新組合成一組新的相互獨(dú)立的綜合變量來代替原來變量,通常數(shù)學(xué)上的處理方法就是將原來的變量做線性組合,作為新的綜合變量,但這種組合如果不加以限制,就會(huì)有很多情況,那么我們?nèi)绾芜x擇呢?如果將選取的第一個(gè)線性組合作為第一個(gè)綜合變量記為[F1],那么我們自然希望它能盡可能地反應(yīng)原來變量的信息,這里我們把包含“信息”的多少用方差來測(cè)量,即[Var(F1)]越大,表示[Y1]包含的信息越多。
因此所選取的[F1]應(yīng)該是所有的線性組合中方差最大的,我們把[F1稱為]第一主成分。如果第一主成分不能夠代表原來多個(gè)變量的基本信息,那么就再選取第二個(gè)線性組合[F2],為了有效的反應(yīng)原來信息,[F1]已有的信息就不需要再出現(xiàn)在[F2]中,用數(shù)學(xué)語言表達(dá)就是要求[CovF1,F(xiàn)2=0],我們把[F2稱]為第二主成分,依此類推,可以得到出第三、第四……第[p]個(gè)主成分。
2.2 主成分分析的基本理論[2]
設(shè)研究某一事物時(shí)涉及到[p]個(gè)變量,我們分別用[X1,X2,…,XP]表示,[X=(X1,X2,…,XP)T為]這[p]個(gè)指標(biāo)構(gòu)成的[p]維隨機(jī)向量。設(shè)隨機(jī)向量[X]均值[EX]和協(xié)方差陣[DX]分別為[μ]和Σ。對(duì)[X]進(jìn)行線性變換,即可得到新的綜合變量,它可由原來的變量線性表示,即滿足下式:
[Yi=μTiX=μ1iX1+μ2iX21+…+μpiXpi=1,2,…,p ] (1)
易見 [VarYi=μTiμi,CovYi,Yj=μTiμj,(i,j=1,2,…,p)]
定義1 設(shè)[X=X1,X2,…,XPT] 為[P]維隨機(jī)向量。稱[Yi=μTiX] 為[X] 的第[i]主成分[i=1,2,…,p,如果:]
[μTiμi]=[μ21i+μ21i+…+μ21i=1,i=1,2,…,p] (2)
[CovYi,Yj=0],[i≠j, i,j=1,2,…,p,即Yi與Yj不相關(guān)] (3)
[VarY1?VarY2?…?VarYp] (4)
從這個(gè)定義1,我們可以知道主成分是原來[p]個(gè)原始變量進(jìn)行特殊線性組合構(gòu)成的. 那么, 我們?nèi)绾蝸砬笾鞒煞帜兀?一般地, 我們有:
定理 2 設(shè)[X=X1,X2,…,XPT] 為[P]維隨機(jī)向量。且[D(X)=Σ], [Σ] 的特征值為 [λ1≥λ2?…≥λp>0,] [α1,α2,…,αp]為相應(yīng)的單位正交特征向量,
則[X]的第[i]主成分為[Fi=αTiX i=1,2,…,p]
從這個(gè)定義2,我們了解到要求[X]的第[i]主成分,必須首先求出[X]方差的第[i]大特征值和相應(yīng)的單位正交特征向量。
2.3 主成分分析的分析步驟[3]
設(shè)研究某一事物涉及[到p]個(gè)變量,每個(gè)變量都有[n]個(gè)數(shù)據(jù)。那么我們就可以得到一個(gè)[n×p]階的矩陣,將其記為
[X=xijnm=x11…x1p???xn1…xnp]=[X1,X2,...,Xp]
1)對(duì)矩陣[X]進(jìn)行標(biāo)準(zhǔn)化處理
[xij=xij-xjσj],[i=1,2,...,n;j=1,2,...,p],
其中[xj=1ni=1nxij],[σj=1ni=1nxij-xij2] ,
得到標(biāo)準(zhǔn)化矩陣仍記為
[X=xijnm=x11…x1m???xn1…xnm]
[Xi=x1i,xni,...xniT,i=1,2,...,p]
2) 求標(biāo)準(zhǔn)化后矩陣的相關(guān)系數(shù)矩陣:
[R=r11…r1n???rp1…rpn]=[1nXTX]
其中,[rij=1ni=1nxijxik=1nXiTXk],[j,k=1,2,...,p]
3) 求相關(guān)系數(shù)矩陣[R]的特征值[λi]和相應(yīng)的特征向量[αi]
4) 確定要選取的主成分個(gè)數(shù),我們稱[λkk=1pλk]為第[k]個(gè)主成分的貢獻(xiàn)率,記為[ρk],稱[k=1mλkk=1pλk]為前[m]個(gè)主成分的累積貢獻(xiàn)率。當(dāng)前[m]個(gè)主成分累積貢獻(xiàn)率超過[83%]時(shí),取前[m]個(gè)主成分代替原來的[p]個(gè)指標(biāo)。
5) 求各主成分載荷[βi=λiαi]以及主成分載荷矩陣,再計(jì)算各主成分的得分函數(shù)[Fi=αiXi,i=1,2,...,m]
6) 把各變量的原始數(shù)據(jù)標(biāo)準(zhǔn)化后代入各主成分方程中,求得綜合評(píng)價(jià)值[F=ρ1F1+ρ2F2+...+ρmFm]進(jìn)行分析評(píng)價(jià)。
3 應(yīng)用主成分分析法分析考生成績(jī)[4-5]
3.1 選取主成分和構(gòu)造綜合評(píng)價(jià)函數(shù)
以貴陽某中學(xué)的一個(gè)班在高三模擬考試中的數(shù)學(xué)選擇題的得分情況的數(shù)據(jù)為例.運(yùn)用主成分分析法對(duì)考生數(shù)學(xué)學(xué)習(xí)情況進(jìn)行分析。該班一共有50名考生。高中數(shù)學(xué)選擇題共12題,每題5分,將數(shù)學(xué)選擇題每個(gè)題目分別用[X1]、[X2]、[…]、[X12]。來表示,用[xij]表示第i個(gè)考生在數(shù)學(xué)選擇題第j題上的得分,則這樣就得到了一個(gè)[X=(xij)50×12]的矩陣,因此我們可以借助matlab主成分分析程序?qū)@個(gè)矩陣進(jìn)行主成分分析,得到下列結(jié)果:
根據(jù)主成分分析的相關(guān)理論,在選取主成分時(shí),只需要將特征值從小到大排列,選取前[m]個(gè)累計(jì)貢獻(xiàn)率超過83%的主成分即可,通過上面表格和圖形的顯示的累計(jì)貢獻(xiàn)率可知,我們只需要選取5個(gè)主成分,從上面累積貢獻(xiàn)率情況可知我們選取的這5個(gè)主成分是可以反映全部指標(biāo)的基本信息,所以可以用這5個(gè)新變量來代替原來的12個(gè)變量。根據(jù)前面講到的定理2我們可以得到選擇題的5個(gè)主成分公式,如下所示:
[F1=0.1932X1+0.1359X2+0.3402X3+0.2662X4+0.1254X5+0.2944X6 +0.2828X7+0.2454X8+0.5176X9+0.4098X10+0.2061X11+0.1915X12]
[F2=0.5196X1+0.5343X2+0.4956X3+0.2918X4-0.3985X5-0.4281X6 +0.3391X7-0.1558X8-0.1008X9+0.3771X10-0.3291X11-0.1933X12]
[F3=-0.0117X1-0.1687X2+0.1733X3-0.2693X4-0.3008X5+0.0588X6 +0.3456X7+0.5041X8-0.2919X9-0.2080X10-0.1174X11+0.5090X12]
[F4=-0.0802X1-0.0883X2+0.3429X3-0.0951X4-0.4928X5+0.5271X6 +0.0005X7-0.1161X8+0.1591X9-0.1941X10-0.2019X11-0.2702X12][F5=0.0993X1+0.1617X2+0.2707X3-0.0251X4+0.1000X5+0.1639X6 -0.3226X7-0.4542X8+0.0146X9+0.0011X10-0.4819X11+0.5571X12]
根據(jù)主成分分析的分析步驟的第6步可得到選擇題綜合評(píng)價(jià)函數(shù):
[F=0.1894X1+0.1578X2+0.3443X3+0.0904X4-0.1792X5+0.0873X6 +0.1840X7+0.0356X8+0.1024X9+0.1524X10-0.1397X11+0.1210X12]
3.2 選擇題主成分分析
3.2.1 各題目重要性比較
通過圖1,我們可以知道變量[X1]、[X2]、[X3]、[X7]、[X8]、 [X9]、[X12]所對(duì)應(yīng)的題目要高于平均重要性,而變量[X4]、[X5]、[X6]、[X8]、[X11]所對(duì)應(yīng)的題目重要性要低于平均重要性(0.0955)。
3.2.2 模擬考生試卷數(shù)學(xué)各個(gè)選擇題對(duì)5個(gè)主成分影響。
我們可以從[F1]、[F2]、…、[F5]及各個(gè)題目變量的載荷的柱狀圖中清楚直觀的觀察出各個(gè)題目變量對(duì)[F1]、[F2]、…、[F5]影響的大小。
3.2.3 各主成分的含義分析
通過表1,我們知道主成分分析結(jié)果的前5個(gè)主成分的累積貢獻(xiàn)率分別為24.31%、46.03%、59.81%、72.77%、83.86%。如果我們選擇用這5個(gè)主成分變量來替換原來12個(gè)題目變量,那么數(shù)據(jù)信息的損失只有原始信息的16.14%,我們可以根據(jù)主成分在題目變量上載荷的大小和所考察知識(shí)點(diǎn)的角度來對(duì)5個(gè)主成分的含義進(jìn)行解釋和命名:
1)對(duì)于選擇題第一主成分[F1],在其上有較高載荷量的是變量[X9],選擇題第9題考察的是利用導(dǎo)數(shù)求參數(shù)的范圍,考察的是考生利用數(shù)形結(jié)合的思想解題的能力。我們把主成分[F1]含義取名為:“數(shù)學(xué)思想方法的掌握程度”
2) 選擇題第二主成分[F2]沒有明顯較大的特征向量載荷,就說明了多個(gè)因素影響第二主成分[F2],我們發(fā)現(xiàn)這些題目分量分別考察的是一元二次不等式、復(fù)數(shù)、向量、三角形的基本知識(shí)和基本題型掌握程度,因此我們可以將其含義命名為“基礎(chǔ)知識(shí)和基本題型的掌握程度”。
3) 我們都知道任何知識(shí)都不是死的,這就要求我們不僅需要掌握知識(shí),還要能夠靈活運(yùn)用所學(xué)知識(shí)才行,在第三主成分[F3]中,X8、X12的載荷最大,這兩題分別考察利用導(dǎo)數(shù)研究極值、直線與拋物線的位置關(guān)系,考生需要靈活運(yùn)用所學(xué)知識(shí),才能做出來。因此我們?nèi)∶麨椤皵?shù)學(xué)基礎(chǔ)知識(shí)的靈活運(yùn)用情況”。
4) 對(duì)于第四主成分[F4],在其上擁有較高絕對(duì)載荷變量是[X5、] [X6],這兩題分別考察了立體學(xué)科中的幾何三視圖、空間向量的基本運(yùn)算,考生不僅需要數(shù)學(xué)基礎(chǔ)知識(shí),還需要憑借良好的數(shù)學(xué)能力(空間想象能力和畫圖能力),才能做對(duì)并選出答案。因此把F4取名為“數(shù)學(xué)的基本能力如空間想象能力和畫圖能力等掌握情況”。
5) 對(duì)于第五主成分[F5],在其上絕對(duì)載荷量較高是變量[X11、X12],這兩題分別考察利用導(dǎo)數(shù)研究極值、利用空間向量求線線角,考生需要認(rèn)真仔細(xì)的分析題意,確定考察知識(shí)點(diǎn)然后利用所學(xué)知識(shí)解決問題得出答案,所以,把[F5]取名為“利用數(shù)學(xué)知識(shí)分析和解決問題的能力的情況”。
3.2.4 對(duì)考生的評(píng)價(jià)
首先把每個(gè)考生的選擇題得分?jǐn)?shù)據(jù)標(biāo)準(zhǔn)化,然后將數(shù)據(jù)分別代入[上面得到的5個(gè)主成分]的表達(dá)式中,就可得到各考生在[F1]、[F2]、[F3]、[F4]、[F5]及[F]上的得分多少,即可看出每個(gè)考生這5個(gè)方面的表現(xiàn)。由于考生的人數(shù)較多,現(xiàn)列出幾名典型考生的計(jì)算結(jié)果(參見表2)以作分析。
1) 數(shù)學(xué)學(xué)習(xí)能力好壞可以通過考生的綜合成績(jī)F得分高低來評(píng)價(jià),考生的綜合成績(jī)F得分越高就說明數(shù)學(xué)學(xué)習(xí)能力越好,我們會(huì)發(fā)現(xiàn)綜合成績(jī)F的排列結(jié)果和不使用主成分分析法情況基本一致,但也有一些考生不同。例如我們可以看到選擇題得分排在第19名的考生,綜合成績(jī)卻排到了第25名,那是因?yàn)樵诘谝恢鞒煞諿F1](數(shù)學(xué)思想方法的掌握程度)上他的得分較低,因此該考生對(duì)基本數(shù)學(xué)思想方法掌握比較薄弱需要加強(qiáng)學(xué)習(xí)。我們?cè)賮砜纯催x擇題得分排在第35名與第36名的考生,他們的綜合得分分別排在了第30名和37名,那是因?yàn)樵诘谝恢鞒煞稚系牡梅植煌?,選擇題得分排在第22名的考生在第一主成分上稍微高一些。這就說明排名22名的考生比27名考生在解題技巧和方法上學(xué)習(xí)的要好。
2) 我們還可以對(duì)每個(gè)考生在主成分及綜合函數(shù)上的得分情況進(jìn)行分析,可以比較客觀全面地了解每個(gè)考生在這5個(gè)方面的掌握情況。例如選擇題得分排在第一的考生在主成分[F2上有]非常高的得分,說明他對(duì)數(shù)學(xué)科目基礎(chǔ)知識(shí)的掌握比較好,可其[主成分F5]的得分不太高,處在第六位,說明該考生在分析和解決問題的能力方面比較欠缺,平時(shí)應(yīng)加強(qiáng)這方面的鍛煉;還有選擇題得分第二的考生,5個(gè)主成分分得分排名比較均勻,說明此考生在5個(gè)主成分方面的表現(xiàn)比較理想,因而該考生基本掌握了這次試卷選擇題部分所考察的知識(shí)點(diǎn)。另外我們?cè)賮砜催x擇題得分排在第10名和第8名的考生,他們的綜合成績(jī)分別排在了第7名和第8名,從上面分析可知,雖然得分在第8名的考生在[主成分F2](基礎(chǔ)知識(shí)和基本題型的掌握程度)得分比第10名的考生低,但從表中我們可以看出,他在主成分[F3](數(shù)學(xué)基礎(chǔ)知識(shí)的靈活運(yùn)用)和[F1(數(shù)學(xué)思想方法的掌握程度)]得分卻比第10名號(hào)考生高,說明更能決定考生學(xué)習(xí)的優(yōu)勢(shì)的是良好的知識(shí)運(yùn)用能力和解題能力。
從以上分析可以看出,在評(píng)價(jià)和反映考生的學(xué)習(xí)能力方面,主成分分析法比以往傳統(tǒng)方法要更全面、更為具體,可以為今后考生的學(xué)習(xí),教師的教學(xué)提供了可靠的依據(jù)。
4 結(jié)論
本文運(yùn)用通過對(duì)模擬考試中數(shù)學(xué)選擇題進(jìn)行主成分分析法,分析評(píng)價(jià)了考生的數(shù)學(xué)學(xué)習(xí)情況,克服了傳統(tǒng)方法中只能籠統(tǒng)反映考生成績(jī)多少的缺點(diǎn),分析的結(jié)果更客觀地反映出了考生各方面知識(shí)和能力的掌握情況,了解到了考生在學(xué)習(xí)上的優(yōu)勢(shì)和劣勢(shì),幫助教學(xué)人員和考生,針對(duì)具體情況,做到有針對(duì)性地指導(dǎo)考生發(fā)揮優(yōu)勢(shì),彌補(bǔ)劣勢(shì)。為教學(xué)研究提供科學(xué)依據(jù)。
參考文獻(xiàn):
[1] 李柏年,吳禮斌.數(shù)據(jù)分析方法[M].北京:機(jī)械工業(yè)出版社,2012.
[2] 何亮.主成分分析在SPSS中的應(yīng)用[J].山西農(nóng)業(yè)大學(xué)學(xué)報(bào),2007(S1):20-22.
[3] 高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社, 2005.
[4] 李瑞琴.主成分分析在考試成績(jī)綜合評(píng)定中的應(yīng)用[J].開放教育研究,2003,4:50-51.
[5] 陸元鴻.數(shù)理統(tǒng)計(jì)方法[M].上海:華東理工大學(xué)出版社,2005.