張延義 趙瑩
(滁州職業(yè)技術(shù)學(xué)院 教務(wù)處, 安徽 滁州 239000)
高職院校的專業(yè)評(píng)估,是指在學(xué)校管理自我完善的基礎(chǔ)之上,依據(jù)相關(guān)評(píng)估標(biāo)準(zhǔn),針對各專業(yè)的教育質(zhì)量進(jìn)行評(píng)判[1-2]。在實(shí)踐中,大多是由主管部門領(lǐng)導(dǎo)下(或第三方評(píng)估機(jī)構(gòu))組建的多元化專家組對專業(yè)評(píng)估指標(biāo)逐項(xiàng)進(jìn)行評(píng)測、賦分,依據(jù)人為設(shè)定的指標(biāo)權(quán)重來計(jì)算專業(yè)評(píng)估總分,最后確定專業(yè)建設(shè)的等級(jí)。這種評(píng)估流程通常存在以下問題:一是人為設(shè)定權(quán)重,主觀成分大,導(dǎo)致評(píng)估結(jié)果不合理;二是以總分衡量專業(yè)建設(shè)的水平,忽視了專業(yè)建設(shè)的多維度特征,掩蓋了某些方面的突出問題;三是組織多元化專家組測評(píng)的流程比較復(fù)雜,不便于日常管理。為了優(yōu)化評(píng)估工作、提高評(píng)估效率,本次研究將依據(jù)《國家職業(yè)教育改革實(shí)施方案》構(gòu)建高職院校專業(yè)評(píng)估指標(biāo)體系[3],利用支持向量機(jī)(SVM)在小樣本、非線性及高維模式識(shí)別問題中的特有優(yōu)勢,以及主成分分析(PCA)中的數(shù)據(jù)降維技術(shù),針對2所高職院校44個(gè)專業(yè)的評(píng)估指標(biāo)數(shù)據(jù)進(jìn)行專業(yè)等級(jí)模型訓(xùn)練和專業(yè)評(píng)估測試。
主成分分析(principal component analysis,PCA)是最常用的降維方法之一,其思想是通過正交變換法將可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量。具體方法是,從原始的空間中按順序找到一組相互正交的坐標(biāo)軸,第一個(gè)新坐標(biāo)軸選擇原始數(shù)據(jù)中方差最大的方向,第二個(gè)新坐標(biāo)軸選取與第一個(gè)坐標(biāo)軸正交的平面中使得方差最大的方向,以此類推即得到n個(gè)新坐標(biāo)軸;前面k個(gè)新坐標(biāo)軸中包含了大部分方差,后面的坐標(biāo)軸可以忽略,以此實(shí)現(xiàn)對數(shù)據(jù)特征的降維處理[4-6]。
將數(shù)據(jù)集X={x1,x2,x3,…,xn}降到k維,一般過程如下:
(1) 樣本矩陣中心化。
(4) 對原始數(shù)據(jù)進(jìn)行投影。對特征值從大到小進(jìn)行排序,并選擇其中最大的k個(gè)值;然后,將其對應(yīng)的k個(gè)特征向量作為行向量,從而組成特征向量矩陣P[7]。
(5) 獲得降維后的新樣本數(shù)據(jù)。將數(shù)據(jù)轉(zhuǎn)換到k個(gè)特征向量構(gòu)建的新空間Y中,Y=PX。
支持向量機(jī)(support vector machine,SVM)是從線性可分條件下的最優(yōu)分類面(optimal hyperplane)發(fā)展而來,其原理如圖1所示。最優(yōu)分類面,不但能將兩類樣本點(diǎn)準(zhǔn)確無誤地分開,而且還能使其分類間隔最大[8]。對于總數(shù)為n的線性可分觀測樣本 (xi,yi),其中xi∈Rn,yi∈{-1,+1},i=1,2,3,…,n,線性判別函數(shù)的一般形式為g(x)=wx+b;以H為最優(yōu)分類線將兩類數(shù)據(jù)分隔開,H1、H2皆為既過距離分類超平面最近的點(diǎn)又平行于分類線的直線,H1、H2之間的距離為分類間隔(m),H1、H2上的訓(xùn)練樣本為支持向量[9]。
圖1 支持向量機(jī)原理示意圖
設(shè)分類面方程為wx+b=0,其中w是一個(gè)垂直于超平面的向量,b為超平面偏置。對判別函數(shù)進(jìn)行歸一化處理,使所有樣本都能滿足|g(x)|≥1,且距離分類面最近的樣本|g(x)|=1。若要此分類面對所有樣本都能進(jìn)行正確分類,就必須滿足條件:yi(wxi+b)-1≥0,i=1,2,…,n。
對于線性不可分的情況,可以在條件中增加松弛變量ξi和懲罰因子C,將約束條件放寬,從而實(shí)現(xiàn)廣義的線性分類[9]。對于非線性分類的情況,通過核函數(shù)將輸入空間映射到高維特征空間,用核函數(shù)K(xi,xj)代替最優(yōu)分類平面中的點(diǎn)積(xi,xj),其優(yōu)化函數(shù)如下:
yi·yj·K(xi,xj)
(1)
相應(yīng)的判別函數(shù)式為:
f(x)=sgn[(w*)T·φ(x)+b*]
(2)
選擇不同的核函數(shù)就可以構(gòu)成不同的算法,常用的核函數(shù)有:
(1) 多項(xiàng)式核,K(x,xi)=[(x·xi)+1]q。
(3)S形核,K(x,xi)=tanh[v(x·xi)+c]。
采用SVM處理多類別問題:一種方法是通過組合多個(gè)二類分類機(jī)來實(shí)現(xiàn)多類別分類;另一種方法是將兩類支持向量機(jī)擴(kuò)展為多類別分類支持向量機(jī)。
我國高等職業(yè)教育目前已進(jìn)入高質(zhì)量發(fā)展新階段。2019年,國務(wù)院印發(fā)了《國家職業(yè)教育改革實(shí)施方案》,教育部也啟動(dòng)了“雙高”建設(shè)行動(dòng)計(jì)劃和“現(xiàn)代學(xué)徒制”試點(diǎn)工作,為高等職業(yè)教育的專業(yè)建設(shè)賦予了新的內(nèi)涵。本次研究將在此基礎(chǔ)上依據(jù)成果導(dǎo)向(OBE)教育理念構(gòu)建新的高職院校專業(yè)評(píng)估指標(biāo)體系,幫助專家組有針對性地評(píng)判專業(yè)建設(shè)的成效。新指標(biāo)體系中增加了“核心課程滿足度、就業(yè)滿意度、產(chǎn)教融合、校企合作、價(jià)值觀提升、內(nèi)部質(zhì)量保證”等內(nèi)容,從專業(yè)內(nèi)涵建設(shè)和人才培養(yǎng)主動(dòng)適應(yīng)市場需求的發(fā)展機(jī)制等角度構(gòu)建專業(yè)評(píng)估指標(biāo)體系,其中包含9個(gè)一級(jí)指標(biāo)和23個(gè)二級(jí)指標(biāo)(見表1)。
表1 高職院校專業(yè)評(píng)估指標(biāo)體系
基于專家組給出的現(xiàn)場專業(yè)評(píng)估數(shù)據(jù)與專業(yè)等級(jí)分類結(jié)果,通過數(shù)據(jù)降維、模型訓(xùn)練與測試實(shí)驗(yàn),將測試結(jié)果與專家現(xiàn)場評(píng)估的專業(yè)等級(jí)進(jìn)行對比,據(jù)此判斷PCA-SVM專業(yè)評(píng)估方法的準(zhǔn)確率與有效性。
專家組在對兩所高職院校的44個(gè)專業(yè)進(jìn)行了現(xiàn)場評(píng)估,其中部分評(píng)估數(shù)據(jù)如表2所示。
專家組進(jìn)行現(xiàn)場評(píng)估,通常是先成立由學(xué)校管理人員、教師、用人單位代表、畢業(yè)生等組成的多元化專家組,采用問卷、現(xiàn)場查看測評(píng)、學(xué)校人才培養(yǎng)狀態(tài)數(shù)據(jù)分析、用人單位調(diào)查等手段進(jìn)行評(píng)估。針對待評(píng)估的專業(yè),分別對照專業(yè)評(píng)估指標(biāo)體系中的23個(gè)關(guān)鍵評(píng)估指標(biāo)逐項(xiàng)對其進(jìn)行評(píng)測和賦分(滿分為10分),然后按照各指標(biāo)項(xiàng)的權(quán)重計(jì)算總分,并綜合評(píng)審數(shù)據(jù)明確劃分出“優(yōu)秀、良好、一般”等專業(yè)分類等級(jí)。采用PCA-SVM專業(yè)評(píng)估方法則無須使用指標(biāo)項(xiàng)的權(quán)重,也不計(jì)算總分。
表2 專業(yè)評(píng)估數(shù)據(jù)集部分?jǐn)?shù)據(jù)
應(yīng)用PCA分析實(shí)現(xiàn)數(shù)據(jù)降維。在SAS統(tǒng)計(jì)分析系統(tǒng)中新建practice邏輯庫,將其導(dǎo)入學(xué)校專業(yè)評(píng)估數(shù)據(jù)集zypg.sas7bdat,應(yīng)用princomp函數(shù)進(jìn)行主成分分析。相關(guān)語句如下:
proc princomp
data = Practice.zypg
out = Practice.zypg_out
prefix = pc
outstat = Practice.zypg_stat;
var v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23;
run
相關(guān)系數(shù)矩陣的特征值及其累計(jì)貢獻(xiàn)率如表3所示。其中,特征值越大,則其對應(yīng)的主成分變量所包含的信息就越多;累計(jì)貢獻(xiàn)率前4項(xiàng)已達(dá)0.940 6,所以選擇這4個(gè)主成分(即主成分分析產(chǎn)生的新數(shù)據(jù)集前4項(xiàng)pc1、pc2、pc3、pc4)代替原來專業(yè)評(píng)估數(shù)據(jù)中的23項(xiàng)指標(biāo),實(shí)現(xiàn)數(shù)據(jù)集降維。降維后的專業(yè)評(píng)估數(shù)據(jù)如表4所示。
應(yīng)用Libsvm軟件進(jìn)行專業(yè)等級(jí)特征模型訓(xùn)練與測試。Libsvm軟件是臺(tái)灣大學(xué)林智仁等學(xué)者開發(fā)的SVM模式識(shí)別與回歸軟件包,其特點(diǎn)是對SVM所涉及的參數(shù)調(diào)節(jié)相對較少,默認(rèn)參數(shù)較多[10]。為了保證模型的訓(xùn)練效果,避免各指標(biāo)項(xiàng)評(píng)分值級(jí)差過大而導(dǎo)致小特征被大特征所掩蓋的情況,在開始特征模型訓(xùn)練前對專業(yè)測評(píng)數(shù)據(jù)在[0,1] 區(qū)間進(jìn)行歸一化處理。
(1) Libsvm軟件中的核函數(shù)選擇。專業(yè)評(píng)估是對專業(yè)建設(shè)質(zhì)量的綜合判斷,專業(yè)評(píng)估指標(biāo)體系又是一個(gè)多維、非線性的模型,所以選擇了分類(C-SVC)模型、徑向基形式(RBF)核函數(shù),最終生成式(3)所示決策函數(shù):
(3)
式中:xi為支持向量;x為待預(yù)測標(biāo)簽的樣本;‖xi-x‖為二范數(shù)距離;b為一個(gè)標(biāo)量數(shù)值;wi為支持向量的系數(shù)。
表3 相關(guān)系數(shù)矩陣的特征值及其累計(jì)貢獻(xiàn)率
表4 降維后的4個(gè)主成分?jǐn)?shù)據(jù)
(2) Libsvm軟件中的參數(shù)選擇。調(diào)用網(wǎng)格參數(shù)尋優(yōu)函數(shù)SVMcgForClass實(shí)現(xiàn)c、g參數(shù)尋優(yōu),本例尋優(yōu)結(jié)果如圖2、圖3所示。其中,降維前的專業(yè)評(píng)估數(shù)據(jù)集最佳參數(shù)為c=4,g=0.015 6;降維后對應(yīng)的專業(yè)評(píng)估數(shù)據(jù)集最佳參數(shù)為c=4,g=1。
圖2 降維前的專業(yè)評(píng)估參數(shù)c、g尋優(yōu)結(jié)果
圖3 降維后的專業(yè)評(píng)估參數(shù)c、g尋優(yōu)結(jié)果
接下來進(jìn)行模型訓(xùn)練與測試:
(1) 對降維前的數(shù)據(jù)進(jìn)行模型訓(xùn)練與測試。從以上數(shù)據(jù)集中,隨機(jī)選擇21項(xiàng)專業(yè)評(píng)估數(shù)據(jù)作為專業(yè)訓(xùn)練樣本集,其余23項(xiàng)專業(yè)評(píng)估數(shù)據(jù)作為專業(yè)測試樣本集;然后,分別調(diào)用Svmstrain模型訓(xùn)練函數(shù)、Svmpredict測試函數(shù),獲得的分類準(zhǔn)確率為91.304 3%。結(jié)果表明,應(yīng)用Libsvm 軟件得到的專業(yè)分類結(jié)果與專家組評(píng)估得出的專業(yè)建設(shè)結(jié)果吻合率為91.304 3%。
(2) 對降維后的數(shù)據(jù)進(jìn)行模型訓(xùn)練與測試。選擇專業(yè)評(píng)估數(shù)據(jù)中降維后對應(yīng)的主成分?jǐn)?shù)據(jù),再分別調(diào)用Svmstrain模型訓(xùn)練函數(shù)與Svmpredict測試函數(shù),獲得的分類準(zhǔn)確率為95.652 2%。此次準(zhǔn)確率比降維前提高了4.347 9%(見表5)。
通過數(shù)據(jù)降維,去除了樣本中信息的重疊部分,提高了分類精度。PCA-SVM評(píng)估方法與專家組現(xiàn)場評(píng)估結(jié)果的吻合率高達(dá)95.652 2%,即在23個(gè)測試專業(yè)中僅有1個(gè)專業(yè)分類相異。這一個(gè)相異分類的原因是,專家組對該專業(yè)的評(píng)估指標(biāo)賦分或綜合評(píng)審的尺度不一。其余22個(gè)專業(yè)分類均相符,這表明PCA-SVM評(píng)估方法的可靠性,可代替專家組的現(xiàn)場評(píng)估工作。
表5 降維前后專業(yè)評(píng)估最佳參數(shù)及分類準(zhǔn)確率
在本次研究中,構(gòu)建了高職院校專業(yè)評(píng)估體系,引入主成分分析(PCA)和支持向量機(jī)(SVM)技術(shù)進(jìn)行分析。該體系有利于專業(yè)建設(shè)成效分析與質(zhì)量評(píng)價(jià),其中包括9個(gè)一級(jí)指標(biāo)和23個(gè)二級(jí)指標(biāo)。應(yīng)用Libsvm軟件進(jìn)行專業(yè)等級(jí)特征模型訓(xùn)練與測試實(shí)驗(yàn),驗(yàn)證了該體系的合理性。采用PCA-SVM專業(yè)評(píng)估方法,可以充分發(fā)揮SVM在小樣本、非線性及高維模式識(shí)別以及主成分分析數(shù)據(jù)降維方面的優(yōu)勢,訓(xùn)練專業(yè)等級(jí)特征模型,以取代專業(yè)組現(xiàn)場評(píng)估。該評(píng)估方法可避免人為設(shè)定權(quán)重所導(dǎo)致的主觀性偏差,能夠體現(xiàn)專業(yè)建設(shè)的多維特征,提高專業(yè)評(píng)估的工作效率。