駱仕杰,韓抒真
(天津工業(yè)大學(xué) 網(wǎng)絡(luò)安全和信息化辦公室,天津 300387)
隨著互聯(lián)網(wǎng)推動信息化技術(shù)的爆發(fā)式發(fā)展,數(shù)據(jù)的規(guī)模也逐漸擴大,由此引發(fā)了缺失數(shù)據(jù)、劣質(zhì)數(shù)據(jù)、數(shù)據(jù)分散等問題,因此數(shù)據(jù)治理顯得尤為重要.數(shù)據(jù)治理可以盡可能彌補缺失數(shù)據(jù),清洗劣質(zhì)數(shù)據(jù),還可以有效地歸一和聚合分散的數(shù)據(jù).在高校中,由于學(xué)科多,學(xué)科之間存在一定差異,信息化技術(shù)高速發(fā)展的今天,教學(xué)手段也更靈活多樣,高校教學(xué)質(zhì)量評估變得相當(dāng)復(fù)雜,如何有效的分析影響教學(xué)質(zhì)量的因素,并且可以盡可能多方面的影響維度進行分析,分析的合理有效是一個頗具挑戰(zhàn)性的問題.目前,教學(xué)質(zhì)量為衡量各高校的水平的重要指標(biāo)之一,如何有效地分析研究影響學(xué)校教學(xué)質(zhì)量的原因是提升學(xué)校水平的重要方法.數(shù)據(jù)治理中將學(xué)校的各業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一,提高數(shù)據(jù)質(zhì)量,降低數(shù)據(jù)的冗余性.在更豐富的數(shù)據(jù)中使用數(shù)據(jù)挖掘技術(shù)對影響教學(xué)質(zhì)量的原因進行分析,可以更具體更全面的構(gòu)建分析模型,對影響教學(xué)質(zhì)量的因素進行分級排序,用更科學(xué)和合理的方式對現(xiàn)階段影響教學(xué)質(zhì)量的因素進行量化分析,可以指導(dǎo)高校制定適合自己學(xué)校的制度和方法來有效的提升教學(xué)質(zhì)量[1-3].
教學(xué)質(zhì)量評估中比較重要的影響因素有教師的信息,因此在教學(xué)質(zhì)量分析模型中需要構(gòu)造好的教師畫像.國外學(xué)者Gorrab A等已經(jīng)證實將社交信息融入進去來構(gòu)造用戶畫像取得了較好的成效[4].本文采取相似的思路在構(gòu)造師資信息和學(xué)生信息相關(guān)的模型時融入了學(xué)生和教師的社交信息.國內(nèi)學(xué)者楊長春,徐筱等人使用隨機森林方法在用戶畫像的構(gòu)建上有很好的突破,但是數(shù)據(jù)維度較為稀疏,并且特征上均為靜態(tài)信息,在特征豐富度上稍有不足[5].本文在用戶的特征上具備了社交信息、評價信息等動態(tài)信息作為特征,可以在畫像的構(gòu)造上更加完整.鄂海紅、張文靜等學(xué)者通過深度神經(jīng)網(wǎng)絡(luò)可以良好的構(gòu)造實體關(guān)系,教師、學(xué)生和教學(xué)信息之間的信息關(guān)系類似構(gòu)造實體關(guān)系網(wǎng)絡(luò),因此本文采取了深度神經(jīng)網(wǎng)絡(luò)來處理學(xué)生信息數(shù)據(jù)模型[6].李恒超等人提出了構(gòu)建用戶畫像的二級融合算法,成功在用戶畫像的構(gòu)建中使用了融合算法.本文將教師和學(xué)生的畫像信息通過模型構(gòu)造后引入教學(xué)評估的融合模型認為會充分發(fā)揮畫像信息的作用[7].
快速高效的從開放領(lǐng)域中提取出有效的信息并且建立好的實體關(guān)系作為數(shù)據(jù)挖掘和信息抽取的重要問題[8].Feng X,Guo J等人通過使用雙向神經(jīng)網(wǎng)絡(luò)提取出了信息之間的監(jiān)督關(guān)系,建立了較好的關(guān)系網(wǎng)絡(luò)模型[9].但是僅僅采用雙向神經(jīng)網(wǎng)絡(luò)構(gòu)造的關(guān)系模型的缺點在于如果出現(xiàn)特征維度過高或者無用關(guān)系特征過多,關(guān)系網(wǎng)絡(luò)將會非常復(fù)雜,導(dǎo)致效果不佳[10,11].本文引入Attention機制將較好的解決這一問題.
目前國內(nèi)外針對教學(xué)質(zhì)量分析的數(shù)據(jù)挖掘研究主要針對于經(jīng)過認可的影響因素來構(gòu)建,對挖掘特征的擴展性和延展性略有不足.因此采用深度學(xué)習(xí)模型計算復(fù)雜的關(guān)系特征的關(guān)聯(lián)規(guī)則,并且使用隨機森林模型特點,讓評估指標(biāo)更好的通過權(quán)重來解釋.充分利用數(shù)據(jù)治理將高校各系統(tǒng)的數(shù)據(jù)匯總的優(yōu)勢,有效的選取影響教學(xué)質(zhì)量的影響因素作為特征,最后將深度神經(jīng)網(wǎng)絡(luò)和隨機森林模型融合在一起得到最后的教學(xué)質(zhì)量分析模型(RALCA).本模型通過數(shù)據(jù)挖掘算法和建模的方式更科學(xué)的對影響教學(xué)質(zhì)量的因素做分析,可以更直觀的得到影響教學(xué)質(zhì)量因素的影響因素,通過已有的教學(xué)質(zhì)量評估數(shù)據(jù)實際分析,可以更好的提高教學(xué)質(zhì)量.
影響教學(xué)質(zhì)量的因素復(fù)雜多樣,教學(xué)質(zhì)量分析主要和教師、學(xué)生的個人信息、教學(xué)互動信息兩部分信息相關(guān),針對兩類信息的數(shù)據(jù)特點,制定不同的分析方案,選擇適合的數(shù)據(jù)模型進行挖掘來做模型融合前的第一步工作.
人事系統(tǒng)主要存放在職教師的個人信息數(shù)據(jù),人事系統(tǒng)中教師的個人信息具有結(jié)構(gòu)化、可表示性較強的特點.師資信息的數(shù)據(jù)來源于人事系統(tǒng),人事系統(tǒng)中數(shù)據(jù)主要對教師的教學(xué)水平、科研水平等有較好的表示,因此人事信息對教學(xué)質(zhì)量評估的影響有很強的指向性意圖.對于人事系統(tǒng)的信息,目的是有效的衡量教師的科研能力、組織能力、教學(xué)能力、工作能力等方面.學(xué)生信息數(shù)據(jù)來源于研究生院系統(tǒng)和教務(wù)系統(tǒng),學(xué)生的信息數(shù)據(jù)包括學(xué)生基本信息和行為信息數(shù)據(jù),兩者類型的數(shù)據(jù)關(guān)系比較復(fù)雜,又涉及到一些學(xué)生基本信息和學(xué)生的行為數(shù)據(jù)有關(guān)聯(lián)的特點.已有的決策樹算法對特征之間的無關(guān)聯(lián)性要求較高才能達到很好的效果,人事系統(tǒng)中的數(shù)據(jù)特征有很多是具有關(guān)聯(lián)性意義的,比如教學(xué)能力和科研能力有一定關(guān)系,組織能力和教學(xué)能力也有一定關(guān)系,所以要對模型的泛化能力做著重關(guān)注,最終決定選取隨機森林模型來構(gòu)建人物畫像信息方面的數(shù)據(jù).
隨機森林模型(Random Forest,簡稱RF)是一種有監(jiān)督學(xué)習(xí)算法[12].隨機森林是多個決策樹集成到一起而構(gòu)建成的,通過隨機性來構(gòu)建森林,使用“bagging”的方法訓(xùn)練而成,bagging方法即為bootstrap aggregating,采用的是隨機又放回的選擇訓(xùn)練數(shù)據(jù)然后構(gòu)造分類器,最后通過組合學(xué)習(xí)到的模型來增加整體的效果[13,14].
隨機森林的算法流程如下:
1)其中,特征數(shù)量N,通過有放回的抽樣可以構(gòu)造成(m×n)m×n的抽樣空間假設(shè)存在數(shù)據(jù)集D:
D={xi1,xi2,…,xin,yi}(i∈[1,m])
(1)
2)構(gòu)建決策樹的學(xué)習(xí)器:對于每一個抽樣
dj={xi1,xi2,…,xik,yi}(i∈[1,m])
(2)
生成決策樹,并且記錄每一個的決策樹結(jié)果為hj(x);
3)使用加權(quán)投票法訓(xùn)練C次使得
(3)
其中φ即為加權(quán)投票法.
教學(xué)信息數(shù)據(jù)主要以教師和學(xué)生對教學(xué)情況的評估為主,因此核心的內(nèi)容是要構(gòu)造教師對于課堂的講授因素、教師對課程本身的調(diào)控關(guān)系因素、學(xué)生對于課堂的接收能力以及學(xué)生對于課堂的授課方式的評價等關(guān)系對于教學(xué)質(zhì)量的影響.教學(xué)信息數(shù)據(jù)模型目的是為了表示學(xué)生、教師信息和教學(xué)情況信息的關(guān)聯(lián)關(guān)系進行較好的表示.深度神經(jīng)網(wǎng)絡(luò)具有對復(fù)雜關(guān)系解釋性強和對特征合理強化或者弱化的優(yōu)點,在處理關(guān)聯(lián)性較多的這種多維特征、關(guān)系復(fù)雜的問題可以有效地對特征進行篩選且較好地解釋特征之間的關(guān)系.近年來,深度學(xué)習(xí)領(lǐng)域中提出的注意力機制(Attention Mechanism)在面臨一些需要突出關(guān)注的特征弱化無關(guān)的特征類型的困難任務(wù)中,能有效地提高深度學(xué)習(xí)算法的準(zhǔn)確率[15,16].注意力機制的思想是在模仿人腦的注意力機制,人的大腦在接收外界信輸入的時候,通常是不能將全部的信息進行處理的,會有選擇的進行處理,選擇的標(biāo)準(zhǔn)就是將注意力集中在部分關(guān)鍵的信息上,過濾掉自認為不重要的信息,讓自己的注意力更加關(guān)注到關(guān)鍵的部分,從而使得信息處理的效率和準(zhǔn)確率有所提升[17].教學(xué)信息數(shù)據(jù)維度較多,但不是所有的信息都是質(zhì)量分析模型關(guān)注的,比如教學(xué)的師資信息、教學(xué)課程年份等為需要關(guān)注的信息,而教師與學(xué)生的性別、愛好、社團參加經(jīng)歷等為弱化關(guān)注的信息.針對教學(xué)信息數(shù)據(jù)特征關(guān)注度不同的特點,準(zhǔn)備采取注意力機制和神經(jīng)網(wǎng)絡(luò)結(jié)合的方式作為學(xué)生信息數(shù)據(jù)處理的模型選擇.
選用注意力機制與長短記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,簡稱LSTM)進行結(jié)合的方法來構(gòu)造模型.LSTM作為深度神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的抽象關(guān)系表述較好,并且對學(xué)習(xí)長期的依賴性的關(guān)系信息有較好的保存能力[18].
Attention-LSTM模型的計算過程如下:
Ci為不同時間的壓縮信息,hi為LSTM作為編碼器每一個step的輸出,yi為輸出hi經(jīng)softmax層后得到的注意力權(quán)重.
某一時間間隔為t,將第n個LSTM編碼器輸出向量記為H:
H=(h1,h2,…,hn)
(4)
其中,Gt為給定時間間隔t的輸入門、遺忘門和輸出門,這些從LSTM輸出的hi經(jīng)過softmax層后計算得出注意力機制的權(quán)重:
yi=softmax(hi)×[(Gt)×tanh(ci)]
(5)
注意力權(quán)重向量記為Y:
Y=(y1,y2,y3,…,yn)
(6)
由上述計算可得到影響因素的權(quán)重向量表示,得到學(xué)生、教師和教學(xué)信息數(shù)據(jù)的之間的關(guān)系表示.
為了更好的完成對教學(xué)質(zhì)量分析的模型構(gòu)建,首先要對可以構(gòu)建影響教學(xué)質(zhì)量評估分析的模型的數(shù)據(jù)因素進行分析,在數(shù)據(jù)采集上通過數(shù)據(jù)治理工具采集了教師信息、學(xué)生信息和教學(xué)信息3部分的數(shù)據(jù).下面將對這3部分的數(shù)據(jù)具體進行分析展示:
1)教師與學(xué)生信息
教師的數(shù)據(jù)信息主要來自人事系統(tǒng),是一些教師的基本信息、科研信息、師資信息等.教學(xué)質(zhì)量評估中教師的信息作為比較重要的特征信息,表1展示部分教師信息數(shù)據(jù)特征,教師信息數(shù)據(jù)特征總共有178個.
表1 高校教師信息數(shù)據(jù)特征簡介
學(xué)生的數(shù)據(jù)信息主要來自于研究生院,是學(xué)生的基本信息、授課信息、導(dǎo)師關(guān)系、研究方向、課堂狀態(tài)等.在教學(xué)質(zhì)量評估分析中,學(xué)生的最終學(xué)習(xí)效果和學(xué)生的研究方向、個人驅(qū)動等方面原因結(jié)合起來進行分析,對教學(xué)質(zhì)量評估的分析更客觀和直接,比如生源不同、入學(xué)方式不同等各方面因素均會體現(xiàn)學(xué)生的學(xué)習(xí)能力、學(xué)習(xí)驅(qū)動型等特征,通過這些特征再進一步和學(xué)生的聽課狀態(tài)、考試方法、教學(xué)情況結(jié)合起來分析可以更好的分析影響教學(xué)質(zhì)量的因素.表2展示部分學(xué)生信息數(shù)據(jù)特征,學(xué)生信息數(shù)據(jù)特征總共有112個.
表2 高校學(xué)生信息數(shù)據(jù)特征簡介
2)教學(xué)信息
教學(xué)信息數(shù)據(jù)是來源于教務(wù)處系統(tǒng),這個也是主要教學(xué)質(zhì)量評估分析的核心數(shù)據(jù)信息內(nèi)容,這部分數(shù)據(jù)大多數(shù)是用課堂教學(xué)評價的信息,用來連接教師和學(xué)生的核心數(shù)據(jù).從教師角度分析得到教師課堂教學(xué)特征,包括聽課次數(shù)、調(diào)課次數(shù)、提前下課次數(shù)、找人代課次數(shù)、留作業(yè)次數(shù)、隨堂檢驗次數(shù)、ppt制作次數(shù)等.從學(xué)生角度分析得到學(xué)生評價課堂教學(xué)特征,包括課堂內(nèi)容合理程度、講課的質(zhì)量評估、授課技巧評估、教師責(zé)任心、作業(yè)批改認真程度、課堂內(nèi)容實踐意義、課堂氛圍好壞、考試內(nèi)容是否符合教學(xué)等.
3.2.1 模型融合
模型的融合的技術(shù)有很多方法,可以通過回歸算法,例如線性回歸(Linear Regression)、邏輯回歸(Logistic Regression)、Lasso回歸等方法對特征的權(quán)重重新擬合達到多個模型融合的目的.當(dāng)然還有針對不同類別的數(shù)據(jù)特征設(shè)計的模型融合算法,例如投票算法(Voting)、排名排序算法(Ranking)、抽樣生成算法(Bagging)、交叉加權(quán)平均算法(Blending)、疊加法(Stacking)等對多個模型的輸出進行進一步的處理得到最終結(jié)果[19].神經(jīng)網(wǎng)絡(luò)concatenate層不僅僅是對模型信息的一個疊加或者是排序,而是在保證原有的特征維度基礎(chǔ)上的一個通道數(shù)的合并,對特征的信息描述的更加具體.另外由于涉及到教學(xué)質(zhì)量分析的特征維度較高,采用疊加或者排序的方法很容易造成過擬合,采用神經(jīng)網(wǎng)絡(luò)concatenate層可以有效的避免特征維度較高并且樣本數(shù)量較少的過擬合情況,在維持原有特征維度的基礎(chǔ)上更加高效進行特征的信息聯(lián)合[20].為了讓模型在特征層面進行融合,并且可以對特征進行聯(lián)合,最終選取神經(jīng)網(wǎng)絡(luò)concatenate層對學(xué)生信息模型、教師信息模型和教學(xué)信息模型的輸出層進行信息融合.
3.2.2 教學(xué)質(zhì)量分析模型RALCA的設(shè)計
教學(xué)質(zhì)量的影響因素受到學(xué)生、教師信息數(shù)據(jù)和教學(xué)信息數(shù)據(jù)的影響.學(xué)生的信息數(shù)據(jù)主要對教學(xué)質(zhì)量的影響在于判斷學(xué)生是否認真學(xué)習(xí)、學(xué)生的學(xué)習(xí)質(zhì)量如何.
教師信息數(shù)據(jù)在于課堂教學(xué)的質(zhì)量和授課方法的效果等因素對教學(xué)質(zhì)量的影響.使用RF模型可以較好的表現(xiàn)學(xué)生、教師自身因素對于教學(xué)質(zhì)量的影響,生成對學(xué)生較好表達的人物畫像信息特征.教學(xué)信息模型采用循環(huán)神經(jīng)網(wǎng)絡(luò)挖掘教師、學(xué)生信息與教學(xué)特征之間的關(guān)聯(lián)關(guān)系,引入注意力機制排除一些影響較小的因素,生成稀疏高維度的教師信息特征.使用concatenate方法融合了學(xué)生、教師信息特征和教學(xué)信息特征,然后將融合的特征輸入到一個全連接層,使用全連接層將學(xué)習(xí)到的特征表示映射到樣本的標(biāo)記空間,將所有的特征整合到一起,對特征進行提純和篩選.最后連接到sigmoid對影響教學(xué)質(zhì)量的因素進行打分,得到影響因素的影響程度得分.提出的RALCA模型如圖1所示.
圖1 RALCA模型
如圖1給定n個影響因素,用pi來表示影響因素的影響程度,那么所有的影響因素表示為P:
P={P1,P2,P3,…,Pn}
(7)
(8)
公式(8)為影響因素的影響概率,即為影響因素的影響程度.結(jié)合本文2.1節(jié)隨機森林模型的人物畫像輸出和本文2.2節(jié)Attention-LSTM模型的教學(xué)信息和教師、學(xué)生之間的關(guān)系輸出,使用concatenate融合兩個輸出后,再經(jīng)過一個全連接層計算:
z=W[ORF,OAttention-LSTM]+c
(9)
其中ORF為人物畫像的影響指數(shù),OAttention-LSTM為Attention-LSTM模型的關(guān)系預(yù)測結(jié)果,最終pi計算為:
(10)
下面詳細介紹RALCA模型的融合過程:
1)人物畫像構(gòu)建
教師的個人信息和學(xué)生的個人信息作為影響教學(xué)質(zhì)量的因素通過隨機森林中bagging的思想構(gòu)造特征信息之間的分類器,每一個bagging通過組合學(xué)習(xí)得到一個較為綜合的權(quán)重表示的向量.最后得到具有人物信息特征重要性組成的用戶畫像模型.
用戶畫像特征數(shù)量為n,畫像信息特征的距離表示為:
L(n)=∑d(k)=iprox2(n,k)
(11)
畫像特征構(gòu)造出多個決策樹,多個決策樹通過平均相關(guān)系數(shù)來平衡畫像特征之間的決策樹,計算公式如公式(12)所示:
M(X,Y)=P(Y=Y)-maxP(Y=Z)
(12)
其中Y是根據(jù)隨機向量構(gòu)建的決策樹的預(yù)測類別,通過計算泛化誤差的關(guān)系,來平衡計算各個決策樹之間的關(guān)系.
當(dāng)各個決策樹構(gòu)建平衡后,得出用戶畫像的隨機森林模型,其中每個用戶信息特征的影響程度計算過程為:
通過Gini指數(shù)來代表特征對于決策樹中分類的純度:
(13)
其中,K表示有K個畫像類別,pnk表示節(jié)點n中類別k所占的比例.因此畫像特征在節(jié)點n中與相鄰的畫像特征重要性指數(shù)變化表示為:
(14)
因此這個畫像特征在第i棵決策樹的重要性為:
(15)
由此可得到在z個決策樹組成的隨機森林中畫像特征的重要性評分為:
(16)
2)信息關(guān)系表示
其中教學(xué)信息數(shù)據(jù)模型的LSTM的過程類似于編碼和解碼,也就是encoder和decoder.此模型中encoder的過程及將學(xué)生、教師信息和教學(xué)信息轉(zhuǎn)化為一個類似關(guān)系中間件的東西,decoder的過程及根據(jù)關(guān)系中間件來輸出最有可能的信息組合.但是LSTM如果遇到輸入的特征維度非常長的時候會在encoder和decoder的過程中產(chǎn)生的關(guān)系中間件的表達不是特別的好,注意力機制會較好解決此類問題,注意力機制可以在encoder的過程中對每一個輸入賦予不同的權(quán)重,輸出一個不同關(guān)系比例的關(guān)系中間件組合,因此decoder的過程可以根據(jù)這個比例關(guān)系進一步處理,從而達到較好的關(guān)系解釋效果.自注意力機制將會給每一個關(guān)系信息分配權(quán)重,得到影響因素的關(guān)系權(quán)重表示.
3)信息融合
如圖1所示,RALCA模型使用concatenate方法將RF模型構(gòu)造的人物畫像關(guān)系和Attention-LSTM模型構(gòu)造的人物信息和教學(xué)信息之間的關(guān)系信息融合起來,輸入到全連接層進行計算.
4)影響程度計算
為了輸出教師、學(xué)生信息和教學(xué)信息中影響因素的概率,在全連接層計算后通過sigmoid函數(shù)計算出每一個影響因素的概率表示,即為影響程度.
1)根據(jù)3.1中的分析從人事系統(tǒng)、研究生系統(tǒng)、教務(wù)系統(tǒng)中收集相應(yīng)的特征數(shù)據(jù).
2)對收集到的數(shù)據(jù)進行數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、數(shù)據(jù)特征化的處理.
3)對采集到的教師信息特征、學(xué)生信息特征使用隨機森林的方法構(gòu)造模型,對教務(wù)系統(tǒng)采集到的教學(xué)信息特征使用基于注意力機制的雙向神經(jīng)網(wǎng)絡(luò)方法構(gòu)造模型.
4)將兩部分模型的輸出通過concatenate方法進行融合處理.然后拼接上全連接層對融合后的特征進行提純和篩選,RALCA模型構(gòu)造完成.
5)通過初始值、學(xué)習(xí)率、動量因子、準(zhǔn)確率、召回率等因素確定融合模型的穩(wěn)定時刻.
6)根據(jù)模型的構(gòu)造數(shù)據(jù),對模型進行訓(xùn)練,直到訓(xùn)練到滿足預(yù)先設(shè)置的范圍為止.
數(shù)據(jù)治理中教學(xué)質(zhì)量分析模型的構(gòu)建中有深度學(xué)習(xí)和多進程訓(xùn)練的模型,因此對于實驗分析平臺的性能要求較高,在進行模型的訓(xùn)練、驗證和實例分析中采用了如表3所示的1臺帶顯卡的深度學(xué)習(xí)機器和如表4所示高性能CPU配置機器.
表3 顯卡深度學(xué)習(xí)機器配置信息
表4 多進程機器配置信息
融合模型的評估包括各個部分的模型評估以及最后的模型融合效果的評估,針對教師和學(xué)生數(shù)據(jù)、教學(xué)信息數(shù)據(jù)的模型構(gòu)造將分開逐一進行評估,最后的融合效果采取了對比的方式進行最后的評估.
4.2.1 人物畫像數(shù)據(jù)模型評估
使用隨機森林模型原因在于模型的分類綜合穩(wěn)定性和樹類型模型可以形象的對特征有一個權(quán)重的表示,因此對于教師數(shù)據(jù)的模型主要衡量模型的準(zhǔn)確率、召回率和權(quán)重分布.真陽性率和假陽性率為衡量分類模型的重要指標(biāo),真陽性率=真陽性數(shù)量/金標(biāo)準(zhǔn)陽性數(shù)量,假陽性率=假陽性數(shù)量/金標(biāo)準(zhǔn)陰性數(shù)量.ROC曲線是以真陽性率為縱坐標(biāo),假陽性率為橫坐標(biāo)繪制的曲線,因此ROC曲線可以綜合考量準(zhǔn)確率和召回率的平衡關(guān)系.AUC是ROC曲線下與坐標(biāo)軸圍成的面積,面積值不會大于1,此數(shù)值主要是ROC曲線面積的一個數(shù)值計算.實驗數(shù)據(jù)計算得到隨機森林的AUC值可以達到0.93,因此認為隨機森林模型在教師、學(xué)生數(shù)據(jù)的準(zhǔn)確率和召回率的平衡因素上表現(xiàn)符合預(yù)期.
如圖2所示,隨機森林模型的訓(xùn)練后,模型對特征權(quán)的分布圖來看,有個別特征影響較強,大多數(shù)特征影響程度均衡在0.2~0.2之間,可見模型對于權(quán)重的影響程度的擬合度較好,此模型的權(quán)重影響程度符合融合模型第1層的分布.
圖2 特征影響程度分布散點圖
如表5所示為畫像模型構(gòu)造完成后,按照影響程度從高到低排序的部分數(shù)據(jù)信息,構(gòu)建用戶畫像模型用于表示教師對于教學(xué)的綜合能力評價,畫像特征影響程度越高對于教師的教學(xué)綜合能力評價影響程度越高,表5展示的均為正向影響特征,與教學(xué)本身相關(guān)特征4個,無關(guān)特征2個,可得出學(xué)生綜合評價打分與科研成就值均會對教師畫像產(chǎn)生較高的正向影響的結(jié)論,由此可以證明教師在學(xué)生中的影響力和教師的科研能力會對教師畫像構(gòu)建產(chǎn)生正向的較高影響.
表5 畫像特征影響程度部分數(shù)據(jù)
4.2.2 教學(xué)信息數(shù)據(jù)模型評估
針對深度神經(jīng)網(wǎng)絡(luò)LSTM和Attention機制組合的模型,在錄入融合模型前最關(guān)心的是模型是否過擬合,學(xué)生數(shù)據(jù)比較雜亂繁多,深度學(xué)習(xí)類型的模型更是容易訓(xùn)練過程中有過擬合的現(xiàn)象,針對此問題才需訓(xùn)練過程中使用驗證集合交叉驗證的方法,并且持續(xù)訓(xùn)練,查看模型的準(zhǔn)確率是否可以持續(xù)提升并且符合預(yù)期.如圖3所示為模型交叉驗證訓(xùn)練波動圖由,可以看出,不斷的交叉驗證在模型的準(zhǔn)確率上確實有所影響,但是準(zhǔn)確率達到平穩(wěn)狀態(tài)下的時候,依舊可以維持在0.91的數(shù)據(jù)附近,符合錄入融合模型預(yù)期.
圖3 模型交叉驗證訓(xùn)練準(zhǔn)確率波動圖
4.2.3 教學(xué)質(zhì)量評估分析融合模型評估
教學(xué)質(zhì)量評估模型的融合效果好壞決定了教學(xué)質(zhì)量評估分析的好壞,采用了數(shù)據(jù)治理中的上述教師和學(xué)生數(shù)據(jù)、教學(xué)數(shù)據(jù)兩類模型進行融合得到綜合的教學(xué)質(zhì)量評估模型,選取了LR、SVM、Stacking、concatenate 4種融合技術(shù)作為最后模型融合的方法.通過實驗對比分析4種融合后算法的ROC曲線如圖4所示,RALCA模型融合算法的ROC曲線在LR和SVM融合后的算法曲線之上,更接近于點(0,1),顯然采用concatenate方法的RALCA模型融合的AUC值也是最大,故RALCA模型融合的教學(xué)質(zhì)量評估模型的泛化性能更好.
圖4 4種融合算法ROC曲線對比圖
4種算法分別進行了實驗,對4種算法融合的精確率、召回率、P-R調(diào)和均值和AUC值如表6所示.對4種融合算法的準(zhǔn)確率和召回率進行分析:LR屬于回歸模型,準(zhǔn)確率較高,但是召回率表現(xiàn)較差,模型表現(xiàn)并不均衡;SVM作為線性分類,融合效果不佳,雖然召回率比較LR出色一些,但是準(zhǔn)確率太低,預(yù)測精準(zhǔn)度不高;Stacking融合效果優(yōu)于前兩種方法,但是Stacking融合在效率上較差;RALCA融合模型在召回率和準(zhǔn)確率上表現(xiàn)均不錯,這表明融合模型的預(yù)測準(zhǔn)確度保證的前提下也保證了模型預(yù)測正確的數(shù)量,并且F1值也很高,表明此融合技術(shù)比較傳統(tǒng)的線形和回歸形的融合方法優(yōu)勢較大.Concatenate方法作為最后的融合技術(shù),使得模型的AUC也達到了0.96的高數(shù)值,這說明模型的綜合泛化性能也是最佳的.綜上,RALCA模型融合算法作為教學(xué)質(zhì)量評估模型可以有效的對教學(xué)質(zhì)量的影響因素進行分析.
表6 4種融合算法效果對比
本實驗采用的數(shù)據(jù)是某高校2019-2020年度的教學(xué)數(shù)據(jù)和相關(guān)的學(xué)生數(shù)據(jù)以及教師數(shù)據(jù),為了對個人信息進行保護,實驗數(shù)據(jù)為真實數(shù)據(jù)脫敏后的數(shù)據(jù).對訓(xùn)練好的教學(xué)質(zhì)量評估模型中的原始特征影響因素進行分析,對影響權(quán)重的分布進行了統(tǒng)計如圖5所示.通過圖5可以看出大部分的特征影響程度很小,而影響程度0.15~0.25之間出現(xiàn)了二次波動的峰頂,由此可見高頻的有效的特征應(yīng)處于這個之間,從特征數(shù)量在特征影響程度的分析曲線較為平滑,可見特征的影響程度比較均勻,曲線表現(xiàn)的光滑平穩(wěn),模型特征的影響程度分析也比較可靠,因此通過這個模型選取影響印象因素較高的特征進行查看可以得出高校近期對教學(xué)質(zhì)量提升有力的因素.
圖5 特征影響程度與數(shù)量分析圖
本實驗選取了影響程度較高的Top10個影響因素和影響程度繪制如圖6所示.可以發(fā)現(xiàn)大多數(shù)影響較高的特征還是來自于教學(xué)因素相關(guān),授課技巧、內(nèi)容合理程度、調(diào)課次數(shù)和課堂氛圍對教學(xué)質(zhì)量的影響較大,這也是在教學(xué)方面提升的比較快的一些方式和方法;同時教師的資質(zhì)水平也會對教學(xué)質(zhì)量有一定的影響,教師的專業(yè)和優(yōu)秀的專家稱號從側(cè)面也會給學(xué)生一定的優(yōu)質(zhì)教師影響,會激勵學(xué)生更努力的學(xué)習(xí);學(xué)生方面也是學(xué)生的學(xué)科影響較高,文科類型的學(xué)生在教學(xué)質(zhì)量提升上有一定的困難,學(xué)生的入學(xué)成績也影響較高,可見好的學(xué)習(xí)基礎(chǔ)對于教學(xué)質(zhì)量的影響也比較突出.
圖6 Top10影響因素與影響程度圖
影響高校教學(xué)質(zhì)量的因素有很多,如何快速的提升教學(xué)質(zhì)量是當(dāng)前的研究熱點.通過數(shù)據(jù)挖掘算法對影響高校教學(xué)質(zhì)量的因素進行快速的定位和科學(xué)的評估,可以為學(xué)校更好的分析影響教學(xué)質(zhì)量的影響因素.學(xué)校可以根據(jù)教學(xué)質(zhì)量模型對影響因素的分析快速定位教學(xué)質(zhì)量的問題所在,依據(jù)問題有針對性的制定政策方針制定方針,可以快速提升教學(xué)質(zhì)量.通過數(shù)據(jù)治理對學(xué)校數(shù)據(jù)聚合處理的優(yōu)勢,采集到更多方位對影響教學(xué)質(zhì)量的因素數(shù)據(jù),使用concatenate方法將隨機森林和注意力機制的雙向長段記憶神經(jīng)網(wǎng)絡(luò)進行融合,對模型得到的特征影響度進行分析,可以得到對教學(xué)質(zhì)量影響因素的快速分析,具有十分廣泛的應(yīng)用價值.
本次教學(xué)質(zhì)量評估分析中錄入的信息均為個人信息、關(guān)系信息等固定信息,高校數(shù)據(jù)治理還可以采集一些人物行為信息,比如課堂學(xué)生行為信息和課堂教師行為信息,解析為可以分析教學(xué)質(zhì)量的結(jié)構(gòu)化信息后錄入模型將對模型的數(shù)據(jù)特征多樣性進行豐富,也可以對更多的人物行為信息進行解釋,指導(dǎo)教師日后的教課行為也可以規(guī)范學(xué)生的聽課習(xí)慣.