亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于寬度學習算法的加權集成成績預測模型

        2021-11-08 09:03:14吳玉鳳錢亞冠
        浙江科技學院學報 2021年5期
        關鍵詞:模型學生

        吳玉鳳,馮 軍,錢亞冠,金 帆

        (浙江科技學院 理學院,杭州 310023)

        教育數(shù)據(jù)挖掘(educational data mining,EDM)是一個新興的跨學科的研究領域。它利用機器學習、統(tǒng)計學和數(shù)據(jù)挖掘技術對教育數(shù)據(jù)進行分析和處理,從而提高學習者的學習效率,更好地讓教師了解學生及其學習環(huán)境。對學生成績預測是教育數(shù)據(jù)挖掘領域的熱門研究課題。常用的數(shù)據(jù)挖掘分類算法有決策樹(decision tree,DT)[1]、神經(jīng)網(wǎng)絡(neural network,NN)[2]、樸素貝葉斯[3](naive Bayes,NB)、邏輯回歸[4](logistic regression,LR)、支持向量機[5](support vector machine,SVM)等算法。Ma等[6]使用支持向量機算法和網(wǎng)格搜索優(yōu)化的決策樹算法來預測學生成績,并利用信息增益找出對學生成績影響較大的因素,于是可利用該模型來識別與學生成績有關的重要特征和學生考試通過率。Rubiano等[7]利用數(shù)據(jù)挖掘工具Weka中的3種分類器J48、PART、RIPOR對932名系統(tǒng)工程專業(yè)學生的成績進行預測,發(fā)現(xiàn)J48分類器的預測準確率較高。Costa等[8]使用決策樹、支持向量機、神經(jīng)網(wǎng)絡和樸素貝葉斯等算法對學生成績是否合格進行預測,結果表明支持向量機算法的預測結果優(yōu)于其他算法結果。Yang等[9]通過建立包含成績相關屬性和非相關屬性的學生屬性矩陣,對學生屬性進行量化,應用反向傳播神經(jīng)網(wǎng)絡算法來預估學生成績,并找出了影響學生成績的關鍵因素。施佺等[10]使用聚類分析和關聯(lián)方法對學生在線學習過程中的數(shù)據(jù)進行分析,使用聚類分析對學生進行分類,教師可以根據(jù)分類結果對學生采取不同形式的監(jiān)管,使用關聯(lián)規(guī)則了解學生學習屬性和學習成績之間的關聯(lián)。在文獻[11-14]中,研究者們使用從Kalboard 360 E-Learning系統(tǒng)收集的學業(yè)成績數(shù)據(jù)集,利用決策樹、神經(jīng)網(wǎng)絡、樸素貝葉斯等算法驗證了:學生學習過程中家長參與度、學生參加課程頻次和學生行為特征(舉手發(fā)言、查看公告、訪問課程資源和討論)對學生成績有很大的影響。他們使用預測學習成績的模型評價指標值在70%~80%之間,其中,文獻[14]使用集成學習構建學生成績預測模型,然后對集成的模型進一步嵌套集成,提升了分類預測模型的性能,但也僅為79.2%。由此可見,這些模型的效果還有較大的提升空間。

        通過文獻分析,我們發(fā)現(xiàn)有很多研究者建立了學生成績預測模型,但是大多數(shù)研究是從理論層面分析來建立學業(yè)成績評估模型,所建立的模型預測準確率不夠高,推測其可能的原因如下:一是使用的算法不同,不同的算法對學生數(shù)據(jù)的訓練效果是不同的,即使使用同一份數(shù)據(jù)也可能由于研究者的偏好或模型參數(shù)的不同而導致模型的效果不同;二是特征選擇不同,選擇不同的屬性子集會對學生成績預測產(chǎn)生不同的結果,應該盡量選擇與學生成績有關的特征,并且特征之間最好不要相互影響。針對上述研究存在的不足,本試驗首先采用數(shù)據(jù)驅(qū)動的建模方法,在包含16名學生屬性的數(shù)據(jù)集中以模型的預測準確率作為特征子集選擇的標準,采用排列組合的方式找出影響學生成績的因素,充分利用了學生數(shù)據(jù)的有效信息。然后,針對這些有效屬性,采用寬度學習(broad learning,BL)算法進行成績預測。該算法具有步驟少、結構簡單和學習速度比較快等優(yōu)點,彌補了深度學習算法由于需要計算大量隱層權值所造成的訓練時間過長的缺陷,與深度神經(jīng)網(wǎng)絡算法相比容易獲得全局最優(yōu)解,具有良好的泛化性能[15-16]。最后,在訓練好的算法上進行加權集成來構建學生成績預測模型,以克服單個分類器性能不夠穩(wěn)定,對數(shù)據(jù)變化比較敏感的缺點。

        1 數(shù)據(jù)來源及數(shù)據(jù)預處理

        1.1 數(shù)據(jù)來源和數(shù)據(jù)特征

        本研究使用從Kalboard 360 E-Learning系統(tǒng)收集的約旦大學學生成績數(shù)據(jù)集[17]。它是通過電子管理系統(tǒng)收集的學習者活動數(shù)據(jù),該數(shù)據(jù)集的屬性及其類別特征見表1。

        表1 學業(yè)成績數(shù)據(jù)集的屬性及其類別特征Table 1 Attributes of academic achievement data set and its category characteristics

        1.2 數(shù)據(jù)預處理

        數(shù)據(jù)預處理是研究過程的重要步驟,通過預處理可以提高數(shù)據(jù)集的質(zhì)量。數(shù)據(jù)預處理包含數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約和數(shù)據(jù)變換。數(shù)據(jù)清理主要處理數(shù)據(jù)的各種異常情況,包括刪除重復信息與糾正錯誤信息。數(shù)據(jù)集最初收集了500條數(shù)據(jù),在刪除重復數(shù)據(jù)和缺失數(shù)據(jù)并清理異常數(shù)據(jù)后,數(shù)據(jù)變成了480條。數(shù)據(jù)歸約是通過精簡數(shù)據(jù)盡可能多地保留原數(shù)據(jù)中的有效信息,即對數(shù)據(jù)進行特征選擇,其理想方法是將數(shù)據(jù)集中所有可能的屬性子集作為算法的輸入,然后選擇能使算法預測準確率最高的子集作為特征選擇的結果[14]。本試驗對數(shù)據(jù)屬性所有可能的子集進行遍歷,分別使用決策樹、多層感知機神經(jīng)網(wǎng)絡和寬度學習算法等模型進行訓練,每種模型經(jīng)過訓練得到3個效果最好的基分類器。其中,以寬度學習算法訓練得到的3個基分類器屬性子集標號分別為:①②③⑤⑧⑨⑩,①②⑤⑥⑩,①②③⑤⑥⑩。數(shù)據(jù)變換是通過改變數(shù)據(jù)的特征以方便計算和發(fā)現(xiàn)新的信息,主要是對數(shù)據(jù)進行標準化和離散化。標準化處理的是連續(xù)型變量,使處理后的數(shù)據(jù)在[0,1]區(qū)間,服從正態(tài)分布。對非數(shù)值型數(shù)據(jù)進行標準化是指對分類型特征進行編碼,即對不連續(xù)的數(shù)值進行編碼,如將教育水平屬性值小學、初中、高中分別標準化為1、2、3。離散化主要是根據(jù)學生的分數(shù),將學生成績分為3個等級:低級(L),0~69;中級(M),70~89;高級(H),90~100。通過數(shù)據(jù)預處理得到了標準化的數(shù)據(jù),然后利用處理好的數(shù)據(jù)進行訓練。

        2 預測算法與試驗設計

        2.1 預測算法

        本研究主要根據(jù)學生成績數(shù)據(jù)集對學生學期結束時的成績進行預測,通過標記的類別數(shù)據(jù)對處理好的數(shù)據(jù)集進行訓練,并將寬度學習算法和集成學習算法相結合,建立了學生成績預測模型。

        2.1.1 寬度學習算法

        寬度學習算法[18]最開始是作為深度學習算法的替代方法提出的,是一種基于隨機向量函數(shù)的算法。寬度學習算法首先將輸入數(shù)據(jù)映射成特征節(jié)點矩陣,經(jīng)過增強變換形成增強節(jié)點矩陣,由特征映射節(jié)點和增強節(jié)點共同作為隱含層的輸入,利用偽逆求解隱含層與輸出層之間的權重矩陣。當特征映射節(jié)點和增強節(jié)點的數(shù)目無法滿足任務需求時,寬度學習算法使用增量學習的方式動態(tài)調(diào)整網(wǎng)絡結構,實現(xiàn)快速重新訓練。假設算法的訓練集輸入為X,包含A個訓練樣本,每個樣本有B個屬性,訓練集的標簽類別為M種,則算法的具體過程如下:

        首先,將輸入數(shù)據(jù)X映射成特征節(jié)點矩陣。訓練集X經(jīng)過第i組特征映射得到第i組特征節(jié)點矩陣

        Zi=φi(XABWei+βei)。

        (1)

        式(1)中:Wei為第i組特征映射權重矩陣;βei為第i組特征映射偏置矩陣。

        然后,根據(jù)特征節(jié)點矩陣得到增強節(jié)點矩陣。前i組特征節(jié)點矩陣Zi經(jīng)過第j組增強映射得到第j組增強節(jié)點矩陣

        Hj=ξj(ZiWhj+βhj)。

        (2)

        式(2)中:Whj為第j組增強映射權重矩陣;βhj為第j組增強映射偏置矩陣;Zi=[Z1,Z2,…,Zi]表示前i組特征節(jié)點矩陣的連接;Wei、βei、Whj、βhj均為隨機初始矩陣,且當Whj中的j取不同值時Whj相互正交。

        于是,寬度學習算法可表示為:

        (3)

        式(3)中:Wm為特征節(jié)點和增強節(jié)點到輸出層的權重矩陣,即我們要求的權值矩陣,它是由[Zn|Hm]的偽逆推導出來的,即Wm=[Zn|Hm]+Y,其中[Zn|Hm]+可以使用偽逆嶺回歸近似算法求得:

        (4)

        式(4)中:λ是常規(guī)的L2范數(shù)正則化;I為單位矩陣。訓練好Wm之后,測試集的測試值可由式(5)得到:

        Y=[Zn|Hm]Wm。

        (5)

        由于初始設計的模型擬合能力不足,需要增加增強節(jié)點數(shù)量來減小損失函數(shù)。我們把增加一組增強節(jié)點之后的特征節(jié)點和增強節(jié)點到輸出層的權重矩陣記為Wm+1,令Am=[Zn|Hm],新的權重可通過式(6)計算得到:

        (6)

        式(6)中:

        D=(Am)+ξ(ZnWhm+1+βhm+1);

        (7)

        (8)

        C=ξ(ZnWhm+1+βhm+1)-AmD。

        (9)

        由式(6)可以看出,寬度學習算法在增加節(jié)點時,僅通過計算相應節(jié)點的偽逆就可以求出新的輸出權重;換言之,即只需計算新插入的增強節(jié)點的偽逆即可,如此可實現(xiàn)快速增量學習。寬度學習算法的更新結構如圖1所示。

        圖1 寬度學習更新結構示意圖Fig.1 Broad learning update structure diagram

        由寬度學習理論可知,寬度學習算法比神經(jīng)網(wǎng)絡結構更簡單,可直接通過增加增強節(jié)點的方式提升模型性能,不需要重新訓練網(wǎng)絡。將其引入教育數(shù)據(jù)挖掘中,有助于在教育大數(shù)據(jù)提取中獲得有意義的規(guī)律與模式[19]。

        2.1.2 集成學習

        集成學習通過將多個分類器組合來完成學習任務。加權集成學習是一種集成學習方法,本研究中加權集成學習首先使用單個分類器決策樹算法、多層感知機神經(jīng)網(wǎng)絡算法和寬度學習算法來建立模型,然后將每種分類器進行訓練后得到3個模型,最后對3個模型的結果進行投票得出模型最終的判定類別。這種投票的方式能夠獲得比單一分類模型泛化性能更強的模型。

        2.2 試驗設計

        我們將數(shù)據(jù)分為兩部分,其中,70%的數(shù)據(jù)作為訓練集,30%的數(shù)據(jù)作為測試集。數(shù)據(jù)預處理過程結束之后,分別使用決策樹、多層感知機神經(jīng)網(wǎng)絡、寬度學習算法訓練模型,并且對模型進行調(diào)優(yōu),得到具有較高預測準確率的模型;然后分別對選出的模型使用加權集成學習構建成績預測模型。試驗環(huán)境如下:處理器為Intel(R) Core(TM) i7-9700,處理器主頻為3.00 GHz,內(nèi)存為16.0 GB。試驗的軟件環(huán)境為Python3.7。在基于寬度學習算法的加權集成模型中,設每個窗口的特征節(jié)點數(shù)為20,特征節(jié)點窗口數(shù)為20,增強節(jié)點數(shù)為300,正則化系數(shù)C取值分別為32、32、256。

        3 試驗結果與對比分析

        3.1 單一分類模型之間及其與集成模型之間的性能比較

        試驗使用決策樹、多層感知機神經(jīng)網(wǎng)絡和寬度學習算法,經(jīng)過特征選擇和參數(shù)調(diào)整得到了3種分類器,采用加權集成方法對3種分類器分別進行訓練和測試,得到模型的預測準確率如圖2所示。為了評估學生成績預測模型的性能,本研究使用了3個評價指標:準確率P、召回率R、F1值。

        圖2 模型預測準確率對比Fig.2 Comparison of model prediction accuracy

        由圖2可知,經(jīng)過數(shù)據(jù)預處理和模型調(diào)優(yōu),決策樹算法預測準確率為76.6%;多層感知機神經(jīng)網(wǎng)絡算法的預測準確率較高,為85.8%;寬度學習算法的預測準確率最高,達到了89.1%。加權集成學習之后,模型的預測準確率有所提升,其中,決策樹模型的性能提升最明顯,預測準確率提高了10個百分點;多層感知機神經(jīng)網(wǎng)絡模型的預測準確率沒有提高,其原因可能是訓練的多層感知機神經(jīng)網(wǎng)絡模型具有相似性;寬度學習模型的預測準確率提高了2.5個百分點,達到了91.6%。因此,我們可以看出加權集成學習可以有效提高模型的性能。之后,本試驗使用加權集成學習對成績類別為H、M、L的數(shù)據(jù)分別進行訓練,得到的模型效果如圖3所示。

        圖3 加權集成模型效果Fig.3 Diagram of weighted ensemble model effects

        使用加權集成學習之后對學生成績各個類別進行測試,得到寬度學習算法集成之后的F1最高,分別為88.5%、90.3%、96.9%,表明基于寬度學習算法的加權集成成績預測模型效果較好,而且該模型對學生成績類別為低的學生精確率、召回率、F1值最高,均為96.9%。這符合模型的設計初衷,即找出哪些學生最可能不及格,從而對這類學生進行學習預警,并采取有針對性的措施來幫助學業(yè)成績差的學生提高考試通過率。

        3.2 與前人研究性能對比

        我們從準確率P、召回率R、F1值三方面與其他研究者的試驗結果進行對比,結果見表2。

        表2 模型效果對比Table 2 Comparison of model effects %

        從表2可以很明顯地看出,在使用同一份學生數(shù)據(jù)集的情況下,本研究建立的模型預測效果比之前其他研究者的模型高出十幾個百分點。之前研究者采用傳統(tǒng)的機器學習算法或集成學習的方法,模型的評價指標值大致在70%~80%之間。本試驗由于采用數(shù)據(jù)驅(qū)動的方法,在挑出最優(yōu)屬性子集的前提下,使用具有網(wǎng)絡結構且善于進行參數(shù)更新的寬度學習算法進行集成學習,預測準確率達到了91.6%,這驗證了模型的有效性。

        4 結 語

        本研究將寬度學習算法和集成學習算法相結合,建立了學生成績預測模型。為了驗證模型的有效性,我們采用兩種對比方式,一方面使用同樣的數(shù)據(jù)處理方式建立了基于決策樹、神經(jīng)網(wǎng)絡、寬度學習算法的集成學習算法,試驗結果表明后者效果最好;另一方面,在使用相同數(shù)據(jù)集和相同模型的情況下,本文建立的模型預測效果也比之前研究者的模型效果好。這表明本研究提出的基于寬度學習算法的加權投票成績預測模型,能夠有效逼近學生特征屬性與學生成績之間的非線性關系。本研究可供教育工作者利用這一模型了解學生,以幫助學生改善學習過程,降低學習失敗率,同時也可以幫助管理者提高管理效率。

        猜你喜歡
        模型學生
        一半模型
        快把我哥帶走
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        《李學生》定檔8月28日
        電影(2018年9期)2018-11-14 06:57:21
        趕不走的學生
        學生寫話
        3D打印中的模型分割與打包
        學生寫的話
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        在线永久免费观看黄网站| 99久久免费看精品国产一| 少妇被又大又粗又爽毛片| 国产呦系列呦交| 久久国产影视免费精品| 中文字幕丰满人妻有码专区| 日本熟女人妻一区二区| 玩中年熟妇让你爽视频| 欧美国产日产一区二区| 国产aⅴ丝袜旗袍无码麻豆| 美女与黑人巨大进入免费观看| 国产欧美va欧美va香蕉在| 中文无码制服丝袜人妻av| 无码专区亚洲avl| 大陆成人精品自拍视频在线观看| 人妻 偷拍 无码 中文字幕| 亚洲另类自拍丝袜第五页| 成在线人免费无码高潮喷水| 久久精品中文字幕有码| 亚洲av无码一区二区三区乱子伦| 亚洲 欧美 综合 另类 中字| 国产三级黄色片子看曰逼大片 | 久久精品国产网红主播| 中文毛片无遮挡高潮| 日本一区二区高清视频在线| 中文无码av一区二区三区| 成人区人妻精品一熟女 | 日韩三级一区二区三区| 精品久久久无码中字| 四虎成人精品无码永久在线| 久久国产女同一区二区| 国产无套乱子伦精彩是白视频| 日日碰狠狠躁久久躁9| 国产日韩久久久久69影院| 91九色视频在线国产| 成人aaa片一区国产精品| 亚洲美女影院| 国产精品高清一区二区三区人妖 | 午夜国产精品一区二区三区| 成人无码av免费网站| 玩两个丰满老熟女|