亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于降采樣的堆模型預(yù)測大型規(guī)模網(wǎng)絡(luò)課程的學習結(jié)果

        2018-07-25 11:31:28
        計算機應(yīng)用與軟件 2018年7期
        關(guān)鍵詞:特征模型課程

        林 菲 張 展

        (杭州電子科技大學計算機學院 浙江 杭州 310018)

        0 引 言

        學生表現(xiàn)預(yù)測問題PSP(predicting student performance)是教育數(shù)據(jù)挖掘EDM(education data mining)中一個很重要的課題[1]。隨著互聯(lián)網(wǎng)的發(fā)展學習的形式發(fā)生了巨大變化,慕課又稱大型開放式網(wǎng)絡(luò)課程MOOC是一種新型的學習方式,近年來受到了很多關(guān)注。在MOOC的背景下PSP問題顯得更加復(fù)雜,因為MOOC打破了傳統(tǒng)教育模式中空間、時間和學習年齡的限制,大量的互聯(lián)網(wǎng)用戶以不同的目的去學習。傳統(tǒng)的PSP研究并沒有考慮到MOOC場景下學習者表現(xiàn)分布的不平衡問題以及多門課程混合建模時帶來的數(shù)據(jù)分布干擾問題,例如大多數(shù)學習者沒能拿到證書所以預(yù)測模型傾向于預(yù)測拿不到證書的概率大,不同課程學習者的表現(xiàn)也有很大差別很難用一個模型進行刻畫。

        針對上述問題,本文提出了一種基于混合數(shù)據(jù)的降采樣堆模型來預(yù)測MOOC平臺中學習者能否獲得證書。通過對比實驗選出最優(yōu)的基礎(chǔ)模型,在此基礎(chǔ)上使用隨機降采樣算法克服數(shù)據(jù)不平衡問題,但是由于傳統(tǒng)隨機降采樣算法有可能丟失重要的訓練樣本而使得模型不穩(wěn)定,因此采用堆模型的框架來提高數(shù)據(jù)的利用率并且進一步提升預(yù)測的效果。再者,借鑒推薦系統(tǒng)中物品相似度的概念,為MOOC課程建立一個課程相似度指標來分享混合數(shù)據(jù)集中課程之間的信息,提升了模型預(yù)測效果。本文所建立的模型具有高效性、強魯棒性,適合實際應(yīng)用。

        1 相關(guān)工作

        PSP問題的研究主要分為兩類算法:基于教育心理學的方法(知識軌跡跟蹤)和基于機器學習的方法(決策樹、貝葉斯網(wǎng)絡(luò)、支持向量機、神經(jīng)網(wǎng)絡(luò)等)。文獻[2]利用了線性支持向量機結(jié)合特征工程以及模型的融合來預(yù)測學生成績。但是這種方法需要花費巨大的存儲空間,以及計算資源。文獻[3]提出了知識跟蹤模型。這個模型假設(shè)每一種技能的掌握程度由4個部分組成:初始知識、學習率、猜對概率、直接放棄的概率。使用這個模型去預(yù)測成績,需要最大期望法EM(Expectation Maximization method)估計這些參數(shù),而且需要很詳細的學生學習日志的記錄。近幾年,矩陣分解法MF(matrix factorization)在該問題中受到很大的關(guān)注。文獻[4]將學生的學習表現(xiàn)分為3個維度:學生信息、任務(wù)信息和時間屬性,通過MF方法來預(yù)測成績。但是MF模型需要大量的日志記錄,并且數(shù)據(jù)的預(yù)處理過程十分復(fù)雜。

        2 數(shù) 據(jù)

        2.1 數(shù)據(jù)集的介紹

        本文使用的數(shù)據(jù)來自edX公開數(shù)據(jù)集。數(shù)據(jù)集包含了60多萬用戶在2012年到2013年參與的16門課程的相關(guān)信息,因為考慮到原始數(shù)據(jù)集過大,所以官方只提供了每個學生在每門課程上所有的行為的聚合信息。數(shù)據(jù)集共有20個字段,一條記錄代表一個用戶的一門課程的所有相關(guān)信息,分別是用戶名、課程id、是否注冊課程、是否瀏覽課程、是否探索過課程、是否獲得證書、來自地區(qū)、學歷、年齡、性別、成績、開始注冊日期、最后一次交互日期、活躍的天數(shù)、視頻播放次數(shù)、學習的章節(jié)數(shù)、論壇使用次數(shù)、數(shù)據(jù)是否完整。在該數(shù)據(jù)集中,一個有趣的現(xiàn)象是大量的學習者是無法拿到證書的,如圖1所示。

        圖1從每一門課程的角度反應(yīng)出大量學習者是沒有拿到證書的,綜合統(tǒng)計所有課程中有證書的學習者只占到了4.6%。這使得建模任務(wù)變得更加困難,因為模型會傾向于預(yù)測學習者拿不到證書。

        2.2 數(shù)據(jù)的處理

        異常值和缺失值的處理在建模過程中十分重要,會直接影響到后面的預(yù)測結(jié)果。例如,很多用戶不愿意提供正確的性別和年齡信息和學歷信息,甚至有時他們會胡亂填寫,在模型中這將會是一個很大的干擾。本文考慮使用以下的方法對這些異常和缺失進行處理:

        1) 刪除官方標記為不完整的記錄。

        2) 將關(guān)鍵字段缺失的記錄刪除,比如最后一次交互的日期。在實驗中需要用到這個字段劃分訓練集和測試集。

        3) 利用可信的人口統(tǒng)計學信息,以及課程信息恢復(fù)性別、年齡和學歷的異常值。以年齡字段來說,具體的方法如下所示:

        (1)

        式(1)表示在知道學歷和性別的前提下,利用同一堂課course(i)中與i相同學歷LoE(i)與性別gender(i)的人的平均年齡插補空值。如果不知道學歷,那么可以只用性別信息:

        (2)

        如果學歷和性別都不知道,可以使用參加課程的所用人的平均年齡來代替:

        (3)

        通過上述方法,最大程度的保留的可用的字段,修正了數(shù)據(jù)的分布,為模型提供了可靠的數(shù)據(jù)。

        3 模型的建立

        3.1 問題的描述

        本文的預(yù)測任務(wù)是一個二分類任務(wù),要求將學生最后分成兩類(能拿到證書的和不能拿到證書的)。模型由兩部分組成:輸入(自變量,X)和輸出(因變量,Y)。X=(x1,x2,…,xn),其中每一個元素都是一個列向量代表一個影響結(jié)果的因素(特征)。分類模型就好比是一個映射函數(shù)Y=F(X),對于一個模型的輸出結(jié)果Yi,只由和它對應(yīng)的自變量Xi來決定,其中輸出1為有證書,0為沒有證書。如圖2所示是整個模型建立過程。

        圖2 訓練的整體流程

        3.2 基礎(chǔ)模型

        最終的預(yù)測模型是一個融合模型,要建立在基礎(chǔ)模型之上,所以基礎(chǔ)模型的好壞直接影響到最終預(yù)測模型的好壞。本文通過對比實驗得到最好的基礎(chǔ)模型,所考慮的基礎(chǔ)模型有:邏輯回歸(LR)、支持向量機(SVM)、隨機森林(RF)、K近鄰(KNN)、樸素貝葉斯(NB)、梯度提升樹(GBDT),還有一個比較新的模型eXtreme Gradient Boosting(XGBoost),最后本文選擇了XGBoost作為基礎(chǔ)模型。具體的實驗結(jié)果見4.2節(jié)。下面將簡單介紹這個模型以及它的原理,并且說明它比一般樹模型好的原因。

        在2016年,陳天奇提出了XGBoost模型[5],并在KDD大賽上利用該模型獲得了冠軍?,F(xiàn)在很多數(shù)據(jù)比賽都流行使用XGBoost模型。 XGBoost是對傳統(tǒng)梯度提升樹的改進,在特征粒度上實現(xiàn)了并行的算法,又加入了正則化和高效的特征搜索算法,使得模型的速度和性能都非常令人滿意。而且對于一些缺失的特征,XGBoost模型可以自動將缺失值歸類到損失函數(shù)最小的分支中,而且對于一些不平衡數(shù)據(jù)集,樹模型本身就比較占優(yōu)勢。

        對于一個給定n個樣本,包含m個特征的訓練集D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R),模型的輸出定義為:

        (4)

        可以看到上面的樹模型是對回歸問題提出的,這時候的輸出值是一個連續(xù)的變量。根據(jù)Logit的思想,通過simgoid函數(shù)映射到0-1的范圍。如公式所示:

        (5)

        其中,一個屬于一個類的概率可以這樣表示:

        (6)

        式(6)中的概率服從邏輯分布,當輸出概率p>0.5時,則認為發(fā)生這件事,那么在這里就表示拿到了證書,最后的輸出值就是1,反之則輸出0。為了學習上面的模型,要求下面目標函數(shù)達到最小值。

        (7)

        (8)

        如果將一個結(jié)構(gòu)q代入式(8)中,目標函數(shù)可以表示為以下形式:

        (9)

        XGBoost使用特征不存度(基尼系數(shù))作為特征的評價標準,如果一個特征的某個切分點的不存度是當前所有特征的切分點中最低的,那么就考慮在這個位置對該特征進行子樹分裂??梢妼ふ易罴亚蟹治恢檬且粋€NP-hard問題,如果特征空間很大將消耗非常多的時間。XGBoost使用一種帶有排序的貪婪算法去找近似最優(yōu)的劃分點,而且該算法可以并行運算,所以XGBoost比一般的梯度提升樹運算更快同時還具備了梯度提升樹良好的泛化能力。

        3.3 降采樣的堆模型

        在MOOC場景中,學習者的行為不同于傳統(tǒng)的電商和購物場景,因為學習者的行為更加復(fù)雜。也正是因為這種復(fù)雜而又豐富的行為造成了數(shù)據(jù)集中的不平衡問題。傳統(tǒng)的隨機降采樣算法也可以對不平衡問題進行修正,但是隨機降采樣在訓練模型的時候因為使用了自助(bootstrap)采樣可能在訓練模型的時候會丟失一部分重要的訓練樣本,導(dǎo)致模型的效果波動很大。為了解決這個問題,本文提出堆模型的框架結(jié)合隨機降采樣法去彌補降采樣的缺點。堆模型的思想和神經(jīng)網(wǎng)絡(luò)類似,堆模型將數(shù)據(jù)的預(yù)測結(jié)果作為另一個模型輸入再進行預(yù)測,所以類似于隱藏層。堆模型是一個網(wǎng)絡(luò)結(jié)構(gòu),層數(shù)可以自己定義但一般不會太深,不然很難調(diào)參數(shù)。在文獻[6]中也提到堆模型在大多數(shù)的場景中比貝葉斯均值融合(隨機采樣就是一種均值融合的方法)具有更好的魯棒性能。偽代碼1描述了本文所使用的隨機降采樣SUS(stochastic under-sampling)的方法。

        偽代碼1 隨機降采樣(SUS)

        1. Begin:

        2. 輸入:訓練集包D={N,M}含了兩類樣本多數(shù)類N和少數(shù)類M,以及自助法采樣的次數(shù)T。

        3. Fori=1,…,Tdo

        5. End for

        7. End

        堆模型先從初始數(shù)據(jù)集中訓練初級學習器(基礎(chǔ)模型),然后生成一個新的數(shù)據(jù)集用于次級學習器。在這個新的數(shù)據(jù)集中,初級學習器的輸出被當作樣例輸入特征。而初始的樣本標記仍然被作為樣例標記。在這里初級學習器和次級學習器可以相同也可以不同,本文選用的所有學習器在3.2節(jié)中有介紹。堆模型算法見偽代碼2所示。

        偽代碼2 模型算法

        1. Begin:

        2. 模型的輸入:訓練集包D含樣本個數(shù)為M,初級學習算法f1,f2,…,ft。次級學習算法F,初始化次級訓練集D′=φ。

        3. Fort=1,…,Tdo

        4. 訓練每一個次級學習器,得到模型ht=ft(D)。

        5. End for

        6. Fori=1,…,Mdo

        7. Fort=1,…,Tdo

        8. 對于每個樣本xi都用ht來預(yù)測得到中間輸出結(jié)果zit=ht(xi)。

        9. End for

        10. 擴大次級訓練集D′=D′∪((zi1,zi2,…,ziT),yi)。

        11. End for

        12. 次級學習器訓練新的訓練集得到h′=F(D′)最后得到結(jié)果:

        H(X)=h′(h1(x),h2(x),…,hT(x))

        13. End

        在訓練階段,次級訓練集是利用初級學習器產(chǎn)生的,若直接使用初集學習器的訓練集來產(chǎn)生次級學習器的訓練集過擬合風險比較大。因此,本文方法就在堆模型的交叉驗證訓練次級模型的過程中加入隨機降采樣,保證了所用訓練集樣本都被用到,又防止過擬合。本文將這種方法稱為SSUS,該方法如圖3所示。

        圖3 隨機降采樣的堆融合模型SUSS

        3.4 特征的選擇

        特征的選擇影響到最后模型預(yù)測的效果,在建模的過程中屬于比較關(guān)鍵的一步,本文的特征變量就是前面介紹的模型的輸入X,其中每一列代表一個特征。特征選擇需要一定的技巧,根據(jù)經(jīng)驗和常識可以先提取出一部分有用的特征,然后通過模型的預(yù)測結(jié)果不斷地調(diào)整,直到找到比較好的特征集合?;A(chǔ)的特征劃分為3部分,學習者屬性特征Xl,課程屬性特征Xc,和學習者-課程的活動特征Xlc。表1列出了本文所使用的學習者屬性特征。表2列出了本文所使用的課程屬性特征。表3列出了本文所使用的學習者-課程活動特征。

        表1 學習者屬性特征

        表2 課程屬性特征

        表3 學習者-課程活動特征

        表1中學習者的年齡跨度很大,而且年齡層次差不多的人可能有相似的特征,所以本文將年齡分段為0到10歲、11到20歲、21到30歲、31到40歲、41到50歲以及50歲以上,做成了標簽特征,更具魯棒性。

        表2和表3中有些特征雖然是同一個含義,但是來自不同的課程,特征的范圍就會不同。比如用戶完成的課程的章節(jié)數(shù),每一門課程章節(jié)數(shù)量是不同的,所以需要歸一化處理,還有一些特征比如標簽特征在邏輯回歸中需要獨特編碼。

        本文使用了推薦系統(tǒng)的物品相似度來刻畫課程之間的聯(lián)系。當使用所有課程的數(shù)據(jù)來訓練模型可能發(fā)生不同分布數(shù)據(jù)規(guī)律的干擾導(dǎo)致模型性能下降。如果課程之間的信息可以有效地共享,那么模型的表達能力將進一步增強。文獻[7]對推薦系統(tǒng)中物品相似度的定義,本文的課程相似度可以用下面的公式來表示,稱為基礎(chǔ)相似度(sim1):

        (10)

        式中:Wij表示課程i對課程的相似度j;N(i)表示學習了課程i的學習者集合;N(j)表示學習了課程j的學習者集合。式(10)表示課程i與課程jj相似是因為喜歡課程ii的學習者也喜歡課程j。物品相似度受到長尾分布的影響[8],越是熱門的物品越是有人喜歡,越是冷門就越少人喜歡。MOOC課程和學習者可能也存在類似規(guī)律,比如有些學習者興趣特別廣泛,參加的課程非常多,但是這些學習者對相似度的貢獻不大,因為他們體現(xiàn)不出課程的區(qū)別;還有一種情況是熱門的課程之間擁有大量相同的學習者,導(dǎo)致課程相似度異常偏高。于是,本文又提出了兩種帶有懲罰的課程相似度,來削弱上面兩種情況對課程相似度的不良影響。

        針對積極學習者的懲罰(sim2),加入分母項N(j),如下式所示:

        (11)

        針對熱門課程和積極學習者的懲罰(sim3),如下式所示:

        (12)

        式(11)中學習者參加的課程越多則分母越大,會降低相似度權(quán)重。式(12)中N(u)代表學習課程u的人數(shù),N(u)越大分子也會越小,也會降低相似度權(quán)重。通過式(10)-式(12),計算得到課程相似度特征Xcc, 最后,將上述特征拼接到一起形成特征變量X,如下式所示:

        X=(Xl,Xc,Xlc,Xcc)

        (13)

        3.5 評價指標

        4 實驗結(jié)果與分析

        4.1 實驗的設(shè)置

        本文將訓練集按照時間線進行劃分,一是符合MOOC平臺數(shù)據(jù)產(chǎn)生的場景,二是符合預(yù)測時候的客觀邏輯用已存在的數(shù)據(jù)預(yù)測未知的數(shù)據(jù)。特征變量X通過學習者最后一次學習的日期劃分為3個訓練集和3個測試集(測試集1:2013-03-01到2013-04-01,測試集2:2013-05-01到2013-06-01,測試集3:2013-08-01到2013-09-01,訓練集為切分點之前的數(shù)據(jù))。通過對照實驗尋找最優(yōu)的模型,防止一些偶然因素的影響,每次實驗都跑10次取平均值。

        4.2 基礎(chǔ)模型的比較

        從表4中可以發(fā)現(xiàn),效果最好的基礎(chǔ)模型為XGBoost。樹模型(RF、GBDT、XGBoost)的表現(xiàn)比較讓人滿意對不平衡的修正比較強,而其他的模型表現(xiàn)并不是非常好。在實驗中發(fā)現(xiàn)了一個有趣的現(xiàn)象,就是隨著時間的推移R值(召回率)下降的非???,導(dǎo)致整體的F1下降。這里反映出MOOC平臺現(xiàn)有的一個問題就是,大量的學習者越晚參加課程就越不容易拿到證書。此外,文獻[9]指出edX的課程中存在這樣一種現(xiàn)象:有部分學習者是積極的學習者按照常理完全有能力拿到證書,但是這些人放棄了考試或是不以獲得證書為目的去學習,反之也有這樣一群人幾乎沒有學習就能拿到證書。他們的這些行為在數(shù)據(jù)中就以離群點的形式表現(xiàn)出來并且這些離群點對模型的結(jié)果有很大影響,所以一些對異常值和不平衡數(shù)據(jù)敏感的算法表現(xiàn)不佳。

        表4 基礎(chǔ)模型的對比

        續(xù)表4

        4.3 課程相似度效果的分析

        為了說明課程相似度的效果,表1中的所用的特征集合并沒有使用課程相似度。本節(jié)在4.2節(jié)選出的最優(yōu)模型XGBoost的基礎(chǔ)上加入了課程相似度,并且比較3種課程相似的差異。結(jié)果如表5所示。

        表5 課程相似度的作用

        表5比較了不同相似度的效果,帶有積極學習者懲罰的課程相似度(sim2)的效果最好,從整體上看3個相似度都提升了模型的P值和R值,并且對R值的提升大于對P值的提升;此外,隨著時間的推移學習者數(shù)量增加,課程相似度對F1的提升效果越來越明顯。但是帶有熱門課程懲罰的相似度表現(xiàn)不是很突出,一個可能的解釋:雖然數(shù)據(jù)集中學習者很多,但是包含的課程太少只有16門,所以很難體現(xiàn)出熱門課程對課程相似度的影響。

        4.4 堆模型的比較

        本文使用了降采樣的堆融合模型作為最終模型,選用的參數(shù)為:基礎(chǔ)模型XGBoost,降采樣子集數(shù)量T=15~20,采樣比r=10~20,并且利用了10-折疊訓練集作為堆模型的交叉驗證方法。為了證明本文的方法是有效的,對比了傳統(tǒng)的隨機降采樣算法和最經(jīng)典的改進降采樣算法EE(EasyEnsemble)。最后的結(jié)果如表6所示。

        表6 融合模型的比較

        續(xù)表6

        表6和圖4比較了不同融合模型的效果,SSUS-XGB是最出色的融合模型,可以發(fā)現(xiàn)SSUS主要提升了模型的R,但是會導(dǎo)致P值略微下降。SUS算法對基礎(chǔ)模型效果也有所提升,但是不穩(wěn)定,這也反應(yīng)出了降采樣的缺點會丟失重要的訓練樣本,導(dǎo)致P值大幅下滑,并且這個結(jié)果和文獻[6]的結(jié)論一致,堆模型比均值融合算法更加魯棒。對于經(jīng)典的降采樣模型EE來說,在MOOC這種復(fù)雜場景下表現(xiàn)并不是很好,因為EE模型中Adaboost學習器對一些離群點是異常敏感的,所以模型的效果會受到很大的干擾。綜合比較各種模型,本文提出的SSUS模型更有魯棒性,能更好地符合MOOC這種復(fù)雜的場景。在時間效率上使用XGBoost模型會更快而且效果更好,本文的實驗環(huán)境是4個Intel Core i5-6500 CPU和8 GB RAM,SSUS-XGB訓練開銷約為10 min,而其他SSUS模型需要30 min甚至更久。

        圖4 基于XGBoost模型預(yù)測結(jié)果的F1值比較

        5 結(jié) 語

        本文提出了一種降采樣堆模型去解決MOOC平臺中學習者證書的預(yù)測,該模型克服了數(shù)據(jù)集中的不平衡問題,同時避免了降采樣算法丟失重要訓練樣本的缺點,通過比對實驗證明了該模型的可靠性和穩(wěn)定性。為了擴充樣本空間以及節(jié)省建模的成本,本文提出了課程相似度的指標,成功傳遞了數(shù)據(jù)間的信息并且提升了模型的精度。本文選擇較新的XGBoost模型來處理二分類問題,不但節(jié)省了大量的時間還具有較好的預(yù)測效果。不過由于數(shù)據(jù)集的限制,熱門課程對預(yù)測結(jié)果的影響還無法確定,需要搜集更多的數(shù)據(jù)來驗證。此外,數(shù)據(jù)處理也是教育數(shù)據(jù)挖掘一個很重要的研究課題,但是目前的相關(guān)研究很少,而本文對缺失值和異常值采取了較為穩(wěn)健的處理方式,這個還需要后面的研究繼續(xù)探索。

        猜你喜歡
        特征模型課程
        一半模型
        數(shù)字圖像處理課程混合式教學改革與探索
        重要模型『一線三等角』
        軟件設(shè)計與開發(fā)實踐課程探索與實踐
        計算機教育(2020年5期)2020-07-24 08:53:38
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        為什么要學習HAA課程?
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        一本色道久久99一综合| 人人澡人人妻人人爽人人蜜桃麻豆| 久久精品国产亚洲av影院| 一个人看的视频在线观看| 人妻aⅴ中文字幕| 伊人久久五月丁香综合中文亚洲 | 亚洲视频综合在线第一页| 日韩精品乱码中文字幕| 天堂中文官网在线| 国产一起色一起爱| 熟女系列丰满熟妇av| 青青青草视频手机在线| 亚洲综合av大全色婷婷| 久久久国产精品免费a片3d| 日本一本久道| 亚洲全国最大的人成网站| 亚洲av精二区三区日韩| 国产自偷自偷免费一区| 久久与欧美视频| 91精品人妻一区二区三区水蜜桃 | 国产在线91精品观看| 亚洲av永久无码精品网址| 国产精美视频| 免费女同毛片在线不卡| 国产亚洲成人av一区| 国产丝袜无码一区二区三区视频| 91久久福利国产成人精品| 国产精品久久av高潮呻吟| 免费网站内射红桃视频| 亚洲精品自产拍在线观看| 亚洲va精品va国产va| 国产成人一区二区三区乱| 亚洲成a v人片在线观看| 久久国产乱子伦精品免费强| 久久少妇高潮免费观看| 成人无码av一区二区| 精品免费在线| 亚洲av一区二区网址| 成人无码一区二区三区| 2019年92午夜视频福利| 亚洲高清一区二区三区在线观看|