劉 謙 周勁廷 羅 晶
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽 421005)
隨著互聯(lián)網(wǎng)技術(shù)的不斷普及與發(fā)展,在線教育行業(yè)也逐漸形成百家爭鳴的局面[1]。加之疫情的影響,新上線的在線教育系統(tǒng)數(shù)量出現(xiàn)井噴式增長,這也是大眾對在線教育的認(rèn)可。但是隨著在線教育行業(yè)的不斷發(fā)展,問題也不斷涌現(xiàn)出來,例如系統(tǒng)使用不便、人為操作導(dǎo)致系統(tǒng)崩潰等。因此在線教育系統(tǒng)還需要進(jìn)一步完善,才能保證教育行業(yè)在互聯(lián)網(wǎng)時代有良好的適應(yīng)性轉(zhuǎn)變以及師生教學(xué)系統(tǒng)的穩(wěn)固發(fā)展,從而達(dá)到教育創(chuàng)新和促進(jìn)現(xiàn)代教育技術(shù)發(fā)展的目的。
目前,國內(nèi)一些的網(wǎng)絡(luò)教學(xué)平臺如猿輔導(dǎo)、學(xué)而思等雖然規(guī)模較大,但也存在很多問題[2]。地域差異過大,每個地區(qū)的教學(xué)大綱不一樣,每個地方的考生也都有自己的特點,但網(wǎng)絡(luò)教學(xué)平臺只能給考生提供一些專業(yè)教學(xué),而不是專門為考生量身定做的。所以,該項目的研究目的一是節(jié)省學(xué)生時間,提高學(xué)習(xí)效率;二是使老師能更好地對學(xué)生進(jìn)行有目標(biāo)的培訓(xùn);三是可以更好地滿足學(xué)校和教育部門的要求。
1.2.1 個性化推薦相關(guān)算法
在線教育系統(tǒng)模擬創(chuàng)新板塊主要是針對學(xué)生需求而建立的,該系統(tǒng)可根據(jù)學(xué)生的不足進(jìn)行推薦,因此采用的是個性化推薦相關(guān)算法[3]。如圖1 所示,個性化推薦相關(guān)算法主要包括基于內(nèi)容的推薦、基于知識的推薦以及協(xié)同過濾推薦,而該課題主要采用的是協(xié)同過濾推薦算法。該算法基于項目、學(xué)生以及模型等,具有協(xié)同過濾的作用,能夠?qū)⑾嚓P(guān)專業(yè)創(chuàng)新培訓(xùn)內(nèi)容推薦給學(xué)生。
圖1 個性化推薦相關(guān)算法
1.2.2 協(xié)同過濾推薦算法
顧名思義,協(xié)同過濾推薦算法涵蓋協(xié)同和過濾2個步驟[4]。通常情況下,創(chuàng)新培訓(xùn)板塊包括大量的行業(yè)知識、學(xué)習(xí)知識以及專業(yè)課程等數(shù)據(jù),而運用推薦技術(shù)能夠?qū)崿F(xiàn)對學(xué)生的個性化推薦,以滿足各類學(xué)生的需求。另外,個性化服務(wù)能夠以推薦最想要的課程、書籍等為主,提高學(xué)生對其的使用率,進(jìn)而提升學(xué)生的學(xué)習(xí)興趣和能力。該技術(shù)在系統(tǒng)推薦領(lǐng)域得到了普遍應(yīng)用。協(xié)同過濾算法以學(xué)生行為為基礎(chǔ),如圖2 所示,通過學(xué)生用戶的對課程的使用或者多次瀏覽,平臺積累了大量的學(xué)生行為信息數(shù)據(jù),計算機會對數(shù)據(jù)進(jìn)行分析和協(xié)同過濾,即可得出一定的學(xué)生偏好。然后通過學(xué)生偏好衡量學(xué)生或培訓(xùn)之間的相似性。而該系統(tǒng)推薦的特點就是推薦對象可以是普遍性的,沒有特殊要求或不需要特殊處理。
圖2 協(xié)同過濾算法的基礎(chǔ)思想
該設(shè)計需要對學(xué)生數(shù)據(jù)進(jìn)行挖掘和處理,可以釆用的推薦算法是LFM 算法[5]。該算法的主要優(yōu)勢在于能夠?qū)φn程、專業(yè)信息等的潛在主題和分類進(jìn)行處理,同時可進(jìn)行數(shù)據(jù)挖掘,因此它可以應(yīng)用到該設(shè)計中,便于學(xué)生對各種主題進(jìn)行整合,所收集的主題可供學(xué)生參考。
對給定的學(xué)生行為數(shù)據(jù)集,假設(shè)設(shè)計者使用3 個學(xué)生、4個數(shù)據(jù)集,LFM 所采用的分類數(shù)為4,則設(shè)計者得到的LFM模型如圖3 所示。
圖3 LFM 模型
R為學(xué)生用戶-數(shù)據(jù)集矩陣,矩陣值Rij為學(xué)生用戶對數(shù)據(jù)集所做的評價。當(dāng)在全部數(shù)據(jù)集中獲得某個同學(xué)的序列值時,就可以做出推薦。
LFM 算法要做的就是將R矩陣分解為P、Q矩陣,以進(jìn)行學(xué)生用戶關(guān)于數(shù)據(jù)集評價的預(yù)測。RUI權(quán)重越高,表示學(xué)生用戶對創(chuàng)新培訓(xùn)數(shù)據(jù)集的興趣度或者是評分越高,如公式(1)所示。
式中:RUI為LFM 算法的權(quán)重;P矩陣為學(xué)生用戶-class,矩陣中的值為學(xué)生用戶對-class的興趣度;Q矩陣中的值是數(shù)據(jù)集在-class分類中的權(quán)重值。
對P、Q矩陣的參數(shù)值進(jìn)行問題解決,對P、Q采用最優(yōu)化損失函數(shù)來求參數(shù)。損失函數(shù)可說明數(shù)據(jù)集以及對評分的取值。該數(shù)據(jù)集由全部的學(xué)生使用者、所有的創(chuàng)新訓(xùn)練數(shù)據(jù)集以及學(xué)生使用者-數(shù)據(jù)集矩陣組成,其中最重要的是全部的學(xué)生使用者對相應(yīng)數(shù)據(jù)集進(jìn)行評級的項目,只有那些項目才能成為對設(shè)計人員有幫助的數(shù)據(jù)[6]。將學(xué)生用戶在該數(shù)據(jù)集上獲得評分的項目作為正樣本并且興趣值RUI=1 且需要選擇未計分的負(fù)樣本。另外還要求興趣值RUI=0,所以興趣值鎖定為[0,1]。
設(shè)計者通過收集正、負(fù)樣本來構(gòu)造學(xué)生用戶-數(shù)據(jù)集的矩陣K,可以寫為K={(U,I)},這里規(guī)定:如果(U,I)是正的樣本,那么RUI就是1,反過來即為0。而損失函數(shù)的表達(dá)式如公式(2)所示。
式中:λ||PU||2+λ||QI||2為用于避免過度擬合的正則化項,其中λ為基于重復(fù)多次完成而獲得的。
關(guān)于損失函數(shù)的優(yōu)化,設(shè)計者可使用隨機梯度下降算法,過程如下。
首先,分別對PU,k和Qk,I求偏導(dǎo),以得到隨機梯度下降的最快方向,如公式(3)、公式(4)所示。
其次,通過迭代計算來不斷優(yōu)化如公式(5)、公式(6)所示函數(shù)中的參數(shù),直到參數(shù)收斂。
式中:α為學(xué)習(xí)速率。
α越大,迭代下降得越快。α需要不斷根據(jù)實際情況進(jìn)行試驗求得。
結(jié)合相關(guān)公式和計算,可以總結(jié)出LFM 算法的特色。1)減少關(guān)注,沒有必要把注意力集中在數(shù)據(jù)集中的分類上,結(jié)果都是根據(jù)學(xué)生數(shù)據(jù)集內(nèi)容自動聚類的。2)與此同時,設(shè)計者不需要將注意力集中在分類的粒度問題上,可以通過設(shè)置函數(shù)中的F來控制分類的粒度,分類數(shù)越大,粒度就越細(xì)。3)對數(shù)據(jù)集,并不要求設(shè)計人員必須將其歸入與其相匹配的類別,而只要求將其歸入該類別的可能性,這是一種軟分類。4)設(shè)計者只需要知道學(xué)生用戶對相應(yīng)的創(chuàng)新培訓(xùn)數(shù)據(jù)集的興趣值(評分),而不需要關(guān)心對應(yīng)的類別。
該系統(tǒng)以個性化習(xí)題為例,個性化習(xí)題的推薦方面的問題如下:一是怎樣將學(xué)生的認(rèn)知水平模型構(gòu)建出來;二是怎樣將具有可解釋性的習(xí)題向?qū)W生進(jìn)行推薦。
將學(xué)生集合設(shè)為T,在其中習(xí)題集和學(xué)生分別為Exercise和u個的情況下,包括k個知識點相關(guān)知識點集合,簡稱S={S1,S2,…,Sk}。將學(xué)生的習(xí)題得分記錄組成一個學(xué)生習(xí)題矩陣α=[uv]U×V。當(dāng)αuv=1 時,代表學(xué)生u對習(xí)題v的答案是正確;當(dāng)αuv=0 時,代表學(xué)生u對習(xí)題v的答案是錯誤。習(xí)題知識點關(guān)聯(lián)情況組成了一個矩陣Q=[qvk]V×K。矩陣元素的定義如下:就習(xí)題v所考察的知識點而言,qvk=0 表示知識點k并不包括在內(nèi)為0,qvk=1 表示知識點k包括在內(nèi)為1,可對習(xí)題知識點考查的情況進(jìn)行描述,即判斷學(xué)生知識點的掌握情況。
該文提出的基于認(rèn)知診斷的個性化習(xí)題推薦算法流程圖如圖4 所示。其中的輸入包括學(xué)生的習(xí)題答案R矩陣,習(xí)題-知識點關(guān)聯(lián)Q矩陣。R矩陣和Q矩陣經(jīng)過DINA 模型得到學(xué)生-知識點α矩陣,并將其作為第二部分的輸入。同時,第二部分的輸入還有習(xí)題-知識點Q矩陣和專家標(biāo)注習(xí)題難度D矩陣。根據(jù)學(xué)生對習(xí)題可能的掌握程度,輸出個性化習(xí)題的推薦結(jié)果。
圖4 基于認(rèn)知診斷的個性化習(xí)題推薦算法
對學(xué)生進(jìn)行相關(guān)知識點方面掌握程度的診斷需要借助于DINA 模型。而學(xué)生的認(rèn)知水平在這樣的基礎(chǔ)上是能夠得以成功構(gòu)建的。在針對每個知識點K的前提條件之下,就每個學(xué)生Tu而言,所構(gòu)成的向量為αv={αu1,αu2,...,αuk}。當(dāng)αuk=1 時,表示學(xué)生u已掌握知識點K;當(dāng)αuk=0 時,表示學(xué)生u還未做到對知識點K的完全掌握。在學(xué)生Tu相關(guān)知識點掌握向量αu已經(jīng)得知的情況下,可以根據(jù)公式(7)獲得學(xué)生Tu對習(xí)題Jv的潛在作答情況。其中,ηuv為學(xué)生Tu無法正確回答習(xí)題Jv,ηuv=1 為學(xué)生Tu可以正確回答習(xí)題Jv。
式中:ηuv為學(xué)生Tu無法正確回答習(xí)題Jv;αuk為學(xué)生u對知識點K的掌握;qvk為學(xué)生v對知識點K的掌握。
DINA 模型需要引入2 個參數(shù)。在個性化習(xí)題推薦中,DINA 模型通過引入失誤率和猜測率對學(xué)生在真實狀態(tài)下的答題情況,進(jìn)行建模。失誤率Sv為對掌握了習(xí)題對應(yīng)的全部知識點的學(xué)生仍答錯習(xí)題v的概率,猜測率gv為未掌握習(xí)題所對應(yīng)的全部知識點的學(xué)生仍可以答對習(xí)題v的概率。所以,學(xué)生Tu對習(xí)題Jv的響應(yīng)如公式(8)所示。其中就DINA 模型而言,其所使用的EM 算法以公式(2)邊緣似然最大化為根本目標(biāo),得到Pv(?↓u)權(quán)重數(shù)值,該權(quán)重數(shù)值能夠確定學(xué)生Tu的知識點掌握情況,如公式(8)所示。。
借助相關(guān)學(xué)生習(xí)題得分的后驗概率,能夠確定學(xué)生Tu的知識點掌握向量αu。而學(xué)生二分知識點掌握向量αu就能夠在這樣的情況下得到了,如公式(9)所示。
式中:Ru為學(xué)生習(xí)題得分矩陣;α為學(xué)生u在習(xí)題v上的得分;S為知識點概率;gv為未掌握習(xí)題所對應(yīng)的全部知識點的學(xué)生仍可以答對習(xí)題v的概率;Sv為對掌握了習(xí)題對應(yīng)的全部知識點的學(xué)生仍答錯習(xí)題v的概率。
系統(tǒng)功能實現(xiàn)如圖5 所示。該系統(tǒng)主要提供線上服務(wù),可對行業(yè)特征、創(chuàng)業(yè)信息和請求信息等進(jìn)行論述,學(xué)生進(jìn)行注冊登錄后可由此獲得個性化推薦信息。面向?qū)W生首先需要收集學(xué)生信息,其中的學(xué)習(xí)數(shù)據(jù)包括1)學(xué)生進(jìn)行習(xí)題瀏覽時,系統(tǒng)記錄習(xí)題類型、知識點標(biāo)簽等。2)學(xué)生可以選擇習(xí)題進(jìn)行練習(xí),系統(tǒng)會自動記錄作答情況,并根據(jù)作答情況進(jìn)一步優(yōu)化推薦結(jié)果。3)學(xué)生對習(xí)題進(jìn)行點贊、收藏、取消收藏和反饋操作時,系統(tǒng)會收集相關(guān)信息。4)學(xué)生在搜索相應(yīng)習(xí)題時,系統(tǒng)會自動保存搜索記錄。
圖5 系統(tǒng)功能實現(xiàn)
該文對大學(xué)生創(chuàng)新培訓(xùn)在線教育系統(tǒng)模擬創(chuàng)新板塊進(jìn)行了設(shè)計,該設(shè)計主要以在線教育系統(tǒng)為主,在系統(tǒng)功能中推出了創(chuàng)新板塊。創(chuàng)新板塊既可以進(jìn)行功能應(yīng)用,又可以進(jìn)行個性化推薦,包括個性化習(xí)題、專業(yè)知識、創(chuàng)業(yè)信息以及行業(yè)特征等各類信息的推薦,能夠有效提高信息利用率,對實現(xiàn)學(xué)生查缺補漏、能力提升和專業(yè)發(fā)展具有重要作用。因此協(xié)同推薦算法能夠?qū)π畔⑦M(jìn)行及時處理,應(yīng)用前景廣泛,在很多系統(tǒng)中具有較高的可行性。