亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的深度知識追蹤模型研究

        2021-07-21 09:12:32王佳文王夢南
        關(guān)鍵詞:機(jī)制技能模型

        周 凱,強(qiáng) 彥,王佳文,王夢南

        (太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,太原 030024)

        現(xiàn)階段電子化在線教育的主要模式為大規(guī)模開放在線課程 ,即“慕課”(massive open online courses,MOOC).慕課平臺相對傳統(tǒng)學(xué)校教育形式有著多種優(yōu)勢,但也因?yàn)槠浯笠?guī)模性以及線上性存在一些短板。研究者們關(guān)注的一個(gè)問題是慕課平臺在個(gè)性化指導(dǎo)方面的不足。參與在線教育平臺的學(xué)生固然可以自由瀏覽和選擇課程,但由于課程的參與人數(shù)眾多以及教師的課程發(fā)布與學(xué)生的課程學(xué)習(xí)并不同時(shí),學(xué)生在學(xué)習(xí)時(shí)往往缺少傳統(tǒng)課堂那樣的及時(shí)反饋與指導(dǎo)。面對這種情況,在教育領(lǐng)域提出的解決方案是“智能導(dǎo)學(xué)系統(tǒng)”(intelligent tutoring system,ITS).該系統(tǒng)的一個(gè)預(yù)期功能是自動(dòng)地制訂適合學(xué)習(xí)者的學(xué)習(xí)活動(dòng)和教學(xué)策略。為了構(gòu)建有效的智能導(dǎo)學(xué)系統(tǒng),對學(xué)習(xí)者進(jìn)行建模是必要的。知識追蹤(knowledge tracing)是學(xué)習(xí)者建模中的一個(gè)重要研究。

        知識追蹤即基于學(xué)生的歷史練習(xí)記錄,建立可表示和預(yù)測學(xué)生對于“知識組件”(knowledge component)或者說“技能”的掌握程度的模型的任務(wù)(如圖1所示)。對知識追蹤的研究主要從20世紀(jì)90年代開始[1]。

        圖1 通用知識追蹤任務(wù)Fig.1 Universal knowledge tracing task

        早期知識追蹤任務(wù)應(yīng)用了一些教育領(lǐng)域的傳統(tǒng)方法,例如項(xiàng)目反應(yīng)理論(item response theory,IRT).之后,機(jī)器學(xué)習(xí)建模的方法被引入到這一領(lǐng)域并逐漸確定出現(xiàn)有的知識追蹤任務(wù)模式。較早被提出的基于機(jī)器學(xué)習(xí)的主要模型是貝葉斯知識追蹤(bayesian knowledge tracing,BKT)[2-3].

        2015年起,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體開始在知識追蹤任務(wù)中得到應(yīng)用,并且逐漸成為了該方面研究的主流方法。其主要包括PIECH et al[4]提出的基于RNN或LSTM的DKT模型,對損失函數(shù)進(jìn)行了改進(jìn)的DKT+模型[5],以及NAKAGAWA et al[6]提出的直接用問題ID通過嵌入表示作為輸入的深度知識追蹤模型。另外,還有SU et al[7]提出的將知識的依賴關(guān)系納入考慮的知識追蹤模型,同樣是該研究團(tuán)隊(duì)提出的使用文本相似度參與注意力計(jì)算的EERNN模型[8],以及進(jìn)一步地優(yōu)化了記憶網(wǎng)絡(luò)以準(zhǔn)確量化每個(gè)習(xí)題對于學(xué)生在做題中掌握知識點(diǎn)方面的影響的EKT模型[9]。

        除此之外,ZHANG et al[10]于2017年提出了結(jié)合外部記憶模塊與循環(huán)神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)鍵值對記憶網(wǎng)絡(luò)(dynamic key value memory networks,DKVMN)[10].它借鑒了記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)的思想,用一個(gè)靜態(tài)矩陣存儲配合一個(gè)動(dòng)態(tài)矩陣存儲以更新學(xué)生的知識狀態(tài)。

        在序列建模領(lǐng)域,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法一直居于主導(dǎo)地位,然而近年來,基于注意力機(jī)制的模型開始逐漸成為主流。因此研究者也展開了使用注意力機(jī)制和循環(huán)神經(jīng)網(wǎng)絡(luò)的混合模型或者純注意力模型進(jìn)行知識追蹤的研究。

        本文提出了一種基于注意力機(jī)制的知識追蹤模型,使用Transformer結(jié)構(gòu)作為模型的主體框架。模型的創(chuàng)新之處在于:1) 使用門結(jié)構(gòu)以更合理地利用輸入序列中的結(jié)果的嵌入表示;2) 模型對技能信息和題目信息進(jìn)行分別編碼和合并,增加了輸入信息并替換了影響注意力得分計(jì)算的Future Mask結(jié)構(gòu)[11],以更準(zhǔn)確地反映學(xué)生的知識掌握水平。

        1 相關(guān)工作

        2017年,谷歌的研究團(tuán)隊(duì)發(fā)表的論文中提出了Transformer模型[11]。該模型使用了序列到序列(Seq2Seq)結(jié)構(gòu),或者又被稱為編碼器-解碼器結(jié)構(gòu),被用于文本翻譯以及文本生成等多種自然語言處理任務(wù)。Transformer依靠自注意力運(yùn)算構(gòu)建其編解碼功能。自注意力運(yùn)算是實(shí)現(xiàn)注意力機(jī)制的多種策略之一。相對于傳統(tǒng)循環(huán)或卷積網(wǎng)絡(luò)結(jié)構(gòu),Transformer結(jié)構(gòu)具有更好的并行性能,并且計(jì)算兩個(gè)位置之間的關(guān)聯(lián)所需的操作次數(shù)不隨距離增長,在可解釋性方面也更具優(yōu)勢。

        隨后知識追蹤方面的研究者也提出了一些基于自注意力機(jī)制的模型。2019年,PANDEY et al[12]提出了基于自注意力機(jī)制的知識追蹤模型SAKT,使用了典型的多頭注意力結(jié)構(gòu)以及位置編碼等,在預(yù)測學(xué)生回答特定問題正確率的AUC指標(biāo)上取得了較好的結(jié)果,并且該模型的訓(xùn)練速度要遠(yuǎn)快于基于循環(huán)神經(jīng)網(wǎng)絡(luò)的深度知識追蹤。之后,又有一些使用自注意力機(jī)制的更加復(fù)雜的模型被提出,例如GHOSH et al[13]提出的AKT模型,該模型使用了Rasch模型實(shí)現(xiàn)嵌入表示,具有問題編碼以及知識檢索的兩段結(jié)構(gòu),其知識檢索部分使用了問題編碼的表示作為輸入,計(jì)算了學(xué)習(xí)者的知識狀態(tài)。另外還有CHOI et al[14]提出的采用了編碼器-解碼器結(jié)構(gòu)的SAINT模型等??梢哉J(rèn)為,基于注意力機(jī)制的方法已經(jīng)逐漸成為了知識追蹤建模的主要研究方向之一。

        現(xiàn)有的基于注意力機(jī)制的知識追蹤模型往往只考慮練習(xí)記錄的習(xí)題ID或者技能ID之一;另外也存在一些設(shè)計(jì)上的不合理之處,導(dǎo)致未能充分利用自注意力機(jī)制?;谝陨蠁栴},我們做出了多處改進(jìn),提出了更優(yōu)的基于Transformer結(jié)構(gòu)的模型。

        2 實(shí)驗(yàn)方法

        本模型以Transformer結(jié)構(gòu)為基礎(chǔ)網(wǎng)絡(luò),相對已有研究,對輸入部分進(jìn)行了合理的改進(jìn)設(shè)計(jì)并進(jìn)一步引入了知識技能信息。除此之外,區(qū)別于籠統(tǒng)的對互動(dòng)記錄的單一的編碼方式,本模型提出一種新穎的方法,即將題目與回答拆解為兩部分進(jìn)行編碼,并使用門機(jī)制進(jìn)一步處理回答部分的嵌入表示。

        2.1 知識追蹤任務(wù)的輸入與輸出

        本文提出模型輸出的結(jié)果可以看作特定學(xué)生在給定習(xí)題ID的情況下,回答正確的概率。模型的輸入為該學(xué)生的歷史練習(xí)記錄,該練習(xí)記錄包括習(xí)題ID、回答結(jié)果以及習(xí)題所屬的技能ID;模型的輸出為答對特定習(xí)題概率的預(yù)測值。

        模型在訓(xùn)練階段提取數(shù)據(jù)集中每個(gè)學(xué)生的從起始到第t個(gè)問題的信息進(jìn)行輸入,使模型輸出對第t+1個(gè)問題正確回答的預(yù)測數(shù)值,再以其同實(shí)際第t+1個(gè)問題結(jié)果的對比作為代價(jià),優(yōu)化模型的參數(shù)。訓(xùn)練完成的模型所輸出的預(yù)測值可以作為評價(jià)指標(biāo),應(yīng)用于對學(xué)生掌握技能程度的評估。本模型所關(guān)注的問題是提高該預(yù)測的準(zhǔn)確率,即:

        P(rt+1|(e0,s0,r0),(e1,s1,r1),…,(et,st,rt),et+1) .

        (1)

        式中:e,s與r分別代表題目ID、技能ID與結(jié)果。

        2.2 模型框架

        模型由4部分組成:(1)嵌入表示部分;(2)基于注意力機(jī)制的編碼器;(3)基于注意力機(jī)制的解碼器;(4)結(jié)果預(yù)測部分。對于編碼器和解碼器部分,其主要由多頭注意力計(jì)算模塊以及前饋神經(jīng)網(wǎng)絡(luò)層疊而成。整體結(jié)構(gòu)如圖2所示。

        2.2.1嵌入表示

        對于模型輸入,需要將序列中的元素進(jìn)行嵌入表示。其中共有3種嵌入表示向量。設(shè)當(dāng)前所處理的學(xué)生為i,對于該學(xué)生ID下的k個(gè)問題,這3個(gè)向量組分別為由題目ID序列轉(zhuǎn)換的向量組Ei、由技能ID序列轉(zhuǎn)換的向量組Si以及由回答序列所轉(zhuǎn)換的向量組Ri,而每組中分別有k個(gè)向量。每一類向量需要預(yù)先設(shè)定各自的維度,其中考慮后續(xù)的門控運(yùn)算,向量組Ri的向量維度大小應(yīng)為Ei與Si的維度大小之和。

        本文提出的模型使用了隨機(jī)初始化參數(shù)的嵌入表示層。特別地,對于回答序列向量組Ri中的向量,根據(jù)正確與否設(shè)定不同期望值的正態(tài)分布參數(shù)初始化方法,即當(dāng)回答正確則有μ>0,反之則μ<0.

        作為自注意力模塊的輸入,Ei與Si按照對應(yīng)關(guān)系進(jìn)行拼接處理。

        位置編碼:注意力機(jī)制下的序列處理依賴位置編碼以包含序列元素的位置信息。本文提出模型的位置編碼采用了絕對位置編碼方法,即正余弦函數(shù)位置編碼[11]。對于長度為d,序列中位置為p,在位置編碼向量中維度為i的數(shù)值為:

        Epos,2i=sin(p/10 0002i/d),
        Epos,2i+1=cos(p/10 0002i/d) .

        (2)

        這一系列值組成了位置編碼向量。其中i∈{0,1,2…dmodel/2}.生成位置編碼后將其以加算方式同嵌入表示向量合并。

        2.2.2結(jié)果控制門

        為了能有效地利用練習(xí)記錄中結(jié)果部分的信息,本模型采用了門機(jī)制處理該部分的嵌入表示。關(guān)于注意力運(yùn)算中的得分機(jī)制,考慮一條序列中出現(xiàn)兩次回答同一知識點(diǎn)下題目的情況:兩次都回答正確的情形相對一次正確一次錯(cuò)誤的情形,在涉及題目的注意力運(yùn)算上應(yīng)該得到較大的自注意力運(yùn)算值,從而對輸出正確的預(yù)測有更多貢獻(xiàn)。

        以往的知識追蹤研究中,對于練習(xí)記錄中的習(xí)題ID,n類題目的習(xí)題有n種狀態(tài);當(dāng)合并結(jié)果的狀態(tài)時(shí),考慮一般而言結(jié)果只有對錯(cuò)兩種的情況,則任意一項(xiàng)完成的練習(xí)記錄擴(kuò)展到2n種狀態(tài)。DKT[4]中采用One-hot方式對練習(xí)記錄進(jìn)行編碼時(shí),會使用2n維度的矩陣,即使是使用嵌入表示的模型也通常是直接擴(kuò)展編碼的狀態(tài)數(shù)[12]。

        為了優(yōu)化在嵌入表示以及點(diǎn)積注意力機(jī)制下的計(jì)算效果,本模型采用門機(jī)制替代簡單擴(kuò)展的方式,即對于多頭注意力模塊的值(V)部分的輸入,有:

        (3)

        式中:Eei,si為拼接的題目與技能信息的嵌入表示向量,Pi為位置編碼,Eri為結(jié)果的嵌入表示,⊙為哈達(dá)瑪積運(yùn)算。有別于題目ID與技能ID的嵌入表示,Eri不需要結(jié)合位置編碼。

        2.2.3多頭注意力運(yùn)算

        多頭注意力模塊是編碼器和解碼器的核心部分。本模型采用了縮放的點(diǎn)積計(jì)算注意力,即:

        (4)

        通常自注意力運(yùn)算中的查詢(query)、鍵(key)與值(value)用Q、K與V表示,分別來自于進(jìn)行線性運(yùn)算后的題目信息嵌入表示向量。Q與K都來自于題目ID與技能ID進(jìn)一步處理得到的向量,而V來自于前者與結(jié)果向量進(jìn)行門運(yùn)算之后得到的結(jié)果,即

        (5)

        式中:W為線性變換矩陣,本模型采用8組不同的W將輸入部分劃分為8個(gè)頭,以捕捉映射到多個(gè)線性空間的更豐富的特征。使用自注意力機(jī)制計(jì)算注意力得分(attention score)之后,該得分以系數(shù)的形式同經(jīng)過門轉(zhuǎn)換與線性運(yùn)算的向量相乘,并將各頭拼接合并,最終將單個(gè)元素的輸入向量轉(zhuǎn)換成了序列中各元素的向量組形式的表示。編碼器和解碼器的塊數(shù)被設(shè)置為2,即將自注意力結(jié)構(gòu)及后續(xù)的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)重復(fù)兩次。其輸入到第二塊的Q、K、V為前驅(qū)前饋神經(jīng)網(wǎng)絡(luò)輸出的線性映射。

        特別地,考慮一般Transformer中存在的Future Mask操作,即為了不在預(yù)測時(shí)泄漏后續(xù)信息,而對解碼器部分的輸入進(jìn)行上三角矩陣掩膜運(yùn)算[11]。在知識追蹤任務(wù)中使用自注意力結(jié)構(gòu)時(shí),由于編碼器和解碼器的輸入同源,所以之前提出的一些模型必須在所有的多頭注意力運(yùn)算部分加入Future Mask[14],這種方式顯然會導(dǎo)致序列自注意力信息的流失。因此在本模型中,考慮到知識追蹤任務(wù)的數(shù)據(jù)集樣本量并不龐大,故可犧牲部分并行運(yùn)算能力,不以Future Mask的方式,而是在輸入部分進(jìn)行信息屏蔽,使自注意力部分得到充分計(jì)算,即每個(gè)訓(xùn)練樣本逐次向后截取一條數(shù)據(jù)集樣本中的一部分,每一次前向傳播計(jì)算單獨(dú)一道練習(xí)題的預(yù)測正確率,以得到更好的效果。

        其他結(jié)構(gòu)中模型使用了兩層的前饋神經(jīng)網(wǎng)絡(luò),以ReLU作為激活函數(shù):

        FFN(x)=max(0,xW1+b1)W2+b2.

        (6)

        模型在子層之間使用了殘差連接,并且為了消除梯度消失和梯度爆炸的影響,使用層歸一化(Layer Normalization):

        sub_layer_output=
        LayerNorm(x+(SubLayer(x))) .

        (7)

        解碼器的輸出會經(jīng)過一個(gè)全連接層運(yùn)算以及Sigmoid壓縮函數(shù),最終輸出對于解碼器的查詢輸入題目回答正確的預(yù)測(Q).在模型的訓(xùn)練階段,使用最小化二分類交叉熵?fù)p失(binary cross entropy loss)作為損失函數(shù),計(jì)算輸出和標(biāo)簽的誤差并執(zhí)行反向傳播優(yōu)化模型參數(shù)。其中輸出的預(yù)測值范圍為[0,1],而數(shù)據(jù)集標(biāo)簽取值為{0,1}.

        3 實(shí)驗(yàn)及分析結(jié)果

        本文在4個(gè)知識追蹤公共數(shù)據(jù)集上對提出的模型進(jìn)行了實(shí)驗(yàn),并與4種基準(zhǔn)模型進(jìn)行對比。

        3.1 數(shù)據(jù)集與預(yù)處理

        本文實(shí)驗(yàn)所使用的公共數(shù)據(jù)集如下。

        ASSISTments 2009:該數(shù)據(jù)集收集自在線學(xué)習(xí)平臺ASSISTments.本文所使用的是其修正過的一個(gè)版本,即去掉了重復(fù)項(xiàng)的“skill-builder”數(shù)據(jù)集。該數(shù)據(jù)集收集自2009-2010學(xué)年,其中存在著一個(gè)練習(xí)題對應(yīng)多個(gè)技能的情況。該數(shù)據(jù)集包含4 151個(gè)學(xué)生在124個(gè)知識點(diǎn)上的325 637條回答記錄。

        ASSISTments 2012:同樣是ASSISTments平臺收集的2012-2013學(xué)年的數(shù)據(jù)集。該數(shù)據(jù)集中每一種練習(xí)題只對應(yīng)一個(gè)技能。該數(shù)據(jù)集包含27 485個(gè)學(xué)生在265個(gè)知識點(diǎn)上的2 709 436條回答記錄。該數(shù)據(jù)集是數(shù)據(jù)樣本量較大的一個(gè)數(shù)據(jù)集。

        ASSISTments 2017:來自于ASSISTments平臺2017年競賽的數(shù)據(jù)集。該數(shù)據(jù)集包含686個(gè)學(xué)生在102個(gè)知識點(diǎn)上的942 816條回答記錄。該數(shù)據(jù)集是平均每個(gè)學(xué)生回答數(shù)最多的一個(gè)數(shù)據(jù)集。

        Statics2011:該數(shù)據(jù)集來自于一門統(tǒng)計(jì)學(xué)課程。其包含333個(gè)學(xué)生在1 223個(gè)知識點(diǎn)上的189 927條回答記錄。

        本實(shí)驗(yàn)所做的數(shù)據(jù)預(yù)處理主要有:按照學(xué)生ID進(jìn)行分組;對ID進(jìn)行映射以壓縮數(shù)值;去掉包含無效值的項(xiàng),去除序列長度小于10的記錄;按照長度對序列進(jìn)行排列,使每個(gè)訓(xùn)練批次中的序列長度盡可能相同。

        對于一個(gè)訓(xùn)練批次中的長度不齊的項(xiàng),標(biāo)記出填充掩碼(padding mask)向量組并輸入模型,即對于因?qū)R而填充無效值的位置,在多頭注意力模塊計(jì)算時(shí)需要在該位置上的值加上絕對值極大的負(fù)值,而使其注意力得分幾乎為0.

        3.2 模型實(shí)現(xiàn)

        本文實(shí)驗(yàn)在以下工作環(huán)境進(jìn)行:Ubuntu 18.04 LTS操作系統(tǒng),主機(jī)使用2.90 GHz Intel(R) Xeon(R)W-2102 CPU和NVIDIA GTX Titan XP GPU.

        模型使用PyTorch框架實(shí)現(xiàn)。采用留出法以4∶1的比例隨機(jī)抽取并劃分出訓(xùn)練集與不參與訓(xùn)練的測試集。在訓(xùn)練過程中,使用Adam優(yōu)化器,學(xué)習(xí)率參數(shù)設(shè)置為1×10-4;習(xí)題ID與技能ID的嵌入表示向量維度為128;前饋神經(jīng)網(wǎng)絡(luò)層的隱層維度為100;多頭注意力模塊的頭數(shù)為8,塊數(shù)為2;批次樣本數(shù)為32;最大迭代次數(shù)設(shè)置為100.

        3.3 實(shí)驗(yàn)結(jié)果與分析

        知識追蹤任務(wù)的常用指標(biāo)為預(yù)測學(xué)生回答特定問題正確率的AUC值。如前所述,本模型的輸出為特定題目上的回答正確的預(yù)測值,以數(shù)據(jù)集中做出正確回答的題目結(jié)果標(biāo)記為1,以訓(xùn)練完成參數(shù)下的模型,計(jì)算測試集集合上的AUC值。為了驗(yàn)證本模型的表現(xiàn)性能,與基于隱馬爾可夫模型的BKT模型[2]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的DKT模型[4]、DKVMN模型[10]以及同樣基于注意機(jī)制的SAKT模型[12]在4個(gè)公共數(shù)據(jù)集上的測試表現(xiàn)進(jìn)行了對比,結(jié)果如表1所示。

        可以看出,所提出的方法在4個(gè)數(shù)據(jù)集上的AUC指標(biāo)都優(yōu)于使用循環(huán)神經(jīng)網(wǎng)的模型,并且得益于更多的模型參數(shù),在樣本量大的ASSISTments 2012數(shù)據(jù)集上表現(xiàn)突出。通過對比可以發(fā)現(xiàn),基于深度學(xué)習(xí)的方法要優(yōu)于使用隱馬爾可夫模型的BKT模型。另外,相比基于One-Hot編碼方式對技能進(jìn)行編碼而直接描述每個(gè)技能掌握程度的DKT模型,使用嵌入表示的模型表現(xiàn)更好。對比同樣基于注意力機(jī)制但只使用解碼器結(jié)構(gòu)的SAKT模型,本文采用編碼器-解碼器結(jié)構(gòu)并做出多種優(yōu)化的模型在平均AUC上得到了5%的提升。

        本研究對于所提出的結(jié)果控制門結(jié)構(gòu)與控制輸入的方式進(jìn)行了消融實(shí)驗(yàn)。其中一個(gè)對于練習(xí)互動(dòng)記錄模型,以翻倍嵌入表示編碼狀態(tài)的方式替代結(jié)果控制門,另一個(gè)模型以在所有的多頭注意力模塊應(yīng)用Future Mask的方式替代了解碼器輸入部分逐個(gè)輸入待判斷題目的方式進(jìn)行了實(shí)驗(yàn)。結(jié)果如表2所示。

        表2 消融實(shí)驗(yàn)AUC值比較Table 2 AUC of ablation study comparison

        可以認(rèn)為,在處理數(shù)據(jù)集結(jié)果信息的步驟中,使用門結(jié)構(gòu)更為合理,并且以逐元素的方式進(jìn)行輸入也明顯優(yōu)于輸入整個(gè)序列再使用Future Mask的方法。其原因在于,以往的注意力知識追蹤模型在編碼器和解碼器的所有注意力模塊中使用Future Mask的方式,失去了序列中位置靠前的元素與位置靠后的元素自注意力計(jì)算的信息,尤其對編碼器有一定影響。

        在訓(xùn)練中發(fā)現(xiàn),基于注意力機(jī)制的模型相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型,通常有著更快的收斂速度和更少的內(nèi)存占用,說明其在更大規(guī)模的數(shù)據(jù)集上有著更好的應(yīng)用潛力。然而在解碼器部分逐個(gè)輸入待判斷題目的方式相比在所有的多頭注意力模塊上使用Future Mask的方式會明顯地降低模型的訓(xùn)練速度。因此,設(shè)計(jì)不影響自注意力計(jì)算的Future Mask也許會是一個(gè)改進(jìn)。

        3.4 學(xué)習(xí)者技能掌握程度可視化

        圖3為模型對一條來自ASSISTments 2009數(shù)據(jù)集的學(xué)生練習(xí)記錄序列預(yù)測的熱力圖可視化表示。

        圖3 序列預(yù)測結(jié)果的熱力圖示例Fig.3 Heatmap of a sequence prediction

        該學(xué)生回答了4個(gè)技能上的32個(gè)問題。這4個(gè)技能分別為:圓柱表面積(91)、從圖中得出線性方程(106)、方程斜率(108)以及多項(xiàng)式系數(shù)(112).該圖的縱坐標(biāo)分別為這四個(gè)技能的ID,橫坐標(biāo)刻度代表了該學(xué)生回答序列的單個(gè)題目與結(jié)果,其習(xí)題ID已經(jīng)對應(yīng)到了技能ID,而1代表實(shí)際回答正確,0代表實(shí)際回答錯(cuò)誤。圖塊顏色深淺表示了預(yù)測回答正確的幾率。在本文提出的模型中,實(shí)際預(yù)測的粒度是學(xué)生在特定問題ID的回答正確率,但按照慣例憑借其對應(yīng)關(guān)系以技能ID的方式表示。通過指定預(yù)測輸入的方式,可以得到在一次回答之后最近一次出現(xiàn)的非直接相關(guān)技能題目的預(yù)測準(zhǔn)確率變化??紤]到提出的模型包含有技能ID的嵌入表示的輸入,實(shí)際也可以按照DKT的方式進(jìn)行技能級別的預(yù)測表示。

        可以看出,模型對于正確率的預(yù)測較符合一般人對知識點(diǎn)掌握程度的直觀感受。模型結(jié)果作為學(xué)習(xí)者建模的一項(xiàng)特征源,能夠輔助在線學(xué)習(xí)系統(tǒng)對學(xué)生的評估工作。

        4 結(jié)束語

        本文提出了一種基于Transformer結(jié)構(gòu)的新型知識追蹤模型。該模型可以依據(jù)練習(xí)記錄,動(dòng)態(tài)更新學(xué)生的知識掌握程度狀態(tài)并轉(zhuǎn)化為知識技能評估,其結(jié)果可以作為智能導(dǎo)學(xué)系統(tǒng)的一項(xiàng)重要參考。該模型相對以往的基于注意力機(jī)制的模型,主要有兩個(gè)改進(jìn):使用了結(jié)果控制門;優(yōu)化了注意力模塊的輸入形式,引入了技能ID的信息。這些改進(jìn)提高了預(yù)測的性能,并對基于注意力機(jī)制的知識追蹤研究有所啟發(fā)。

        由于輸入部分的處理,相對普遍的自注意力運(yùn)算方法,本文提出的模型訓(xùn)練失去了一定的并行運(yùn)算能力,因此一個(gè)可改進(jìn)之處在于設(shè)計(jì)合理的Future Mask以重新應(yīng)用到模型之中。另外,考慮嵌入表示部分存在進(jìn)行預(yù)訓(xùn)練的潛能,構(gòu)建數(shù)據(jù)集中技能的知識圖譜并使用Node2Vec等方法提供預(yù)訓(xùn)練向量,或者引入習(xí)題文本信息的嵌入表示也許是一種可行的方法。近年來,一些研究團(tuán)隊(duì)進(jìn)行了一些基于循環(huán)神經(jīng)網(wǎng)絡(luò)和序列注意力模型結(jié)合知識圖譜的研究[15]。因此,探索結(jié)合注意力機(jī)制與知識圖譜進(jìn)行預(yù)訓(xùn)練的方法是一個(gè)可期待的研究方向。

        猜你喜歡
        機(jī)制技能模型
        一半模型
        高級技能
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        秣馬厲兵強(qiáng)技能
        中國公路(2017年19期)2018-01-23 03:06:33
        拼技能,享豐收
        3D打印中的模型分割與打包
        破除舊機(jī)制要分步推進(jìn)
        畫唇技能輕松
        Coco薇(2015年11期)2015-11-09 13:03:51
        亚洲激情视频在线观看a五月| 亚洲乱妇老熟女爽到高潮的片 | 五十路熟久久网| 第九色区Aⅴ天堂| 久久精品国产亚洲av久五月天| 亚洲精品国偷拍自产在线| 蜜桃视频一区二区三区在线观看| 任你躁国产自任一区二区三区| 一区二区三区精品偷拍| 久久精品国产色蜜蜜麻豆国语版| 丰满少妇被粗大的猛烈进出视频 | 97久久超碰国产精品旧版| 天堂网在线最新版www| 草草网站影院白丝内射| 国产黄片一区视频在线观看| 自拍成人免费在线视频| 怡红院av一区二区三区 | 中字亚洲国产精品一区二区| 亚洲中文乱码在线观看| 女人下边被添全过视频| 国产精品视频二区不卡| 大陆啪啪福利视频| 最近更新中文字幕一区二区| 欧美人做人爱a全程免费| 国产精品6| 一级一片内射在线播放| 手机在线亚洲精品网站| 中国凸偷窥xxxx自由视频妇科 | 国产精品高清亚洲精品| 国产精品久久久三级18| 精品少妇人妻av一区二区| 亚洲国产成人精品91久久久| 一区二区三区一片黄理论片| 92午夜少妇极品福利无码电影| 免费黄色电影在线观看| 日本精品人妻在线观看| 国产乱理伦在线观看美腿丝袜| 黑人巨茎大战欧美白妇| 久久露脸国产精品WWW| 日本本土精品午夜视频| 老鲁夜夜老鲁|