亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于題目關(guān)聯(lián)知識的試題難度預(yù)測研究

        2022-05-11 06:24:32宋慧媛徐行健孟繁軍
        關(guān)鍵詞:語句注意力試題

        宋慧媛,徐行健,孟繁軍

        (內(nèi)蒙古師范大學(xué) 計算機科學(xué)技術(shù)學(xué)院,內(nèi)蒙古 呼和浩特 010022)

        計算機技術(shù)的快速發(fā)展對高校教學(xué)管理提出了新挑戰(zhàn)[1],在試題難度評估方面,傳統(tǒng)方法有兩類:一類是通過人工對試題進行預(yù)估[2],但存在個人傾向較強、難以保證客觀性的不足;另一類是通過教育數(shù)據(jù)挖掘進行試題評估[3],利用學(xué)生作答記錄對試題得分進行建模進而評估試題參數(shù)和學(xué)生能力。但學(xué)習(xí)者水平不同,依賴評估者的水平和對試題的認知程度,容易造成先驗知識的依賴[4]。深度學(xué)習(xí)與考試的深度融合,改善了試題質(zhì)量評估的方法,具有理論和實踐意義。

        因此,本文提出基于深度神經(jīng)網(wǎng)絡(luò)模型,利用試題文本信息的同時結(jié)合考生作答記錄,建立試題文本信息和實際難度間的關(guān)聯(lián)性,進而解決測試中試題難度參數(shù)的預(yù)估等問題。Huang 等[5]在標(biāo)準考試中對英語閱讀理解題進行難度預(yù)測,通過給定段落和試題推斷試題正確答案,但無法直接應(yīng)用于其他類型試題如單項選擇題難度的預(yù)測。故本文以大學(xué)計算機基礎(chǔ)單項選擇題為例,提出一種基于題目關(guān)聯(lián)知識的試題難度預(yù)測模型,自動預(yù)測選擇題的難度,并通過大學(xué)計算機基礎(chǔ)單項選擇試題難度預(yù)測,驗證該方法的準確性和有效性。

        1 相關(guān)工作

        1.1 教育心理學(xué)中的問題難度預(yù)測

        經(jīng)典測量理論CTT[6]是教育心理測量學(xué)理論的分支,利用心理測試和統(tǒng)計方法來測試題目的難度或考生的能力。胡子璇等[7]研究了試題因素與相應(yīng)試題難度之間的關(guān)系,項目反應(yīng)理論IRT 利用數(shù)學(xué)模型對人和問題的潛在特征(難度、區(qū)分度等)進行評估[8]。Rasch 是IRT 的一種概率模型[9],通過邏輯類函數(shù)和學(xué)生作答記錄等反饋信息來評估試題的難度,但這些模型的共同局限性在于過度依賴于評估者自身的認知水平和對試題的認知程度,使得預(yù)測結(jié)果的客觀性、準確性精度較低。

        1.2 自然語言處理領(lǐng)域中的難度預(yù)測

        目前已有眾多研究工作使用自然語言處理方法(NLP)來預(yù)測問題的難度[10]。Loukina 等[11]研究了基于多個文本的復(fù)雜性特征系統(tǒng),利用單詞的不熟悉性和較長語句的平均頻率可以預(yù)測試題的難度。朱永強[12]利用文本挖掘方法分析文本詞法、語義特征等,但需要手工設(shè)計文本特征,只限于特定的一些模型結(jié)構(gòu)。佟威等[13]針對數(shù)學(xué)試題,利用題面分析、試題題干和選項進行難度預(yù)測?;贑NN、RNN 的體系結(jié)果對文本信息進行表示,通過對文檔、試題題干及選項的語義表示全連接進而得到難度。在閱讀理解試題、數(shù)學(xué)試題中,問題的答案可從給定段落中推斷得出,意味著給定的段落對于難度預(yù)測的解決至關(guān)重要,但其難度預(yù)測模型都不可直接應(yīng)用于一般單項選擇題中。為解決這類模型的局限性,本文提出一種基于題目關(guān)聯(lián)知識的試題難度預(yù)測模型(MR-ABNN),對題目關(guān)聯(lián)知識信息文本摘要的抽取來豐富試題題干背景知識,利用神經(jīng)網(wǎng)絡(luò)模型挖掘試題文本信息并建模,輸入試題特征到模型中可得到試題的難度預(yù)測值。

        2 MR-ABNN 框架

        2.1 問題定義

        在所學(xué)科目中,計算機基礎(chǔ)試題形式較為簡潔,設(shè)問方式也較為單一,最符合本文模型對試題形式的要求。表1 為一道計算機基礎(chǔ)試題文本實例,數(shù)據(jù)包括試題ID,題目信息、選項和答案。輸入到模型的數(shù)據(jù)需為真實有效的試題和考生作答記錄,試題可從隨堂測驗、期末試題及月考中獲得。讓Q表示一組計算機基礎(chǔ)試題,每個Q∈Q 都有一個難度屬性P值,一個正確答案A和3 個干擾選項(C1,C2,C3)。問題定義在形式上,給定試題集Q,目標(biāo)是利用所有的問題Q∈Q 訓(xùn)練模型MR-ABNN,來預(yù)估試題的難度值。表2 為考生作答記錄實例,每條記錄代表每個考生在一場考試中對于某一道題的得分。傳統(tǒng)方法中試卷難度系數(shù)[14]用來表現(xiàn)試題的難易程度,難度系數(shù)越大,試題得分率越高,難度也就越小。

        表1 計算機基礎(chǔ)試題文本實例Tab.1 Computer basic test text examples

        表2 考生作答記錄實例Tab.2 Example of answer record of candidates

        2.2 模型整體框架

        MR-ABNN 共包括三個模塊,如圖1 所示。首先是題目關(guān)聯(lián)知識的抽取模塊,利用抽取式自動文本摘要抽取方法,通過對試題所屬各部分章節(jié)內(nèi)容進行抽取,獲得與試題關(guān)聯(lián)的信息,豐富試題的上下文知識;其次是基于神經(jīng)網(wǎng)絡(luò)的試題難度預(yù)測模塊,依據(jù)所獲得的試題、考生作答記錄信息,通過文本建模挖掘試題文本理解中蘊含的局部重點詞句與試題難度的關(guān)聯(lián),進行試題難度的預(yù)測,同時以該題獲得的實際得分率作為對比標(biāo)簽輸入到該模型中訓(xùn)練;最后是測試模塊,經(jīng)訓(xùn)練后得到基于題目關(guān)聯(lián)知識點的試題難度預(yù)測模型,將未經(jīng)測試過的試題輸入到該模型中,驗證其難度預(yù)測值的準確性。

        圖1 模型整體框架Fig.1 Overall framework of the model

        2.3 模型結(jié)構(gòu)

        2.3.1 題目關(guān)聯(lián)知識信息抽取 MR-ABNN 主要有兩個部分組成,第一部分是基于最大邊界相關(guān)度的抽取式文本摘要模塊,為豐富試題的上下文知識,利用詞嵌入、句嵌入的方法將文本以向量表征的方式進行表示,通過計算句子間相似度、關(guān)鍵詞與位置信息對句子重要性的影響,使句子按照得分高低排序,從而得到試題相關(guān)篇章內(nèi)容的高質(zhì)量摘要。

        (1)數(shù)據(jù)預(yù)處理,指對試題所屬篇章內(nèi)容文本數(shù)據(jù)的處理。本文選取的是大學(xué)計算機基礎(chǔ)一的教材內(nèi)容數(shù)據(jù),需要進行數(shù)據(jù)整理,包括對缺失值的處理和冗余信息的刪除,除去一些無用的符號、空格等,保存成.txt 格式。

        (2)特征提取,主要包括三部分。首先,關(guān)鍵詞提取主要是利用TF-IDF 算法[15]提取得出,對文章中的詞做詞性標(biāo)注且取得TF-IDF 值并排序,值越高,作為關(guān)鍵詞的可能性越大;其次,句子的位置信息是指在段落中開頭或結(jié)尾的句子,作為總結(jié)性的語句可大體代表文章的總體文義。由于對試題所屬章節(jié)內(nèi)容進行整合,沒有分段,故只考慮位置信息在段首還是段尾;最后,句子向量表示,提取句子表征,計算句子與文章的相似度值,來獲取更能表示文章主旨的語句。通過詞嵌入思想獲取單詞的詞向量,利用Word2vec 算法[16]訓(xùn)練詞向量,得到句子中詞語的向量表征,如公式(1)

        其中:j表示文本中第j個語句,i為第j語句的第i個詞語;wji為第j個語句中第i個詞的詞向量,m為第j個語句的長度。

        (3)句子打分,首先對句子關(guān)鍵詞打分,關(guān)鍵詞在句子中出現(xiàn)頻率越高,句子在文檔中重要性越高,如公式(2)

        其中:j為第j個語句,N(k)指第j個語句中關(guān)鍵詞的個數(shù);max[N(k)]為語句中包含關(guān)鍵詞數(shù)最多的關(guān)鍵詞數(shù)。

        然后是對語句位置信息打分,考慮語句在段首還是段尾,如公式(3)

        最后計算語句與篇章的相似度,相似度得分越高,該語句越能代表該段落的總體語義,如公式(4)

        其中:Vj指語句的向量表示,由句子中詞向量取均值可得;為篇章除第j句后其他語句的詞向量的均值向量,計算二者余弦相似度S得到語句與篇章的相似度得分。獲得句子關(guān)鍵詞、語句位置信息及語句與篇章的相似度得分后,取其平均值得最終得分。

        (4)關(guān)聯(lián)知識信息文本摘要抽取,得到句子總分之后,基于得分對篇章中全部語句進行排序,得到每次循環(huán)的候選語句。為選取冗余性低、重要性高且全面、包含更多信息的語句,選取了最大邊界相關(guān)度算法(MMR)。在候選語句中每次選取句子時都計算其MMR 分數(shù)[17],如公式(5)

        其中:R(Vj)為MMR 得分;Cj為第j個語句的得分;S1為語句Vj和當(dāng)前摘要V' 的余弦相似度,相似度值越大,表示該語句與當(dāng)前摘要相似度越高;η為調(diào)節(jié)參數(shù)。

        MMR 算法通過計算候選語句中每個語句的MMR 得分,按照得分從大到小排序,得分最高者加入當(dāng)前摘要中,更新當(dāng)前摘要的長度,同時候選語句集進行更新。最后判斷當(dāng)前摘要長度如果大于設(shè)定的長度,則得到最終關(guān)聯(lián)知識信息文本摘要。

        2.3.2 基于神經(jīng)網(wǎng)絡(luò)的試題難度預(yù)測 第二部分是融合注意力機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),該模型一共包括四層模型結(jié)構(gòu),有輸入層、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層、注意力層和預(yù)測層,如圖2 所示。

        圖2 試題難度的模型結(jié)構(gòu)Fig.2 Model structure diagram of test difficulty

        (1)輸入層,該神經(jīng)網(wǎng)絡(luò)的輸入是試題Qi的所有文本材料,包括文本摘要抽取得到的題目關(guān)聯(lián)知識文本Pai,問題Qi及選項Oi。Pai表示文本詞語的序列,即Pai={e0,e1,…,eN-1},N為詞語表征個數(shù)。同樣問題Qi及選項Oi也都利用word2vec 進行預(yù)訓(xùn)練,得到每個詞語對應(yīng)的d0=200 維的詞向量。全部文本信息得到向量表征后輸入到融合注意力機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中獲取語義理解。

        (2)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)層,由于RNN 存在長距離依賴問題[18],需在RNN 中加入LSTM 單元,但RNN和LSTM 都只依據(jù)之前的時序信息預(yù)測下一時刻的輸出,為聯(lián)合上下文信息進行準確預(yù)測,本文采用兩個LSTM 也就是Bi-LSTM,前向LSTM 網(wǎng)絡(luò)負責(zé)獲取前面時序信息,后向LSTM 負責(zé)獲取后向序列信息,從正向、反向兩方向?qū)W習(xí)試題語義邏輯,捕捉更多文本信息。

        該層的輸入序列為Eemb={e0,e1,…,eN-1},首先將文本序列中的e0,e1,…,eN-1分別在t0,t1,t2,…,tn時刻逐次輸入Bi-LSTM 中,并且所有作為輸入信息的詞語都經(jīng)過向量化表示,其中wi,i=1,2,…,6 表示為權(quán)值。假如在待標(biāo)注序列的某個位置i,正向LSTM 得到隱層輸出為,反向LSTM 則得到,則可認為獲取了位置i前的歷史信息獲取了位置i后的未來信息,最后隱層輸出為,其中⊕表示將兩個向量鏈接起來,將hi從輸出層中輸出。

        (3)注意力層,從Bi-LSTM 層獲得語句的向量表示后,加入注意力機制計算問題的難度注意力表示。注意力權(quán)重表示句子對于決定試題難度的重要程度,得到篇章hP和hQ后,注意力層計算機出一個篇章單詞和一個試題單詞的成對匹配矩陣M,如公式(6)

        當(dāng)給出段落的第i個單詞和問題的第j個單詞時,注意力機制可對其進行點積來得到匹配分數(shù),通過對M中每列用softmax 函數(shù)獲取其概率分布,且每一列都表示單獨的篇章級注意力,A1(Pan)表示第n個單詞的篇章注意力,A2(Qn)表示第n個單詞的問題注意力,如公式(7)和(8)

        在獲得試題對文本、文本對試題的注意力之后,計算二者的點積,將每個試題單詞的重要性程度可視化,輸出最終的文章級注意力向量A(Pai),用來衡量文章Pai中單詞en的重要性,如公式(9)

        同理問題Qi、選項Oi的注意力權(quán)重也可以上述方式建模。通過加入注意力機制有助于計算與試題更相關(guān)的段落或選項中詞語的分數(shù),有助于提升模型的準確性。

        (4)預(yù)測層,在這一層中,使用文章注意力向量Pai,選項注意力向量Oi和試題Qi,預(yù)估試題qi的難度,將以上三個向量進行拼接,利用全連接層獲取難度表示θi,使用Sigmoid 函數(shù)預(yù)估試題難度,如公式(10)和(11)

        其中w1,b1,w2,b2為網(wǎng)絡(luò)中可調(diào)整的參數(shù)。

        3 模型驗證實驗

        3.1 實驗環(huán)境及數(shù)據(jù)集處理

        本次實驗使用Intel i5-10210U CPU@1.60 GHz 的實驗環(huán)境,操作系統(tǒng)為Window7,利用Pycharm 中Anaconda3 與TensorFlow 框架。

        實驗中數(shù)據(jù)集為高校大學(xué)計算機基礎(chǔ)一的期末考試試題、隨堂測驗試題和考生作答記錄,其中每條數(shù)據(jù)都包括試題關(guān)聯(lián)知識內(nèi)容、問題、選項(正確選項、錯誤選項)及試題實際難度。實驗數(shù)據(jù)集共包括21 000 條答題記錄,由600 多名學(xué)生作答,有330 道不同試題。由于數(shù)據(jù)集在整理過程中受到人為因素或其他客觀因素的影響,為保證數(shù)據(jù)的合理性,避免對預(yù)測結(jié)果產(chǎn)生影響,需對原始數(shù)據(jù)集進行清理,去除缺失值、冗余信息及具有干擾性的數(shù)據(jù),表3 為大學(xué)計算機基礎(chǔ)試題部分數(shù)據(jù)集示例。

        表3 大學(xué)計算機基礎(chǔ)試題部分數(shù)據(jù)集示例Tab.3 Examples of some data sets of basic examination questions of university computer.

        3.2 對比實驗

        為驗證本研究提出模型(MR-ABNN)的效果,選取下述幾種基線預(yù)測算法做對比。

        (1)支持向量機(SVM)[19]:SVM 使用核函數(shù)向高維空間進行映射,使用分類與回歸分析來分析數(shù)據(jù)的監(jiān)督學(xué)習(xí)模型,但對缺失數(shù)據(jù)、參數(shù)和核參數(shù)的選擇較為敏感。

        (2)決策樹(DT)[20]:DT 是遞歸地選擇最優(yōu)特征,對應(yīng)于模型的局部最優(yōu),但適合高維數(shù)據(jù),信息增益偏向于更多數(shù)值的特征,易忽略屬性之間的相關(guān)性。

        (3)邏輯回歸(LR)[21]:LR 建立代價函數(shù),通過優(yōu)化迭代求解出最優(yōu)的模型參數(shù),但在處理大量多類特征或變量時具有局限性。

        (4)RNN+Attention(ARNN)[5]:ARNN 可從提取向量表征的角度挖掘文本材料,獲取段落的語義信息,但由于缺乏題目關(guān)聯(lián)知識無法直接應(yīng)用于單項選擇試題難度預(yù)測的應(yīng)用場景。

        3.3 評價指標(biāo)

        為衡量MR-ABNN 模型的性能,本文利用較為廣泛使用的均方根誤差(RMSE)[22]、皮爾遜相關(guān)系數(shù)(PCC)[23]和決定系數(shù)R2[24]來進行評價。RMSE 的取值范圍在[0,+∞),數(shù)值越小意味著預(yù)測難度與實際難度的差值越小,說明預(yù)測準確度越高。PCC 取值范圍為[-1,1],絕對值越大表明試題預(yù)測難度與實際難度線性相關(guān)性越高。R2的取值范圍為[0,1],數(shù)值越大表明預(yù)測難度與實際難度越接近。

        3.4 實驗結(jié)果及分析

        為觀察模型在不同數(shù)據(jù)集大小的效果,隨機選取40%、60%、80% 到90% 的訓(xùn)練集進行測試。同時,為防止過擬合,確保試題為未經(jīng)過測驗的新試題且測試集與訓(xùn)練集試題之間沒有重疊,MR-ABNN 模型的實驗結(jié)果見表4。

        表4 各模型在難度預(yù)測任務(wù)上的效果對比Tab.4 Comparison of effects of each model on difficulty prediction tasks

        (1)SVM、DT 及LR 為三種機器學(xué)習(xí)模型,SVM 回歸效果最差,DT 和LR 模型回歸效果較SVM 更好,可知一般的回歸模型并不能很好地進行試題難度預(yù)測任務(wù);ARNN、MRABNN 神經(jīng)網(wǎng)絡(luò)模型的實驗結(jié)果明顯優(yōu)于前三種回歸模型,說明神經(jīng)網(wǎng)絡(luò)對試題難度預(yù)測可以更好地建模。

        (2)ARNN 為神經(jīng)網(wǎng)絡(luò)模型,加入注意力機制的Bi-LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)不僅可以度量計算機基礎(chǔ)知識資料中知識點對試題的重要程度,提高模型對試題與其相關(guān)語句表征的關(guān)注程度,還解決了RNN 中長序列依賴問題和梯度消失問題。同時基于題目關(guān)聯(lián)知識的試題難度預(yù)測模型MR-ABNN 在利用文本信息摘要抽取方法,獲取與問題關(guān)聯(lián)的文本信息來豐富題干的上下文知識后,與ARNN 的性能效果相比具體大幅度提升。

        (3)ARNN、MR-ABNN 兩種神經(jīng)網(wǎng)絡(luò)模型效果隨訓(xùn)練數(shù)據(jù)量比例的增加得到提升。將訓(xùn)練數(shù)據(jù)量增加到60% 時,MR-ABNN 的性能優(yōu)于其他方法,RMSE、PCC、R2值可達到0.19、0.67、0.46 以上;在訓(xùn)練集的比例達到90% 時,MR-ABNN 模型的PCC、R2值達到最高,分別達到0.75、0.53 以上,RMSE 值達到最低0.14 左右。故可以得出,在實際大學(xué)計算機基礎(chǔ)一考試中,MR-ABNN 能夠以更強的能力捕獲更多的語義信息,且數(shù)據(jù)量足夠滿足模型要求時,試題難度預(yù)測任務(wù)完成度可達到最優(yōu)。

        4 結(jié)語

        本文提出一種基于題目關(guān)聯(lián)知識的試題難度預(yù)測模型MR-ABNN,用于考試中單項選擇題難度的自動預(yù)測。模型MR-ABNN 首先構(gòu)建題目關(guān)聯(lián)文本信息摘要的抽取模型,用于豐富題干的上下文知識,解決單項選擇題沒有背景知識支撐的問題,然后基于加入注意力機制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)試題難度的自動評估。在真實測試數(shù)據(jù)集上的實驗結(jié)果表明該模型的優(yōu)越性和有效性。目前,只在計算機基礎(chǔ)選擇題考試中應(yīng)用MR-ABNN,如果其他科目或領(lǐng)域也有對應(yīng)的教材內(nèi)容和真實考試記錄,也可用該模型進行試題難度的預(yù)測。在未來研究中還可考慮針對不同類型試題、不同學(xué)科設(shè)計精度更為準確地難度自動評估模型。

        猜你喜歡
        語句注意力試題
        讓注意力“飛”回來
        2021年高考數(shù)學(xué)模擬試題(四)
        重點:語句銜接
        2019年高考數(shù)學(xué)模擬試題(五)
        《陳涉世家》初三復(fù)習(xí)試題
        2019屆高考數(shù)學(xué)模擬試題(二)
        精彩語句
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        偷偷夜夜精品一区二区三区蜜桃| 亚洲尺码电影av久久| 国产精品亚洲专区无码web| 蜜桃视频在线免费观看完整版| 婚外情长久的相处之道| 久久精品国产久精国产果冻传媒| 黄色成人网站免费无码av| 国产成人啪精品视频免费网| 男女一区视频在线观看| 在线视频夫妻内射| 国产啪精品视频网站| 亚洲日本在线va中文字幕| 日本频道一区二区三区| 亚洲中文字幕久久精品蜜桃| 亚洲日本va午夜在线电影| 久久亚洲av成人无码软件| 中文字幕人妻互换激情| 成年女人a级毛片免费观看| 色偷偷一区二区无码视频| 中国产无码一区二区三区| 在线免费观看蜜桃视频| 少妇被粗大的猛烈进出免费视频| 久久亚洲黄色| 亚洲传媒av一区二区三区 | 无码伊人66久久大杳蕉网站谷歌| 国产做a爱片久久毛片a片| 日本激情网址| 午夜蜜桃视频在线观看| 国产二区交换配乱婬| 国产精品亚洲综合久久婷婷| 天堂a版一区二区av| 国产亚洲精品美女久久久久| 老色鬼永久精品网站| 无码专区亚洲avl| 日韩一区二区三区人妻免费观看| 麻豆影视视频高清在线观看| 无码成人片一区二区三区| 日本女优禁断视频中文字幕| 国产色系视频在线观看| 国产一级农村无码| 中文字幕中文字幕人妻黑丝|