試題知識點(diǎn)預(yù)測：一種教研知識強(qiáng)化的卷積神經(jīng)網(wǎng)絡(luò)模型

2018-06-14 07:47:14胡國平劉青文

中文信息學(xué)報(bào) 2018年5期

胡國平，張丹,3，蘇喻,2，劉青文，李佳，王瑞

(1. 科大訊飛股份有限公司，安徽合肥 230088；2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，安徽合肥 230039；3. 中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，安徽合肥 230027)

0 引言

隨著大數(shù)據(jù)和人工智能的發(fā)展，個性化學(xué)習(xí)的發(fā)展越來越快，它能夠?yàn)榻處熖峁┌嗉墏€性化診斷報(bào)告，幫助教師輕松掌握班級學(xué)習(xí)情況；為家長提供學(xué)生個性化診斷報(bào)告，讓家長對自己孩子的學(xué)習(xí)情況一目了然；更重要的是為學(xué)生提供個性化診斷報(bào)告和個性化資源推薦，幫助學(xué)生了解自己，并運(yùn)用大數(shù)據(jù)和人工智能為學(xué)生規(guī)劃適合自己的學(xué)習(xí)路徑，推薦適合自己的個性化學(xué)習(xí)資源，改變過去“千面一人”的教學(xué)模式，讓學(xué)習(xí)變得簡單高效[1-3]。在個性化學(xué)習(xí)模式中，無論是個性化診斷報(bào)告的生成，還是個性化資源推薦，行之有效的方法是從知識點(diǎn)的維度構(gòu)建結(jié)構(gòu)化題庫，進(jìn)而結(jié)合學(xué)生的學(xué)習(xí)歷史生成個性化診斷報(bào)告和推薦資源[4-6]。因此，如何給試題準(zhǔn)確標(biāo)注知識點(diǎn)是進(jìn)行題庫構(gòu)建和個性化學(xué)習(xí)的首要問題。

試題的知識點(diǎn)是描述試題用到的知識，例如，數(shù)學(xué)學(xué)科的知識點(diǎn)標(biāo)簽包括“函數(shù)的基本概念”、“函數(shù)定義域與值域”等。它描述一道試題需要知識，從而根據(jù)學(xué)生的做題歷史能夠診斷出學(xué)生各個知識掌握的程度和準(zhǔn)確定位學(xué)生需要學(xué)習(xí)提高的地方，對學(xué)生的學(xué)習(xí)有極大幫助。本文將研究如何對試題進(jìn)行知識點(diǎn)標(biāo)注。

傳統(tǒng)的知識點(diǎn)標(biāo)注有兩種方法，人工標(biāo)注方法[7]和機(jī)器學(xué)習(xí)方法。人工標(biāo)注方法即是讓教研人員或一線教師，對每一道試題選擇試題合適的知識點(diǎn)。另外，近年來NLP在教育領(lǐng)域的應(yīng)用也取得了不錯的效果[8-11]，可以通過文本分類的方法進(jìn)行知識點(diǎn)自動預(yù)測。由于一道試題含有一個或多個知識點(diǎn)標(biāo)簽，因此知識點(diǎn)標(biāo)簽預(yù)測常作為多標(biāo)簽分類問題進(jìn)行解決。常用的有傳統(tǒng)機(jī)器學(xué)習(xí)方法和普通的深度學(xué)習(xí)方法。

然而，人工標(biāo)注門檻高，要求標(biāo)注人員有較強(qiáng)的學(xué)科知識。由于試題繁多，耗時耗力，且隨著新題的增加，需要持續(xù)投入人力進(jìn)行標(biāo)注。

另外，人工標(biāo)注主觀性強(qiáng)，標(biāo)注一致性低。因此，統(tǒng)一標(biāo)準(zhǔn)的標(biāo)簽自動預(yù)測能力顯得尤為重要。而機(jī)器學(xué)習(xí)領(lǐng)域目前常用的多標(biāo)簽分類方法，未結(jié)合教研經(jīng)驗(yàn)，預(yù)測效果有限，尤其對標(biāo)注語料少的知識點(diǎn)的表現(xiàn)極差。要想達(dá)到標(biāo)準(zhǔn)一致，且效果較好的自動標(biāo)簽預(yù)測所面臨的挑戰(zhàn)是巨大的。

為解決以上問題，本文提出了一種教研知識強(qiáng)化的卷積神經(jīng)網(wǎng)絡(luò)方法，簡稱ECNN(Expertise-Enriched Convolutional Neural Network)。本方法希望融合教研和機(jī)器學(xué)習(xí)的優(yōu)勢來彌補(bǔ)各自在試題知識點(diǎn)標(biāo)注上的不足。ECNN方法中教研只需投入少量人力進(jìn)行教研經(jīng)驗(yàn)編寫，并且合理結(jié)合了教研經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)的優(yōu)勢，使決策和教研信息互相約束。知識點(diǎn)教研經(jīng)驗(yàn)即是教研中認(rèn)為一個知識點(diǎn)下常出現(xiàn)的詞語、公式和模式，對一個學(xué)科內(nèi)的所有試題通用，一個學(xué)科只需編寫一份，增加新題不需重新編寫。在ECNN方法中，第一步抽取試題信息；第二步由教研編寫知識點(diǎn)的教研經(jīng)驗(yàn)；第三步通過卷積神經(jīng)網(wǎng)絡(luò)對試題信息和教研經(jīng)驗(yàn)進(jìn)行深層語義理解和表達(dá)，并使用注意力機(jī)制[12]計(jì)算教研信息對試題的重要程度，使得和試題相關(guān)知識點(diǎn)的教研經(jīng)驗(yàn)更重要；第四步將決策和教研經(jīng)驗(yàn)互相約束，要求二者相互補(bǔ)充相互制約，提升泛化能力。實(shí)驗(yàn)表明與傳統(tǒng)的機(jī)器學(xué)習(xí)方法和普通深度學(xué)習(xí)方法相比，本文方法的性能更好。綜上，本文所提出的知識點(diǎn)預(yù)測方法的主要創(chuàng)新點(diǎn)如下： (1)提出一種人機(jī)結(jié)合的框架，能夠在深度學(xué)習(xí)中融入教研經(jīng)驗(yàn)；(2)決策和教研經(jīng)驗(yàn)互相約束。

本文的其他部分組織如下：第一節(jié)介紹知識點(diǎn)預(yù)測的相關(guān)工作；第二節(jié)介紹本文提出的ECNN模型；第三節(jié)給出實(shí)驗(yàn)方法及結(jié)果；第四節(jié)簡述結(jié)論及下一步工作。

1 相關(guān)工作

知識點(diǎn)標(biāo)簽預(yù)測可作為多標(biāo)簽文本分類問題，并且該問題具有文本短、領(lǐng)域受限、樣本分布失衡、標(biāo)簽層次化等特點(diǎn)。目前已有的研究工作大多無法針對上述幾個關(guān)鍵問題直接給出一個令人滿意的分類模型。根據(jù)分類特征的表達(dá)方式不同，本節(jié)將相關(guān)的研究工作總結(jié)為以下兩個方面。

1.1 基于淺層特征的文本分類方法

傳統(tǒng)的文本分類方法常采用向量空間模型(vector-space-model，VSM)來描述文本特征，VSM基于詞袋模型(bag-of-words)假設(shè)，將文本表示成詞表維度的向量，并基于詞的頻率統(tǒng)計(jì)量(TF-IDF等)來刻畫向量的每一維特征[13]。這些特征最后用來訓(xùn)練SVM、樸素貝葉斯、決策樹等分類模型[14-17]。VSM存在嚴(yán)重的特征稀疏問題，研究者們考慮到文檔中的詞共現(xiàn)關(guān)系，并據(jù)此提出了LSA、LDA等一系列名為隱語義分析的文本分類方法,取得了不錯的效果[18-19]。

然而，無論是向量空間模型還是隱語義分析都基于詞袋假設(shè)，因而無法建模詞序、詞語搭配、篇章結(jié)構(gòu)等信息，而這些信息對于文本分類，尤其是對于短文本分類來說是十分重要的特征。另外，上述模型也無法有效地融合領(lǐng)域?qū)＜抑R和層次化的標(biāo)簽結(jié)構(gòu)，而這些正是知識點(diǎn)標(biāo)簽預(yù)測問題所面臨的挑戰(zhàn)。

1.2 基于分布式語義表示的文本分類方法

深度神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的表示學(xué)習(xí)方法，并且已經(jīng)在計(jì)算機(jī)視覺[20]和自然語言處理[21]等許多任務(wù)上取得了驚艷的成果。在NLP任務(wù)中，深度學(xué)習(xí)的核心思想是通過有效的訓(xùn)練把詞、句子、篇章表達(dá)成稠密的矢量(分布式語義表示)，這些矢量不但蘊(yùn)含了1.1節(jié)中所述的基本統(tǒng)計(jì)特征，而且刻畫了詞的上下文、句子詞序或者篇章結(jié)構(gòu)等語義信息。常見的文本表示學(xué)習(xí)方法包括Word2Vector、CNN、RNN等[22-24]，人們一般通過這些方法得到文檔的矢量表達(dá)，然后將其輸入到分類損失函數(shù)中以訓(xùn)練最終的文本分類模型。

然而上述方法仍然無法解決領(lǐng)域知識融合及樣本分布失衡等問題。本文通過引入一種基于注意力機(jī)制的領(lǐng)域知識融合模型，在一定程度上緩解了樣本分布失衡問題，并有效地提高了分類準(zhǔn)確率。

2 ECNN方法

定義知識點(diǎn)集合K={k1，k2，…，km}，試題集合Q={q1，q2，…，qn}，試題知識點(diǎn)對應(yīng)集合S={sq1，sq2，…，sqn}，其中sqi為試題qi包含的知識點(diǎn)。則本文的目標(biāo)是給定知識點(diǎn)集合K，試題集合Q，試題知識點(diǎn)對應(yīng)集合S，對于不在Q中的試題qt，預(yù)測該試題的知識點(diǎn)sqt。

本文方法的關(guān)鍵點(diǎn)在于能夠融入教研經(jīng)驗(yàn)，決策和教研經(jīng)驗(yàn)互相約束。一共分為四個部分： (1)試題文本信息抽取；(2)教研經(jīng)驗(yàn)獲得；(3)計(jì)算教研經(jīng)驗(yàn)對試題的重要程度；(4)決策和教研經(jīng)驗(yàn)互相約束。

2.1 試題文本信息抽取

本步是為了抽取試題文本信息特征，供對試題做深度語義理解使用。對于給定的試題qi，抽取試題的文本信息Fqi={f1，f2，…，fu}。

試題文本包括題面、答案、解析，如表1。首先抽取題面的信息，如圖1。將試題的題面中的中文和公式進(jìn)行切割，切割后將中文使用帶有學(xué)科詞典和停用詞的分詞器進(jìn)行分割。再將公式解析成公式樹，從公式樹上抽取語義信息，然后將分詞結(jié)果和公式語義信息按順序一起組成如表2所示的unigram特征Fqic。

表1 試題的題面答案解析

圖1 試題的題面信息抽取

題面若奇函數(shù)f(x)在(-∞,0)內(nèi)是減函數(shù),且f(-2)=0,則不等式x·f(x)<0的解集為Unigram特征奇函數(shù)/FUN_VALUE_VAR/INTEVAL/NINF/內(nèi)/減函數(shù)/FUN_VALUE/EQUAL/NUM/不等式/VARx/CDOT/FUN_VALUE_VAR/INEQUAL/NUM/解集/TARGET

其中，學(xué)科詞典為含有學(xué)科專有詞的詞典。例如，數(shù)學(xué)學(xué)科詞典含有函數(shù)、定義域、單調(diào)遞增等。停用詞指分詞過程中需過濾掉的無用詞。例如: 的、若等。公式樹是將公式解析成樹狀結(jié)構(gòu)，如x?f(x)<0解析成如圖2所示的樹，其中在公式樹上抽取出的特征種類有269類，如表3所示。

圖2 公式樹

特征含義FUN_VALUE_VAR帶變量的函數(shù)INTEVAL區(qū)間NINF負(fù)無窮FUN_VALUE函數(shù)EQUAL等于NUM數(shù)字VARx變量xCDOT乘TARGET求解目標(biāo)

然后將試題的答案和解析用同樣的方式抽取unigram特征Fqis，F(xiàn)qia。Fqic、Fqis、Fqia合并成試題文本信息Fqi={f1,f2,…,fu}。

2.2 教研經(jīng)驗(yàn)信息獲得

本步是為了獲取教研經(jīng)驗(yàn)，以供在模型中加入教研經(jīng)驗(yàn)。對于知識點(diǎn)kj，獲取教研經(jīng)驗(yàn)信息Jkj={j1,j2,…,jh}。

對于知識點(diǎn)kj，其教研經(jīng)驗(yàn)信息包含此知識點(diǎn)的相關(guān)試題中經(jīng)常出現(xiàn)的詞語、公式及模式信息。教研經(jīng)驗(yàn)信息可直接編寫為unigram特征的形式，也可先編寫為如試題的題面一樣的文本形式，再由2.1中的抽取方式抽取成unigram特征的形式。但無論以何種格式編寫，最終都要轉(zhuǎn)換成unigram特征的表示形式，這樣在后續(xù)計(jì)算教研信息對試題的重要程度時能取得更好的效果。例如，對于知識點(diǎn)“增函數(shù)與減函數(shù)”，教研經(jīng)驗(yàn)信息Jkj最終表示為表4所示，其中“/”為分隔符。

表4 教研經(jīng)驗(yàn)信息

教研經(jīng)驗(yàn)信息可人工制作，也可以人機(jī)結(jié)合制作。人工制作是指由學(xué)科專家完全憑自己的經(jīng)驗(yàn)進(jìn)行編寫。人機(jī)結(jié)合制作是指先由機(jī)器通過頻繁模式挖掘出知識點(diǎn)的關(guān)鍵詞語、公式和模式，再由學(xué)科專家對此結(jié)果根據(jù)自身教研經(jīng)驗(yàn)進(jìn)行增刪改。兩種方式均需要由多名教研人員參與，多名教研人員先獨(dú)立制作，然后根據(jù)制作出的多份教研經(jīng)驗(yàn)中的unigram特征進(jìn)行投票。投票高于閾值的unigram特征保留，低于閾值的unigram特征由多名教研人員進(jìn)行二次投票。二次投票高于閾值的保留，低于閾值的去掉。對比發(fā)現(xiàn)人機(jī)結(jié)合的制作方式能夠更加快速且更加全面的獲得教研經(jīng)驗(yàn)信息。

2.3 計(jì)算教研信息對試題的重要程度

本步是為了對試題進(jìn)行深度語義理解，并且由于m個知識點(diǎn)的教研信息對試題并不是同等重要，因此需要計(jì)算教研信息對試題的重要程度。

例如，對于表1中的試題，知識點(diǎn)“函數(shù)的奇偶性”、“函數(shù)的單調(diào)性與單調(diào)區(qū)間”和“不等式求解”要比其他知識點(diǎn)的教研信息重要。計(jì)算教研信息對試題重要程度具體的方式是使用注意力機(jī)制(attention model)。如圖3所示，首先將試題文本信息和教研經(jīng)驗(yàn)都轉(zhuǎn)換成深層語義表示，然后通過注意力機(jī)制計(jì)算教研信息對試題的重要程度W={w1,w2,…,wm}。其中W∈Rm，m為知識點(diǎn)個數(shù)。

圖3 計(jì)算教研信息對試題的重要程度

2.3.1 提取試題深層語義信息

對2.1中抽取的試題文本信息的unigram使用google開源的Word2Vec轉(zhuǎn)換為word embedding。設(shè)試題qi的unigram為式(1)。

qi={f1,f2,…,fu}

(1)

經(jīng)過word embedding之后，該試題文本信息表示為式(2)。

QEqi={qe1,qe2,…,qeu}

(2)

其中QEqi∈Rd×u，d表示word embedding的維數(shù),u表示qi的unigram數(shù)目。將QEqi送入多層卷積和Pooling構(gòu)成的深層神經(jīng)網(wǎng)絡(luò)中提取其語義特征，得到QDqi，如圖3所示。我們用g(.)表示多層卷積和pooling的非線性變換，整個過程可以表示為式(3)。

QDqi=g(QEqi)

(3)

其中，QDqi∈Rd。

2.3.2 提取教研經(jīng)驗(yàn)深層語義信息

同時，對2.2中抽取的m個知識點(diǎn)的教研經(jīng)驗(yàn)進(jìn)行word2vec轉(zhuǎn)換。設(shè)知識點(diǎn)kj的教研經(jīng)驗(yàn)表示為式(4)。

Jkj={j1,j2,…,jh}

(4)

經(jīng)過word embedding之后，該知識點(diǎn)教研經(jīng)驗(yàn)表示為式(5)。

JEkj={je1,je2,…,jeh}

(5)

其中JEkj∈Rd×h，d表示word embedding的維數(shù),h表示qi的unigram數(shù)目。將JEkj送入多層卷積和Pooling構(gòu)成的深層神經(jīng)網(wǎng)絡(luò)中提取其語義特征，得到JDqi，如圖3所示。我們用f(.)表示多層卷積和pooling的非線性變換，整個過程可以表示為式(6)。

JDkj=f(JEkj)

(6)

其中，JDkj∈Rd。對m個知識點(diǎn)的教研經(jīng)驗(yàn)都做此操作，可得到教研經(jīng)驗(yàn)的深層語義表示為式(7)。

JD={JDk1,JDk2,…,JDkm}

(7)

其中m為知識點(diǎn)集合所包含的知識點(diǎn)個數(shù)。

2.3.3 注意力機(jī)制度量知識點(diǎn)的重要程度

在得到QDqi和JD={JDk1,JDk2,…,JDkm}后，我們使用注意力機(jī)制來度量試題QDqi與所有知識點(diǎn)JD之間的相關(guān)程度。具體地，對于知識點(diǎn)教研經(jīng)驗(yàn)的JDkj，使用一層或多層前向神經(jīng)網(wǎng)絡(luò)計(jì)算QDqi和其之間的相似度，前向神經(jīng)網(wǎng)絡(luò)的非線性變換用函數(shù)σ(.)表示，相似度計(jì)算過程可以表示為式(8)。

wqikj=σ(QDqi,JDkj)

(8)

對于m個知識點(diǎn)，均可得到每個知識點(diǎn)和QDqi的相似度，歸一化后得到式(9)。

Wqi=(wqik1,wqik2,…,wqikm)

(9)

其中Wqi∈Rm，m為知識點(diǎn)個數(shù)，這樣使用Wqi對所有知識點(diǎn)的語義表示JD進(jìn)行加權(quán)累和，得到對于試題qi的QDqi的知識點(diǎn)的響應(yīng)表示Cqi，如式(10)所示。

(10)

其中Cqi∈Rd。

2.4 決策和教研經(jīng)驗(yàn)互相約束

最后考慮試題語義信息和教研經(jīng)驗(yàn)的互相約束。我們不僅能對試題進(jìn)行深度語義理解，通過注意力機(jī)制計(jì)算教研信息對試題的重要程度，而且訓(xùn)練目標(biāo)會結(jié)合知識點(diǎn)標(biāo)簽標(biāo)注信息，并且決策和教研經(jīng)驗(yàn)互相約束。

將2.3.1節(jié)得到的試題深層語義信息QDqi和2.3.3節(jié)得到的教研經(jīng)驗(yàn)對試題的重要程度Cqi拼接起來，輸入多層前向網(wǎng)絡(luò)，預(yù)測知識點(diǎn)。

此過程為式(11)所示。

Pqi=ρ(QDqi,Cqi)

(11)

其中Pqi表示試題含有各知識點(diǎn)的概率，ρ(.)表示多層前饋神經(jīng)網(wǎng)絡(luò)。

模型的損失函數(shù)定義為式(12)所示。

(12)

其中Pqikj為試題qi預(yù)測含有知識點(diǎn)kj的概率，Tqikj為試題qi真實(shí)含有知識點(diǎn)kj的概率，wqikj為知識點(diǎn)kj的教研經(jīng)驗(yàn)對試題qi的重要程度，λ和η為損失函數(shù)的超參。至此，整個模型描述完成。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集介紹

實(shí)驗(yàn)所用的數(shù)據(jù)集為某知名教育企業(yè)題庫數(shù)據(jù)，抽取其中高中數(shù)學(xué)試題，共278 167道試題。

此企業(yè)的知識點(diǎn)體系為三級樹狀結(jié)構(gòu)，一級包含12個知識點(diǎn)，二級48個知識點(diǎn)，三級361個知識點(diǎn)。以一級知識點(diǎn)集合為例，知識點(diǎn)體系如表5所示。

表5 知識點(diǎn)體系

試題為文本格式，其中的公式為latex格式，每道試題上均標(biāo)有一個或多個三級知識點(diǎn)。詳細(xì)信息見表6。將278 167道試題，在考慮題型、知識點(diǎn)分布的情況下分為8∶1∶1，分別作為訓(xùn)練集、開發(fā)集、測試集。因此訓(xùn)練集試題數(shù)：開發(fā)集試題數(shù)：測試集試題數(shù)=222 406∶27 856∶27 905。其中測試集試題知識點(diǎn)標(biāo)簽為兩位數(shù)學(xué)學(xué)科專家共同標(biāo)注，然后將不一致部分取出多位專家共同討論確定。

表6 實(shí)驗(yàn)數(shù)據(jù)集

3.2 實(shí)驗(yàn)評價(jià)指標(biāo)

為了評價(jià)本文所提出的知識點(diǎn)預(yù)測方法ECNN的預(yù)測效果本文分別驗(yàn)證知識點(diǎn)預(yù)測任務(wù)下的整體效果和單知識點(diǎn)的效果。整體效果和單知識點(diǎn)效果均采用精準(zhǔn)率(precision，P)、召回率(recall，R)和F1指標(biāo)來評價(jià)ENCC方法和其他對比方法的效果。

3.2.1 整體效果評價(jià)指標(biāo)

整體效果即是所有試題的效果，精準(zhǔn)率、召回率、F1值定義如式(13)～(15)所示。

其中n為試題總量。由于一道試題中含有大于等于一個知識點(diǎn)，式中的TPi為試題qi所含知識點(diǎn)被預(yù)測出的數(shù)量，F(xiàn)Pi為試題qi預(yù)測出的知識點(diǎn)不是試題qi所含知識點(diǎn)的數(shù)量，F(xiàn)Ni為試題qi所含知識點(diǎn)未被預(yù)測出的數(shù)量。

3.2.2 單知識點(diǎn)效果評價(jià)指標(biāo)

為了分析每個知識點(diǎn)的效果，采用單知識點(diǎn)的精準(zhǔn)率、召回率、F1值，對于知識點(diǎn)kj，其定義如式(16)～(18)所示。

對于單個知識點(diǎn)kj的效果，TPkj為含有知識點(diǎn)kj且預(yù)測出知識點(diǎn)kj的試題數(shù)量，TPkj為不含知識點(diǎn)kj且預(yù)測出知識點(diǎn)kj的試題數(shù)量，F(xiàn)Nkj為含有知識點(diǎn)kj且未預(yù)測出知識點(diǎn)kj的試題數(shù)量。

3.3 對比試驗(yàn)方法

為了驗(yàn)證ECNN知識點(diǎn)預(yù)測的效果，本文將ECNN與如下實(shí)驗(yàn)方法進(jìn)行對比：

(1) KNN協(xié)同過濾方法[25]。首先，計(jì)算待預(yù)測試題和已標(biāo)注知識點(diǎn)試題間的cosine相似度，找出和待預(yù)測試題相似度最大的k個試題，也即是和待預(yù)測試題最相近的試題。然后，根據(jù)k個最相似試題的知識點(diǎn)預(yù)測目標(biāo)試題的知識點(diǎn)。

(2) 傳統(tǒng)機(jī)器學(xué)習(xí)方法。此處選擇了樸素貝葉斯(NB)和支持向量機(jī)(SVM)。對試題的題面抽取特征后，對每個知識點(diǎn)進(jìn)行二分類，通過多個二分類進(jìn)行多標(biāo)簽預(yù)測。

(3) 普通神經(jīng)網(wǎng)絡(luò)方法。由于試題的題面一般不長，用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)效果略差，此處選擇了深度神經(jīng)網(wǎng)絡(luò)(DNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。首先使用Word2Vec將試題的題面轉(zhuǎn)換成詞向量，然后通過DNN或CNN進(jìn)行試題深層語義理解，進(jìn)行多標(biāo)簽預(yù)測。

3.4 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)部分從以下四個方面進(jìn)行試驗(yàn)并闡明實(shí)驗(yàn)結(jié)果：

(1) 對比試驗(yàn)，ECNN方法相比于對比方法效果是否有提升？

(2) 訓(xùn)練數(shù)據(jù)規(guī)模對效果是否有影響？隨著數(shù)據(jù)量的增大，效果是否會持續(xù)提升？當(dāng)數(shù)據(jù)量很小時，ECNN方法能否準(zhǔn)確預(yù)測知識點(diǎn)？

(3) 加入的教研經(jīng)驗(yàn)是否合理？

(4) 決策和教研經(jīng)驗(yàn)互相約束是否合理？

3.4.1 對比試驗(yàn)

本實(shí)驗(yàn)是為了驗(yàn)證ECNN方法相對于對比方法效果是否有提升。

其中人工標(biāo)注方案是高中一線數(shù)學(xué)老師對測試集中試題進(jìn)行人工標(biāo)注，與測試集中知識點(diǎn)標(biāo)簽進(jìn)行對比。本實(shí)驗(yàn)將多種方法在相同數(shù)據(jù)集上進(jìn)行知識點(diǎn)預(yù)測，以整體效果評價(jià)指標(biāo)進(jìn)行對比，因知識點(diǎn)體系為三級體系，我們同時對比一級、二級、三級效果。但是試題上最終標(biāo)注的都是三級知識點(diǎn)，因此以三級知識點(diǎn)效果最為重要。

圖4 一級知識點(diǎn)標(biāo)注效果

實(shí)驗(yàn)結(jié)果如圖4、圖5、圖6所示。對于一級、二級、三級知識點(diǎn)，本文的ECNN方法均優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)和普通深度學(xué)習(xí)方法；ECNN方法的效果幾乎和人工標(biāo)注結(jié)果持平，也即是達(dá)到一線數(shù)學(xué)老師人工標(biāo)注水平。此外，從圖中，我們還可以看到基于深度結(jié)構(gòu)的模型(DNN、CNN、ECNN)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型(KNN、NB、SVM)，由此可知，基于深度結(jié)構(gòu)的模型能夠充分理解試題與標(biāo)簽之間的深度語義，比基于淺層特征的傳統(tǒng)模型有更好的表示效果。

圖5 二級知識點(diǎn)標(biāo)注效果

圖6 三級知識點(diǎn)標(biāo)注效果

3.4.2 訓(xùn)練數(shù)據(jù)規(guī)模對效果的影響

本實(shí)驗(yàn)為了驗(yàn)證(1)當(dāng)數(shù)據(jù)量很小時ECNN方法是否有效；(2)數(shù)據(jù)集規(guī)模對效果有怎樣的影響。

由于一些知識點(diǎn)標(biāo)注數(shù)據(jù)總量很少，因此不適合設(shè)計(jì)對所有知識點(diǎn)樣本量個數(shù)取值從小到大進(jìn)行試驗(yàn)。此處我們將361個知識點(diǎn)按照樣本量從小到大排序，觀察單個知識點(diǎn)預(yù)測效果的變化趨勢。雖然知識點(diǎn)間的差異對效果有影響，但是仍可看出數(shù)據(jù)量從小到大變化時效果的變化趨勢。

數(shù)據(jù)量從小到大變化時，效果的變化趨勢如圖7所示。其中橫坐標(biāo)為單個知識點(diǎn)訓(xùn)練樣本量，縱坐標(biāo)為單個知識點(diǎn)效果。從圖中可以看出，當(dāng)數(shù)據(jù)量很小時，ECNN方法遠(yuǎn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法和普通深度學(xué)習(xí)方法；隨著數(shù)據(jù)量的增加，ECNN方法效果增大較快；ECNN方法和普通深度學(xué)習(xí)方法對于數(shù)據(jù)量較大時依然能保持隨著數(shù)據(jù)量的增加效果變好。

圖7 知識點(diǎn)效果F1變化趨勢

3.4.3 加入教研經(jīng)驗(yàn)的重要性探討

本實(shí)驗(yàn)為了驗(yàn)證加入的教研經(jīng)驗(yàn)是否合理。

隨機(jī)取試題qi，對比教研信息對試題qi的重要程度Wqi和試題知識點(diǎn)sqi。其中，試題qi和sqi如表7所示，Wqi共361維，其中數(shù)值最大的15維如圖8所示。其中k1到k15表示知識點(diǎn)如表8所示。

表7 試題及其知識點(diǎn)

圖8 教研信息對試題重要程度

k1等差數(shù)列的通項(xiàng)公式k2等差數(shù)列的性質(zhì)k3等差數(shù)列的判定與證明k4等差數(shù)列的應(yīng)用k5等差數(shù)列的求和k6等差數(shù)列與等比數(shù)列的綜合應(yīng)用k7數(shù)列的分類k8等比數(shù)列的通項(xiàng)公式k9等比數(shù)列的性質(zhì)k10等比數(shù)列的求和k11等比數(shù)列的判定與證明k12等比數(shù)列的應(yīng)用k13數(shù)列的概念及表示法k14數(shù)列的函數(shù)特征k15一次和二次函數(shù)

由圖8可以看出，和教研信息對試題最重要的知識點(diǎn)為等差數(shù)列的通項(xiàng)公式、等差數(shù)列的性質(zhì)、等差數(shù)列的判定與證明，其中前兩個為試題本身所含有的知識點(diǎn)，而第三個知識點(diǎn)為同一個二級知識點(diǎn)下的相鄰知識點(diǎn)，由此可看出加入教研經(jīng)驗(yàn)是合理的。

另外知識點(diǎn)等差數(shù)列的判定與證明在決策和教研信息互相約束時被去除，此實(shí)驗(yàn)在3.4.4節(jié)中說明，此處不做詳細(xì)說明。

3.4.4 不同種類教研經(jīng)驗(yàn)對效果的影響

本實(shí)驗(yàn)為了探討詞語、公式、模式三種教研經(jīng)驗(yàn)對效果的影響。

分別使用教研經(jīng)驗(yàn)中的詞語、公式、模式、詞語+公式、詞語+公式+模式五種方式在高中數(shù)學(xué)學(xué)科上進(jìn)行實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果如圖9所示?？梢杂^察到，詞語和公式教研經(jīng)驗(yàn)更有利于提高召回率，模式教研經(jīng)驗(yàn)更有利于提高準(zhǔn)確率，三種教研經(jīng)驗(yàn)一起使用效果要優(yōu)于使用其中一種或兩種教研經(jīng)驗(yàn)。

圖9 三級知識點(diǎn)效果對比

3.4.5 決策和教研經(jīng)驗(yàn)互相約束的重要性分析

本實(shí)驗(yàn)為了證明在損失函數(shù)中將決策和教研信息互相約束是否合理。

將2.4節(jié)中的損失函數(shù)改為式(19)。

(19)

進(jìn)行對比試驗(yàn)，觀察整體效果變化情況。

實(shí)驗(yàn)結(jié)果如圖10所示，可以觀察到，在損失函數(shù)中去掉決策和教研經(jīng)驗(yàn)的互相約束，效果有所下降，可以得出決策和教研經(jīng)驗(yàn)互相約束是合理的。

圖10 三級知識點(diǎn)效果對比

4 總結(jié)

針對人工標(biāo)注、傳統(tǒng)機(jī)器學(xué)習(xí)和普通深度學(xué)習(xí)在知識點(diǎn)標(biāo)注任務(wù)上的缺陷，即人工標(biāo)注門檻高，耗時耗力、傳統(tǒng)機(jī)器學(xué)習(xí)未考慮文本的深層語義和教研先驗(yàn)知識、普通深度學(xué)習(xí)未考慮教研先驗(yàn)知識，本文提出了一種教研知識強(qiáng)化的卷積神經(jīng)網(wǎng)絡(luò)ECNN方法，該方法分為四步: 第一步為試題文本信息抽取；第二步為獲取教研經(jīng)驗(yàn)信息。此信息同一學(xué)科通用，由教研提前制作完成后直接使用即可；第三步對試題和教研經(jīng)驗(yàn)進(jìn)行深層語理解，計(jì)算各知識點(diǎn)教研信息對試題的重要程度；第四步將試題信息和教研先驗(yàn)信息融合，決策和教研信息互相約束，預(yù)測試題知識點(diǎn)。通過大量對比試驗(yàn)，證明了本文所提出的ECNN方法的合理性和可解釋性。

本文所提出的知識點(diǎn)預(yù)測方法、教研先驗(yàn)經(jīng)驗(yàn)由教研人員人工抽取，后續(xù)可考慮從試題信息和試題已標(biāo)注知識點(diǎn)的信息中自動抽取教研先驗(yàn)經(jīng)驗(yàn)。并且本文對于一道試題的知識點(diǎn)未分主次，后續(xù)可對預(yù)測結(jié)果分主次知識點(diǎn)，而實(shí)際上一道試題的知識點(diǎn)是有主次之分的，這也是未來研究方向之一。

[1] 馮建軍. 論個性化教育的理念[J]. 教育科學(xué), 2004, 20(2): 11-14.

[2] Hong, Chin Ming, et al. Intelligent Web-based Tutoring System with Personalized Learning Path Guidance[J]. Computers and Education,2008,51(2): 787-814.

[3] 劉淇,陳恩紅，等.面向個性化學(xué)習(xí)的學(xué)生認(rèn)知能力分析[J].中國計(jì)算機(jī)學(xué)會通訊, 2017,4(13): 28-35.

[4] 朱天宇,黃振亞,陳恩紅,等. 基于認(rèn)知診斷的個性化試題推薦方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2017(1): 176-191.

[5] Rupp Andre A, J Templin. The Effects of Q-Matrix Misspecification on Parameter Estimates and Classification Accuracy in the DINA Model[J]. Educational& Psychological Measurement, 2008,68(1): 78-96.

[6] 王曉華, 文劍冰. 項(xiàng)目反應(yīng)理論在教育考試命題質(zhì)量評價(jià)中的應(yīng)用[J]. 教育科學(xué), 2010, 26(3): 20-26.

[7] Tatsuoka K K. Rule Spaec: An Approach for Dealing with Misconceptions Based on Item Response Theory[J]. Journal of Educational Measurement, 1983, 20(4): 345-354.

[8] 胡韌奮. 漢語詞匯測試自動命題研究[J]. 中文信息學(xué)報(bào), 2017, 31(1): 41-49.

[9] 陳志鵬, 陳文亮. 基于文檔發(fā)散度的作文跑題檢測[J]. 中文信息學(xué)報(bào), 2017, 31(1): 23-30.

[11] Piech C, Spencer J, Huang J, et al. Deep Knowledge Tracing[J]. Computer Science, 2015, 3(3): 19-23.

[12] Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. arXiv preprint arXiv: 1409.0473, 2014.

[13] Soucy P, Mineau G W. Beyond TFIDF weighting for text categorization in the vector space model[C]//Proceedings of the International Joint Conference on Artificial Intelligence. Morgan Kaufmann Publishers Inc.2005: 1130-1135.

[14] Hu Y. A Bayes Text Classification Method Based on Vector SpaceModel[J]. Computer & Digital Engineering, 2004.

[15] 毛偉, 徐蔚然, 郭軍. 基于n-gram語言模型和鏈狀樸素貝葉斯分類器的中文文本分類系統(tǒng)[J]. 中文信息學(xué)報(bào), 2006, 20(3): 29-35.

[16] Joachims T. Transductive Inference for Text Classification using Support Vector Machines[C]//Proceedings of the Sixteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc.1999: 200-209.

[17] 朱遠(yuǎn)平, 戴汝為. 基于SVM決策樹的文本分類器[J]. 模式識別與人工智能, 2005, 18(4): 000412-416.

[18] Zhang Y F, He C. Research of Text Classification Model Based on Latent Semantic Analysis and Improved HS-SVM[C]//Proceedings of the International Workshop on Intelligent Systems and Applications. IEEE, 2010: 1-5.

[19] Li W B, Sun L, Zhang D K. Text Classification Based on Labeled-LDAModel[J]. Chinese Journal of Computers, 2008, 31(4): 620-627.

[20] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the International Conference on Neural Information Processing Systems. Curran Associates Inc.2012: 1097-1105.

[21] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the International Conference on Neural Information Processing Systems. Curran Associates Inc.2013: 3111-3119.

[22] Su Z, Xu H, Zhang D, et al. Chinese sentiment classification using a neural network tool— Word2vec[C]//Proceedings of the International Conference on Multisensor Fusion and Information Integration for Intelligent Systems. IEEE, 2014: 1-6.

[23] Bengio Yoshua, P Vincent, C Janvin. A neural probabilistic language model[J]. Journal of Machine Learning Research. 2003,3(6): 1137-1155.

[24] 劉龍飛, 楊亮, 張紹武,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 中文信息學(xué)報(bào), 2015, 29(6): 159-165.

[25] Zhang M L, Zhou Z H. ML-KNN: A lazy learning approach to multi-labellearning[J]. Pattern Recognition, 2007, 40(7): 2038-2048.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

試題知識點(diǎn)預(yù)測： 一種教研知識強(qiáng)化的卷積神經(jīng)網(wǎng)絡(luò)模型