吳生蕾 任 杰
閱讀理解是語(yǔ)言測(cè)試的考查重點(diǎn),把握閱讀理解試題的難度有利于平衡語(yǔ)言測(cè)試的整體難度。根據(jù)影響因素不同,難度可分為相對(duì)難度和絕對(duì)難度[1]。絕對(duì)難度由試題本身決定,而相對(duì)難度來(lái)源于試題與考生兩個(gè)方面:源于試題本身的難度,影響因素主要有知識(shí)點(diǎn)、問(wèn)題情境、提問(wèn)方式、試題考查的學(xué)生的認(rèn)知層次等;源于考生的難度,影響因素主要有考生群體的能力水平、教師的教學(xué)方法等。因不步及對(duì)考生群體的研究,本文中閱讀理解主式題的難度指絕對(duì)難度。
對(duì)于閱讀理解試題來(lái)說(shuō),題目難度來(lái)源于閱讀文本與題目設(shè)置兩方面。閱讀理解測(cè)試研究專(zhuān)家?jiàn)W德森認(rèn)為,文本選擇與題目設(shè)置對(duì)控制閱讀理解試題的難度是同等重要的[2]。幺書(shū)君認(rèn)為,HSK聽(tīng)力試題的難度受聽(tīng)力語(yǔ)料類(lèi)型、試題題型、題目的提問(wèn)方式與提問(wèn)角度等因素影響,認(rèn)為無(wú)情節(jié)和觀(guān)點(diǎn)的聽(tīng)力語(yǔ)料難度較高;在題型上,判斷題難度高于選擇題;對(duì)具有概括性事物提問(wèn)的試題難度較高[3]。閱讀理解試題的題目材料與聽(tīng)力試題的題目材料有相似之處,二者都由成段的或成篇的文本材料和提問(wèn)的題目構(gòu)成。因此,與文本材料、題目設(shè)置影響聽(tīng)力試題的難度類(lèi)似,文本材料、題目設(shè)置也影響閱讀理解試題的難度。
許多學(xué)者從內(nèi)容效度、閱讀能力角度研究影響閱讀理解試題難度的因素,前者主要包括對(duì)文本易讀性、文本題材、話(huà)題、體裁等的研究。荊溪昱從文本的信息量、句法難度和語(yǔ)義難度角度提出適用于中文教材的易讀性公式[4]。Drum等的研究表明,詞匯頻數(shù)、高頻次與低頻詞數(shù)量、詞匯認(rèn)知、語(yǔ)法控制、具有迷惑性的選項(xiàng)、句子長(zhǎng)度等因素對(duì)題目難度有重要影響[5]。王佶旻研究發(fā)現(xiàn),文章的題材、題干類(lèi)型與選項(xiàng)字?jǐn)?shù)會(huì)影響試題難度[6]。
有研究者認(rèn)為閱讀能力的核心是“理解”,圍繞“理解”從人們解答閱讀理解客觀(guān)題的認(rèn)知過(guò)程入手,將對(duì)于不同認(rèn)知對(duì)象且具有不同難度水平的閱讀理解進(jìn)行縱向分級(jí)。武永明將閱讀能力從低到高分為四種,分別是最基本的認(rèn)讀字詞句的能力、理解主要內(nèi)容的能力、進(jìn)行評(píng)價(jià)鑒賞的分析能力以及要求最高的創(chuàng)造運(yùn)用能力等[7]。楊帥將閱讀能力由低到高分為四個(gè)等級(jí),將題目對(duì)考生閱讀能力的要求作為試題難度的影響因素[8]。
由于計(jì)算機(jī)具有非常強(qiáng)大的運(yùn)算大數(shù)據(jù)的能力以及較高的運(yùn)算速度,能夠高效地分析處理數(shù)據(jù)并挖掘數(shù)據(jù)的潛在規(guī)律,1995年,Perkins等學(xué)者使用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建試題難度的預(yù)測(cè)模型,將機(jī)器學(xué)習(xí)算法引入了試題的難度預(yù)估領(lǐng)域[9]。在閱讀理解測(cè)試方面,韓菡對(duì)漢語(yǔ)水平考試中的閱讀理解試題進(jìn)行了難度預(yù)估研究,使用BP(Back Propagation,反向傳播)神經(jīng)網(wǎng)絡(luò)建立了試題難度的預(yù)估模型;研究結(jié)果顯示,預(yù)估難度和實(shí)測(cè)難度在0.01水平下顯著相關(guān)[10]。付佩宣使用BP網(wǎng)絡(luò)模型,將選取出的實(shí)用漢語(yǔ)水平認(rèn)定考試閱讀理解題目的難度影響因素作為訓(xùn)練網(wǎng)絡(luò)的初始輸入變量進(jìn)行試驗(yàn),之后增加輸入變量繼續(xù)進(jìn)行試驗(yàn),結(jié)果顯示預(yù)估難度與真實(shí)難度的相關(guān)達(dá)到了0.61[11]。張玄采用樸素貝葉斯分類(lèi)器對(duì)某考試的言語(yǔ)理解與表達(dá)部分進(jìn)行了難度預(yù)估研究,其預(yù)估的準(zhǔn)確率為64.5%,遠(yuǎn)超過(guò)專(zhuān)家預(yù)測(cè)的24.5%的準(zhǔn)確率[12]。龔晨曦采用樸素貝葉斯和文本相似度方法進(jìn)行了試題難度預(yù)估,得出基于以上兩種模型的難度預(yù)估準(zhǔn)確率均高于專(zhuān)家預(yù)估的準(zhǔn)確率,相較于文本相似度模型,樸素貝葉斯模型的性能更好[13]。
本研究以難度預(yù)估為主題,將支持向量機(jī)的機(jī)器學(xué)習(xí)方法用于語(yǔ)言測(cè)試之中,選取了支持向量機(jī)的分類(lèi)模型和回歸模型對(duì)HSK初、中等的常規(guī)閱讀理解試題進(jìn)行難度預(yù)估。
在二維平面中,將兩類(lèi)樣本點(diǎn)劃分開(kāi)來(lái)的是一條線(xiàn),在三維空間中,將兩類(lèi)不同樣本劃分開(kāi)的是一個(gè)平面,而在n維空間(n>3)中,這個(gè)將樣本分類(lèi)的平面被稱(chēng)為分類(lèi)超平面。支持向量機(jī)(Support Vector Machines,SVM)是一種二分類(lèi)的線(xiàn)性分類(lèi)器,根據(jù)距離分類(lèi)超平面最近的點(diǎn),即支持向量計(jì)算兩個(gè)類(lèi)別間的最大間隔,建立分類(lèi)超平面模型。它不僅能夠?yàn)榫€(xiàn)性可分的原始數(shù)據(jù)構(gòu)建線(xiàn)性分類(lèi)器,也能夠?yàn)榉蔷€(xiàn)性可分的原始數(shù)據(jù)建立線(xiàn)性分類(lèi)器。
在許多分類(lèi)任務(wù)的原始樣本空間內(nèi),(類(lèi)別)與(數(shù)據(jù)特征)之間的關(guān)系是非線(xiàn)性的,可能并不存在能將兩個(gè)不同類(lèi)別的樣本正確劃分的分類(lèi)超平面,于是選擇核函數(shù)定義一個(gè)高維特征空間,將非線(xiàn)性可分的數(shù)據(jù)映射到高維空間,使原始數(shù)據(jù)在高維空間變?yōu)榫€(xiàn)性可分,選擇了不適合的核函數(shù)會(huì)導(dǎo)致分類(lèi)模型的性能不佳。
徑向基核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)以及線(xiàn)性核函數(shù)是四種較為常用的核函數(shù),這四種核函數(shù)的表達(dá)式如下。
核函數(shù)的作用范圍是由參數(shù)γ決定的。為了選擇出合適的核函數(shù),于是允許模型對(duì)部分樣本的分類(lèi)出現(xiàn)錯(cuò)誤,以保證大部分樣本點(diǎn)被更好地分類(lèi)。因此引入懲罰因子與松弛變量?jī)蓚€(gè)參數(shù),表示對(duì)模型犯錯(cuò)的容忍度。懲罰因子C為常數(shù)且C>0,C越大,則會(huì)要求更多的樣本均滿(mǎn)足約束條件。松弛變量(slack variables)ξ可以調(diào)節(jié)模型對(duì)誤差的容忍范圍,ξ越大,模型對(duì)誤差的容忍越高。
本研究的試題樣本選自HSK初等、中等的八套試卷,由閱讀理解第二部分的210道試題組成,包括試題的閱讀材料、題干、選項(xiàng)以及題目的IRT難度參數(shù)等數(shù)據(jù)。本研究對(duì)210道試題的難度進(jìn)行了類(lèi)別與數(shù)值的預(yù)估,采用R-4.0.4軟件進(jìn)行數(shù)據(jù)處理和可視化分析。
(一)確定難度的影響因素
本研究從文本特征、題目特征兩方面挖掘難度的影響因素。從以下幾個(gè)方面進(jìn)行HSK初、中等閱讀理解試題的文本特征研究。
1.文本題材??忌膶W(xué)科、背景知識(shí)影響其對(duì)閱讀材料的理解程度,當(dāng)試題的閱讀文本選取了冷門(mén)的題材,就會(huì)對(duì)閱讀的難度造成較大影響,因此本研究將文本題材分為10類(lèi),對(duì)語(yǔ)料進(jìn)行了標(biāo)注。
2.文本體裁??忌鷮?duì)不同體裁文章的閱讀能力是不相同的,這與對(duì)特定體裁的閱讀能力的培養(yǎng)和訓(xùn)練有關(guān)。HSK初、中等閱讀理解閱讀文本的體裁主要有記敘、議論、說(shuō)明三種。
3.文本易讀性。荊溪昱的易讀性公式為:易讀性=17.5255+0.0024X1+0.04415X2-18.3344X3(X1、X2、X3分別代表文章字?jǐn)?shù)、文章句子的平均長(zhǎng)度、文章中熟悉詞語(yǔ)所占的比重)。因此,本研究確定了文本字?jǐn)?shù)、平均句子長(zhǎng)度和熟悉詞比重等三個(gè)影響難度的因素。
在計(jì)算熟悉詞比重時(shí),首先借助NLPIRICTCLAS漢語(yǔ)分詞系統(tǒng)對(duì)樣本題目的閱讀文本進(jìn)行分詞標(biāo)注,之后對(duì)分詞結(jié)果進(jìn)行人工檢查,參照HSK初、中等的考試詞匯大綱對(duì)分詞結(jié)果進(jìn)行調(diào)整,最后借助自編程序計(jì)算HSK初、中等所應(yīng)掌握的甲、乙、丙三個(gè)等級(jí)的詞匯數(shù)量占總詞匯數(shù)量的比重。
題目包括題干和選項(xiàng),因此題目特征也應(yīng)從題干特征與選項(xiàng)特征兩方面考慮,包括以下幾點(diǎn):
1.題干對(duì)閱讀能力的要求。本研究根據(jù)題干的提問(wèn),將題目對(duì)閱讀能力的要求按照從低到高分為微觀(guān)理解能力、整體感知能力、解釋推理能力和評(píng)價(jià)鑒賞能力四個(gè)等級(jí)。
2.選項(xiàng)長(zhǎng)度。選項(xiàng)字?jǐn)?shù)越多意味著選項(xiàng)包含的信息越豐富,對(duì)題目難度以及答題所用的時(shí)間均有影響。
3.題目中熟悉詞所占的比重。計(jì)算題干、選項(xiàng)中的熟悉詞比重。
4.干擾項(xiàng)數(shù)量。當(dāng)干擾項(xiàng)不符合題干要求但符合語(yǔ)料大意,或者干擾項(xiàng)的觀(guān)點(diǎn)與人一般的邏輯思維習(xí)慣相一致時(shí),會(huì)對(duì)考生產(chǎn)生迷惑,增加題目難度。
(二)支持向量分類(lèi)模型的難度預(yù)估
1.對(duì)題目難度因素進(jìn)行編碼
通過(guò)對(duì)HSK初、中等閱讀理解文本的分析,以200字為一個(gè)區(qū)間將閱讀文本字?jǐn)?shù)分為兩個(gè)水平;以20個(gè)字符為一個(gè)區(qū)間將平均句長(zhǎng)因素劃分為三個(gè)水平;樣本題目中,文本的熟悉詞的比重均在60%以上,于是以10%為間隔將其分為四個(gè)水平。
對(duì)于文本因素的具體分類(lèi)情況如表1所示。
表1基于文本特征的難度影響因素編碼表
通過(guò)對(duì)HSK初、中等閱讀理解題目的分析,210個(gè)題目樣本的熟悉詞比重在30.77%~100%之間,由于熟悉詞比重低于60%的題目數(shù)量極少,考慮到等級(jí)中的題目樣本數(shù)量,將熟悉詞比重在80%以下的試題分為一個(gè)等級(jí),并以10%為區(qū)間將熟悉詞比重在80%以上的部分分為兩個(gè)等級(jí);以16個(gè)字符為一個(gè)等級(jí),將選項(xiàng)長(zhǎng)度分為三個(gè)等級(jí);將選項(xiàng)中符合閱讀文本大意的或者符合人的思維習(xí)慣的錯(cuò)誤選項(xiàng)作為干擾項(xiàng),干擾項(xiàng)的數(shù)量有0、1、2、3四種。表2是基于題目特征的難度影響因素的編碼表。
表2基于題目特征的難度影響因素編碼表
本研究使用基于IRT模型的難度值,為了控制各難度類(lèi)別中題目數(shù)量差異對(duì)模型效果的影響,將試題難度按照題目數(shù)量劃分四個(gè)等級(jí),使各等級(jí)的題目數(shù)量盡量接近,并且考慮等級(jí)臨界處的題目難度值,確保各等級(jí)的題目難度值不相同。劃分結(jié)果見(jiàn)表3。
表3 根據(jù)題目數(shù)量的難度等級(jí)劃分
2.構(gòu)建支持向量分類(lèi)模型
支持向量機(jī)進(jìn)行分類(lèi)首先需要輸入訓(xùn)練樣本,讓分類(lèi)器學(xué)習(xí)數(shù)據(jù)的特征、模式,進(jìn)而找到分類(lèi)函數(shù),建立分類(lèi)模型。本研究將210道閱讀理解試題的難度與九個(gè)影響因素?cái)?shù)據(jù)分成十份數(shù)據(jù)集,在訓(xùn)練集上使用十折交叉驗(yàn)證法訓(xùn)練模型。在模型的訓(xùn)練過(guò)程中,對(duì)其進(jìn)行交叉驗(yàn)證時(shí)采用了四種常用的核函數(shù),即多項(xiàng)式核函數(shù)、徑向基核函數(shù)、線(xiàn)性核函數(shù)以及sigmoid核函數(shù)。其準(zhǔn)確率,即參照核函數(shù)所建立起的支持向量分類(lèi)模型的結(jié)果如表4;其中,總體準(zhǔn)確率的計(jì)算方式是:正確預(yù)測(cè)的題目數(shù)量除以預(yù)測(cè)集的題目數(shù)量,各類(lèi)別的準(zhǔn)確率是該類(lèi)別上正確預(yù)測(cè)的題目數(shù)量除以預(yù)測(cè)集中該類(lèi)別的題目數(shù)量,而類(lèi)別平均準(zhǔn)確率是各類(lèi)別的準(zhǔn)確率的平均值。
表4四種核函數(shù)交叉驗(yàn)證的平均預(yù)測(cè)準(zhǔn)確率
根據(jù)表4可以看出徑向基核函數(shù)的效果最好??傮w預(yù)測(cè)準(zhǔn)確率最高的是徑向基核函數(shù),其次是sigmoid核函數(shù)。類(lèi)別平均準(zhǔn)確率最高的是線(xiàn)性核函數(shù),其次是徑向基核函數(shù)?;诙囗?xiàng)式核函數(shù)的分類(lèi)模型在level2與level3上的準(zhǔn)確率為0。sigmoid核函數(shù)在總體及各類(lèi)別上的準(zhǔn)確率也較好。
以總體預(yù)測(cè)準(zhǔn)確率最高的徑向基核函數(shù)建立支持向量分類(lèi)模型,并采用網(wǎng)格搜索法,在sigma(1,210)及C(2-10,2)的范圍內(nèi)選擇出最優(yōu)sigma參數(shù)和懲罰因子的取值,可以參照?qǐng)D1觀(guān)察參數(shù)選擇的熱力圖。圖1縱坐標(biāo)代表的是核參數(shù)sigma,橫坐標(biāo)代表的是懲罰因子C。
圖1徑向基核函數(shù)的核參數(shù)熱力圖
據(jù)圖1可知,當(dāng)C=1.3555,sigma=1時(shí),以徑向基核函數(shù)構(gòu)建的支持向量分類(lèi)模型進(jìn)行難度預(yù)測(cè)的錯(cuò)誤率最低,為0.25,即此時(shí)模型的預(yù)測(cè)效果最好,預(yù)測(cè)準(zhǔn)確率為75%。
(三)支持向量回歸模型的難度值預(yù)估
以試題難度作為因變量,以文本題材、文本體裁、文本字?jǐn)?shù)、平均句子長(zhǎng)度、文本熟悉詞所占比重、選項(xiàng)長(zhǎng)度、題目熟悉詞比重、干擾項(xiàng)數(shù)量以及題目的能力要求等九個(gè)變量作為自變量,選擇以下四種核函數(shù):多項(xiàng)式核函數(shù)、線(xiàn)性核函數(shù)、徑向基核函數(shù)以及sigmoid核函數(shù),對(duì)訓(xùn)練集和測(cè)試集進(jìn)行劃分時(shí)使用十折交叉驗(yàn)證法,進(jìn)行支持向量回歸。四種核函數(shù)十次交叉驗(yàn)證的均方誤差結(jié)果如表5所示。
表5十折交叉驗(yàn)證難度預(yù)測(cè)的均方誤差
為了更清晰地顯示四種核函數(shù)的均方誤差差異,將表5中數(shù)據(jù)以折線(xiàn)圖的形式呈現(xiàn),如圖2所示。
圖2四種核函數(shù)的均方誤差圖
根據(jù)表圖2及表5可以看出,sigmoid核函數(shù)的均方誤差波動(dòng)最小,預(yù)測(cè)效果最穩(wěn)定。多項(xiàng)式核函數(shù)的均方誤差波動(dòng)最大,其均方誤差的最大值與最小值相差0.3以上。從十次交叉驗(yàn)證的均方誤差均值來(lái)看,以徑向基核函數(shù)構(gòu)建的支持向量回歸模型的平均均方誤差最小,其十次結(jié)果的平均均方誤差為0.503,sigmoid核函數(shù)和多項(xiàng)式核函數(shù)的平均均方誤差也較小,分別為0.522和0.526。
表6是使用徑向基核函數(shù)進(jìn)行支持向量回歸的一個(gè)測(cè)試集中試題的預(yù)測(cè)難度值與實(shí)際難度值的對(duì)比。
表6徑向基核函數(shù)的預(yù)測(cè)難度與實(shí)際難度的對(duì)比
由于徑向基核函數(shù)是十個(gè)均方誤差的均值最小的,因而選擇核函數(shù)作為支持向量回歸模型時(shí),徑向基核函數(shù)為最優(yōu)選項(xiàng),在懲罰因子C∈[0,10]及gamma∈[2-10,2]的范圍內(nèi)經(jīng)十折交叉驗(yàn)證選出支持向量回歸模型的最優(yōu)核參數(shù),最優(yōu)模型的核函數(shù)及核參數(shù)選擇如表7所示。
表7最優(yōu)支持向量回歸模型的核函數(shù)及核參數(shù)
本研究的支持向量回歸采用徑向基核函數(shù),且核參數(shù)取值為C=3.37495及gamma=0.0009765625時(shí)模型效果最佳。采用優(yōu)化后的最佳模型對(duì)樣本題目數(shù)據(jù)進(jìn)行十折交叉驗(yàn)證,得到的十次均方誤差及其均值如表8所示。
表8最佳支持向量回歸模型交叉驗(yàn)證的均方誤差
最佳支持向量回歸模型進(jìn)行十折交叉驗(yàn)證的平均均方誤差為0.492,比徑向基核函數(shù)進(jìn)行核參數(shù)優(yōu)化前的0.503更小。表9是一個(gè)測(cè)試集中試題的預(yù)測(cè)難度值與實(shí)際難度值。
表9最優(yōu)模型預(yù)測(cè)難度與實(shí)際難度的對(duì)比
為了更清楚地呈現(xiàn)模型的預(yù)測(cè)效果,圖3繪制了支持向量回歸預(yù)測(cè)的試題難度與實(shí)測(cè)的試題難度的折線(xiàn)圖。
圖3實(shí)際難度與預(yù)測(cè)難度對(duì)比圖
由圖3可知,支持向量回歸模型對(duì)閱讀理解試題的難度預(yù)測(cè)結(jié)果與實(shí)際難度值差距較大,二者在折線(xiàn)圖上的波動(dòng)趨勢(shì)并不一致,且模型的預(yù)測(cè)難度值始終在-0.5至0.3之間,說(shuō)明支持向量回歸模型對(duì)閱讀理解試題難度值的預(yù)測(cè)精度不理想。
根據(jù)計(jì)算出來(lái)的難度預(yù)估效果的評(píng)價(jià)指標(biāo),本研究得出的結(jié)論如下:
(一)支持向量機(jī)的最優(yōu)分類(lèi)模型對(duì)難度預(yù)估的準(zhǔn)確率能夠達(dá)到75%,支持向量機(jī)的最優(yōu)回歸模型的預(yù)測(cè)難度值與實(shí)際難度值的均方誤差的平均值為0.492,但其預(yù)測(cè)的難度值集中在(-0.5,0.2)之間,趨于預(yù)測(cè)為中間難度。說(shuō)明支持向量機(jī)方法用于閱讀理解試題的題目難度預(yù)估是可行的,能夠?qū)︻}目的難度類(lèi)別進(jìn)行區(qū)分,但對(duì)于難度值的預(yù)測(cè)精度不佳。
(二)在使用支持向量機(jī)方法構(gòu)建分類(lèi)與回歸模型時(shí),分別選擇了徑向基核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)以及線(xiàn)性核函數(shù)四種核函數(shù),其中多項(xiàng)式核函數(shù)在兩種模型中的表現(xiàn)均不佳,徑向基核函數(shù)在兩種模型中的表現(xiàn)均較好。
在研究過(guò)程中,本研究也存在以下不足之處:
在對(duì)難度的影響因素進(jìn)行等級(jí)分類(lèi)時(shí),很難兼顧類(lèi)別的細(xì)致程度與每一類(lèi)別的樣本量,類(lèi)別劃分越精細(xì),每一類(lèi)別中所包含的樣本量必然會(huì)減少,導(dǎo)致對(duì)這一類(lèi)別預(yù)估的誤差變大。本研究將題材按照學(xué)科劃為了生物、化學(xué)、醫(yī)學(xué)、科技等各個(gè)小類(lèi),因此各類(lèi)別的樣本量較少。
不同的難度影響因素對(duì)難度的重要程度是不一樣的,明確不同難度影響因素的權(quán)重對(duì)于提高預(yù)估準(zhǔn)確率具有重要意義。支持向量機(jī)的分類(lèi)模型與回歸模型均能夠設(shè)置影響因素的權(quán)重,但本研究在構(gòu)建預(yù)測(cè)模型時(shí)未考慮難度影響因素的權(quán)重問(wèn)題,這也是本研究存在的另一不足之處。