亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        英語(yǔ)學(xué)習(xí)者作文自動(dòng)評(píng)分特征選擇及模型優(yōu)化研究

        2021-12-14 01:37:28
        關(guān)鍵詞:語(yǔ)言學(xué)詞匯學(xué)習(xí)者

        劉 磊

        (燕山大學(xué)外國(guó)語(yǔ)學(xué)院 河北 秦皇島 066004)

        0 引 言

        作文是評(píng)測(cè)英語(yǔ)學(xué)習(xí)者語(yǔ)言能力的重要指標(biāo)。目前,在英語(yǔ)教學(xué)和測(cè)試領(lǐng)域,學(xué)習(xí)者作文通常依靠人工審閱,耗費(fèi)大量人力和物力,同時(shí)很難保證評(píng)測(cè)結(jié)果的可信度和有效性[1]。為了改善這一狀況,近年來(lái)國(guó)內(nèi)外學(xué)者開始借助機(jī)器學(xué)習(xí)和自然語(yǔ)言處理技術(shù),利用計(jì)算機(jī)自動(dòng)評(píng)測(cè)學(xué)習(xí)者的作文質(zhì)量[2]。作文自動(dòng)評(píng)分(Automated Essay Scoring,AES)系統(tǒng)可用于TOEFL和GRE等大規(guī)模、高影響力的語(yǔ)言水平測(cè)試,作為輔助手段驗(yàn)證人工評(píng)分的信度,如果二者相差較大,則需重新評(píng)估作文質(zhì)量[3]。此外,AES系統(tǒng)也適用于非考試環(huán)境下的網(wǎng)絡(luò)自主學(xué)習(xí)平臺(tái),在學(xué)生提交作文后提供實(shí)時(shí)反饋,通過(guò)動(dòng)態(tài)評(píng)估督促其修改作文,提高二語(yǔ)寫作水平[4]。本文結(jié)合計(jì)算機(jī)科學(xué)和語(yǔ)言學(xué)領(lǐng)域的研究方法,采用基于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)算法,提取學(xué)習(xí)者文本的詞匯、語(yǔ)法和語(yǔ)篇特征,從文本復(fù)雜度、語(yǔ)法正確度和語(yǔ)篇連貫度等層面構(gòu)建評(píng)分模型,提高現(xiàn)有AES系統(tǒng)的性能。

        1 相關(guān)工作

        AES研究始于20世紀(jì)60年代,在當(dāng)時(shí)的技術(shù)條件下,計(jì)算機(jī)并不對(duì)輸入文本進(jìn)行語(yǔ)言學(xué)分析,只采用簡(jiǎn)單的表層特征,如平均詞長(zhǎng)、句長(zhǎng)和標(biāo)點(diǎn)符號(hào)數(shù)量等評(píng)測(cè)作文質(zhì)量[5]。但是,由于當(dāng)時(shí)計(jì)算機(jī)普及程度較低,運(yùn)算能力有限,導(dǎo)致AES研究一度陷入沉寂。直至20世紀(jì)90年代,隨著計(jì)算機(jī)軟硬件性能的提高和自然語(yǔ)言處理技術(shù)的進(jìn)步,AES研究重新煥發(fā)生機(jī),出現(xiàn)了一批面向商業(yè)應(yīng)用的英語(yǔ)作文自動(dòng)評(píng)閱系統(tǒng)[6],如Measurement Inc.公司的Project Essay Grader、美國(guó)教育考試處的E-rater和Pearson Knowledge Technologies公司的Intelligent Essay Assessor。然而,由于版權(quán)原因,上述商用AES系統(tǒng)均未公開訓(xùn)練和測(cè)試數(shù)據(jù),文獻(xiàn)中也未涉及詳細(xì)的算法介紹。因此,雖然這些系統(tǒng)聲稱機(jī)器評(píng)分信度已達(dá)到甚至超過(guò)人工評(píng)分,但研究者無(wú)法在相同數(shù)據(jù)的基礎(chǔ)上對(duì)比不同評(píng)分方法的優(yōu)劣,繼續(xù)提高AES系統(tǒng)的性能。為了改善這一狀況,近十年來(lái),從事AES研究的學(xué)者陸續(xù)建立了一批可供研究者免費(fèi)使用的英語(yǔ)學(xué)習(xí)者語(yǔ)料,如劍橋FCE和TOEFLL11考試作文語(yǔ)料庫(kù),使得基于公開數(shù)據(jù)集的系統(tǒng)評(píng)測(cè)成為可能[7]?,F(xiàn)有的基于FCE數(shù)據(jù)集的AES系統(tǒng)如表1所示。

        表1 現(xiàn)有基于FCE數(shù)據(jù)集的AES系統(tǒng)

        可以看出,Yannakoudakis等[8]使用FCE語(yǔ)料庫(kù),從中提取N元序列、句法復(fù)雜度和語(yǔ)法錯(cuò)誤數(shù)量等文本特征,使用支持向量回歸(Support Vector Regression,SVR)算法訓(xùn)練AES模型,系統(tǒng)機(jī)評(píng)與人評(píng)分?jǐn)?shù)的Pearson相關(guān)系數(shù)r和Spearman相關(guān)系數(shù)ρ分別達(dá)到0.741和0.773。Yannakoudakis等[9]和Zhang等[10]在上述研究基礎(chǔ)上增加了語(yǔ)篇連貫特征,改進(jìn)后的評(píng)分模型將Pearson和Spearman相關(guān)系數(shù)提升為0.761和0.790,均方根誤差為3.988。Farag等[11]采用基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)算法構(gòu)建評(píng)分模型,但其準(zhǔn)確率低于基于語(yǔ)言學(xué)特征的SVR模型。因此,本文著重探討如何細(xì)化語(yǔ)言學(xué)特征的選取及優(yōu)化SVR模型,從以下三方面提高現(xiàn)有AES系統(tǒng)的性能。

        (1) 降低詞袋特征維度?,F(xiàn)有AES系統(tǒng)通常采用由單詞和詞性N元序列構(gòu)成的詞袋(Bag of Words,BOW)特征訓(xùn)練評(píng)分模型。假設(shè)訓(xùn)練集的詞匯數(shù)量為V,則可能的N元序列多達(dá)VN,造成維度災(zāi)難,影響系統(tǒng)性能?,F(xiàn)有研究多采用頻率閾值降低特征維度。本文利用互信息值(Mutual Information,MI)篩選詞袋特征,選取與作文分?jǐn)?shù)高度相關(guān)的特征子集。

        (2) 細(xì)化語(yǔ)言學(xué)特征。文本復(fù)雜度、語(yǔ)法錯(cuò)誤數(shù)量和語(yǔ)篇連貫度等深層語(yǔ)言學(xué)特征與英語(yǔ)學(xué)習(xí)者書面語(yǔ)質(zhì)量關(guān)系密切[12]?,F(xiàn)有研究只使用了平均詞長(zhǎng)和句長(zhǎng)等表層特征測(cè)量文本復(fù)雜度,未涉及詞匯豐富度和詞匯難度等指標(biāo)。Yannakoudakis等[8]采用RASP句法分析器自動(dòng)剖析學(xué)習(xí)者作文的句法結(jié)構(gòu),通過(guò)計(jì)算主語(yǔ)-謂語(yǔ)、謂語(yǔ)-賓語(yǔ)等語(yǔ)法關(guān)系間的平均距離評(píng)測(cè)句法復(fù)雜度。但這種方法未考慮句子的層級(jí)結(jié)構(gòu),如簡(jiǎn)單句、復(fù)雜句、從句和復(fù)雜名詞短語(yǔ)比例等指標(biāo),無(wú)法全面反映學(xué)習(xí)者書面語(yǔ)的句法復(fù)雜性。此外,現(xiàn)有研究的語(yǔ)法錯(cuò)誤檢測(cè)模塊多采用統(tǒng)計(jì)方法,借助外部語(yǔ)料庫(kù)計(jì)算作文中的二元或三元詞組概率,如果概率低于設(shè)定閾值則判定為語(yǔ)法錯(cuò)誤。但這種方法只能分析相鄰序列的概率,無(wú)法檢測(cè)涉及長(zhǎng)距離語(yǔ)法關(guān)系的語(yǔ)誤(如主謂不一致錯(cuò)誤)。語(yǔ)篇連貫包括局部連貫和整體連貫兩個(gè)層次,分別考察語(yǔ)篇句子間和段落間的語(yǔ)義關(guān)聯(lián)[13]。現(xiàn)有研究通過(guò)計(jì)算作文中相鄰句子的語(yǔ)義相似度評(píng)測(cè)作文連貫性,忽略了文本的整體連貫度。為解決上述問(wèn)題,本文從文本表層特征、詞匯多樣性、文本可讀性和句法復(fù)雜度四個(gè)方面評(píng)估文本復(fù)雜度;采用基于語(yǔ)法規(guī)則的鏈語(yǔ)法分析器檢測(cè)語(yǔ)法錯(cuò)誤;從局部和整體兩個(gè)維度考察語(yǔ)篇連貫性。

        (3) 融合稀疏和非稀疏特征。使用詞袋特征構(gòu)建AES模型時(shí),需要將文本表征為一個(gè)包含N元序列頻數(shù)的向量。N元序列數(shù)量龐大,每個(gè)文本只包含少數(shù)序列。因此,詞袋特征向量的多數(shù)元素為0,屬于稀疏特征。而由文本復(fù)雜度、語(yǔ)法錯(cuò)誤數(shù)量和語(yǔ)篇連貫度構(gòu)成的語(yǔ)言學(xué)特征為連續(xù)性數(shù)值變量,屬于非稀疏/稠密特征?,F(xiàn)有研究構(gòu)建評(píng)分模型時(shí),將詞袋向量vbow和語(yǔ)言學(xué)向量vling合并為向量v=(vbow_1,vbow_2,…,vbow_m,vling_1,vling_2,…,vling_n),其中,m和n為詞袋和語(yǔ)言學(xué)特征的數(shù)量。由于m?n,經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化處理的語(yǔ)言學(xué)特征權(quán)重降低,無(wú)法體現(xiàn)其重要性。因此,本文使用Stacking集成學(xué)習(xí)算法[14]將詞袋特征轉(zhuǎn)換為非稀疏的實(shí)數(shù)值后構(gòu)建AES模型。

        2 方法設(shè)計(jì)

        為便于與先前研究展開對(duì)比,本文選用FCE語(yǔ)料庫(kù)訓(xùn)練和評(píng)測(cè)作文評(píng)分系統(tǒng)。總體框架如圖1所示,其包括數(shù)據(jù)預(yù)處理、特征篩選、模型構(gòu)建和模型評(píng)測(cè)四個(gè)部分。

        圖1 AES評(píng)分系統(tǒng)總體框架

        2.1 詞袋特征提取與篩選

        1) 特征提取。首先從訓(xùn)練集提取所有N元序列集合V,然后將訓(xùn)練和測(cè)試集中的每篇作文轉(zhuǎn)換為|V|維向量,|V|代表序列種類。假設(shè)V={v1,v2,…,v|V|},則文本d可表征為向量d=(c(v1,d),c(v2,d),…,c(v|V|,d))。其中c(v,d)是序列v在文本d中的出現(xiàn)頻率。詞袋特征由長(zhǎng)度為1~3的單詞和詞性序列構(gòu)成。例如,作文“What clothes should I taken? How much money should I taken? And how could we meet at the airport? I am looking forward your reply.”中包含的單詞和詞性序列如表2所示。其中,詞性賦碼PRP表示代詞,VB為動(dòng)詞原形,MD為情態(tài)動(dòng)詞[15]。

        表2 詞袋特征提取

        N元序列體現(xiàn)了詞匯間的固定搭配關(guān)系;不同水平作文中的序列種類和數(shù)量存在差異,能夠反映學(xué)習(xí)者英語(yǔ)的準(zhǔn)確度和流暢度。如上例中的三元詞性序列“MD PRP VBN”可檢測(cè)作文中兩例情態(tài)動(dòng)詞+動(dòng)詞的誤用現(xiàn)象“should I taken”。

        2) 特征篩選。如式(1)所示,本文通過(guò)N元序列長(zhǎng)度和互信息篩選原始特征集合BOW,得到特征子集BOWsub。其中:lenv為單詞和詞性序列的長(zhǎng)度;tlen為長(zhǎng)度閾值;MIv為序列的互信息值;tmi為互信息閾值。tlen和tmi由人工設(shè)定取值范圍,最終根據(jù)SVR模型誤差確定最佳值。

        BOWsub={v∈BOW|lenvtmi}

        (1)

        N元序列的種類與序列長(zhǎng)度成正比。然而,部分序列只是與訓(xùn)練作文主題密切相關(guān)的特殊詞匯。如果不加篩選,會(huì)降低模型在預(yù)測(cè)不同主題作文時(shí)的泛化能力?;バ畔⒅涤糜谶x取高區(qū)別度的N元序列,計(jì)算方法如下:首先統(tǒng)計(jì)序列v在高分和低分作文的分布情況,構(gòu)建表3所示的2×2列聯(lián)表。其中,高分作文Dhigh_score={d∈Dtrain|score(d)≥m},低分作文Dlow_score={d∈Dtrain|score(d)

        表3 N元序列分布列聯(lián)表

        根據(jù)式(2)計(jì)算序列v的MI值:

        (2)

        式中:n=n11+n12+n21+n22,表示訓(xùn)練集作文總數(shù);n1+=n11+n12,表示包含序列v的作文數(shù)量;n+1=n11+n21,表示高分作文數(shù)量?;バ畔⒅禍y(cè)量給定文本類別后序列分布的信息增益,MI值越高表示序列和作文分?jǐn)?shù)的相關(guān)度越高。

        SVR模型需要對(duì)序列頻率進(jìn)行加權(quán),以降低常用詞(如get、make等)權(quán)重。如式(3)和式(4)所示,本文采用詞頻二值化(Binary)和詞頻-逆文檔頻率(TF-IDF)兩種方式對(duì)原始詞頻進(jìn)行加權(quán)。

        (3)

        (4)

        (5)

        2.2 語(yǔ)言學(xué)特征提取與篩選

        1) 特征提取。語(yǔ)言學(xué)特征包括文本表層特征、詞匯多樣性、文本可讀性、句法復(fù)雜度、語(yǔ)法正確性和語(yǔ)篇連貫度等6個(gè)維度,共28個(gè)子類。

        (1) 文本表層特征。評(píng)分員傾向于根據(jù)作文長(zhǎng)度評(píng)測(cè)寫作質(zhì)量,兩者存在正相關(guān)關(guān)系[16]。因此,本文選擇7類基于文本長(zhǎng)度的表層特征構(gòu)建評(píng)分模型,如表4所示。早期AES系統(tǒng)如PEG完全采用表層特征構(gòu)建,只考慮文本形式,不涉及文本內(nèi)容,很容易出現(xiàn)誤判情況。為避免上述缺陷,需要引入其他深層語(yǔ)言學(xué)特征提高系統(tǒng)準(zhǔn)確率。

        表4 文本表層特征

        (2) 文本可讀性。本文選用表5所示的可讀性指標(biāo)評(píng)測(cè)英語(yǔ)學(xué)習(xí)者書面語(yǔ)的復(fù)雜度。其中:N為作文總詞數(shù);SYL為所有單詞的音節(jié)總數(shù);CW指復(fù)雜單詞,即包含兩個(gè)以上音節(jié)單詞的數(shù)量;ASL為平均句長(zhǎng);AWS為單詞平均音節(jié)長(zhǎng)度。FOG、FLESCH和KINCAID可讀性計(jì)算公式中的參數(shù)均由多元回歸方程確定[17]。FOG和KINCAID的值與文本難度成正比,大致對(duì)應(yīng)學(xué)習(xí)者的語(yǔ)言水平;FLESCH測(cè)量文本的易讀性,與文本難度成反比。

        表5 文本可讀性特征

        續(xù)表5

        (3) 詞匯多樣性。如表6所示,詞匯多樣性指不同詞匯類型T與文本總詞數(shù)N的比值。Lu[18]指出,詞匯多樣性在不同水平英語(yǔ)學(xué)習(xí)者的語(yǔ)言產(chǎn)出中存在明顯差異,并建議使用該指標(biāo)評(píng)測(cè)學(xué)生的詞匯運(yùn)用能力。

        表6 詞匯多樣性特征

        傳統(tǒng)的多樣性計(jì)算方法為詞種/詞次比(Type Token Ration,TTR)。然而,這種方法受文本長(zhǎng)度影響較大,隨著文本字?jǐn)?shù)增加,TTR逐漸減小,無(wú)法準(zhǔn)確測(cè)量不同長(zhǎng)度文本的詞匯多樣性。為解決這一問(wèn)題,出現(xiàn)了若干基于TTR的變換形式,如方根TTR、對(duì)數(shù)TTR和標(biāo)準(zhǔn)化TTR等[19]。其中,標(biāo)準(zhǔn)化TTR從文本抽取m個(gè)長(zhǎng)度為n的樣本,然后計(jì)算所有樣本的TTR均值。本文采用連續(xù)和隨機(jī)抽樣兩種方式計(jì)算標(biāo)準(zhǔn)化TTR,樣本長(zhǎng)度n=50,隨機(jī)樣本數(shù)量m=100,連續(xù)樣本數(shù)量m=N/n。

        (4) 句法復(fù)雜度。如表7所示,句法復(fù)雜度通過(guò)分析學(xué)習(xí)者作文中各句法結(jié)構(gòu)的比例評(píng)測(cè)寫作質(zhì)量[20]。首先使用句法分析器自動(dòng)標(biāo)注子句(SYN_C)、從句(SYN_DC)、動(dòng)詞短語(yǔ)(SYN_VP)、復(fù)雜名詞短語(yǔ)(SYN_CN)和并列短語(yǔ)(SYN_CN)等語(yǔ)法結(jié)構(gòu),然后通過(guò)計(jì)算上述結(jié)構(gòu)的使用頻率與文本總句數(shù)S的比值衡量句法復(fù)雜度。

        表7 句法復(fù)雜度特征

        通過(guò)編寫例1中(b)和(c)所示的Tregex表達(dá)式[21]檢索例句1(a)中的定語(yǔ)從句“which should be filmed”和由從句修飾的復(fù)雜名詞短語(yǔ)“l(fā)essons and activities which … …”。

        例1

        (a) I write this report to suggest some [NP[NPlessons and activities][DCwhich should be filmed ]].

        (b) SBAR<(S|SINV|SQ<(VP<#MD|VBD|VBP|VBZ))

        (c) NP!>NP [<

        Tregex表達(dá)式用于匹配句法樹各節(jié)點(diǎn)間的支配、從屬和相鄰關(guān)系:如符號(hào)<和>分別表示父節(jié)點(diǎn)和子節(jié)點(diǎn),$++表示兄弟節(jié)點(diǎn),可檢索表6所示各語(yǔ)法結(jié)構(gòu)的使用頻率。

        (5) 語(yǔ)法正確度。如表8所示,本文通過(guò)檢測(cè)拼寫(SPELL_E)和復(fù)雜語(yǔ)法錯(cuò)誤(GRM_E)評(píng)估學(xué)習(xí)者作文的語(yǔ)法正確性。其中,復(fù)雜語(yǔ)法錯(cuò)誤檢測(cè)基于鏈語(yǔ)法[22]。鏈語(yǔ)法由詞典和算法兩部分組成,詞典包含詞匯的句法搭配方式;算法根據(jù)詞條的搭配方式對(duì)句子進(jìn)行切分,符合語(yǔ)法的句子形成完整的鏈接,反之,則表明包含語(yǔ)法錯(cuò)誤。

        表8 語(yǔ)法正確度特征

        以檢測(cè)例句2(a)中的語(yǔ)法錯(cuò)誤為例,鏈語(yǔ)法首先讀取由詞條和鏈接子表達(dá)式構(gòu)成的詞典,然后分析各鏈接子之間是否能形成完成的鏈條,分析結(jié)果如圖2所示。

        例2

        (a) I’m looking forward your reply.

        (b) I: S+; ’m: S- & Pg+; looking: Pg- & MVa+; forward: MVa-; your: D+; reply: O- & D-

        圖2 鏈語(yǔ)法語(yǔ)誤檢測(cè)示例

        (6) 語(yǔ)篇連貫度。如表9所示,本文根據(jù)詞匯銜接理論[23],通過(guò)計(jì)算語(yǔ)篇的詞匯連接數(shù)量評(píng)估作文的整體和局部連貫度。其中:Linkslocal和Linksglobal是作文中相鄰和任意兩個(gè)句子間的詞匯連接數(shù)量,Nsent是作文總句數(shù)。

        表9 語(yǔ)篇連貫度特征

        詞匯連接數(shù)量的計(jì)算方法如下:首先使用Word2vec詞嵌入模型[24],將句子中的代詞和名詞表征為實(shí)數(shù)值向量,然后通過(guò)式(6)計(jì)算詞匯的語(yǔ)義相似度。

        (6)

        式中:w1和w2為Word2vec詞向量;分子為向量點(diǎn)積,分母為向量模的乘積。若詞匯相似度大于0.25,則判定為存在詞匯連接。如圖3所示,例3中的兩個(gè)句子包含4條詞匯連接。

        例3

        I like doing sports. I would like to play basketball and golf when I am at the Camp.

        圖3 詞匯連接示例

        2) 特征篩選。提取語(yǔ)言學(xué)特征后,使用隨機(jī)森林(RF)算法篩選特征。RF回歸采用自助抽樣法(Bootstrap sampling)和CART算法構(gòu)建n個(gè)決策樹,每個(gè)決策樹節(jié)點(diǎn)從隨機(jī)選取的m個(gè)特征中挑選一個(gè)最優(yōu)特征劃分?jǐn)?shù)據(jù),最終結(jié)果由n個(gè)決策樹預(yù)測(cè)值的均值決定。使用自助抽樣法選取決策樹訓(xùn)練集時(shí),大約有35%的樣本未出現(xiàn)在數(shù)據(jù)集中,構(gòu)成包外樣本(oob),用于評(píng)測(cè)特征的重要度[25],具體計(jì)算式為:

        (7)

        式中:x為語(yǔ)言學(xué)特征;Ntree為決策樹數(shù)目;MSE為第i個(gè)決策樹模型預(yù)測(cè)包外樣本(oobi)分?jǐn)?shù)的均方誤差;permutate(·)函數(shù)用于隨機(jī)排列包外樣本中特征x的值。本文選取重要度大于0的語(yǔ)言學(xué)特征構(gòu)建評(píng)分模型。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        使用公開數(shù)據(jù)集FCE英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)訓(xùn)練并測(cè)試評(píng)分模型。如表10所示,該語(yǔ)料庫(kù)由劍橋FCE考試作文構(gòu)成,包含訓(xùn)練集作文1 141篇,測(cè)試集作文97篇,共95萬(wàn)詞,每篇作文均有人工批改分?jǐn)?shù)。此外,F(xiàn)CE訓(xùn)練和測(cè)試集語(yǔ)料選自不同年份的FCE考試作文,寫作主題并不重合。

        表10 FCE訓(xùn)練集和測(cè)試集情況

        FCE中的語(yǔ)法錯(cuò)誤均為人工標(biāo)注,有助于研究英語(yǔ)學(xué)習(xí)者的二語(yǔ)寫作能力與語(yǔ)法錯(cuò)誤之間的關(guān)系[26]。但本文通過(guò)鏈語(yǔ)法自動(dòng)檢測(cè)語(yǔ)法錯(cuò)誤評(píng)估作文質(zhì)量,不借助人工標(biāo)注的數(shù)據(jù)訓(xùn)練模型,因此需要將語(yǔ)料中的XML標(biāo)簽刪除,轉(zhuǎn)換為純文本文件,然后使用斯坦福自然語(yǔ)言處理工具Stanford CoreNLP[27]自動(dòng)標(biāo)注文本的詞性和句法結(jié)構(gòu)等語(yǔ)言學(xué)信息。

        3.2 特征提取和篩選

        首先采用隨機(jī)抽樣法,從訓(xùn)練數(shù)據(jù)中選取90%的樣本作為訓(xùn)練集,10%的樣本作為驗(yàn)證集,然后通過(guò)設(shè)定N元序列長(zhǎng)度和互信息值提取詞袋特征。其中:序列長(zhǎng)度取值范圍為1≤lenv≤3;互信息取值范圍為10≤-log2MIv≤20。采用Binary和TF-IDF兩種方式對(duì)訓(xùn)練和驗(yàn)證集數(shù)據(jù)加權(quán),使用LIBLINEAR[28]構(gòu)建SVR模型。模型的損失函數(shù)為:

        (8)

        式中:(xi,yi)為訓(xùn)練集樣本,i=1,2,…,m,xi∈Rn,w∈Rn;超參C為約束代價(jià)參數(shù),ε為不敏感損失參數(shù)。本文選用LIBLINEAR的默認(rèn)參數(shù)設(shè)置訓(xùn)練模型,令C=1,ε=0.1。求得模型參數(shù)w后,使用驗(yàn)證集計(jì)算模型的均方誤差,進(jìn)而篩選特征。

        圖4是詞袋類型(type)、MI值與模型誤差的關(guān)系圖示。其中:t為單詞序列,p為詞性序列。可以看出:Binary加權(quán)模型的誤差低于TF-IDF;由一元單詞序列(t1)和一元到三元詞性序列(p3)構(gòu)建的模型誤差最低。表11是模型誤差最小的5類特征組合。可以看出,所有特征均包含一元到三元詞性序列,但不包含三元單詞序列。一元到三元單詞序列的種類較多,大多數(shù)序列的頻率都很低,不利于模型的泛化。與之相比,詞性序列的出現(xiàn)頻率較高,同時(shí)能夠反映學(xué)習(xí)者書面語(yǔ)的詞匯和句法搭配關(guān)系,具備更強(qiáng)的泛化能力。

        圖4 詞袋特征-模型誤差圖

        表11 詞袋特征篩選結(jié)果

        篩選詞袋特征后,使用統(tǒng)計(jì)軟件R構(gòu)建隨機(jī)森林模型,通過(guò)式(7)計(jì)算語(yǔ)言學(xué)特征的重要度。模型參數(shù)設(shè)置如下:決策樹數(shù)目Ntree=1 000;隨機(jī)選取特征數(shù)m=9。如圖5所示,篩選結(jié)果顯示段落數(shù)(LEN_PARA)和并列短語(yǔ)比例(SYN_CP/S)的重要度小于0。排除這兩類特征后,最終選取26類語(yǔ)言學(xué)特征構(gòu)建評(píng)分模型。

        圖5 語(yǔ)言學(xué)特征篩選結(jié)果

        3.3 模型構(gòu)建和評(píng)測(cè)

        圖6 集成學(xué)習(xí)評(píng)分模型框架

        如表12所示,評(píng)測(cè)結(jié)果表明,基于集成學(xué)習(xí)的評(píng)分模型準(zhǔn)確率明顯高于基于SVR的模型。Pearson相關(guān)系數(shù)r、Spearman相關(guān)系數(shù)ρ和均方根誤差RMSE等評(píng)測(cè)指標(biāo)顯示,模型Ⅱ以詞袋特征BOW_A和26類語(yǔ)言學(xué)特征LINGUA構(gòu)建的集成評(píng)分模型均優(yōu)于現(xiàn)有基于FCE數(shù)據(jù)集的基準(zhǔn)模型。

        表12 集成評(píng)分模型評(píng)測(cè)

        為了更全面地與現(xiàn)有研究展開對(duì)比,本文使用Python深度學(xué)習(xí)工具Keras,嘗試了兩種基于CNN深度學(xué)習(xí)算法的評(píng)分模型。如圖7所示,模型Ⅲ實(shí)驗(yàn)參數(shù)如下:輸入層單詞序列的長(zhǎng)度為最大作文字?jǐn)?shù)dinput_length=900;詞嵌入層選用Word2vec預(yù)訓(xùn)練詞向量,維度dword_embedding=300;卷積層的濾波器數(shù)量h=20,卷積窗口長(zhǎng)度m=3;最大池化層窗口長(zhǎng)度n=2;全連接層維度ddense=128。模型Ⅳ除單詞序列外,在輸入層增加了詞性序列,詞性嵌入層維度dpos_embedding=50,通過(guò)模型訓(xùn)練得到詞性向量,然后融合兩類序列在全連接層的輸出預(yù)測(cè)作文分?jǐn)?shù)。模型Ⅲ和模型Ⅳ的各層均選用ReLU激活函數(shù),模型訓(xùn)練使用Adam優(yōu)化器,訓(xùn)練批次大小batch=16。如表13所示,評(píng)測(cè)結(jié)果顯示,加入詞性序列的深度網(wǎng)絡(luò)模型準(zhǔn)確率最高。如前文所述,詞性序列包含一些反映學(xué)習(xí)者寫作質(zhì)量的淺層句法特征,融合單詞和詞性序列的模型優(yōu)于單一的詞向量模型。

        圖7 深度學(xué)習(xí)評(píng)分模型框架

        表13 深度學(xué)習(xí)評(píng)分模型評(píng)測(cè)

        然而,與集成評(píng)分模型相比,基于CNN的深度學(xué)習(xí)評(píng)分模型準(zhǔn)確率仍有較大差距??赡艿脑蚴菂⒓覨CE考試的考生多為初級(jí)英語(yǔ)學(xué)習(xí)者,導(dǎo)致數(shù)據(jù)集中包含較多的語(yǔ)法錯(cuò)誤。如圖5所示,復(fù)雜語(yǔ)法錯(cuò)誤數(shù)量比例是預(yù)測(cè)作文質(zhì)量的重要語(yǔ)言學(xué)特征,而基于英語(yǔ)本族語(yǔ)使用者的Word2vec詞嵌入模型不能有效地識(shí)別這些錯(cuò)誤。

        4 結(jié) 語(yǔ)

        本文結(jié)合機(jī)器學(xué)習(xí)、自然語(yǔ)言處理和語(yǔ)言學(xué)領(lǐng)域的相關(guān)研究成果,開發(fā)了英語(yǔ)學(xué)習(xí)者作文質(zhì)量自動(dòng)評(píng)閱系統(tǒng)。首先使用支持向量回歸,通過(guò)N元序列長(zhǎng)度和互信息值篩選出與作文分?jǐn)?shù)高度相關(guān)的詞袋特征子集;然后從文本復(fù)雜度、正確度和連貫度入手,提取作文的深層語(yǔ)言學(xué)特征;最后,使用基于隨機(jī)森林回歸的集成學(xué)習(xí)算法融合詞袋和語(yǔ)言學(xué)特征,構(gòu)建評(píng)分模型。與現(xiàn)有評(píng)分系統(tǒng)相比,本文方法減少了詞袋特征數(shù)量,降低了模型復(fù)雜度;細(xì)化了語(yǔ)言學(xué)特征種類,從詞匯、語(yǔ)法和語(yǔ)篇等多個(gè)角度評(píng)估學(xué)習(xí)者作文質(zhì)量。研究結(jié)果表明,本文選取的26類語(yǔ)言學(xué)特征與作文質(zhì)量高度相關(guān),基于集成學(xué)習(xí)的評(píng)分系統(tǒng)優(yōu)于現(xiàn)有基于SVR和CNN的評(píng)分系統(tǒng)。本文的局限在于FCE語(yǔ)料庫(kù)的訓(xùn)練和評(píng)測(cè)數(shù)據(jù)較少。主要原因是現(xiàn)有公開的英語(yǔ)學(xué)習(xí)者作文語(yǔ)料中,大多不包含人工評(píng)閱分?jǐn)?shù),無(wú)法構(gòu)建和評(píng)估系統(tǒng)性能。后續(xù)研究將擴(kuò)大訓(xùn)練和測(cè)試樣本數(shù)量,從在線機(jī)考平臺(tái)收集更多的學(xué)習(xí)者數(shù)據(jù),驗(yàn)證和改善本文的評(píng)分模型,以進(jìn)一步提高學(xué)習(xí)者作文自動(dòng)評(píng)分系統(tǒng)的準(zhǔn)確率。

        猜你喜歡
        語(yǔ)言學(xué)詞匯學(xué)習(xí)者
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        你是哪種類型的學(xué)習(xí)者
        十二星座是什么類型的學(xué)習(xí)者
        本刊可直接用縮寫的常用詞匯
        漢語(yǔ)學(xué)習(xí)自主學(xué)習(xí)者特征初探
        認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
        論遠(yuǎn)程學(xué)習(xí)者的歸屬感及其培養(yǎng)
        本刊一些常用詞匯可直接用縮寫
        語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        蜜桃在线视频一区二区| chinesefreexxxx国产麻豆| 91福利国产在线观一区二区| 少妇激情一区二区三区久久大香香| 人妻少妇精品视频一区二区三区l| 日本最新免费二区三区| 久久久久亚洲av无码a片软件| 色婷婷久久免费网站| 国产精品国产三级国产an不卡| 亚洲色大成网站www永久| 久久久噜噜噜www成人网| 日本精品一区二区三本中文| 亚洲中文字幕综合网站| 日韩经典午夜福利发布| a人片在线观看苍苍影院| 精品18在线观看免费视频| 精品一区二区三区牛牛| 十八禁无遮挡99精品国产| 成熟丰满熟妇高潮xxxxx| 亚洲一区二区精品久久岳| 亚洲综合视频一区二区| 亚洲av日韩综合一区二区三区| 色综合久久久久久久久五月| 99精品国产成人一区二区在线| h视频在线播放观看视频| 内射少妇36p亚洲区| 久久国产热精品波多野结衣av| 亚洲精品成人久久av| 国产精品美女久久久免费| 吃奶摸下的激烈视频| 日韩在线视频不卡一区二区三区| 少妇人妻无奈的跪趴翘起| 色一情一乱一伦| 久久99热精品这里久久精品| 国产精品一区二区三区女同| 脱了老师内裤猛烈进入| 久久精品国产亚洲精品| 亚洲午夜无码久久久久软件| 亚洲中文字幕久久精品色老板| 日韩精品无码中文字幕电影| 亚洲AV肉丝网站一区二区无码 |