亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用深層語(yǔ)言分析改進(jìn)中文作文自動(dòng)評(píng)分方法

        2022-06-17 09:09:52鞏捷甫王士進(jìn)宋子堯
        中文信息學(xué)報(bào) 2022年4期
        關(guān)鍵詞:定標(biāo)淺層深層

        魏 思,鞏捷甫,王士進(jìn),宋 巍,宋子堯

        (1. 科大訊飛股份有限公司 AI研究院,安徽 合肥 230088;2. 首都師范大學(xué) 信息工程學(xué)院和交叉學(xué)科研究院,北京 100056; 3. 認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230088)

        0 引言

        語(yǔ)言將人緊密地聯(lián)系在一起。人們?cè)诟鱾€(gè)人生階段都在經(jīng)歷著語(yǔ)言的學(xué)習(xí)和運(yùn)用。寫作是語(yǔ)言學(xué)習(xí)必不可少的關(guān)鍵環(huán)節(jié),可以培養(yǎng)學(xué)生的語(yǔ)言理解、運(yùn)用和表達(dá)能力。因此,不管是日常的教學(xué)考試,還是中、高考等大型考試,語(yǔ)文寫作都是重點(diǎn)考查內(nèi)容。然而,對(duì)學(xué)生作文進(jìn)行評(píng)分卻給廣大教師帶來(lái)了巨大的工作量。

        作文自動(dòng)評(píng)分(Automated Essay Scoring,AES)期望使用機(jī)器替代人工評(píng)分人員,對(duì)作文進(jìn)行自動(dòng)評(píng)分。機(jī)器評(píng)分根據(jù)量化過(guò)的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行評(píng)分,在保證評(píng)分科學(xué)、合理的前提下,不僅能提高評(píng)分效率,而且可以降低評(píng)分老師對(duì)于評(píng)分標(biāo)準(zhǔn)的主觀波動(dòng)性,保證了評(píng)分的公平性。

        目前國(guó)內(nèi)外已有很多作文自動(dòng)評(píng)分相關(guān)的研究,但這些研究主要針對(duì)二外以及少數(shù)民族的漢語(yǔ)水平考試。1966年開發(fā)的(Project Essay Grader,PEG)[1]是AES的先行者。該系統(tǒng)主要從訓(xùn)練樣本中抽取某些淺層文本特征,其特點(diǎn)是重結(jié)構(gòu)而相對(duì)忽略內(nèi)容。PEG使用的主要特征包括單詞平均長(zhǎng)度、作文長(zhǎng)度(總字?jǐn)?shù))、逗號(hào)的數(shù)量、前置詞的數(shù)量以及生僻字的數(shù)量等。E-rater系統(tǒng)全稱是Essay Rater,1992年應(yīng)用于GMAT考試,2005年開始應(yīng)用于托??荚?。不同于傳統(tǒng)的、分析性的作文評(píng)分方式,E-rater采用的是整體評(píng)分(holistic scoring)[2]。這種評(píng)分方式依靠讀者的總體印象,綜合考慮作文的組織結(jié)構(gòu)、詞匯多樣性和句法結(jié)構(gòu)等。我國(guó)國(guó)內(nèi)也非常重視作文自動(dòng)評(píng)分。1998年和1999年教育部考試中心先后邀請(qǐng)了美國(guó)ETS和英國(guó)劍橋大學(xué)考試委員會(huì)的專家來(lái)華介紹他們網(wǎng)上評(píng)卷和軟件及自動(dòng)評(píng)卷系統(tǒng),希望能夠改進(jìn)我國(guó)的自動(dòng)評(píng)分現(xiàn)狀。他們以E-rater為例,介紹了其工作原理等,討論了在我國(guó)的大學(xué)英語(yǔ)四、六級(jí)考試中使用自動(dòng)評(píng)分系統(tǒng)的可行性。

        相對(duì)來(lái)說(shuō),漢語(yǔ)作為母語(yǔ)的作文自動(dòng)評(píng)分的相關(guān)研究還處于初級(jí)階段,依然停留在比較淺層的語(yǔ)言分析層面,比如字、詞、句、淺層語(yǔ)病分析等,缺乏深層語(yǔ)言分析的過(guò)程,這與語(yǔ)文作文評(píng)分細(xì)則是不相符合的。另外,國(guó)內(nèi)也有基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)對(duì)作文進(jìn)行篇章表征的自動(dòng)學(xué)習(xí),進(jìn)而對(duì)作文進(jìn)行自動(dòng)評(píng)分,但這無(wú)法解決深度學(xué)習(xí)模型高性能與低可解釋性之間的矛盾。

        基于此,本文提出利用深層語(yǔ)言分析改進(jìn)中文作文自動(dòng)評(píng)分效果的方法。主要貢獻(xiàn)包括以下幾點(diǎn):

        (1) 實(shí)現(xiàn)多層次、多維度深層語(yǔ)言分析功能。從語(yǔ)言運(yùn)用、語(yǔ)言表達(dá)、篇章異常檢測(cè)、篇章質(zhì)量評(píng)估等多個(gè)方面,更加全面、豐富、深入地刻畫和表示作文表現(xiàn)出的寫作能力。

        (2) 融合DNN與多層次、多維度語(yǔ)言分析特征的自適應(yīng)混合評(píng)分方法。研究發(fā)現(xiàn),深層語(yǔ)言分析特征的豐富表達(dá)和辨別能力可有效提高中文作文評(píng)分效果;年級(jí)與主題自適應(yīng)的模型訓(xùn)練策略,可有效提高模型的遷移能力和預(yù)測(cè)效果。

        本文的組織結(jié)構(gòu)如下: 第1節(jié)介紹相關(guān)工作;第2節(jié)介紹面向中文作文評(píng)分的深層語(yǔ)言分析;第3節(jié)介紹作文自動(dòng)評(píng)分的實(shí)現(xiàn)方案和模型;第4節(jié)介紹實(shí)驗(yàn)數(shù)據(jù)、結(jié)果及分析;第5節(jié)對(duì)文章工作進(jìn)行總結(jié)。

        1 相關(guān)工作

        目前,作文自動(dòng)評(píng)分的主流方法主要分為三類: 一類是基于淺層語(yǔ)言分析構(gòu)建特征的作文自動(dòng)評(píng)分方法;另一類是基于深度學(xué)習(xí)的端到端作文自動(dòng)評(píng)分方法;第三類是融合淺層語(yǔ)言分析的深度學(xué)習(xí)方法。

        1.1 基于淺層語(yǔ)言分析特征的評(píng)分方法

        張晉軍等提出了一個(gè)稱為“漢語(yǔ)測(cè)試電子評(píng)分員”的研究設(shè)想,并進(jìn)行了實(shí)踐檢驗(yàn)[3]。在新疆、內(nèi)蒙、延邊3地選取了幾百份少數(shù)民族漢語(yǔ)水平考試三級(jí)作文預(yù)測(cè)卷,使用字?jǐn)?shù)、連、介、助動(dòng)、助詞數(shù)、標(biāo)點(diǎn)數(shù)、平均句長(zhǎng)、句子數(shù)、淺層語(yǔ)病錯(cuò)誤等量化指標(biāo)作為評(píng)分因素,經(jīng)過(guò)回歸分析,選出了5項(xiàng)指標(biāo),構(gòu)建回歸模型,并編寫程序?qū)@些作文進(jìn)行評(píng)分,電子評(píng)分員與人工評(píng)分的評(píng)分一致性達(dá)到了較高的程度。臺(tái)灣學(xué)者林素穗等人在關(guān)于非同步式網(wǎng)絡(luò)教學(xué)評(píng)價(jià)的研究中,設(shè)計(jì)了一個(gè)漢語(yǔ)作文自動(dòng)評(píng)分的程序[4]。該程序基本上是從語(yǔ)法層面上進(jìn)行作文評(píng)價(jià),沒有語(yǔ)意分析的成分,通過(guò)提取學(xué)生作文所采用的字詞進(jìn)行評(píng)價(jià)。曹亦薇和楊晨對(duì)高中生漢語(yǔ)作文進(jìn)行了自動(dòng)評(píng)分的探索。他們使用202份高中漢語(yǔ)作文作為研究語(yǔ)料,采用了三種方法,分別是: 依據(jù)語(yǔ)言形態(tài)學(xué)特征,使用多元回歸的方法進(jìn)行自動(dòng)評(píng)分;使用詞頻向量空間模型進(jìn)行自動(dòng)評(píng)分;依據(jù)詞頻、詞頻-逆文檔頻度、信息量的加權(quán)向量,使用潛語(yǔ)義分析方法進(jìn)行自動(dòng)評(píng)分。研究結(jié)果表明,三種方法都有一定效果;自動(dòng)評(píng)分和人工評(píng)分的相關(guān)系數(shù)和國(guó)外同類研究相比處于中等水平;一致率達(dá)到同等水平。按照自動(dòng)評(píng)分與人工評(píng)分的相關(guān)系數(shù)從大到小進(jìn)行排序,所得到的順序?yàn)? 潛語(yǔ)義分析、向量空間模型、回歸模型[5]。

        1.2 基于DNN的評(píng)分方法

        近年來(lái),基于DNN的方法也被應(yīng)用于作文自動(dòng)評(píng)分。這些方法主要通過(guò)深度神經(jīng)網(wǎng)絡(luò)模型獲取作文的分布式篇章表示進(jìn)行評(píng)分。Dong等[6]使用分層卷積神經(jīng)網(wǎng)絡(luò)和平均池化分別對(duì)文本的句子層和篇章層表示進(jìn)行建模。同年,Taghipour等[7]也使用類似的分層網(wǎng)絡(luò)結(jié)構(gòu),句子表示是在單詞序列上使用卷積網(wǎng)絡(luò)抽取特征,然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)在句子表示上進(jìn)行篇章特征的抽取,最后取每一個(gè)隱含層的求和平均得到作文表示。Dong等提出注意力循環(huán)卷積網(wǎng)絡(luò)進(jìn)行篇章層次建模[8]。近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型也被引入作文評(píng)分。Yang等整合回歸與排序損失微調(diào)預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行作文評(píng)分[9]。Song等提出多階段預(yù)訓(xùn)練策略[10],模型訓(xùn)練分為: 通用弱監(jiān)督數(shù)據(jù)預(yù)訓(xùn)練、跨題目監(jiān)督數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練以及目標(biāo)題目數(shù)據(jù)微調(diào)三個(gè)階段。

        1.3 融合淺層語(yǔ)言分析特征的DNN評(píng)分方法

        Uto等提出將手工提取特征與神經(jīng)網(wǎng)絡(luò)特征相結(jié)合[11],但使用的特征依然基于淺層語(yǔ)言分析結(jié)果。

        本文工作融入了更多的深層語(yǔ)言分析特征,包括語(yǔ)言運(yùn)用、語(yǔ)言表達(dá)、篇章異常檢測(cè)以及篇章質(zhì)量評(píng)估等。這些深層語(yǔ)言分析特征顯著提高了模型的辨別能力,并提供比深度神經(jīng)網(wǎng)絡(luò)模型更好的可解釋性。

        2 面向中文作文評(píng)分的深層語(yǔ)言分析

        我們提出的“深層語(yǔ)言分析特征”是指可以明確衡量作文篇章水平的特征,這些特征如語(yǔ)病、優(yōu)秀表達(dá)、語(yǔ)言流暢、結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)榷际怯忻鞔_的與篇章水平相關(guān)含義的?!皽\層語(yǔ)言分析特征”則是一些與篇章水平無(wú)明確聯(lián)系的篇章屬性相關(guān)的特征,如簡(jiǎn)單的統(tǒng)計(jì)特征與分布特征。這些特征在前人的工作中被廣泛應(yīng)用,如字詞句段數(shù)及長(zhǎng)度、詞性數(shù)量及比例、主題分布等潛語(yǔ)義分析等。這些特征有助于區(qū)分平均水平作文與較差的作文,因此在面向第二外語(yǔ)的作文評(píng)分系統(tǒng)中起到較大作用。但這些淺層特征的區(qū)分性和表達(dá)能力不足以處理母語(yǔ)寫作的作文。

        為此,本文在深入分析各個(gè)學(xué)年段評(píng)分規(guī)則的基礎(chǔ)上,構(gòu)建面向中文作文評(píng)分的多層次、多維度的深層語(yǔ)言分析系統(tǒng)IFlyEA[12],提供深層語(yǔ)言分析評(píng)分特征。如圖1所示,IFlyEA進(jìn)行多層次、多維度的語(yǔ)言分析:

        ? 語(yǔ)言運(yùn)用層: 該層主要用于判斷學(xué)生是否能夠正確使用字詞進(jìn)行交流,包括拼寫和語(yǔ)法錯(cuò)誤診斷等。

        圖1 深層語(yǔ)言分析全景圖

        ? 語(yǔ)言表達(dá)層: 該層主要用于判斷學(xué)生是否能夠優(yōu)雅、有文采地表達(dá)自己的想法。IFlyEA提供了典型修辭識(shí)別、描寫手法識(shí)別以及好詞好句檢測(cè)等功能。

        ? 篇章異常檢測(cè): IFlyEA提供抄襲檢測(cè)、亂寫檢測(cè)、非健康文章識(shí)別、流水賬識(shí)別等篇章級(jí)分析。

        ? 篇章質(zhì)量評(píng)估: IFlyEA提供基于內(nèi)容、表達(dá)、結(jié)構(gòu)、發(fā)展相關(guān)的11個(gè)維度對(duì)篇章質(zhì)量進(jìn)行評(píng)估分析。

        本節(jié)主要介紹多個(gè)層次中可用于作文評(píng)分特征構(gòu)建的深層語(yǔ)言分析模塊。第3節(jié)將具體介紹如何基于深層語(yǔ)言分析結(jié)果構(gòu)建作文自動(dòng)評(píng)分特征。

        2.1 語(yǔ)言運(yùn)用層分析

        正確地運(yùn)用詞語(yǔ)、標(biāo)點(diǎn)是寫作的基礎(chǔ),可在一定程度上有助于衡量學(xué)生正確運(yùn)用語(yǔ)言的能力。本節(jié)主要檢測(cè)作文中的語(yǔ)法錯(cuò)誤、標(biāo)點(diǎn)錯(cuò)誤等。

        對(duì)于語(yǔ)法錯(cuò)誤,本文主要聚焦四類: 冗余、缺失、用詞不當(dāng)、亂序[13],表1給出了4類語(yǔ)法錯(cuò)誤的示例和修改結(jié)果。

        表1 語(yǔ)法錯(cuò)誤類型表

        系統(tǒng)將判斷一句話是否包含語(yǔ)法錯(cuò)誤,對(duì)于有錯(cuò)誤的句子,指出語(yǔ)法錯(cuò)誤的具體位置(位置檢錯(cuò)),并給出修改意見(改錯(cuò)),整體實(shí)現(xiàn)流程如圖2所示。

        圖2 語(yǔ)法糾錯(cuò)方案流程圖

        我們把語(yǔ)法糾錯(cuò)分為兩個(gè)階段,一個(gè)是錯(cuò)誤識(shí)別階段,另一個(gè)是錯(cuò)誤糾正階段。

        在錯(cuò)誤糾正階段,我們使用BART模型[19]給出改正結(jié)果。具體地,我們將錯(cuò)誤識(shí)別階段得到的預(yù)測(cè)位置進(jìn)行MASK操作,基于BART的自回歸模式,給出候選改正結(jié)果。

        另外,在用詞不當(dāng)錯(cuò)誤類型中,我們將該類型進(jìn)行細(xì)分,包括選詞錯(cuò)誤以及音近、形近等別字錯(cuò)誤。對(duì)于別字錯(cuò)誤,我們基于標(biāo)注數(shù)據(jù)驅(qū)動(dòng),采用soft-masked BERT模型[20],直接給出別字的錯(cuò)誤位置以及修改結(jié)果。受其他相關(guān)工作的啟發(fā)[21-23],本文使用音近、形近字表作為輔助資源,進(jìn)行別字錯(cuò)誤后處理。在SIGHAN 2015基準(zhǔn)測(cè)試[24]中取得了論文相當(dāng)效果。

        本文收集中文作文數(shù)據(jù)進(jìn)行語(yǔ)法錯(cuò)誤的標(biāo)注,用于模型訓(xùn)練,相關(guān)實(shí)驗(yàn)結(jié)果如表2所示。

        表2 語(yǔ)法檢錯(cuò)實(shí)驗(yàn)結(jié)果表

        模型在真實(shí)學(xué)生作文數(shù)據(jù)上的位置級(jí)別F1值達(dá)到70.34%,但亂序類型較低,經(jīng)過(guò)分析發(fā)現(xiàn),亂序的標(biāo)注主觀性偏高。同時(shí),我們?cè)贜LPTEA-2020 CGED評(píng)測(cè)的句子級(jí)、位置級(jí)兩個(gè)維度上都獲得了排名第一的成績(jī)。

        2.2 語(yǔ)言表達(dá)層分析

        語(yǔ)言表達(dá)層的分析對(duì)于判斷第二語(yǔ)言學(xué)習(xí)者以及母語(yǔ)低年級(jí)寫作者的寫作水平具有重要作用,但是對(duì)于更高年級(jí)學(xué)生來(lái)說(shuō),基礎(chǔ)語(yǔ)言運(yùn)用能力不足以區(qū)分高水平與一般水平作文。為此,本文提出優(yōu)秀表達(dá)分析,旨在提高識(shí)別學(xué)生寫作的深層表達(dá)能力。

        本文把優(yōu)秀表達(dá)定義為優(yōu)美句子、修辭、描寫句等。進(jìn)一步,修辭聚焦到比喻、擬人、排比、引用等,描寫聚焦到語(yǔ)言、動(dòng)作、神態(tài)、心理、外貌、景物描寫等。按照實(shí)現(xiàn)方式,將語(yǔ)言表達(dá)層的分析方案分為三類,句內(nèi)優(yōu)秀表達(dá)句識(shí)別、跨句排比識(shí)別、索引類引用識(shí)別。

        2.2.1 句內(nèi)優(yōu)秀表達(dá)句識(shí)別

        一般情況下,對(duì)于優(yōu)美句子、比喻、擬人、描寫等的優(yōu)秀表達(dá),都是集中在一個(gè)句子內(nèi)部完成的。另外,我們定義優(yōu)美句子為能夠引起審美感受的句子,這個(gè)定義是模糊的,標(biāo)準(zhǔn)是主觀的,與其他優(yōu)秀表達(dá)句在一定程度上有重疊,因此,我們以數(shù)據(jù)驅(qū)動(dòng)和多任務(wù)聯(lián)合的方式進(jìn)行整體識(shí)別。本文設(shè)計(jì)了一種基于多任務(wù)聯(lián)合學(xué)習(xí)的句內(nèi)優(yōu)秀表達(dá)句識(shí)別模型,如圖3所示。

        (5)

        其中,i表示第i個(gè)任務(wù),Li為第i個(gè)任務(wù)的損失,λi為第i個(gè)任務(wù)的損失的權(quán)重。

        具體實(shí)驗(yàn)結(jié)果如表3所示,其中,優(yōu)美句子分不同年級(jí)段進(jìn)行評(píng)估,因?yàn)樵u(píng)估主觀性等問題,指標(biāo)相對(duì)修辭與描寫稍低。其與評(píng)分的相關(guān)系數(shù)等,下文將做詳細(xì)分析。

        圖3 優(yōu)秀表達(dá)層多任務(wù)聯(lián)合學(xué)習(xí)方案圖

        表3 優(yōu)秀表達(dá)句識(shí)別實(shí)驗(yàn)結(jié)果表

        2.2.2 跨句排比識(shí)別

        排比是中文寫作中常用的修辭手法。排比句,一般是這樣一種結(jié)構(gòu)的句式,位置上臨近,語(yǔ)氣上一致[26],能夠增強(qiáng)氣勢(shì)、給人以精神上的振奮,從而達(dá)到讓閱卷老師賞心悅目的效果[27]。本文主要采用特征方法來(lái)完成排比句識(shí)別。主要流程包括字詞的存儲(chǔ)結(jié)構(gòu)建立、候選排比句抽取、過(guò)濾、重組與切分、回填等機(jī)制,并考察了詞匯、詞性、句法角色、分布式語(yǔ)義等多層次匹配特征完成排比句的判別[28-29]。在中文作文數(shù)據(jù)上的測(cè)試結(jié)果顯示排比句判別F1值達(dá)到75%。

        2.2.3 索引類引用識(shí)別

        引用前人的詞句,如詩(shī)歌、格言、諺語(yǔ)等,來(lái)闡釋和支持自己的觀點(diǎn),是寫作中采用的重要手段。我們從互聯(lián)網(wǎng)上收集了從詩(shī)歌到諺語(yǔ)的大規(guī)模引用語(yǔ)料庫(kù),并利用信息檢索(IR)技術(shù)和語(yǔ)義匹配進(jìn)行引用句檢測(cè)與識(shí)別。學(xué)生作文內(nèi)提及的已入庫(kù)語(yǔ)句的召回率可以達(dá)到96%以上。

        2.3 篇章異常檢測(cè)

        篇章異常檢測(cè)對(duì)構(gòu)建穩(wěn)健的評(píng)分系統(tǒng)很重要。例如,抄襲是一種不好的行為,應(yīng)該被檢測(cè)。為此,本文構(gòu)建了一個(gè)范文檢測(cè)庫(kù),并利用IR和語(yǔ)義匹配技術(shù)來(lái)完成抄襲檢測(cè)。此外,本文還利用預(yù)先訓(xùn)練的檢測(cè)器完成敏感詞、辱罵性詞語(yǔ)、亂寫等的異常檢測(cè)。

        2.4 篇章質(zhì)量評(píng)估

        以上介紹了語(yǔ)言運(yùn)用、語(yǔ)言表達(dá)、篇章異常檢測(cè)等深層語(yǔ)言分析過(guò)程,但基于各分析器所抽取的用于評(píng)分的特征更多地是對(duì)于篇章相關(guān)分析維度的數(shù)量的評(píng)估,缺乏對(duì)于篇章的整體視角的質(zhì)量評(píng)估。

        為此,本文基于以上各分析器,從人對(duì)于作文質(zhì)量評(píng)估視角出發(fā),從內(nèi)容、表達(dá)、結(jié)構(gòu)、發(fā)展四個(gè)大維度,基于人工標(biāo)注的篇章質(zhì)量評(píng)估分檔數(shù)據(jù),構(gòu)建了十一個(gè)細(xì)粒度篇章質(zhì)量分析器。具體而言,在內(nèi)容方面,主要包括符合題意、思想健康、內(nèi)容充實(shí)、中心明確、感情真摯;在表達(dá)方面,包括規(guī)范使用字詞、符合習(xí)作要求、標(biāo)點(diǎn)正確以及語(yǔ)言流暢;在結(jié)構(gòu)方面,主要給出結(jié)構(gòu)嚴(yán)謹(jǐn)性;在發(fā)展層面,主要分析是否有文采。整體作為篇章質(zhì)量評(píng)估的深層細(xì)粒度分析依據(jù)。

        3 作文自動(dòng)評(píng)分的實(shí)現(xiàn)方案和模型

        本文聚焦的是小規(guī)模定標(biāo)(500份以下)評(píng)分場(chǎng)景。所謂定標(biāo)評(píng)分,一般是給定一個(gè)固定的主題或者寫作方向,評(píng)分人員基本穩(wěn)定,評(píng)分尺度與習(xí)慣基本一致。我們可以對(duì)當(dāng)前主題的樣本進(jìn)行篩選,并對(duì)篩選的樣本進(jìn)行打分,基于打分結(jié)果去訓(xùn)練評(píng)分模型或者調(diào)整評(píng)分方案。

        定標(biāo)評(píng)分場(chǎng)景要特別關(guān)注兩個(gè)指標(biāo),一個(gè)是考察評(píng)分之間的相對(duì)順序的相關(guān)系數(shù),是為了保障評(píng)分的有效性;另一個(gè)是為了考查評(píng)分與人工打分的一致率,是為了保障評(píng)分的準(zhǔn)確性。為此,本文設(shè)計(jì)了如下的作文自動(dòng)評(píng)分方案,并在后續(xù)實(shí)驗(yàn)中對(duì)相關(guān)指標(biāo)進(jìn)行重點(diǎn)比較。

        3.1 作文自動(dòng)評(píng)分方案

        在定標(biāo)評(píng)分場(chǎng)景,有多種評(píng)分方案進(jìn)行自動(dòng)評(píng)分。如圖4方案①所示,基于當(dāng)次待評(píng)分?jǐn)?shù)據(jù)集進(jìn)行樣本篩選與人工定標(biāo)后,基于語(yǔ)言分析結(jié)果進(jìn)行評(píng)分特征抽取,訓(xùn)練專用評(píng)分模型進(jìn)行定標(biāo)評(píng)分。這樣的優(yōu)勢(shì)是可以很好地利用當(dāng)次考試的評(píng)分習(xí)慣和評(píng)分分布等,但劣勢(shì)是無(wú)法引入更多的外部數(shù)據(jù)信息來(lái)提升評(píng)分效果;另一種方案是我們使用歷史作文數(shù)據(jù)結(jié)合DNN模型以及語(yǔ)言分析結(jié)果進(jìn)行通用評(píng)分模型訓(xùn)練。這樣做的優(yōu)勢(shì)是可以利用更多的外部數(shù)據(jù)信息以及結(jié)合深度神經(jīng)網(wǎng)絡(luò)模型,但這樣做的劣勢(shì)是無(wú)法很好地?cái)M合當(dāng)次考試的評(píng)分習(xí)慣。

        圖4 定標(biāo)評(píng)分場(chǎng)景評(píng)分方案圖

        為此,本文設(shè)計(jì)了基于通用評(píng)分模型的定標(biāo)評(píng)分方案,如圖4方案②所示,首先利用歷史作文數(shù)據(jù)結(jié)合DNN模型以及多層次、多維度語(yǔ)言分析特征進(jìn)行通用評(píng)分模型訓(xùn)練;之后使用當(dāng)次數(shù)據(jù)集定標(biāo)評(píng)分?jǐn)?shù)據(jù)進(jìn)行分?jǐn)?shù)分布學(xué)習(xí),既保證了評(píng)分效果,也符合了當(dāng)次數(shù)據(jù)集的評(píng)分習(xí)慣。滿足了定標(biāo)評(píng)分場(chǎng)景兩個(gè)特別關(guān)注的評(píng)分指標(biāo)。

        本文實(shí)現(xiàn)了如圖4所示方案①與方案②兩種評(píng)分方案,并在兩種評(píng)分方案的基礎(chǔ)上比較了加入深層語(yǔ)言分析后的評(píng)分效果。而實(shí)現(xiàn)方案①與方案②,我們要解決兩個(gè)問題,一個(gè)是作文評(píng)分特征的抽?。涣硪粋€(gè)是通用評(píng)分模型的設(shè)計(jì),后兩節(jié)將詳細(xì)介紹。

        3.2 多層次、多維度語(yǔ)言分析特征選取

        本文基于前面介紹的深層語(yǔ)言分析模塊,再配合淺層的一些語(yǔ)言分析結(jié)果,構(gòu)建了本次作文自動(dòng)評(píng)分的多層次、多維度語(yǔ)言分析特征。我們首先分析各特征抽取器抽取的特征與訓(xùn)練集分?jǐn)?shù)數(shù)據(jù)的相關(guān)系數(shù),如表4所示。

        表4 語(yǔ)言分析特征與分?jǐn)?shù)相關(guān)系數(shù)分析表

        淺層統(tǒng)計(jì)特征為最基本的作文特征,相關(guān)系數(shù)較高,普遍在0.3~0.5之間;在語(yǔ)言運(yùn)用層和篇章異常檢測(cè)層,本文分析了語(yǔ)法類錯(cuò)誤、標(biāo)點(diǎn)錯(cuò)誤、可恢復(fù)的拼音占比、不健康句子數(shù)量、亂寫句子占比等,相關(guān)系數(shù)普遍為負(fù),基本符合預(yù)期;在語(yǔ)言表達(dá)層,本文分析了修辭以及描寫數(shù)量與評(píng)分的相關(guān)系數(shù),基本在0.1左右;在篇章質(zhì)量評(píng)估層,大部分篇章級(jí)的質(zhì)量評(píng)估與評(píng)分相關(guān)系數(shù)在0.3左右,與語(yǔ)言運(yùn)用、語(yǔ)言表達(dá)和篇章異常檢測(cè)層相比,篇章質(zhì)量評(píng)估層相關(guān)系數(shù)較高。

        后續(xù)基于語(yǔ)言分析特征與評(píng)分相關(guān)系數(shù)的分析結(jié)果,進(jìn)行了部分特征的擴(kuò)充與完善,構(gòu)成了后續(xù)評(píng)分實(shí)驗(yàn)依賴的相關(guān)淺層特征與深層語(yǔ)言分析特征,如表5所示。

        表5 作文特征抽取表

        3.3 融合DNN與語(yǔ)言分析特征的自適應(yīng)評(píng)分

        基于語(yǔ)言分析的特征工程方法與基于DNN方法各有優(yōu)勢(shì)。為了更好地結(jié)合兩者的優(yōu)勢(shì),我們提出融合DNN與多層次、多維度語(yǔ)言分析特征的自適應(yīng)混合評(píng)分方法,如圖5所示。模型融入了淺層與深層等多層次、多維度語(yǔ)言分析特征,并提出通用預(yù)訓(xùn)練與定標(biāo)數(shù)據(jù)微調(diào)的二階段學(xué)習(xí)策略,以應(yīng)對(duì)年級(jí)、主題變化導(dǎo)致的領(lǐng)域遷移問題。

        圖5 融合DNN與語(yǔ)言分析特征的自適應(yīng)評(píng)分方法

        3.3.1 作文編碼器

        首先介紹通用評(píng)分模型,該模型可用于構(gòu)建面向任何一個(gè)作文題目的評(píng)分模型。

        假設(shè)作文K有j個(gè)句子,其中第i句有一個(gè)詞序列si={wi1,wi2,…,win},篇章由全部句子的詞序列{s1,s2,…,sj}組成。本文使用DNN模型對(duì)篇章進(jìn)行編碼,得到篇章表征K,這是基于字詞序列的語(yǔ)義信息。本文分別使用了HBiLSTM模型[30]和BERT模型[25]作為篇章編碼的DNN架構(gòu)。

        3.3.2 年級(jí)與主題自適應(yīng)遷移評(píng)分

        由于不同年級(jí)的評(píng)分標(biāo)準(zhǔn)有差異,我們希望提高模型的自適應(yīng)能力,同時(shí)盡量避免維護(hù)多個(gè)模型。因此,我們將不同年級(jí)的評(píng)分視為多個(gè)任務(wù)。不同年級(jí)的評(píng)分任務(wù),共享作文的篇章級(jí)別表示eK,但使用獨(dú)立的全連接回歸評(píng)分層。如式(6)所示,Y通用_年級(jí)i為年級(jí)i的回歸評(píng)分模型的預(yù)測(cè)結(jié)果,其中,LR_Reg為線性回歸評(píng)分層。

        Y通用_年級(jí)i=LR_Reg年級(jí)i(eK)

        (6)

        我們可以利用多個(gè)年級(jí)的學(xué)生作文,聯(lián)合訓(xùn)練該年級(jí)自適應(yīng)的通用評(píng)分模型。

        給定年級(jí)自適應(yīng)通用評(píng)分模型,針對(duì)新的評(píng)分主題,我們希望能夠進(jìn)一步擬合當(dāng)次作文集的打分習(xí)慣與分布。因此,我們將不同年級(jí)的通用評(píng)分模型的預(yù)測(cè)結(jié)果作為輸入,使用當(dāng)次作文數(shù)據(jù)集額外訓(xùn)練一個(gè)貝葉斯嶺回歸模型(BR_Reg),如式(7)所示。

        Y定標(biāo)=BR_Reg({Y通用_年級(jí)i})

        (7)

        多個(gè)年級(jí)的通用評(píng)分模型相當(dāng)于從不同視角和標(biāo)準(zhǔn)下評(píng)估同一作文,提供了更為全面的描述信息。我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn),這種策略比僅利用相對(duì)應(yīng)年級(jí)的通用評(píng)分模型預(yù)測(cè)結(jié)果更為有效。

        這種主題自適應(yīng)策略可以基于較少的數(shù)據(jù),快速針對(duì)當(dāng)次考試的打分習(xí)慣與分布進(jìn)行分?jǐn)?shù)調(diào)整,得到符合當(dāng)次考試的標(biāo)準(zhǔn)和分布的最終分。

        4 實(shí)驗(yàn)

        4.1 數(shù)據(jù)集

        本文所用數(shù)據(jù)集主要分為兩部分。一部分為通用評(píng)分?jǐn)?shù)據(jù)集: 用于通用評(píng)分模型訓(xùn)練,使用網(wǎng)上開源的5萬(wàn)篇小學(xué)學(xué)段作文語(yǔ)料,包含一至六年級(jí)各約8 500篇作文,按照各年級(jí)評(píng)分要求與細(xì)則進(jìn)行人工標(biāo)注。另一部分為定標(biāo)評(píng)分?jǐn)?shù)據(jù)集: 抽取小學(xué)三至六年級(jí)四個(gè)學(xué)段共計(jì)51個(gè)主題作文數(shù)據(jù),每個(gè)主題定標(biāo)集含300~500篇作文,測(cè)試集20篇,具體如表6所示。

        表6 小學(xué)三至六年級(jí)作文數(shù)據(jù)統(tǒng)計(jì)分析表

        其中,定標(biāo)評(píng)分?jǐn)?shù)據(jù)集,標(biāo)注人員均完成雙評(píng)、仲裁等標(biāo)注質(zhì)檢等工作。

        4.2 評(píng)價(jià)指標(biāo)

        本文通過(guò)以下指標(biāo)進(jìn)行評(píng)估: 平均分差、相關(guān)系數(shù)、評(píng)分一致率。

        (8)

        機(jī)器得分與人工評(píng)分的相關(guān)系數(shù)計(jì)算如式(9)所示。

        (9)

        評(píng)分一致率如式(10)所示,主要參考計(jì)算機(jī)智能輔助評(píng)分系統(tǒng)[31]評(píng)估固定分差內(nèi)數(shù)據(jù)占比的統(tǒng)計(jì)方法。

        (10)

        4.3 方法對(duì)比

        本文挑選三組基線方法進(jìn)行對(duì)比,包括基于語(yǔ)言分析特征的評(píng)分方法、基于DNN的評(píng)分方法以及融合淺層語(yǔ)言分析特征的DNN評(píng)分方法。本文提出融合DNN與多層次、多維度語(yǔ)言分析特征的自適應(yīng)混合評(píng)分方法。

        后續(xù)相關(guān)特征分析包括淺層特征與全部特征,其中,全部特征為包含淺層特征與深層特征的多層次、多維度的語(yǔ)言分析特征。

        ●基于語(yǔ)言分析特征的評(píng)分: 本文使用GBDT作為評(píng)分模型,分別使用淺層特征和全部特征進(jìn)行實(shí)驗(yàn)。

        ●基于DNN的評(píng)分: 本文使用HBiLSTM及BERT等DNN模型對(duì)作文進(jìn)行評(píng)分。

        ●融合淺層語(yǔ)言分析特征的DNN評(píng)分: 相關(guān)模型結(jié)構(gòu)如圖5所示。其中分別使用了兩種常用的DNN模型: HBiLSTM模型和BERT模型;淺層特征共計(jì)57維。

        ●融合多層次、多維度語(yǔ)言分析特征的自適應(yīng)DNN評(píng)分: 相關(guān)模型結(jié)構(gòu)如圖5所示。其中分別使用了兩種常用的DNN模型: HBiLSTM模型和BERT模型;全部特征共計(jì)187維。

        4.4 模型實(shí)現(xiàn)細(xì)節(jié)

        為了便于模型訓(xùn)練,將分?jǐn)?shù)歸一化到0到1之間。訓(xùn)練時(shí)均使用均方誤差作為損失函數(shù)。

        ●GBDT模型: 設(shè)置學(xué)習(xí)器個(gè)數(shù)為100,學(xué)習(xí)率為0.1。

        ●HBiLSTM模型: 實(shí)驗(yàn)中句子層BiLSTM和篇章層BiLSTM的隱藏層維度均為128;通用模型訓(xùn)練時(shí)使用AdamW[32]作為優(yōu)化器,學(xué)習(xí)率為0.001。

        ●BERT模型: BERT模型使用BERT-base中文模型。通用模型訓(xùn)練時(shí)使用AdamW作為優(yōu)化器,學(xué)習(xí)率為1e-5。

        ●特征映射線性層: 輸出維度為30。

        ●通用評(píng)分LR_Reg層: 線性回歸模型輸入為outputDNN+30維,輸出為1維。

        ●定標(biāo)微調(diào)BR_Reg層: 貝葉斯嶺回歸模型輸入為6維,輸出為1維。

        4.5 整體實(shí)驗(yàn)

        本文基于小學(xué)數(shù)據(jù)集開展相關(guān)實(shí)驗(yàn)及分析工作。通用評(píng)分階段,使用通用評(píng)分?jǐn)?shù)據(jù)集5萬(wàn)篇訓(xùn)練通用模型。定標(biāo)微調(diào)階段,使用定標(biāo)數(shù)據(jù)集中每個(gè)主題的訓(xùn)練集進(jìn)行定標(biāo)評(píng)分微調(diào)。實(shí)驗(yàn)時(shí),通用評(píng)分階段與定標(biāo)微調(diào)階段均使用定標(biāo)數(shù)據(jù)集中測(cè)試集進(jìn)行相關(guān)測(cè)試,每套試題單獨(dú)進(jìn)行測(cè)試,取宏平均用于最終實(shí)驗(yàn)指標(biāo)分析。其中,在通用評(píng)分階段,使用該主題對(duì)應(yīng)年級(jí)的預(yù)測(cè)分?jǐn)?shù)作為預(yù)測(cè)結(jié)果。具體實(shí)驗(yàn)結(jié)果如表7所示。

        表7 評(píng)分?jǐn)?shù)據(jù)實(shí)驗(yàn)結(jié)果表

        首先對(duì)比圖4方案①設(shè)置下各方法的表現(xiàn),即不使用通用評(píng)分模型,僅使用當(dāng)次考試數(shù)據(jù)進(jìn)行定標(biāo)評(píng)分。實(shí)驗(yàn)發(fā)現(xiàn),全部特征在相關(guān)系數(shù)、評(píng)分一致率方面相比較淺層特征結(jié)果有較大幅度提升,相關(guān)系數(shù)提升0.049,評(píng)分一致率提升3.3%,證明定標(biāo)評(píng)分場(chǎng)景深層語(yǔ)言分析的有效性。而使用DNN模型進(jìn)行定標(biāo)評(píng)分實(shí)驗(yàn),在評(píng)分一致率、相關(guān)系數(shù)方面優(yōu)于基于淺層特征的定標(biāo)評(píng)分結(jié)果,但弱于基于全部特征的定標(biāo)評(píng)分結(jié)果??梢?,在小規(guī)模定標(biāo)(500以下)場(chǎng)景,基于DNN模型只通過(guò)字詞序列學(xué)到了淺層以及一部分深層的語(yǔ)言特征,并沒有充分發(fā)揮出DNN的序列表征優(yōu)勢(shì)。

        繼續(xù)采用圖4中實(shí)驗(yàn)方案②,該方案分為兩個(gè)步驟。第一步: 使用通用評(píng)分模型進(jìn)行相關(guān)實(shí)驗(yàn),更加關(guān)注相關(guān)系數(shù);第二步: 在通用評(píng)分結(jié)果基礎(chǔ)上,使用每套試題定標(biāo)數(shù)據(jù)進(jìn)行分?jǐn)?shù)微調(diào),看評(píng)分一致率提升情況。

        在第一步,通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),在相關(guān)系數(shù)方面,加入深層語(yǔ)言分析特征后的全部特征實(shí)驗(yàn)結(jié)果優(yōu)于僅僅加入淺層語(yǔ)言分析特征結(jié)果優(yōu)于不加入特征的評(píng)分結(jié)果。具體地,BERT(通用)+全部特征相比較BERT(通用)+淺層特征,在相關(guān)系數(shù)方面提升0.015;HBiLSTM(通用)+全部特征相比較HBiLSTM(通用)+淺層特征,在相關(guān)系數(shù)方面提升0.01,提升較為穩(wěn)定。基于BERT模型的相關(guān)實(shí)驗(yàn)結(jié)果整體優(yōu)于基于HBiLSTM模型的結(jié)果。同時(shí),為了公平對(duì)比,本文也使用傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)全部特征進(jìn)行通用評(píng)分,發(fā)現(xiàn)結(jié)果弱于基于DNN+特征相關(guān)方法,證明DNN相關(guān)表示對(duì)評(píng)分效果提升有積極幫助。

        在第二步,如式(7)所示,我們使用線性層對(duì)結(jié)果進(jìn)行定標(biāo)微調(diào),以適應(yīng)當(dāng)前主題作文的打分習(xí)慣與分布。微調(diào)后,評(píng)分一致率有大幅度提升。同時(shí),在定標(biāo)場(chǎng)景下,加入深層語(yǔ)言分析特征后,相對(duì)于只有淺層語(yǔ)言分析特征的模型,相關(guān)系數(shù)的提升結(jié)論與通用評(píng)分階段實(shí)驗(yàn)結(jié)論基本一致,證明深層語(yǔ)言分析的有效性。

        同時(shí),本文比較了通用評(píng)分場(chǎng)景與定標(biāo)評(píng)分場(chǎng)景中評(píng)分一致率與相關(guān)系數(shù)標(biāo)準(zhǔn)差。相較于通用評(píng)分場(chǎng)景,定標(biāo)評(píng)分場(chǎng)景各方法的評(píng)分一致率的標(biāo)準(zhǔn)差分別從0.1左右降到了0.07左右,相關(guān)系數(shù)的標(biāo)準(zhǔn)差分別從0.2左右降到了0.15左右,各主題的評(píng)分效果比較穩(wěn)定。

        同時(shí),我們與人人指標(biāo)進(jìn)行對(duì)比,評(píng)估機(jī)器評(píng)分效果。如表8所示,測(cè)試集中的每份試卷均采用雙評(píng)標(biāo)注,并給出仲裁分。為了公平起見,本文在此處實(shí)驗(yàn)階段,機(jī)器分不與仲裁分進(jìn)行比較,而是與人1和人2的分?jǐn)?shù)進(jìn)行比較,選取平均值用于與人人結(jié)果的比較。

        表8 小學(xué)與人人結(jié)果對(duì)比表

        從對(duì)比中可以看出,機(jī)器與人1和人2的平均相關(guān)系數(shù)為0.585,超過(guò)人人指標(biāo)的0.552,且在評(píng)分一致率(<10%)方面,人機(jī)平均評(píng)分一致率(<10%)為84.3%,也超過(guò)人人指標(biāo)的78.4%??梢哉f(shuō),機(jī)器在一定程度上可以超過(guò)人的評(píng)分效果,這為在更多場(chǎng)景的評(píng)分使用提供了保障。

        4.6 消融實(shí)驗(yàn)

        為了驗(yàn)證不同深層語(yǔ)言分析中不同層對(duì)評(píng)分效果提升的影響,本文在BERT(通用)+全部特征+定標(biāo)的最優(yōu)模型基礎(chǔ)上做了多組消融實(shí)驗(yàn),每次只移除一層,分別移除了語(yǔ)言運(yùn)用、語(yǔ)言表達(dá)、篇章異常檢測(cè)和篇章質(zhì)量評(píng)估層相關(guān)特征來(lái)分析其作用。

        消融實(shí)驗(yàn)結(jié)果如表9所示,移除語(yǔ)言運(yùn)用層特征對(duì)相關(guān)系數(shù)有一定影響,表明在小學(xué)作文中語(yǔ)言運(yùn)用是很重要的考察點(diǎn)。移除語(yǔ)言表達(dá)層特征對(duì)評(píng)分影響相對(duì)較弱,可能是因?yàn)閮?yōu)美句子和描寫的召回率較低,導(dǎo)致部分語(yǔ)言表達(dá)未能識(shí)別。移除篇章異常檢測(cè)和篇章質(zhì)量評(píng)估特征后相關(guān)系數(shù)下降較明顯,說(shuō)明篇章級(jí)相關(guān)特征對(duì)評(píng)分效果的提升作用很大。

        表9 消融實(shí)驗(yàn)結(jié)果

        5 總結(jié)

        本文針對(duì)中文作文自動(dòng)評(píng)分任務(wù),引入了更多深層語(yǔ)言分析能力,使用融合DNN與多層次、多維度語(yǔ)言分析特征的自適應(yīng)混合評(píng)分方法,有效提升了語(yǔ)文作文評(píng)分效果。在深層語(yǔ)言分析基礎(chǔ)上,還可以將多個(gè)層次、多個(gè)維度的分析進(jìn)行量化展示,提供批改結(jié)果,為后續(xù)針對(duì)學(xué)生作文的個(gè)性化診斷和學(xué)習(xí)提升提供更多的診斷依據(jù),具有非常大的潛力。

        盡管本文的面向語(yǔ)文作文評(píng)分的深層語(yǔ)言分析能力已經(jīng)達(dá)到國(guó)內(nèi)領(lǐng)先水平,但其中修辭分析、篇章結(jié)構(gòu)分析等研究問題還有很大的探索和提高空間。深層語(yǔ)言分析需要多個(gè)模塊進(jìn)行處理,特征獲取效率較低,將多個(gè)模塊整合,使用通用的底層共享模型來(lái)獲取各種深層語(yǔ)言分析值得進(jìn)一步的探索。目前,預(yù)訓(xùn)練語(yǔ)言模型處理長(zhǎng)文本時(shí)計(jì)算負(fù)載較大,如何提高預(yù)訓(xùn)練語(yǔ)言模型在實(shí)際應(yīng)用場(chǎng)景下的高效配置,進(jìn)一步提高多層次、多維度深層語(yǔ)言分析的效果和效率也是未來(lái)進(jìn)一步研究的內(nèi)容。

        猜你喜歡
        定標(biāo)淺層深層
        我國(guó)為世界大豆精準(zhǔn)選種“定標(biāo)”
        淺層換填技術(shù)在深厚軟土路基中的應(yīng)用
        基于恒星的電離層成像儀在軌幾何定標(biāo)
        基于淺層曝氣原理的好氧顆粒污泥的快速培養(yǎng)
        考慮各向異性滲流的重力壩深層抗滑穩(wěn)定分析
        SAM系統(tǒng)對(duì)TDCS數(shù)據(jù)的優(yōu)化處理與深層應(yīng)用
        基于角反射器的機(jī)載毫米波云雷達(dá)外定標(biāo)實(shí)驗(yàn)
        淺層地下水超采區(qū)劃分探究
        4m直徑均勻擴(kuò)展定標(biāo)光源
        包氣帶淺層地?zé)崛萘坑?jì)算方法商榷
        亚洲国产av无码精品| 中文字幕国内一区二区| 亚洲性感毛片在线视频| 国产女人18毛片水真多18精品| 久久亚洲精品无码va白人极品| 国内精品一区视频在线播放| av网址不卡免费在线观看| 三区中文字幕在线观看| 成人免费直播| 亚洲中文无码成人影院在线播放| 中文字幕人妻丝袜成熟乱| 天堂免费av在线播放| 亚洲精品成人网站在线播放| 久久夜色撩人精品国产小说| www.尤物视频.com| 婷婷色精品一区二区激情| 国产无遮挡又爽又刺激的视频老师| 粗大的内捧猛烈进出在线视频| 久久精品熟女亚洲av艳妇| 亚洲视频在线观看一区二区三区| 毛片免费视频在线观看| 日韩www视频| 亚洲高清一区二区三区视频| 最新中文字幕人妻少妇| 无码毛片视频一区二区本码| 91情侣视频| 久久av一区二区三区黑人| 伊人大杳焦在线| 人妻去按摩店被黑人按中出| 中文字幕精品一区二区日本 | 久久精品中文字幕极品| 精品国产精品久久一区免费| 国产suv精品一区二区四| 醉酒后少妇被疯狂内射视频 | 亚洲精品视频中文字幕| 国产精品欧美福利久久| 国产无码十八禁| 人妻系列中文字幕av| 中文天堂国产最新| 欧美在线不卡视频| 午夜宅男成人影院香蕉狠狠爱|