蔣東辰 劉 源 張鍵飛
在語(yǔ)言學(xué)習(xí)中,閱讀、寫作、聽力、口語(yǔ)是交流的四項(xiàng)基本技能。閱讀是人們獲取信息、學(xué)習(xí)知識(shí)的主要手段(Charles Alderson 2011)。在非英語(yǔ)環(huán)境中,由于受現(xiàn)實(shí)條件的限制,閱讀往往在英語(yǔ)學(xué)習(xí)者各項(xiàng)技能訓(xùn)練中耗時(shí)最多。提升英語(yǔ)學(xué)習(xí)者的閱讀水平,既能提升他們通過(guò)閱讀獲取信息的效率,又能促進(jìn)他們其他英語(yǔ)技能的提升。因此,英語(yǔ)閱讀能力的培養(yǎng)在英語(yǔ)教學(xué)中具有重要作用。
閱讀往往被看作閱讀者與文本交互的過(guò)程。閱讀者通過(guò)閱讀理解文本、獲得知識(shí),并以此為基礎(chǔ)推斷信息、運(yùn)用信息。在閱讀過(guò)程中,閱讀者自身的知識(shí)、動(dòng)機(jī)、策略、狀態(tài)會(huì)影響閱讀的效果,文本的詞匯、句法、篇章組織、主題等因素會(huì)影響文本可讀性(與“閱讀難度”“文本難度”同義)。從閱讀能力評(píng)價(jià)的角度看,閱讀者的主觀因素通常會(huì)被視為確定值,而將閱讀者能夠理解文本的難度水平作為衡量閱讀者閱讀水平的指標(biāo)。當(dāng)讀者能夠理解較難的文本時(shí),其閱讀理解能力較強(qiáng);反之,其閱讀理解能力較弱。因此,可通過(guò)分析影響文本可讀性的語(yǔ)言學(xué)因素確定提升英語(yǔ)學(xué)習(xí)者閱讀能力的關(guān)鍵。
可讀性研究的早期工作集中在創(chuàng)建難詞列表和人工設(shè)計(jì)可讀性公式(Vajjala 2021)。隨著自然語(yǔ)言處理和人工智能技術(shù)的發(fā)展,基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法逐漸被用于可讀性評(píng)估:司和卡倫(Si&Callan 2001)最先將可讀性問題歸為文本分類這一機(jī)器學(xué)習(xí)問題,在傳統(tǒng)特征上使用統(tǒng)計(jì)語(yǔ)言模型,提高了Web文檔難度預(yù)測(cè)的準(zhǔn)確性;瓦賈拉和默爾斯(Vajjala&Meurers 2012)利用陸小飛(Lu 2010)提出的第二語(yǔ)言習(xí)得測(cè)量方法,結(jié)合詞頻特征和心理語(yǔ)言學(xué)等相關(guān)特征,在二語(yǔ)語(yǔ)料庫(kù)Weebit上訓(xùn)練,實(shí)現(xiàn)了二語(yǔ)文本難度的準(zhǔn)確預(yù)測(cè)。瓦賈拉和盧契奇(Vajjala&Lui2018)將特征擴(kuò)展到155個(gè),包括傳統(tǒng)特征、語(yǔ)篇銜接、詞匯語(yǔ)義和句法特征等模塊,在二語(yǔ)語(yǔ)料庫(kù)Onestop上訓(xùn)練預(yù)測(cè)模型。這些研究以文本的多種深層語(yǔ)言學(xué)特征為基礎(chǔ),通過(guò)大規(guī)模語(yǔ)料訓(xùn)練獲得具有高準(zhǔn)確性的文本難度預(yù)測(cè)模型,用于文本篩選和難度判斷。
與當(dāng)前文本難度分級(jí)預(yù)測(cè)的研究工作有所差異,本文的目標(biāo)在于以分級(jí)閱讀語(yǔ)料為基礎(chǔ),使用機(jī)器學(xué)習(xí)的方法分析影響文本難度的核心語(yǔ)言學(xué)要素,確定其影響程度,為英語(yǔ)教學(xué)設(shè)計(jì)提供數(shù)據(jù)支持。結(jié)構(gòu)安排如下:第一部分回顧文本可讀性研究相關(guān)工作;第二部分介紹本文用于分析影響文本可讀性的語(yǔ)言特征;第三、四部分分別闡述文本可讀性影響因素的判定實(shí)驗(yàn)及主要結(jié)果;第五部分是結(jié)論。
早期的可讀性研究主要使用一些淺層特征判定文本難度,如平均句子長(zhǎng)度、平均單詞長(zhǎng)度;部分文獻(xiàn)還利用難詞表、詞頻估算文本的可讀性(Dale&Chall 1948)。隨著計(jì)算語(yǔ)言學(xué)的發(fā)展,以語(yǔ)言學(xué)為基礎(chǔ)的多種數(shù)字化特征越來(lái)越多地被用于分析文本、預(yù)測(cè)可讀性和構(gòu)建文本難度模型。
詞匯特征是文本可讀性研究最多的語(yǔ)言特征。陸小飛(2011)研究詞匯豐富度與英語(yǔ)學(xué)習(xí)者口語(yǔ)敘述內(nèi)容質(zhì)量之間的關(guān)系,分析詞匯密度、詞匯復(fù)雜度和詞匯多樣性對(duì)文本難度的影響,這些特征后來(lái)被廣泛用于二語(yǔ)語(yǔ)料的可讀性評(píng)估。勒羅伊和考查克(Leroy&Kauchak 2014)研究發(fā)現(xiàn),單詞頻率與實(shí)際難度(人們?nèi)绾芜x擇正確的單詞定義)和感知難度(單詞看起來(lái)有多難)密切相關(guān)。陳小彬和默爾斯(Chen&Meurers 2018)進(jìn)一步研究不同形式的詞頻與文本可讀性的關(guān)系,他們發(fā)現(xiàn):更豐富的詞頻表示可以構(gòu)建出更好的難度預(yù)測(cè)模型。
在詞匯之外,各種語(yǔ)法特征也被用于文本可讀性預(yù)測(cè)研究。施瓦姆和奧斯滕多夫(Schwarm&Ostendorf 2005)在傳統(tǒng)特征和統(tǒng)計(jì)語(yǔ)言模型的基礎(chǔ)上增加了平均句法解析樹高度、名詞短語(yǔ)平均數(shù)量、動(dòng)詞短語(yǔ)平均數(shù)量、從句平均數(shù)量等特征,他們發(fā)現(xiàn):這些語(yǔ)法特征可提高模型的預(yù)測(cè)性能。海爾曼、柯林斯-湯普森和卡倫等人(Heilman、Collins-Thompson&Callan,et al.2007)提出帶有時(shí)態(tài)、語(yǔ)態(tài)、情態(tài)等語(yǔ)言特征的統(tǒng)計(jì)模型,實(shí)驗(yàn)說(shuō)明這些特征對(duì)二語(yǔ)文本可讀性預(yù)測(cè)有很好的效果。瓦賈拉和默爾斯(2012)研究發(fā)現(xiàn),陸小飛(2010)篩選的14個(gè)句法指標(biāo)對(duì)二語(yǔ)閱讀文本的可讀性測(cè)量十分有效。
除了常規(guī)的詞匯、語(yǔ)法統(tǒng)計(jì)特征,柯海特(Coltheart 1981)從心理語(yǔ)言學(xué)角度研究詞匯特征對(duì)文本可讀性的影響??肆_斯利、格林菲爾德和麥克納馬拉(Crossley、Greenfield&McNamara 2008)認(rèn)為以認(rèn)知為基礎(chǔ)的詞匯特征在二語(yǔ)文本的可讀性測(cè)量中尤為重要。田中、加藤和加藤等人(Tanaka、Jatowt&Kato,et al.2013)將具體性納入文本可理解性度量,實(shí)驗(yàn)表明文本的具體性和可理解性存在正相關(guān)。這些研究中提出的多種心理語(yǔ)言學(xué)特征如具體性、熟悉性、可想象性、意義性、詞匯習(xí)得年齡等被廣泛用于二語(yǔ)文本可讀性評(píng)估。
此外,實(shí)體密度特征、文本連貫性等因素也被用于文本可讀性研究。皮特勒和內(nèi)爾科娃(Pitler&Nenkova 2008)結(jié)合詞匯、句法、語(yǔ)篇等特征預(yù)測(cè)英語(yǔ)文本可讀性,認(rèn)為語(yǔ)篇關(guān)系與文本可讀性密切相關(guān)。芬格、詹采和惠恩福斯等人(Feng、Jansche&Huenerfauth,et al.2010)討論了實(shí)體密度等語(yǔ)篇特征對(duì)文本可讀性的影響,提出了9個(gè)密度特征用于預(yù)測(cè)文本難度,取得了良好的效果。
本文的目的在于通過(guò)機(jī)器學(xué)習(xí)的方法,通過(guò)語(yǔ)料分析找到影響英語(yǔ)閱讀文本可讀性的關(guān)鍵語(yǔ)言學(xué)因素,為英語(yǔ)教學(xué)提供數(shù)據(jù)支持。為此,首先要確定潛在語(yǔ)言因素的范圍和指標(biāo)。
庫(kù)珀(Cooper 1984)認(rèn)為區(qū)分讀者閱讀能力的文本主要特征涉及時(shí)態(tài)/語(yǔ)態(tài)、詞匯、句子關(guān)系與句子連接、詞法關(guān)聯(lián)、上下文連貫性,以及讀者對(duì)主題的現(xiàn)有理解水平。本文選取了以往文獻(xiàn)中的140個(gè)語(yǔ)言特征并對(duì)其進(jìn)行分類:88個(gè)特征可由瓦賈拉(Vajjala 2015)提供的 nishkalavallabhi工具提取,其包括10個(gè)傳統(tǒng)特征、10個(gè)詞匯特征、29個(gè)詞法特征、28個(gè)句法特征和11個(gè)心理學(xué)特征;52個(gè)特征可由李、張、李(Lee、Jang&Lee 2021)開發(fā)的LingFeat工具提取,其包括24個(gè)詞匯特征和28個(gè)語(yǔ)篇特征。
為保證特征選擇的全面性,實(shí)現(xiàn)與教學(xué)實(shí)踐的緊密結(jié)合,進(jìn)一步調(diào)研了一線英語(yǔ)教師和英語(yǔ)編輯,結(jié)合他們的英語(yǔ)教學(xué)經(jīng)驗(yàn),補(bǔ)充三組新特征并開發(fā)提取工具:語(yǔ)篇詞匯難度特征、句法結(jié)構(gòu)特征和謂詞結(jié)構(gòu)特征。這三組特征具體刻畫如下:
詞匯對(duì)語(yǔ)篇理解的影響除了與詞匯在語(yǔ)料庫(kù)中的頻率相關(guān)之外,還與其在語(yǔ)篇中出現(xiàn)的數(shù)量相關(guān)。因此,提出語(yǔ)篇詞匯難度這個(gè)概念刻畫上述特征。目標(biāo)文本的語(yǔ)篇詞匯難度由a%word表示,它是目標(biāo)文本前a%難詞的文本難度值累加。
一般來(lái)說(shuō),一個(gè)詞匯在語(yǔ)篇中出現(xiàn)得越多,其對(duì)語(yǔ)篇認(rèn)知難度的影響越大;兩個(gè)在語(yǔ)篇中出現(xiàn)頻率相同的詞匯,在語(yǔ)料庫(kù)中出現(xiàn)頻率較低的詞匯對(duì)語(yǔ)篇認(rèn)知難度的影響越大。基于上述分析,一個(gè)詞匯在語(yǔ)篇中的難度值計(jì)算公式如下:
語(yǔ)篇詞匯難度a%word由對(duì)文本難度影響最大的前a%難詞計(jì)算。對(duì)于讀者來(lái)說(shuō),當(dāng)文本中生詞占比超過(guò)某一閾值時(shí),就難以通過(guò)閱讀文本獲取信息。參考王金巴(2015)關(guān)于生詞密度對(duì)英語(yǔ)閱讀理解影響的研究,選擇前20%難詞累加其語(yǔ)篇難度,并將其作為語(yǔ)篇詞匯難度特征。
為了使特征構(gòu)建與實(shí)際英語(yǔ)教學(xué)相一致,進(jìn)一步細(xì)化實(shí)現(xiàn)了句法結(jié)構(gòu)特征和謂語(yǔ)結(jié)構(gòu)特征的計(jì)算機(jī)自動(dòng)識(shí)別。
開發(fā)了細(xì)粒度的句法識(shí)別提取工具,該工具能夠識(shí)別常見的主語(yǔ)從句、賓語(yǔ)從句、表語(yǔ)從句、定語(yǔ)從句和狀語(yǔ)從句。以此為基礎(chǔ),將文本中各類從句數(shù)量與文本句子總數(shù)的比值作為新的句法結(jié)構(gòu)特征(見表1)。同時(shí),新的工具還能識(shí)別包括時(shí)態(tài)、情態(tài)、語(yǔ)態(tài)在內(nèi)的255種謂語(yǔ)結(jié)構(gòu)和非謂語(yǔ)結(jié)構(gòu)。從中選擇與日常英語(yǔ)教學(xué)及閱讀文本難度分級(jí)相關(guān)性最高的20個(gè)謂語(yǔ)結(jié)構(gòu),將這些結(jié)構(gòu)在文本中出現(xiàn)的次數(shù)與文本句子總數(shù)的比值作為新的謂語(yǔ)結(jié)構(gòu)特征(見表2)。
表1:句法結(jié)構(gòu)特征
表2:主要謂語(yǔ)結(jié)構(gòu)特征(按相關(guān)性強(qiáng)弱排序)
綜上,實(shí)驗(yàn)關(guān)注的特征包括以往文獻(xiàn)中已有的140個(gè)語(yǔ)言特征和三類新引入的語(yǔ)言特征(包括1個(gè)詞匯難度特征、5個(gè)句法結(jié)構(gòu)特征、20個(gè)謂語(yǔ)結(jié)構(gòu)特征),總計(jì)166個(gè)語(yǔ)言特征。
使用《雙語(yǔ)學(xué)習(xí)報(bào)》小學(xué)四年級(jí)至高中三年級(jí)九個(gè)年級(jí)的900篇閱讀文本作為分級(jí)語(yǔ)料(每個(gè)年級(jí)100篇),將閱讀文本的年級(jí)歸屬作為文本難度的數(shù)值刻畫。
為了確定各類語(yǔ)言特征對(duì)文本難度的影響,實(shí)驗(yàn)將全部166個(gè)語(yǔ)言特征分為傳統(tǒng)特征、詞匯特征、詞法特征、句法特征、語(yǔ)篇特征、心理學(xué)特征、謂語(yǔ)結(jié)構(gòu)特征等7組。這7組特征內(nèi)部的各個(gè)特征表現(xiàn)出很高的相關(guān)性,實(shí)驗(yàn)將通過(guò)依次篩選代表特征的方法,找到影響英語(yǔ)閱讀的核心因素及其重要性排序。
本實(shí)驗(yàn)使用線性核的支持向量機(jī)(SVM)算法基于各種語(yǔ)言特征在《雙語(yǔ)學(xué)習(xí)報(bào)》上擬合文本難度。在每次擬合后,選擇難度影響因素最大的一個(gè)特征保留,并將其所在組的其他特征刪除。然后,與剩余的其他組特征進(jìn)行下一輪擬合,直到所有特征組篩選結(jié)束。由于傳統(tǒng)特征大都是其他各組基礎(chǔ)特征的組合,不能直觀展現(xiàn)各類特征的影響,僅對(duì)其他6組156個(gè)特征訓(xùn)練文本難度預(yù)測(cè)模型。在評(píng)價(jià)指標(biāo)方面,柯林斯-湯普森和卡倫(Collins-Thompson&Callan 2004)認(rèn)為相鄰年級(jí)文本具有強(qiáng)相關(guān)性。因此,采用臨近準(zhǔn)確度評(píng)價(jià)模型預(yù)測(cè)效果。具體實(shí)驗(yàn)結(jié)果見表3。
表3:語(yǔ)言特征篩選結(jié)果
表4所示實(shí)驗(yàn)篩選出的語(yǔ)言特征依次是詞匯特征20%word(語(yǔ)篇詞匯難度)、詞法特征POS_correctedVV1(動(dòng)詞多樣性)、心理學(xué)特征AoA_Kup_Lem(詞匯認(rèn)知年齡平均值)、句法特征SYN_num NPsPerSen(名詞短語(yǔ)句中占比)、語(yǔ)篇特征ra_NX To_C(實(shí)體在前句非主語(yǔ)賓語(yǔ),在后句作為其他成分句子的比例)、謂語(yǔ)結(jié)構(gòu)特征WAS/WERE_VBN(過(guò)去時(shí)+動(dòng)詞原形)。6個(gè)特征組合預(yù)測(cè)的相鄰準(zhǔn)確度達(dá)83.6%,較好地實(shí)現(xiàn)了文本難度預(yù)測(cè)。
表4:特征排序及含義
實(shí)驗(yàn)結(jié)果表明,第一,詞匯相關(guān)的兩個(gè)典型特征對(duì)文本可讀性的影響居于首位:前20%語(yǔ)篇詞匯難度(可理解為讀者完全理解文本所需掌握的詞匯量)和動(dòng)詞使用的多樣性。這一結(jié)果與馬克斯、多克托羅和維特羅克(Marks、Doctorow&Wittrock 1974)的觀點(diǎn)一致:在所有影響文本可讀性的因素中,詞匯難度的影響最大。瓦賈拉和默爾斯(2012)也有類似結(jié)論:詞匯特征比句法特征在第二語(yǔ)言閱讀文本預(yù)測(cè)中表現(xiàn)得更好。這說(shuō)明提升詞匯量、加深詞匯的理解和靈活掌握對(duì)提升閱讀能力是最關(guān)鍵的。
第二,心理學(xué)語(yǔ)言特征單詞習(xí)得年齡對(duì)文本難度的影響在句法、時(shí)態(tài)之上。對(duì)單詞習(xí)得年齡特征的理解:?jiǎn)卧~習(xí)得年齡是一語(yǔ)的語(yǔ)言特征,對(duì)于二語(yǔ)學(xué)習(xí)者,可以將其理解為語(yǔ)言使用者對(duì)相關(guān)事實(shí)、知識(shí)了解和掌握的年齡。對(duì)二語(yǔ)學(xué)習(xí)者來(lái)說(shuō),如果能夠理解詞匯背后所表征的事物和知識(shí),那么就可以利用已有知識(shí)理解文本,而不再依賴于對(duì)句子的語(yǔ)法解析理解文本;如果缺乏相應(yīng)背景知識(shí),則只能通過(guò)對(duì)句子句法、語(yǔ)態(tài)、時(shí)態(tài)等語(yǔ)法特征的解析構(gòu)建和理解知識(shí)。顯然,具有相關(guān)經(jīng)驗(yàn)、知識(shí)理解文本會(huì)更容易。因此,擴(kuò)展認(rèn)知廣度可能比學(xué)習(xí)語(yǔ)法知識(shí)更有助于理解能力的提升。
第三,文本連貫性是一個(gè)與文本寫作相關(guān)的因素:連貫性好,文本的可讀性好;連貫性差,文本內(nèi)概念的跳躍和轉(zhuǎn)換越多,理解難度大。實(shí)驗(yàn)結(jié)果顯示:語(yǔ)篇連貫性特征ra_NXTo_C影響效果比時(shí)態(tài)、語(yǔ)態(tài)等語(yǔ)法因素的影響大。這表明時(shí)態(tài)、語(yǔ)態(tài)等因素對(duì)于閱讀文本可讀性的影響較小。盡管通過(guò)與其他語(yǔ)言特征的融合,細(xì)粒度時(shí)態(tài)、語(yǔ)態(tài)特征能夠改善文本可讀性預(yù)測(cè),但與詞匯、心理認(rèn)知、句法、語(yǔ)篇等特征相比,其并非影響文本可讀性的重要因素。
語(yǔ)言特征重要性排序?qū)嶒?yàn)說(shuō)明了常見語(yǔ)言特征對(duì)英語(yǔ)閱讀文本可讀性影響的大小。下面通過(guò)實(shí)驗(yàn)進(jìn)一步闡述影響文本可讀性的核心語(yǔ)言學(xué)特征。
核心影響因素篩選實(shí)驗(yàn)是在不考慮特征類別的基礎(chǔ)上,利用交叉驗(yàn)證的遞歸特征消除算法(RFECV),從所有166個(gè)語(yǔ)言特征中篩選出影響文本可讀性的核心要素。具體的,采用Scikit庫(kù)RFECV算法實(shí)現(xiàn),基模型選擇具有線性核的支持向量機(jī)。RFECV包括RFE階段(Recursive feature elimination)和 CV 階段(Cross Validation):在 RFE階段,算法通過(guò)遞歸逐步消除特征,實(shí)現(xiàn)對(duì)所有特征重要性評(píng)級(jí);在CV階段,算法通過(guò)交叉驗(yàn)證,選擇最佳的特征組合。
本文對(duì)比了使用瓦賈拉(2015)和李、張、李(2021)的研究中140個(gè)已有特征與引入本文提出的26個(gè)特征后的實(shí)驗(yàn)效果,結(jié)果見表5。實(shí)驗(yàn)顯示:在引入26個(gè)新特征后,使用RFECV方法獲得的相鄰準(zhǔn)確度提升到86.2%,且核心特征數(shù)量由23個(gè)降到8個(gè)。在提升預(yù)測(cè)準(zhǔn)確性的同時(shí)提升了文本可讀性影響因素的可解釋性。篩選得到的影響文本可讀性的8個(gè)核心特征見表6。
表5:核心影響因素的相鄰準(zhǔn)確度
表6:特征排序及權(quán)重
綜合兩項(xiàng)實(shí)驗(yàn):影響文本可讀性的關(guān)鍵因素涉及詞匯、心理、句法和語(yǔ)篇,重要性依次遞減,時(shí)態(tài)、語(yǔ)態(tài)等謂語(yǔ)結(jié)構(gòu)特征并非主要因素。結(jié)合英語(yǔ)教學(xué)經(jīng)驗(yàn)認(rèn)為:提升英語(yǔ)閱讀能力的關(guān)鍵在于:提升詞匯量(包括詞匯數(shù)量、重點(diǎn)詞匯區(qū)分和使用)、擴(kuò)展認(rèn)知廣度、提升復(fù)雜長(zhǎng)句解析能力。這些對(duì)學(xué)生英語(yǔ)閱讀水平的提高有重要意義。從實(shí)驗(yàn)數(shù)據(jù)看,時(shí)態(tài)、語(yǔ)態(tài)等語(yǔ)法特征對(duì)英語(yǔ)文本可讀性的影響不大,但其對(duì)于英語(yǔ)學(xué)習(xí)的其他方面,特別是寫作和口語(yǔ)表達(dá),依然具有重要意義,不應(yīng)該被忽視。
利用自然語(yǔ)言處理和人工智能技術(shù)的研究成果,分析了《雙語(yǔ)學(xué)習(xí)報(bào)》小學(xué)四年級(jí)至高中三年級(jí)九個(gè)年級(jí)共900篇英語(yǔ)閱讀文本。實(shí)驗(yàn)結(jié)果顯示:影響二語(yǔ)閱讀的關(guān)鍵語(yǔ)言因素包括難詞、詞匯豐富度、心理認(rèn)知水平、句法結(jié)構(gòu)和語(yǔ)篇連貫性等。通過(guò)與一線英語(yǔ)教師和英語(yǔ)教學(xué)編輯的交流,認(rèn)為數(shù)據(jù)分析結(jié)果與一線英語(yǔ)教學(xué)經(jīng)驗(yàn)一致:英語(yǔ)閱讀能力的提升可重點(diǎn)從詞匯教學(xué)、認(rèn)知擴(kuò)展和句法分析等方面入手。希望這一工作可為廣大英語(yǔ)教育工作者提供數(shù)據(jù)支持:通過(guò)語(yǔ)料分析驗(yàn)證英語(yǔ)工作者的經(jīng)驗(yàn),實(shí)現(xiàn)信息技術(shù)與英語(yǔ)教學(xué)實(shí)踐的有機(jī)結(jié)合,利用人工智能技術(shù)助力英語(yǔ)教學(xué)。