吳思遠(yuǎn),蔡建永,于 東,江 新
(1. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083;2. 北京語言大學(xué) 對外漢語研究中心,北京 100083;3. 北京語言大學(xué) 漢語速成學(xué)院,北京 100083)
閱讀是人類獲取信息和知識的重要途徑。難度適當(dāng)?shù)拈喿x材料不僅可以使閱讀過程順利進(jìn)行,還可以提升讀者的閱讀能力。相應(yīng)地,超出或低于讀者水平的文本不僅會(huì)影響讀者的閱讀體驗(yàn),還可能對基本文本信息的提取造成阻礙[1]。隨之而來的問題是: 是什么導(dǎo)致了文本之間的難度差距?影響文本難度的核心特征是什么?文本難度是否可以進(jìn)行度量?是否可以借助計(jì)算機(jī)對文本難度進(jìn)行自動(dòng)分析?學(xué)者們從不同角度對文本難度問題進(jìn)行了探討,這些研究后來被統(tǒng)稱為可讀性(readability)研究[2]。
可讀性研究是語言學(xué)和心理學(xué)領(lǐng)域的重要課題之一,對文本進(jìn)行可讀性分析是可讀性研究的核心。可讀性分析的任務(wù)是,給定一篇文本,通過對文本進(jìn)行分析,給出該文本的難度值或判斷該文本適合哪一水平的讀者。最初的可讀性分析主要是請有經(jīng)驗(yàn)的專家或教師對文本難度進(jìn)行主觀評定,這種方法具有很強(qiáng)的主觀性,評定者的標(biāo)準(zhǔn)不同,目的不同,評定結(jié)果也往往不同。
文本可讀性的自動(dòng)分析可以追溯到20世紀(jì)20年代[3]。所謂可讀性的自動(dòng)分析,就是對文本難度進(jìn)行定量、自動(dòng)的評估與分析,是一種預(yù)測性的手段,具有客觀性和經(jīng)濟(jì)性的優(yōu)點(diǎn)??勺x性的自動(dòng)分析有很多應(yīng)用場景。在教育領(lǐng)域,評估文本難度可以幫助教師為學(xué)習(xí)者選擇合適的閱讀材料[4],為教材編寫提供科學(xué)依據(jù)[5],對閱讀測試、課程規(guī)劃有一定參考價(jià)值[6]。在自然語言處理領(lǐng)域,計(jì)算機(jī)科學(xué)家把可讀性分析應(yīng)用于智能改編[7]、作文自動(dòng)評分[8]等任務(wù);或借助可讀性自動(dòng)分析提煉和歸納源文檔的主要內(nèi)容,對自動(dòng)文摘的質(zhì)量進(jìn)行評估[9];或通過分析網(wǎng)頁文本,對用戶的閱讀興趣和搜索習(xí)慣進(jìn)行預(yù)測和推薦[10]。
根據(jù)分析思路和關(guān)鍵技術(shù)的不同,我們將可讀性的自動(dòng)分析方法分為公式法、分類法、排序法三類。①公式法: 通過建立線性方程的方式,把文本難度最相關(guān)的一些語言特征作為變量來預(yù)測文本的難度值,使用的特征一般為淺層的語言特征,如詞長、句長等;②分類法: 研究者把文本難度的預(yù)測作為分類任務(wù),從不同等級的文本中學(xué)習(xí)一系列具有區(qū)別性的文本特征,構(gòu)造分類模型,輸入沒有標(biāo)簽的新文本后,分類模型根據(jù)學(xué)習(xí)的結(jié)果估計(jì)文本的難度等級;③排序法: 構(gòu)建比較器或人工標(biāo)注得到文本的兩兩相對難度,對文本進(jìn)行排序,得到按難度排序的文本集合,缺點(diǎn)是不能給出具體的難度值或難度等級。
本文主要梳理已有的可讀性研究,組織如下: 第1節(jié)總結(jié)可讀性自動(dòng)分析的主要方法和基本技術(shù);第2節(jié)對可讀性分析中的重要環(huán)節(jié)——文本特征選擇和現(xiàn)有數(shù)據(jù)資源進(jìn)行梳理;第3節(jié)回顧漢語文本的可讀性研究;最后一節(jié)對未來的可讀性研究進(jìn)行展望。
所謂可讀性公式,就是針對某種閱讀文本,將影響閱讀難度的、可進(jìn)行量化的文本因素綜合起來,制定的一個(gè)評估文本難易程度的公式[11]。它通常給出數(shù)值結(jié)果作為文本難度分?jǐn)?shù)。
可讀性公式的構(gòu)建主要包括兩方面的內(nèi)容: ①與可讀性級別密切相關(guān)的文本因素;②各因素與可讀性級別之間的函數(shù)關(guān)系。可讀性公式以學(xué)生的閱讀理解成績作為文本難度,在客觀數(shù)據(jù)的基礎(chǔ)上,利用相關(guān)性分析確定影響文本難度的主要因素,根據(jù)因變量(文本可讀性)與自變量(文本各因素)之間的關(guān)系,擬合文本可讀性公式。
可讀性公式假設(shè)因變量與自變量線性相關(guān),其模型被定義為式(1)。
在20世紀(jì)20年代,Vogel等[3]首次使用回歸方程的方式,將多個(gè)文本特征納入可讀性公式,該研究方法對后來的可讀性公式研究影響深遠(yuǎn)。20世紀(jì)50年代之后可讀性公式的構(gòu)建逐漸興盛,到80年代,超過200個(gè)可讀性公式被構(gòu)建出來并廣泛應(yīng)用于出版社、研究所、醫(yī)療說明、法律、保險(xiǎn)等行業(yè)[12]。美國教育部和國防部也建立了以可讀性公式為中心的可讀性分析體系,用來對教育體系中使用的教材、國家政策中使用的文件進(jìn)行評估和定級。英文中幾個(gè)較為權(quán)威的可讀性公式如表 1所示。
表 1 具有代表性的英文可讀性公式
注: RL(Reading Level):可讀性級別;SL:平均句長,即平均每個(gè)句子的平均單詞數(shù);DW:不在3 000常用詞表的非常用詞的數(shù)量;HW指文本中難詞的比例;WL:平均單詞長度;sent: 句子數(shù);150 words: 在150詞表里的詞數(shù)。
使用可讀性公式評估文本的難易程度具有客觀性、簡便性和經(jīng)濟(jì)性等特點(diǎn)。使用公式可以快速地獲得文本難度的分析結(jié)果,比較實(shí)用。但是,影響文本難度的因素很多,可讀性公式只能考慮有限的可計(jì)量的文本特征,無法把所有影響文本可讀性的變量如語法語義、句法、篇章等考慮在內(nèi)[10,18],因此可讀性公式的效度一直頗受爭議[19]。不可否認(rèn)的是,可讀性公式法,是研究者試圖針對特定閱讀人群,通過量化手段客觀地評估文本閱讀難度的方法??勺x性公式的構(gòu)建是傳統(tǒng)性公式的重要內(nèi)容,也為后來的可讀性研究奠定了基礎(chǔ)。
在機(jī)器學(xué)習(xí)中,分類被定義為:給定一組訓(xùn)練實(shí)例X1,X2,…,Xn,每個(gè)訓(xùn)練實(shí)例有類別標(biāo)簽。通過學(xué)習(xí)有標(biāo)簽的訓(xùn)練實(shí)例,訓(xùn)練模型f(X→Y)從而對新的實(shí)例給出類別預(yù)測[20]?;诜诸惖目勺x性分析方法把可讀性評估任務(wù)當(dāng)成分類任務(wù),通過學(xué)習(xí)一系列具有區(qū)別性的語言特征,訓(xùn)練分類模型,以確定未知文本的可讀性級別不同可讀性級別的語料中學(xué)習(xí)一系列具有區(qū)別性的語言特征,構(gòu)建分類模型,分類模型通過對未知文本特征進(jìn)行分析,判別該文本是否屬于某一難度級別。
大量研究表明,除了淺層的句長、詞長等,基于分類方法的可讀性自動(dòng)分析能考慮更多的語言特征,如詞匯熟悉度、句法復(fù)雜度等,評估結(jié)果比可讀性公式準(zhǔn)確,而且在區(qū)分高難度文本上有顯著優(yōu)勢[21-23]。研究常使用的分類模型有N元詞串隸屬度模型和支持向量機(jī)。
1.2.1 N元詞串隸屬度模型
N元詞串隸屬度模型是一種基于詞概率的統(tǒng)計(jì)語言模型。該方法把文本當(dāng)成一連串的字符序列,并假定文本的可讀性級別和文本的用詞有關(guān)且文本的可讀性級別互相獨(dú)立。在訓(xùn)練階段,該方法首先根據(jù)訓(xùn)練樣本數(shù)據(jù),統(tǒng)計(jì)每個(gè)N元詞串隸屬于每個(gè)級別的概率模型。在預(yù)測階段,對于一個(gè)未知級別文本T,計(jì)算其屬于所有級別的隸屬度,取隸屬度最大的為與文本相匹配的難度等級,如式(2)所示。
給定某一級別的概率模型Gi,w為文本T的用詞,C(w)為詞匯w在T中出現(xiàn)的頻次。
不同難度的文本詞匯的使用和分布不同,文本詞匯信息能有效預(yù)測文本的難易程度[22]。Si等[24]首次在文本可讀性分析上使用一元詞串隸屬度模型。該研究在3個(gè)等級共91篇文本的數(shù)據(jù)集上訓(xùn)練了一元模型,并和句長一起進(jìn)行文本可讀性預(yù)測,模型準(zhǔn)確率為75.4%,而Flesch-Kincaid公式[17]的準(zhǔn)確率僅為21.3%。實(shí)驗(yàn)表明,使用該模型預(yù)測文本難易度比僅使用句長、詞長特征的可讀性公式表現(xiàn)更好。Collins-Thompson等[25]收集了12個(gè)難度等級共550篇網(wǎng)頁文本來訓(xùn)練概率模型,該研究通過相鄰等級文本之間的關(guān)系,使用Good-Turing平滑算法對預(yù)測文本出現(xiàn)在某一等級的概率進(jìn)行估計(jì),模型的預(yù)測結(jié)果與原等級的相關(guān)性最高為0.93。
通過文本的詞匯信息判斷文本難度等級的統(tǒng)計(jì)語言模型比可讀性公式的準(zhǔn)確率更高。其次,N元詞串隸屬度模型在網(wǎng)頁文本和短文本上表現(xiàn)較好,而可讀性公式一般要求文本長度大于200詞。
1.2.2 支持向量機(jī)
支持向量機(jī)是Cortes 等[26]提出的基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的統(tǒng)計(jì)學(xué)習(xí)理論,主要應(yīng)用于分類問題。
Schwarm[27]使用支持向量機(jī)進(jìn)行可讀性分析。訓(xùn)練過程中使用了從N元模型中學(xué)習(xí)到的文本特征,以及一些詞法、句法特征。該模型評估結(jié)果的準(zhǔn)確率在79%到94.5%之間,而傳統(tǒng)的Flesch-Kincaid可讀性公式的準(zhǔn)確率則在21%到41%之間。可見,支持向量機(jī)分類器的方法要明顯優(yōu)于傳統(tǒng)的評估方法。該研究在低年級、短文本的分類中顯示出了良好的性能,但對較高等級的文本卻難以得到令人滿意的區(qū)分結(jié)果。Petersen等[27]在Schwarm的基礎(chǔ)上,選取了相同的語言特征,通過在訓(xùn)練集中加入負(fù)樣本的方法,提升了分類器的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果顯示,加入負(fù)樣本的支持向量機(jī)分類器在高等級文本的區(qū)分上有明顯進(jìn)步。支持向量機(jī)的訓(xùn)練要求求解計(jì)算復(fù)雜度極高的二次規(guī)劃問題,為了緩解訓(xùn)練樣本數(shù)越多、實(shí)際任務(wù)中的開銷越大的問題,Aluisio等[28]在訓(xùn)練支持向量機(jī)時(shí)使用了序列最小優(yōu)化算法,高效優(yōu)化了分類器的訓(xùn)練過程。
鑒于支持向量機(jī)在可讀性評估上的優(yōu)異表現(xiàn),后來的研究者嘗試在支持向量機(jī)的基礎(chǔ)上對整個(gè)評估流程進(jìn)行改進(jìn)?;蚴褂觅|(zhì)量更高的訓(xùn)練語料[29],或?qū)φZ言特征進(jìn)行進(jìn)一步篩選整合[30-31]。Chen[32]借助從 E-HowNet 中學(xué)習(xí)的詞匯關(guān)系為中學(xué)課文構(gòu)建了詞匯鏈,并結(jié)合詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)所篩選的詞作為特征,支持向量機(jī)分類器在低年級的最好分類準(zhǔn)確率為96%,在中級的最好分類結(jié)果為85%。Cha等[33]在預(yù)測文本的可讀性時(shí)使用Word2Vec和FastText兩種方法構(gòu)建詞向量和段落向量,然后分別使用布朗聚類(Brown clustering)和K近鄰進(jìn)行聚類,支持向量機(jī)通過自主學(xué)習(xí)的特征對文本的難度進(jìn)行預(yù)測,預(yù)測結(jié)果與原等級的相關(guān)性超過80%。
良好的分類模型需要帶有文本難度標(biāo)注的語料庫。英文的可讀性研究起步較早,資源較多,其他語言中分級文本語料庫較少且難以獲取,如果使用標(biāo)注準(zhǔn)確度很高的教材課文文本,又可能涉及版權(quán)問題。因此,如何在缺乏帶有標(biāo)注的大規(guī)模語料庫的情況下對文本的可讀性進(jìn)行評估,是可讀性分析面臨的問題之一。
在缺乏帶難度等級標(biāo)簽數(shù)據(jù)的情況下,Tanaka-Ishii等[34]使用基于排序的方法對文本的難度進(jìn)行測定。假定文本存在難易值,對于任意兩個(gè)文本 ,它們的難易關(guān)系有三種:
γ(x)>γ(y);γ(x)<γ(y);γ(x)=γ(y)(3)
如果可以從數(shù)據(jù)中學(xué)習(xí)一個(gè)難度比較器,就可以對語料庫中的文本進(jìn)行排序。對于排序好的文本集C中的任意兩個(gè)文本都滿足γ(Ci)≤γ(Ci+1)。該研究首先利用只有難易兩個(gè)類標(biāo)注的文本訓(xùn)練比較器,然后使用二分插排算法對經(jīng)過比較的文本進(jìn)行排序,如此循環(huán)直到數(shù)據(jù)集中的所有文本全部被比較,即可得到排序好的文本集C。
該研究開發(fā)了基于排序方法的Terrace網(wǎng)頁分析器,如圖 1所示。網(wǎng)頁分析器每天收集CNN的新聞文本,文本經(jīng)過支持向量機(jī)比較器后,所有新聞文本在后臺(tái)以有序狀態(tài)排列。當(dāng)用戶上傳文本后, 分析器會(huì)給出分析文本在后臺(tái)語料庫中的難度位置,并向用戶推薦語料庫中與待分析文本可讀性距離最近的文章。
圖1 Terrace網(wǎng)頁分析器
在理想的情況下,比較器可以對兩篇文本進(jìn)行準(zhǔn)確的難易判斷,但事實(shí)是,比較器總存在一定的誤差,從而影響比較器的判斷。佐藤理史[35]在對文本進(jìn)行難度排序時(shí)考慮了ρ誤差的存在,把比較器修改為式(4)。
除了構(gòu)建比較器外,Schumacher等[36]使用人工標(biāo)注的方法得到排序文本,要求眾包平臺(tái)上的評估者閱讀兩篇文本,并判斷這兩篇文本的相對難度。研究者得到兩兩比較的數(shù)據(jù),通過使用評分排序算法如Trueskill[37]得到最終的排序文本集。
排序法的優(yōu)勢在于: 第一,文本的相對難度更符合實(shí)際認(rèn)知,人們不能給出文本絕對的難度值,但對于給定的兩篇文本,人們可以判定哪篇文本更難。同時(shí),文本的難度值是一個(gè)連續(xù)統(tǒng),文本與文本之間有難度的連續(xù)關(guān)系。第二,排序算法對標(biāo)注信息要求不高,在缺乏多等級標(biāo)注語料庫的情況下不失為一種好的選擇。三種方法的對比如表 2所示。
表 2 公式法、分類法、排序法的主要思路及優(yōu)缺點(diǎn)
目前可讀性研究主要集中在對文本特征的分析及效度驗(yàn)證上[38],本文把英文可讀性研究中使用的特征分為四個(gè)一級特征,在此基礎(chǔ)上,將該范疇下所涉及的子特征細(xì)分為二級特征,將具體可度量的文本特征作為三級特征,從而構(gòu)建一個(gè)層級化的可讀性特征體系,如表 3所示。
表 3 英文可讀性特征體系表
大多數(shù)可讀性公式把詞匯難度和句子難度作為衡量文本難度的標(biāo)準(zhǔn)。平均句長是僅有的衡量句子難度的特征。一些公式使用詞長、音節(jié)數(shù)和字母數(shù)作為衡量詞匯復(fù)雜度的指標(biāo),但Dale-Chall可讀性公式[39]在衡量詞匯復(fù)雜度時(shí)使用了常用詞表來計(jì)算文本中常用詞的占比: 文本使用的常用詞越多,讀者對詞匯越熟悉,文本越簡單。Petersen 等[27]在四個(gè)語料庫上分別訓(xùn)練了一元、二元和三元語言模型,把這12個(gè)語言模型的困惑度(perplexity)作為詞匯難度的指標(biāo)。Feng[23]使用了四種文本序列表示方法,即詞序列、詞性序列、詞+詞性序列、信息增益(information gain)選擇后的詞+詞性序列來表示四個(gè)訓(xùn)練集,也分別訓(xùn)練了三個(gè)語言模型,把48個(gè)困惑度作為文本詞匯特征。Schwarm等[21]把機(jī)器學(xué)習(xí)的方法應(yīng)用于文本可讀性分析,可以納入更多的特征,如衡量詞匯多樣性常用的類符/形符比(the type-token ratio ,TTR)和文本的句法特征,包括句法樹的高度、從句及復(fù)雜從句的數(shù)量和長度、實(shí)詞和功能詞的數(shù)量、動(dòng)詞短語和名詞短語的數(shù)量等。
Graesser等[40]認(rèn)為,文本的銜接和連貫影響文本的可讀性,在對文本可讀性進(jìn)行分析時(shí),不僅要考慮詞匯句法特征,還要加入深層篇章語義特征。為了更好地分析文本,該團(tuán)隊(duì)開發(fā)了一個(gè)文本分析工具Coh-Metrix。Coh-Metrix作為一個(gè)基于網(wǎng)絡(luò)的文本分析工具,融合了計(jì)算語言學(xué)和語料庫語言學(xué)的多種技術(shù),可以對文本的106個(gè)詞匯語法和篇章特征進(jìn)行自動(dòng)抽取。Feng[18]從實(shí)體詞密度、詞匯鏈、指代推理和實(shí)體網(wǎng)格(entity grid)[41]三種范疇出發(fā)抽取了共20個(gè)篇章有關(guān)的特征來評估文本可讀性。Lin等[42]在評估文本可讀性時(shí)使用了語義網(wǎng)和WordNet的詞匯關(guān)系。其做法是,對于給定的名詞,根據(jù)其在WordNet中的位置,找出其上位詞和下位詞,將閱讀者最容易理解的概念定義為基礎(chǔ)詞,基于由基礎(chǔ)詞構(gòu)成的短語頻率和上下位詞的長度差異,利用目標(biāo)文本中基礎(chǔ)詞的比例來估計(jì)文本可讀性等級。
表 4對比了相同數(shù)據(jù)集下使用不同特征及其組合進(jìn)行預(yù)測時(shí)模型的準(zhǔn)確率。
從數(shù)量上看,一般情況下,特征的數(shù)量與模型的效度成正比,特征越多,模型的預(yù)測能力越好。Feng等[18]的研究中,經(jīng)過擴(kuò)充的特征集(8→21)使得模型準(zhǔn)確率從50.91%提升到57.79%。研究也同時(shí)顯示,加入所有特征的模型表現(xiàn)最好,但在相同的范疇下,與所有特征相比(72.21%),經(jīng)過篩選的28個(gè)特征也有不錯(cuò)的預(yù)測能力(70.06%)。
從范疇上看,公式特征、詞匯特征和句法特征是被廣泛使用的文本特征,三者的效度得到了相關(guān)研究的證實(shí)[28,32]。三個(gè)范疇特征的組合使得Vajjala 等[29]模型的準(zhǔn)確率達(dá)到91.3%。從單個(gè)特征來說,詞匯特征的預(yù)測效度最好。Collins-Thompson等[25]研究顯示,以詞匯特征為基礎(chǔ)建立的語言模型在預(yù)測1~12等級的網(wǎng)頁文本時(shí)表現(xiàn)更好。Flor等[43]基于回歸模型考察了詞匯緊密度與文本復(fù)雜度之間的關(guān)系。結(jié)果顯示,詞匯緊密度都和文本復(fù)雜度密切相關(guān);文本等級越高,詞匯的緊密度就越小,預(yù)測能力越??;文本中的詞匯緊密度與文本復(fù)雜度的關(guān)系受文本類型的影響。詞匯特征的貢獻(xiàn)率大于語法特征,但二者結(jié)合起來的模型預(yù)測能力更好。雖然詞匯特征的效度高于句法特征,但句法特征在面向二語者的文本可讀性預(yù)測任務(wù)時(shí)表現(xiàn)更為突出[44-45]。篇章特征的效度還有待驗(yàn)證。一些研究者認(rèn)為,篇章特征與閱讀時(shí)的認(rèn)知過程有關(guān),是重要的評估文本難度的特征[40]。Pitler等[46]從六個(gè)角度(詞匯特征、句法特征、指代特征、實(shí)體詞和篇章特征)對比了文本難度相關(guān)的特征,發(fā)現(xiàn)每句中動(dòng)詞短語的數(shù)量、詞數(shù)、詞匯似然度、篇章似然度與文本難度等級密切相關(guān)。但在另一些研究中,加入了篇章特征的模型,其性能并沒有明顯的提高[23,47]。
表 4 Weekly Reader 下不同特征的效度對比
文本可讀性的自動(dòng)分析多是有監(jiān)督任務(wù),需要帶有難度標(biāo)記的數(shù)據(jù)集來訓(xùn)練預(yù)測模型。英語國家擁有較早的讀物分級意識,數(shù)據(jù)資源比較豐富。帶難度標(biāo)注的數(shù)據(jù)集主要有各州共同核心標(biāo)準(zhǔn)(Common Core State Standards,CCSS)中附屬的文本、the Weekly Reader分級雜志、The Weebit Corpus等。CCSS由美國教育部官方制定推廣,旨在為數(shù)學(xué)、藝術(shù)、文學(xué)領(lǐng)域的教育提供統(tǒng)一、具體的教育標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)對美國各年級(從幼兒園到初中)學(xué)生的學(xué)習(xí)目標(biāo)和閱讀能力進(jìn)行了明確的劃分,并給出了具體的符合各年級能力的閱讀文本范例。除了等級的劃分,該語料還標(biāo)注了文本類型,如故事、詩詞、說明文、戲劇等。The Weekly Reader(WR)分級雜志[注]http://classroommagazines.scholastic.com/是針對青少年發(fā)行的在線教育類周刊。Vajjala 等[29]綜合了The Weekly Reader 分級雜志和the BBC-Bitesize 網(wǎng)站[注]https://www.bbc.com/education的文本,建立了規(guī)模更大的語料庫——The Weebit Corpus。三個(gè)語料庫的對比如表5所示。
為了抽取文本的篇章特征,Pitler等[46]在可讀性研究中使用了賓州語篇樹庫(The Penn Discourse Treebank,PDTB)[48]語料庫。賓州語篇樹庫是Prasad等于2004年建立的大規(guī)模語料庫。賓州語篇樹庫標(biāo)注了文本的局部篇章關(guān)系,沒有難度標(biāo)注。該研究隨機(jī)選取了PDTB的30篇文本,從賓州樹庫中抽取篇章關(guān)系作為文本特征,同時(shí)對文本可讀性進(jìn)行了人工標(biāo)注,請大學(xué)生限時(shí)閱讀文本并按照一定規(guī)則對文本進(jìn)行1~5分的難易度評價(jià),把每篇文本得分的均值作為文本的可讀性級別。
表 5 CCSS、WeeklyReader、WeeBit語料庫對比
對于缺乏成熟數(shù)據(jù)集的語言,如日語、漢語等,研究者們選擇自己構(gòu)建語料庫,語料來源一般為教材課文文本[42,49]。眾包平臺(tái)的成熟使得部分研究者選擇利用眾包構(gòu)建語料庫[32,36,47]。Clercq等[50]的研究中,要求標(biāo)注者閱讀兩個(gè)段落并對比它們的相對難易度,把標(biāo)注者的標(biāo)注結(jié)果與專家的標(biāo)注結(jié)果進(jìn)行對比,發(fā)現(xiàn)二者并沒有顯著差別。
英語文本的可讀性研究發(fā)展較早,且成果豐富。 與英語不同,漢語文本可讀性研究仍處于起步階段,多集中在可讀性公式的研制上。
漢語可讀性公式的構(gòu)建大致遵循了英語可讀性公式的研究范式,但在特征選擇和應(yīng)用領(lǐng)域上具有自己的特點(diǎn)。特征選擇的不同是由漢、英各自的語言特點(diǎn)決定的。漢語的文字載體是漢字,從形體上來說,漢字是由筆畫構(gòu)成的方塊字;從性質(zhì)上來說,漢字是語素音節(jié)文字,一個(gè)漢字通常表示漢語里的一個(gè)詞或一個(gè)語素,具有音形義相統(tǒng)一的特點(diǎn)。楊孝溁[51]從字詞句三個(gè)粒度選取了筆畫數(shù)、完全對稱字率、單音詞率、成語比例等23個(gè)語言特征對中文報(bào)刊文本的可讀性進(jìn)行了相關(guān)性分析。Hong[52]應(yīng)用趨勢分析法,從詞、語義、句法、連貫四個(gè)層面選取了32個(gè)特征進(jìn)行對比分析。
在應(yīng)用上,漢語文本可讀性研究的成果主要集中在教學(xué)領(lǐng)域。在漢語作為母語的教學(xué)領(lǐng)域,張必隱等[53]利用初中二年級學(xué)生的完形填空成績對20篇字?jǐn)?shù)在250字左右的段落進(jìn)行了可讀性公式的擬合。荊溪昱[54]以年級作為因變量,對臺(tái)灣1~12年級的語文中國課本進(jìn)行了難度的量化分析,并比較了每篇課本實(shí)際年級與實(shí)際難度的偏差。
母語教學(xué)領(lǐng)域的工作給漢語作為二語的教學(xué)領(lǐng)域提供了可借鑒的經(jīng)驗(yàn)。對外漢語教學(xué)領(lǐng)域教材多樣,但多套教材在同一水平上重復(fù),缺乏科學(xué)的語言點(diǎn)設(shè)置和對外漢語教材評估體系[55-56]?;诖藸?,張寧志[57]借鑒母語教材的評估經(jīng)驗(yàn),使用每百字的句子數(shù)、平均句子長度、非常用詞數(shù)對常用的16本中高級教材進(jìn)行了難度評估,具有開創(chuàng)性價(jià)值。類似研究還有李燕[58]、羅素華[59]等。郭望皓[60]對外漢語文本難度進(jìn)行了探究,該研究首先通過問卷調(diào)查的方法,對影響對外漢語文本難度的因素進(jìn)行了調(diào)查和篩選,篩選后的文本通過CRITIC加權(quán)賦值法計(jì)算了各因素的權(quán)重系數(shù),最后擬合出對外漢語文本的可讀性公式,如式(5)所示。
其中x1為平均句長,x2為漢字難度,x3為詞匯難度,該公式的擬合優(yōu)度為0.917。
左虹等[61]在教師問卷調(diào)查和學(xué)生完形填空測試的基礎(chǔ)上,通過多元線性回歸的方法建立了一個(gè)針對中級歐美留學(xué)生的可讀性公式。王蕾[62]以90名初中級水平日本及韓國留學(xué)生在記敘性短文上的完形填空成績作為因變量,從字詞句篇四個(gè)方面篩選了17個(gè)特征對20篇短文的難度進(jìn)行量化,構(gòu)建了專門針對初中級日韓漢語學(xué)習(xí)者的可讀性公式。這兩項(xiàng)研究明確了所建立可讀性公式的適用范圍,對教學(xué)來說有一定的針對性和實(shí)用價(jià)值。
除了教學(xué)領(lǐng)域外,鄒紅建等[63]對對外漢語教學(xué)中常用的報(bào)刊文本進(jìn)行了可讀性研究。研究先假設(shè)報(bào)刊文本的難易度與文本長度和常用詞的比例有關(guān),然后通過比較文本位置偏移累加和人工標(biāo)注結(jié)果的方法確定二者的最佳系數(shù)。作者也指出,由于語料長度的限制,該系數(shù)并不是普遍適用的。宋曜廷等[64]對影響漢語文本可讀性的因素進(jìn)行了探究,并借鑒英文文本分析工具Coh-metrix[40],構(gòu)建了適用于中文的文本分析工具CRIE(the Chinese Readability Index Explorer),該工具主要關(guān)注中文文本的銜接性和連貫性,可以分析的指標(biāo)包括詞性、詞頻、銜接性、詞匯信息、連詞、句子結(jié)構(gòu)等。孫剛[65]選取表面特征、詞匯特征、語法特征和信息熵特征建立線性回歸模型進(jìn)行可讀性預(yù)測,重點(diǎn)探討了特征選擇工程對最終模型性能的影響。曾厚強(qiáng)等[66]結(jié)合FastText詞向量表示與深度學(xué)習(xí)模型(卷積神經(jīng)網(wǎng)絡(luò))對文本可讀性進(jìn)行分類預(yù)測。
漢語文本可讀性的自動(dòng)分析研究雖然取得了一些成果,但仍具有以下不足:
(1) 漢語文本可讀性研究在研究對象、數(shù)量、方法和應(yīng)用領(lǐng)域等方面都還比較有限,大部分是針對某個(gè)特定群體的學(xué)生進(jìn)行的教材分析和教學(xué)研究工作。從總體上看,面向二語者的可讀性研究成果豐富,面向廣泛母語人群的可讀性研究有廣闊的發(fā)展空間。
(2) 影響或預(yù)測漢語文本可讀性的指標(biāo)還有待擴(kuò)充和驗(yàn)證[64]。一方面,影響或預(yù)測拼音文本可讀性的語言特征不一定適用于漢語文本可讀性研究;另一方面,現(xiàn)有可讀性研究工作中使用的各項(xiàng)特征在范疇歸屬和特征效度上存在沖突,還有待系統(tǒng)地梳理和驗(yàn)證。
(3) 主要以線性模型為主,自然語言處理技術(shù)在中文可讀性的自動(dòng)分析研究上應(yīng)用不足。
(4) 公開的文本難度標(biāo)注語料庫構(gòu)建不足。由于缺乏公開的訓(xùn)練和測試數(shù)據(jù),研究者只能自己構(gòu)建教材課文語料庫,在模型評價(jià)時(shí)只能采用自評的辦法,缺少研究的橫向?qū)Ρ取?/p>
本文對近年來文本可讀性的自動(dòng)分析研究進(jìn)行了綜述。隨著網(wǎng)絡(luò)文本的大量涌現(xiàn),文本分析日益成為熱點(diǎn),文本可讀性分析是文本分析的重要內(nèi)容,涉及計(jì)算機(jī)科學(xué)、語言學(xué)、教育學(xué)和心理學(xué)多個(gè)學(xué)科。從最初的可讀性公式的研制,到近期的可讀性自動(dòng)分析工具[40,64]和模型的建立,自然語言處理技術(shù)的進(jìn)步為可讀性的自動(dòng)分析提供了多種思路和方法。文本可讀性研究作為一項(xiàng)有著豐富應(yīng)用場景的課題,今后的發(fā)展呈現(xiàn)以下趨勢:
(1) 知識信息的加入,包括篇章連接關(guān)系、推理知識和讀者知識背景等。知識信息的加入有助于區(qū)分難度較高的文本,需要分析和抽取文本篇章信息,或結(jié)合讀者的知識背景等個(gè)體差異。
(2) 探究文本類型對文本難度的影響。人們閱讀不同類型的文本時(shí)會(huì)采用不同的理解和加工策略[19]??勺x性公式無法區(qū)分由文本類型帶來的文本難度的差距,文本難度分類模型會(huì)產(chǎn)生類型偏差(genre bias),模型傾向于把文學(xué)文本(literary texts)劃分為更高的難度級別,把信息文本(informational text)劃分為更低的難度級別[67],現(xiàn)有的研究僅有部分注意到了文本類型的影響[68],卻沒有進(jìn)行更深入的分析。
(3) 使用深度學(xué)習(xí)模型和新的文本表示方法,如神經(jīng)網(wǎng)絡(luò)模型和基于詞向量的文本表示[33,66]。近年來隨著表示學(xué)習(xí)方法技術(shù)的蓬勃發(fā)展,訓(xùn)練可讀性模型所需要的特征可以不需要仰賴專家知識,這使得可讀性自動(dòng)分析的發(fā)展有了一個(gè)嶄新的研究方向。