劉 瀟
(武漢大學(xué)外國語學(xué)院,湖北武漢420072)
進(jìn)入信息社會(huì)后,人們可閱讀到的文本呈現(xiàn)爆炸式的增長。在外語教學(xué)領(lǐng)域,《歐洲語言共同參考框架:學(xué)習(xí)、教學(xué)、評估》(CECR)中提倡使用真實(shí)語料作為教學(xué)材料。而根據(jù)前蘇聯(lián)心理學(xué)家維果茨基(Vygotsky,1978)的最近發(fā)展區(qū)理論(Zone of Proximal Development)假設(shè)和美國語言學(xué)家克拉申(Krashen,1989)的語言學(xué)習(xí)輸入i/i+1理論(The input hypotheses),教學(xué)材料應(yīng)當(dāng)稍高于學(xué)習(xí)者當(dāng)前水平,才能達(dá)到最佳效果。但是,對于教學(xué)者和自學(xué)外語的學(xué)生而言,在繁多的資料中選取難度合適的文本,需要大量的時(shí)間與精力,他們迫切需要有力的工具以提高選取閱讀材料的效率。
為滿足這一需求,必須采用量化的方法,高效率地評估文本的困難程度,即易讀度(readability,也譯作易讀性)①對應(yīng)的法語單詞為lisibilité。國內(nèi)相關(guān)文章多采用“易讀性”這一譯法。“易讀性”也更為貼近外語單詞本義。但為強(qiáng)調(diào)對文本易讀程度的量化測量,此文中主要采用“易讀度”這一譯法。。美國早在上世紀(jì)20年代就開始致力于相關(guān)研究,并將總結(jié)出的易讀度公式運(yùn)用于英語教學(xué)、新聞、軍事等多個(gè)領(lǐng)域,以確保相關(guān)行業(yè)的文本更易為大眾所理解。2007年以來,這一課題也引起國內(nèi)英語教學(xué)、對外漢語和新聞等領(lǐng)域的學(xué)者越來越多的關(guān)注②根據(jù)中國知網(wǎng)的“學(xué)術(shù)趨勢”功能中的“學(xué)術(shù)關(guān)注度”對“易讀性”和“易讀度”兩個(gè)詞條的反饋,可以看到,具有這兩個(gè)關(guān)鍵詞的文本的收錄量之和在2007年之后有較大幅度上升。。
本文試圖對易讀度在英語、漢語和法語三個(gè)語種的國內(nèi)外研究方法和成果進(jìn)行綜述,并將重點(diǎn)放在教學(xué)領(lǐng)域。在第二部分中,分別介紹國外的英語和法語易讀度研究的歷史、發(fā)展和應(yīng)用情況;第三部分則將目光轉(zhuǎn)向國內(nèi),概覽英語教學(xué)界和漢語學(xué)者在易讀度上的成果;最后總結(jié)目前研究存在的問題,嘗試預(yù)測這一領(lǐng)域的發(fā)展趨勢。
與語言學(xué)研究的其他分支相似,美國學(xué)者在文本易讀度方面的研究走在前列,也最為成熟。最早的研究始于上世紀(jì)20年代萊弗利和普萊西(Lively&Pressey,1923)對教材詞匯難度的考察。相關(guān)研究的內(nèi)容主要集中在兩個(gè)方面:影響易讀度的因素和易讀度的測定方法。與之相關(guān)的還有語料的選取,以及評估測量結(jié)果的方法等問題,本文暫不討論。
從研究方法的演變,到研究工具的發(fā)展,文本難度研究大致可分為三個(gè)階段(Thomas Fran?ois,2012):
(1)20世紀(jì)20至70年代,易讀度的主流研究方法一直是由沃格爾和沃什伯恩(Vogel&Washburne)在1928年所提出的多元線性回歸模型。研究者將詞匯和語法作為區(qū)分文本難度的特征,選用單詞長度(或測量Dale-Chall等常用詞表之外單詞所得到的生疏詞比例)及句長等2(或3)個(gè)變量,通過手工抽樣或(50年代之后逐漸采用的)機(jī)器輔助統(tǒng)計(jì)的方式測出變量值,按其與易讀度的相關(guān)度為每個(gè)變量賦以權(quán)重并相加,構(gòu)建出上千個(gè)易讀度公式。
以弗雷奇(Flesch)在1948年提出的Flesch Reading Ease為例:
其中,wl(word length)=每個(gè)單詞的平均音節(jié)數(shù),sl(sentence length)=每個(gè)句子的平均單詞數(shù)。
該公式算出的分?jǐn)?shù)取值區(qū)間為0-100。分?jǐn)?shù)越低,說明文章越難。其數(shù)值對應(yīng)的難度參照表如下:
(表 1)
Flesch Reading Ease和Flesch-Kincaid Grade Level是得到最為廣泛應(yīng)用的兩個(gè)公式。二者都采用單詞和句子長度作為語義和句法復(fù)雜度的依據(jù),均被內(nèi)置于Microsoft Office Word軟件。后者更是美國國防部使用的標(biāo)準(zhǔn)文本難度測量公式。
此外,較常用的公式還有:Gunning-Fog Score,Coleman-Liau Index,Automated Readability Index(ARI),SMOG Index,Dale-Chall Readability Formula,F(xiàn)ry Readability Formula,Spache,F(xiàn)ORCAST 等。它們的預(yù)測變量都采用了傳統(tǒng)的一個(gè)詞匯因素加一個(gè)句法因素的形式,提出的時(shí)間較早,介于40年代末和60年代末之間。這些公式至今仍是易讀度應(yīng)用的主要工具。
以上易讀度公式具有顯著優(yōu)點(diǎn):使用起來十分便捷,所需的變量也易于獲取。但其缺點(diǎn)同樣明顯:對文本難度的評估被過度簡化。2~3個(gè)變量遠(yuǎn)不足以表達(dá)文本的復(fù)雜程度。詞長等因素本身與易讀度的關(guān)聯(lián)也有爭議。因此,必須引入新的思路和技術(shù)來評估文本難度。
(2)20世紀(jì)80至90年代,Kintsh、Vipond和Kemper等認(rèn)知心理學(xué)專家對傳統(tǒng)方法進(jìn)行了批評,認(rèn)為這些公式采用的僅僅是文本表層的特征,忽略了文本真實(shí)的復(fù)雜度。他們指出:在閱讀時(shí),讀者不僅對文章進(jìn)行詞匯的辨認(rèn)和語法的解讀,還需從概念上理解文本背后的涵義。鑒于此,他們提出了許多基于語義和篇章等認(rèn)知心理學(xué)領(lǐng)域因素的特征,如概念本身的難度(虛詞的比例、人稱代詞、同形多義詞的數(shù)量),概念密度(小句的數(shù)量),回指的密度以及彼此的距離,近義詞或邏輯聯(lián)結(jié)詞,相鄰句子之間的相似度,詞匯覆蓋度(即兩句之間相同的名詞/論元/詞干的數(shù)量)等等。
然而,他們的研究并沒有提升難度區(qū)分的準(zhǔn)確率,無法證明其相對于傳統(tǒng)方法的優(yōu)越性,反而因方法復(fù)雜常需手工統(tǒng)計(jì),難以實(shí)踐而未得到廣泛采用。在這一時(shí)期,易讀度研究的發(fā)展陷入停滯和低潮。
(3)20世紀(jì)90年代至今,隨著越來越多學(xué)科與計(jì)算機(jī)和信息領(lǐng)域相交叉,自然語言處理技術(shù)不斷成熟,相關(guān)研究成果也被應(yīng)用到易讀度研究中。其中絕大多數(shù)的研究針對英語文本難度。研究者總體上對相關(guān)技術(shù)在實(shí)現(xiàn)更準(zhǔn)確的文本難度量化評估中的作用持審慎的樂觀態(tài)度。
這些新方法有如下幾個(gè)特點(diǎn):(1)采用機(jī)器學(xué)習(xí)技術(shù);(2)引入包括語義和篇章類型的更多變量,以建立復(fù)雜的模型;(3)需要大量文本作為數(shù)據(jù)庫。
Foltz等學(xué)者在1998年最早引入了潛在語義分析技術(shù)(Latent Semantic Analysis,縮寫為LSA)①1988年由S.T.Dumais等人提出的一種新的信息檢索代數(shù)模型,它使用統(tǒng)計(jì)計(jì)算的方法對大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語義結(jié)構(gòu),用來表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡化文本向量實(shí)現(xiàn)降維的目的。以分析文本的連貫性。他們將文本作為大量不同特征值構(gòu)成的向量空間,處理為許多數(shù)據(jù)的集合,實(shí)現(xiàn)分析比對。Si和Callan于2001年最早將易讀度問題歸為自然語言分類的一個(gè)子問題,從而將它與人工智能和機(jī)器學(xué)習(xí)領(lǐng)域聯(lián)系起來。從此,多元線性回歸不再是測量易讀度的唯一數(shù)學(xué)模型,樸素貝葉斯、支撐向量機(jī)(SVM)等算法成為了這個(gè)領(lǐng)域的有力工具。
與傳統(tǒng)的易讀度公式相比,他們使用的變量更多,建立的統(tǒng)計(jì)模型更為復(fù)雜。目前,這一新方法還未明顯建立起相對于傳統(tǒng)公式的優(yōu)勢,但他們提供了將認(rèn)知心理學(xué)家提出的新變量與傳統(tǒng)變量結(jié)合起來的可能,找到了該領(lǐng)域發(fā)展的突破口。
美國政府一直大力支持易讀度相關(guān)研究和將其成果推廣應(yīng)用??突?梅隆大學(xué)的語言技術(shù)學(xué)院正開展的基于網(wǎng)絡(luò)文本的REAP(READer-specific Practice)項(xiàng)目就得益于美國教育部的支持。它能對閱讀者進(jìn)行預(yù)先測驗(yàn),再有針對性地推薦適合對象閱讀水平的文本。經(jīng)過匹茲堡大學(xué)英語學(xué)院的教學(xué)實(shí)驗(yàn),該系統(tǒng)被認(rèn)為能較好地融入正常的教學(xué)計(jì)劃中,取得了階段性成功(Feeney&Heilman,2008)。
商用方面,易讀度研究在母語教學(xué)領(lǐng)域的應(yīng)用最為常見。MetaMetrics公司開發(fā)的藍(lán)思閱讀測評系統(tǒng)(Lexile Framework)就是其中的成功案例。他們通過計(jì)算大樣本的教材難度,為每個(gè)年級提出了必讀文本難度和擴(kuò)展文本難度分值,推動(dòng)了兒童分級閱讀的專業(yè)合作與指導(dǎo)(羅德紅、余婧,2013)。除英語外,該公司的閱讀評測系統(tǒng)還有西班牙語版。2009年,他們還與托福考試(TOEFL)的研發(fā)和主辦機(jī)構(gòu)——美國教育考試服務(wù)中心(ETS)合作,將托??荚囬喿x部分的分?jǐn)?shù)聯(lián)入藍(lán)思測評系統(tǒng)。
美國孟菲斯大學(xué)(University of Memphis)的Coh-Metrix系統(tǒng)則側(cè)重于文本的連貫性。在二語習(xí)得領(lǐng)域,它所采用的Coh-Metrix L2 Reading Index的表現(xiàn)優(yōu)于傳統(tǒng)易讀度公式,但59%的分類準(zhǔn)確度在實(shí)踐中仍不能讓人滿意(Crossley&al.,2011)。
此外,在軍事、新聞、保險(xiǎn)等領(lǐng)域,易讀度研究也發(fā)揮著作用,用以確保相關(guān)文本更易為大眾所理解。如美國馬薩諸塞州保險(xiǎn)委員會(huì)規(guī)定保險(xiǎn)單的易讀度用Flesch Reading Ease公式計(jì)算得分應(yīng)不低于50,而明尼蘇達(dá)州則要求不低于40(晏生宏、黃莉,2005)。
直到1956年,法語世界才通過André Conquet的著作《易讀度》(La lisibilité)接觸到這一領(lǐng)域。在20世紀(jì)50至60年代,Kandel、Moles和Landsheere改造Flesch Reading Ease以適應(yīng)法語文本。最早的原創(chuàng)公式是Henry在1975年提出的。隨后,Cornaire在1988年將Henry的公式應(yīng)用于FLE教學(xué)。Uitdenbogerd在2005年針對母語為英語的法語學(xué)生構(gòu)建了自己的易讀度公式,將兩種語言的詞匯相似度作為變量之一(Fran?ois,2009)。
近年來,比利時(shí)魯汶天主教大學(xué)的Fran?ois(2012)致力于利用語言自動(dòng)處理技術(shù)提高文本易讀度的準(zhǔn)確度,并應(yīng)用于FLE領(lǐng)域②他的研究面向的對象是母語非特定某種語言、非為特定目的學(xué)習(xí)法語(FOS)的成年人。。Fran?ois采取由教學(xué)專家預(yù)先按照《歐洲語言共同參考框架:學(xué)習(xí)、教學(xué)、評估》(CECR)標(biāo)準(zhǔn)分類③《歐洲語言共同參考框架:學(xué)習(xí)、教學(xué)、評估》(C E C R)中將語言學(xué)習(xí)者的能力分為A 1、A 2、B 1、B 2、C 1、C 2,共6級。此外,還可加入A 1+、A 2+、B 1+,細(xì)化為 9個(gè)等級。的法語教材作為語料,通過機(jī)器學(xué)習(xí)和文本挖掘的方法對406個(gè)變量進(jìn)行實(shí)驗(yàn)。他確認(rèn)傳統(tǒng)所采用的詞匯變量(尤其是常用詞表之外的單詞所占比例)仍是最佳特征值,證明語言自動(dòng)處理技術(shù)引入的基于LSA的變量和詞類等變量對準(zhǔn)確評估文本易讀度的效果顯著;而短語和多元模型等變量則并不比傳統(tǒng)公式采用的變量更有效。他的實(shí)驗(yàn)結(jié)果顯示:實(shí)現(xiàn)較好的文本難度自動(dòng)評估所需的特征值數(shù)目遠(yuǎn)超傳統(tǒng)公式。通過對47個(gè)特征值(包含傳統(tǒng)特征及語言自動(dòng)處理技術(shù)所發(fā)掘的新特征)的最優(yōu)運(yùn)用,能得到比傳統(tǒng)方式高15%的準(zhǔn)確度。在統(tǒng)計(jì)模型方面,Boosting方法④Boosting(增強(qiáng))方法是一種集成學(xué)習(xí)的分類方法,反復(fù)使用多個(gè)準(zhǔn)確度較低的弱分類器,在每次迭代中增加被分類錯(cuò)誤樣本的權(quán)重,最終分類器通過對多個(gè)弱分類器結(jié)果按不同加權(quán)投票建立。和SVM方法效率最高,而前者在屢次迭代過程中花費(fèi)時(shí)間過長,因此采用SVM方法。
這兩種方法也是目前機(jī)器學(xué)習(xí)領(lǐng)域廣泛認(rèn)定具有較好效果的模型。最終模型在將語料根據(jù)CECR標(biāo)準(zhǔn)分為6類和9類難度時(shí)取得了準(zhǔn)確率49%和35%的最佳效果,大致相當(dāng)于未經(jīng)專業(yè)訓(xùn)練的普通人進(jìn)行難度分類判斷時(shí)的結(jié)果。盡管這樣的表現(xiàn)離實(shí)際應(yīng)用還有較大差距,但這也正反映出研究的困難度。
在2.1中,我們看到:美國的英語文本難度研究已取得不少成果,在較多領(lǐng)域進(jìn)入應(yīng)用層面,具有借鑒意義。但這些方案主要面向的是以英語為母語的讀者,針對的是美國人的閱讀能力和特點(diǎn),不能將這些公式和工具簡單照搬到面向二語習(xí)得者的英語教學(xué)及其他語種的易讀度測量中。王晶(2010)對不同水平的中國英語學(xué)習(xí)者進(jìn)行閱讀測試,發(fā)現(xiàn)大多數(shù)學(xué)生對測試所選用的6篇文本的難度排序和實(shí)際閱讀能力的表現(xiàn)不符合Flesch Reading Ease公式的預(yù)測結(jié)果??梢姡袊鴮W(xué)習(xí)英語的閱讀者需要適合自身特點(diǎn)的軟件和工具。
在我國英語教學(xué)領(lǐng)域,林錚(1995)最早對國外易讀度研究進(jìn)行了綜述。此后,李紹山(2000)、晏生宏(2005)、章辭(2010)等也開始關(guān)注這一課題。目前,國內(nèi)已自主開發(fā)了以下三款自動(dòng)測量英語文本難度的軟件,但尚未得到大規(guī)模應(yīng)用。
福建師范大學(xué)外國語學(xué)院開發(fā)了ERDA軟件,分中學(xué)版和大學(xué)版兩個(gè)版本。采用的公式中選取詞匯和句法兩個(gè)變量。詞匯按習(xí)得的順序分等級,中學(xué)版按年級數(shù)分為6個(gè)等級,大學(xué)版根據(jù)教委頒布的大綱分為8個(gè)等級。句長按單詞數(shù)分為4個(gè)類型。不同等級的詞匯、句子類型分別乘以給定的系數(shù),結(jié)果介于 0-10之間(林錚,1995)。
重慶大學(xué)的ERMS系統(tǒng)以Flesch Reading Ease為計(jì)算公式。它將詞匯分為大學(xué)前、英語四級、英語六級、研究生四個(gè)等級建立以大學(xué)英語教學(xué)大綱詞匯表為基礎(chǔ)的詞庫。詞庫具有開放性,可更新。除統(tǒng)計(jì)句子數(shù)、總音節(jié)數(shù)、總詞數(shù)后利用公式得出分?jǐn)?shù)外,該軟件還可通過類符/詞符比統(tǒng)計(jì)詞匯密度(晏生宏、黃莉,2005)。
解放軍外國語學(xué)院的IRMS系統(tǒng)則未采用傳統(tǒng)的易讀度公式,采用了自然語言處理技術(shù)。邢富坤、程東元(2007,2008)基于信息計(jì)算開發(fā)的原理,通過對語篇信息量、詞熵、句熵的統(tǒng)計(jì),進(jìn)行易讀度測量。其成果比上述兩款軟件具有更強(qiáng)的普遍適用性,易于轉(zhuǎn)換為其他語種的易讀度測量工具。
劉海清(2013)則呼吁學(xué)者對公安等特殊行業(yè)的英語教材開發(fā)有針對性的易讀性軟件。然而,受語料庫大小、相關(guān)理論研究水平和易讀度研究難度等條件制約,目前易讀度研究主要針對的都是有較大樣本量的普通閱讀者。在普通易讀度研究取得重大進(jìn)展前,此類特殊需求很可能會(huì)長期無法得到滿足。
此外,我國英語教學(xué)專家也注意使用國外開發(fā)的文本難度測量軟件。2008年7月27日,外語教學(xué)與研究出版社在北京舉辦了“全國高等學(xué)校英語教師教育與發(fā)展系列研修班”第4期——“語料庫在外語教學(xué)中的應(yīng)用”。許家金向教師介紹的實(shí)用軟件中,就包含了日本早稻田大學(xué)的Laurence Antony開發(fā)的Ant Word Profiler。王正勝(2010)也發(fā)文介紹了這款軟件的使用方法。然而,這款軟件僅能用于統(tǒng)計(jì)常用詞表在文本中的分布情況,尚不能測量并評估文本的具體難度。
也有一些研究者運(yùn)用文本易讀度公式和軟件來研究英語閱讀教學(xué)。蔣晶晶(2009)運(yùn)用6種易讀度公式評估英語分級考試CEPT文本中出現(xiàn)的詞匯難度情況,認(rèn)為Flesch-Kincaid Grade Level公式最為可信。辜向東和關(guān)曉仙(2003)對CET閱讀測試和大學(xué)英語閱讀教材進(jìn)行了易讀度抽樣研究。李安心(2012)利用Ant Word Profiler和SPSS軟件對高考英語湖南卷的閱讀理解進(jìn)行了文本難度因素分析。王麗(2011)利用Office Word軟件自帶的Flesch Reading Ease公式對高職英語教材中的閱讀材料做了抽樣分析。
陳炎龍和張志明(2010)則對傳統(tǒng)的易讀性公式進(jìn)行了批評,認(rèn)為它們雖然容易施行,但計(jì)算值過于集中,不利于進(jìn)行等級劃分。作為改善,他們提出以詞匯為特征值,建立文本分類時(shí)常用到的向量空間模型。這樣的方法符合國際易讀度研究傾向于采用自然語言處理技術(shù)的新趨勢。
目前我國英語界學(xué)者對易讀度的研究成果較豐富,不僅有對國外開發(fā)的傳統(tǒng)公式的借鑒和應(yīng)用,更有自主創(chuàng)新,部分最近成果符合國際上采用自然語言處理技術(shù)的新趨勢。但在應(yīng)用和分析文本難度時(shí),被廣泛使用的仍是國外的傳統(tǒng)公式,我國自主研發(fā)的幾款軟件在推廣方面仍有不足。另外,在研發(fā)易讀度工具時(shí),缺少統(tǒng)一的、大規(guī)模的英語教材語料庫支持。這些都有待在今后研究中得到改善。
和法語以及其他外語相似,漢語易讀度研究起步較晚,成果也較少。早期研究直接借鑒英語的易讀度公式,逐漸開始構(gòu)擬原創(chuàng)的易讀度模型。研究對象也從是母語閱讀者開始,慢慢擴(kuò)展到面向外國的二語教學(xué)領(lǐng)域。
在新聞?lì)I(lǐng)域,臺(tái)灣學(xué)者于宗先在1959年最早應(yīng)用Flesch Reading Ease易讀公式,但僅為直接照搬,未考慮漢語與英語的差異。1970年,陳世敏改良了Gunning-Fog Score。在同時(shí)或稍早時(shí)候,留美學(xué)者楊孝溁也進(jìn)行了中文易讀性公式的構(gòu)擬。這些探索都受到英語文本難度公式啟發(fā),并將其改良,應(yīng)用于漢語。他們的共性是只考慮了字或詞的簡單特征,忽略了文本的復(fù)雜程度(黃敏,2010)。
陳阿林和張素(1999)模擬人工神經(jīng)網(wǎng)絡(luò),建立了漢語的閱讀難度量化計(jì)算模型。該模型考慮了平均句字長、平均句詞長、全體詞集使用度、全體句子使用頻度、文體等變量。其中文體變量由人工取值。
在兒童母語閱讀領(lǐng)域,接力兒童分級閱讀研究中心發(fā)布的中國兒童分級閱讀指導(dǎo)手冊(2010版)中雖然提到,該手冊參考了國外分級閱讀理論,但實(shí)質(zhì)上仍然是由專家人工完成難度分級。
對外漢語教學(xué)中,王蕾(2005)通過多元線性回歸的方式,以漢語水平是初、中級的日韓留學(xué)生的完形填空成績?yōu)檎Z料建立了一個(gè)可讀性公式,其中考慮了簡單詞的比例、虛詞數(shù)和分句數(shù)這三個(gè)變量。郭望皓(2009)考察了漢語句子難度與字、詞難度的關(guān)系,并利用CRITIC加權(quán)法得到一組8個(gè)以《漢語水平詞匯與漢字等級大綱(修訂本)》為難度劃分,利用現(xiàn)有的字、詞難度等級來預(yù)測句子難度的公式。江少敏(2009)將易讀度的研究層面從宏觀轉(zhuǎn)向微觀,在句子層面研究難度分級。他基于對留學(xué)生和小學(xué)生的問卷調(diào)查,建構(gòu)了一套度量公式并制作了對應(yīng)的軟件。
由于漢語和英語、法語等歐洲語言在形態(tài)、語法上有極大差異,在漢語易讀度研究上,需要更多的創(chuàng)新精神,能借鑒的工具有限。另外,受限于目前中文自然語言處理的整體水平,相關(guān)的研究和應(yīng)用較少。相對于對外漢語教學(xué)領(lǐng)域的學(xué)者,兒童分級閱讀方面的教學(xué)專家更缺乏量化評估的嘗試。
目前,我國法語教學(xué)界尚無文本易讀度方面的研究。雖然上海外語教育出版社從2005年起陸續(xù)出版了根據(jù)歐盟通行的CECR標(biāo)準(zhǔn)分類的法語分級注釋讀物叢書,但并不是基于量化的易讀度研究基礎(chǔ)上評定難度,而是采用專家人工分類的方式。
為填補(bǔ)這一領(lǐng)域的空白,研究者可一方面關(guān)注法語世界在易讀度和文本處理方面的最新研究成果,另一方面從中國法語教學(xué)界使用的教材和分類標(biāo)準(zhǔn)、中國學(xué)生學(xué)習(xí)法語(尤其是閱讀時(shí))普遍的難點(diǎn)等方面著手,收集教材課文、課外閱讀材料、學(xué)生閱讀測試結(jié)果等資料,建立包含各級難度文章的語料庫,測試詞匯、句法等因素對學(xué)生理解文章難度的影響,為研究打下基礎(chǔ)。
作為新興領(lǐng)域,易讀度有廣闊的社會(huì)應(yīng)用前景,涉及到文本閱讀的各個(gè)層面。它能有助于教材編寫者高效、客觀地評價(jià)教材,提高教材的選材效率和編寫水平;能提高教師選擇更適合學(xué)生水平的真實(shí)語料(尤其是網(wǎng)絡(luò)文本)的效率;能輔助學(xué)生自主選擇課外閱讀文本,并對其閱讀能力提供反饋和評估;能幫助作者(特別是科普作家和兒童作家)提高文本的可讀性,促進(jìn)作品的傳播;能輔助降低新聞報(bào)道、技術(shù)手冊、科技文獻(xiàn)、法律文本等的難度,以確保相關(guān)文本更易為大眾所理解。
目前,在英語之外,漢語、法語等語種的易讀度研究較為滯后。國際上得到最廣泛應(yīng)用的傳統(tǒng)易讀度公式還是上世紀(jì)50至60年代的產(chǎn)物,所選用的用于測量文本難度的變量(如詞長、句長等)相對粗疏,不足以反映文本本身的復(fù)雜程度,準(zhǔn)確率離實(shí)際應(yīng)用還有較大差距,仍有很大的改進(jìn)空間。
可見,文本的易讀度是一個(gè)復(fù)雜的問題,需要教學(xué)法專家、語言學(xué)專家與計(jì)算機(jī)專家、認(rèn)知心理學(xué)家建立跨領(lǐng)域的深入合作,以取得貼近實(shí)際應(yīng)用需要的成果。
首先,需建立難度分類準(zhǔn)確、包含大量各類文本、且符合實(shí)際教學(xué)等工作需要的語料庫。目前文本易讀度的語料來源較單一,多為課文,可能導(dǎo)致結(jié)果對教學(xué)材料的過擬合,即僅能對作為樣本的語料進(jìn)行有效分類,影響對生活中報(bào)刊、說明文等其他類型文本的難度判定。另外,由于分類越多越易出錯(cuò),為取得較好的分類效果,部分研究僅將文本分為易、中、難三類,難以貼合實(shí)際運(yùn)用的需要。
其次,為取得這一領(lǐng)域的突破,離不開自然語言處理技術(shù)的支持。受當(dāng)前相關(guān)技術(shù)發(fā)展的制約,目前在綜合考察影響文本難度的變量時(shí),體現(xiàn)出強(qiáng)烈的“詞匯主義”傾向,對跨詞匯、跨句子的文本關(guān)聯(lián)性及句法復(fù)雜度等因素缺乏有效的統(tǒng)計(jì)方法,甚至不作考量。研究者需注意吸收句法分析、自動(dòng)摘要等自然語言處理技術(shù)的新成果,綜合各種影響文本難度的因素,對易讀度進(jìn)行更全面的研究。
此外,外語教學(xué)是易讀度的重要應(yīng)用領(lǐng)域,但相較于母語教學(xué),對二語習(xí)得方面的易讀度研究受到的關(guān)注更是嚴(yán)重不足。由于作為目標(biāo)語的英語、法語和作為母語的漢語差異巨大,時(shí)態(tài)、詞型變化等語法特征給中國學(xué)生帶來的難度明顯大于其對歐洲學(xué)生的影響。應(yīng)將這些差異帶入易讀度研究中,予以逐一驗(yàn)證。
[1]Vygotsky Lev Semyonovich.Mind in Society:The Development of Higher Psychological Processes[M].Cambridge,Mass:Harvard University Press,1978.
[2]Krashen S.D.We Acquire Vocabulary and Spelling by Reading:Additional Evidence for the Input Hypothesis[J].The Modern Language Journal,1989,(4).
[3]Lively Bertha A.,Pressey S.L.A method for measuring the“vocabulary burden”of textbooks[J].Educational administration and supervision,1923,(9).
[4]Fran?ois Thomas.Modèles statistiques pour l’estimation automatique de la difficulté de textes de FLE,Rencontre des êtudiants Chercheurs en Informatique pour le Traitement Automatique des Langues(RECITAL 2009)[EB/OL].http://cental.fltr.ucl.a(chǎn)c.be/team/tfrancois/articles/Francois 2009b.pdf.
[5]Fran?ois Thomas.Thèse:Les Apportsdu Traitement Automatique du Langageàla Lisibilitédu Fran?ais Langue ètrangère[D].Louvain-la-Neuve:Université catholique de Louvain,2012.
[6]Fran?ois Thomas,F(xiàn)airon C.Les apports du TAL à la lisibilité du fran?ais langue étrangère[J].Traitement Automatique des Langues(TAL),2013,(1).
[7]Feeney,Heilman.Automatically Generating and Validating Reading-Check Questions[J].Intelligent Tutoring Systems Lecture Notes in Computer Science,2008,(5091).
[8]Crossley&al.Text readability and intuitive simplification:A comparison of readability formulas[J].Reading in a Foreign Language,2011,(1).
[9]晏生宏,黃莉.英文易讀度測量程序開發(fā)探索[J].重慶大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2005,(2).
[10]羅德紅,余婧.兒童分級閱讀研究的中美對比分析[J].圖書館,2013,(2).
[11]林錚.英文易讀度的測定[J].外語教學(xué)與研究,1995,(4).
[12]李紹山.易讀性研究概述[J].解放軍外國語學(xué)院學(xué)報(bào),2000,(4).
[13]章辭.英文易讀性研究:回顧與反思[J].湖南工程學(xué)院學(xué)報(bào):社會(huì)科學(xué)版,2010,(3).
[14]邢富坤,程東元,等.英文文本難度自動(dòng)測量系統(tǒng)的研制與開放[J].現(xiàn)代教育技術(shù),2008,(6).
[15]邢富坤.基于信息計(jì)算的英語易讀性研究及IRMS應(yīng)用系統(tǒng)開發(fā)[D].北京:中國人民解放軍外國語學(xué)院,2007.
[16]王正勝.英語文本易讀性測量軟件AntWordProfiler的使用[J].外語藝術(shù)教育研究,2010,(4).
[17]蔣晶晶.CEPT閱讀文本易讀度分析及詞匯檢測工具的開發(fā)[D].長沙:湖南大學(xué),2009.
[18]辜向東,關(guān)曉仙.CET閱讀測試與大學(xué)英語閱讀教材易讀度抽樣研究[J].西安外國語學(xué)院學(xué)報(bào),2003,(3).
[19]李安心.高考英語湖南卷閱讀理解文本難度因素分析[D].長沙:湖南師范大學(xué),2012.
[20]王麗.高職英語教材中閱讀材料易讀度的抽樣分析[J].遼寧高職學(xué)報(bào),2011,(8).
[21]劉海清.公安行業(yè)英語教材易讀性研究述評[J].牡丹江教育學(xué)院學(xué)報(bào),2013,(4).
[22]陳炎龍,張志明.基于向量空間模型的英文文本難度判定[J].電腦知識(shí)與技術(shù),2010,(12).
[23]黃敏.漢語特質(zhì)與中文新聞易讀性公式研究[J].新聞與傳播研究,2010,(4).
[24]陳阿林,張素.中文閱讀難度模型及易讀性公式探索[J].計(jì)算機(jī)科學(xué),1999,(11).
[25]王蕾.初中級日韓留學(xué)生文本可讀性公式初探[D].北京:北京語言大學(xué),2005.
[26]郭望皓.對外漢語文本易讀性公式研究[D].上海:上海交通大學(xué),2010.
[27]江少敏.句子難度度量研究[D].廈門:廈門大學(xué),2009.
[28]王晶.驗(yàn)證易讀性程式是否適合中國英語學(xué)習(xí)者[D].上海:華東師范大學(xué),2010.