王 潔
(暨南大學(xué)華文學(xué)院,廣東,廣州510610)
華文水平測試(簡稱“華測”)是以海外華裔青少年為測試對象的華語文能力標準化考試。華測的配套大綱有:漢字大綱、詞匯大綱、語法大綱、任務(wù)大綱、文化大綱。
大綱研制的主要環(huán)節(jié)是條目收錄、條目定級、條目標注。本文介紹詞匯大綱的研制。
由于漢語字詞的特殊關(guān)系,需先明確漢字大綱和詞匯大綱的分工。
首先,詞匯大綱中的單字條目不同于漢字大綱中的條目。
漢字大綱中收錄的是漢字,所以都是單字條目。詞匯大綱中收錄的是詞語(包含一些不成詞的單字語素,見下文2.3.1),有單字條目,也有多字條目。漢字大綱需要從認讀字和書寫字的角度對條目進行收錄及定級,詞匯大綱則需要從單字詞或語素的角度對單字條目進行收錄及定級。
其次,無論是單字條目還是多字條目,詞匯大綱對詞語的收錄及定級不受詞語用字難度的影響。比如“西瓜”“香蕉”在詞匯大綱中都是一級,不會因為“香蕉”比較難寫就將其放到較高等級。具體到聽說讀寫考試,“香蕉”是一級,意味著該詞在一級的聽力考試和口語考試中可以考查,一級的閱讀考試和寫作考試能否考查,需要查閱其用字的認讀級別和書寫級別。
一個具體的語言片段是否有資格進入詞匯大綱,有兩個判斷標準:首先,是不是詞;其次,是否超出考試的最高難度。前一個標準涉及到漢語中“詞”的界限問題,在2.3討論;后一個標準主要基于詞頻統(tǒng)計數(shù)據(jù)來掌控,詞匯大綱的研制始于語料的收集和詞頻統(tǒng)計,由此得到一個初始的底表,見2.1。從底表中的詞語到詞匯大綱中的條目,還需經(jīng)過刪除、補充、修改、合并、拆分等操作,見2.2。
小學(xué)、初中、高中的語料來源見表1。
表1:各學(xué)段語料庫
我們對上述三個語料庫分別進行了詞頻統(tǒng)計,并將得到的詞語列表與《現(xiàn)代漢語常用詞表(草案)》(簡稱《常用詞表》)進行了關(guān)聯(lián)。具體步驟如下:
(1)小學(xué)段詞語的觀察范圍:小學(xué)庫詞語種數(shù)(type)47141,保留頻次大于等于10的共15689,其中《常用詞表》中沒有的共3556,經(jīng)人工干預(yù),3556中又回收了464,進入小學(xué)段觀察范圍的詞語種數(shù)為12597(15689-3556+464)。
(2)初中段詞語的觀察范圍:初中庫詞語種數(shù)37249,去掉已在小學(xué)段觀察范圍內(nèi)的詞語后剩余26124,保留其中頻次大于等于3且在《常用詞表》中出現(xiàn)的詞語共4916。
(3)高中段詞語的觀察范圍:高中庫詞語種數(shù)為36530,去掉已在小學(xué)段、初中段觀察范圍內(nèi)的詞語后剩余21685,保留其中頻次大于等于3且在《常用詞表》中出現(xiàn)的詞語共2356。
(4)三個語料庫的低頻部分回收:小學(xué)庫頻次小于10的詞語、初中庫頻次小于3的詞語、高中庫頻次小于3的詞語,三者取并集,去除之前已進入觀察范圍①比如“含蓄”一詞在小學(xué)庫的頻次為3,未能進入小學(xué)段的觀察范圍,但在初中庫的頻次為5,已經(jīng)進入了初中段的觀察范圍。的詞語后剩余詞語種數(shù)15779。對其通過人工干預(yù)進行回收,其中單字詞語、三字及三字以上的詞語逐個干預(yù),決定是否回收;二字詞語由于數(shù)量較多(11559),只對《常用詞表》頻序在30000以內(nèi)的詞語(6540)進行了干預(yù)。總共回收4257。
經(jīng)過以上四步,底表共有詞語種數(shù)24126(12597+4916+2356+4257)
從底表中的詞語到詞匯大綱中的條目,主要涉及以下幾類操作:刪除、補充、修改、合并、拆分。
2.2.1 刪除
需要刪除的情況主要包括:
(1)更像是詞組的“詞”。語料庫的詞頻統(tǒng)計是基于分詞軟件分詞的,而分詞軟件自帶的詞表往往會包含一些超詞單位,如“剩下”“離家”“多次”“每逢”“無人”“在外”“黑瘦”“是不是”等。
(2)重疊形式。分詞軟件對語料庫中出現(xiàn)的aa、aabb、abab等重疊形式會動態(tài)識別,即會把“高高興興”等作為一個切分單位,而這類詞語是受規(guī)則控制的,沒必要收入詞匯大綱。但是,有必要保留ab不是詞的aabb式,如“轟轟烈烈”“跌跌撞撞”等。
(3)生僻詞語。包括少見事物、現(xiàn)象等,如“茱萸”“懸梁”。
(4)語料中出現(xiàn)的字串與語文詞典中的詞語用字相同,但實際所指不同。比如“學(xué)友”,語料中的“學(xué)友”作為一個切分單位,是因為分詞軟件自帶詞表中有“學(xué)友”一詞,“學(xué)友”確實可算是語文詞典中的一個詞,《現(xiàn)代漢語詞典(第7版)》(簡稱《現(xiàn)漢7》)收為條目“【學(xué)友】xuéyǒu名同學(xué):同三五~郊外踏青?!倍Z料中出現(xiàn)的“學(xué)友”是人名。發(fā)現(xiàn)這類字串時,會將其刪除。
2.2.2 補充
為了保證系統(tǒng)性,需要補充一些底表中沒有出現(xiàn)的詞語。比如底表中有“厘米”“毫米”,沒有“分米”,就需要將“分米”補充進來。再如有“陽性”,補充“陰性”;有“船長”,補充“機長”。
2.2.3修改
修改操作主要集中在如下情況:
(1)只出現(xiàn)在更大環(huán)境的詞語。比如“曇花”幾乎只出現(xiàn)在“曇花一現(xiàn)”中,將“曇花”改為“曇花一現(xiàn)”。再如“系鈴人”改為“解鈴還須系鈴人”,“作痛”改為“隱隱作痛”。
(2)有固定唯一搭配的詞語。比如“遠門”只和動詞“出”搭配,盡管“出遠門”中間可以插入其他成分(“出了一趟遠門”),但搭配很固定,將“遠門”改為“出遠門”,再如“懶覺”改為“睡懶覺”。
(3)簡稱更常用。比如“高速鐵路”改為“高鐵”。
2.2.4 合并
同義且難度無差別的詞語進行合并。如“鞋子”和“鞋”合并為一個條目“鞋子|鞋”,再如“芭蕾舞|芭蕾”“冰淇淋|冰激凌”“電扇|電風扇|風扇”“調(diào)換|掉換”“天長地久|地久天長”“百折不撓|百折不回”“媽媽|媽”。同義但難度有差別的詞語不合并,如“狗”和“犬”不合并。
2.2.5 拆分
一些同形詞、多義詞的意義(義項)之間差別較大,不拆分無法分別定級,需要進行拆分。舉例見表2。
表2:拆分后條目舉例
詞匯大綱收錄的對象理應(yīng)是“詞”,但漢語存在“詞”的劃界難題:“詞”和“語素”的界限問題;“詞”和“詞組”的界限問題。
2.3.1 單字語素的去留
語素和詞的界限問題其實是單字語素是否成詞的問題。大綱既收單字詞,也收一些組合能力較強的不夠獨立的單字語素。原因是后者如果不收,會導(dǎo)致偽超綱問題。
理論上,不夠獨立的單字語素不該收入詞匯大綱,但是對于其中那些組合能力較強的,如果大綱不收,實踐中會導(dǎo)致很多包含該類單字的組合超綱,這些字組被大綱拒之門外,既非難度超綱,亦非本身非“詞”(理論上包含不成詞語素的語言片段一定是詞,不可能是詞組)。比如,大綱收了“學(xué)?!保质樟税靶!钡囊恍┙M合“校長”“校園”“校車”“軍?!薄澳感!薄叭A?!钡?,卻沒收“校”及包含“?!钡牧硗庖恍┙M合“校門”“校歌”“藝?!钡?,如此,當試題語料中出現(xiàn)大綱中未收的組合時,如“校門”,無論將其當作一個詞還是兩個詞,都會超綱。解決方法就是將組合能力較強的不夠獨立的語素也收入大綱,如此雖不能徹底解決問題(組合能力弱的語素,其構(gòu)成的組合往往也不能絕對窮盡,比如“廁”,常見的組合就有“廁所”“公廁”“男廁”“女廁”“廁紙”“潔廁”等),但可以在很大比例上解決問題。
具體做法如下:首先,已收單字條目的用字整理。已拆分的單字條目還原其用字,如“米1”“米2”還原為“米”,已合并的條目中包含單字條目的提取出單字,如“鞋子|鞋”,提取出“鞋”。整理后,已收單字條目的用字為2317個。其次,單字組合能力的統(tǒng)計。以《通用規(guī)范漢字表》中的一級3500字為觀察范圍,統(tǒng)計該3500字在《常用詞表》中構(gòu)二字詞語的數(shù)量,作為單字組合能力的指標。再次,將2317字與3500字作比對。3500字中構(gòu)二字詞數(shù)量大于等于30且未在2317字中的,補充進大綱。這樣,又補充了“目”“務(wù)”“農(nóng)”“聯(lián)”“程”等25個單字條目。
需要說明兩點:(1)補充數(shù)量不多。漢語中有大量不夠獨立但在分詞語料中常常落單的語素,這類語素在詞頻統(tǒng)計結(jié)果中作為單字“詞”的頻率不低,已經(jīng)存在于2.1的底表中了,在2.2.1的刪除操作時,由于語素收錄的理念,對其選擇了保留。(2)語素的組合能力通過漢字來統(tǒng)計還很粗疏,原因是存在一字多義(包括同形和多義)。一字多義的存在,使得很多時候某一漢字的組合能力并不能準確反映某一語素的組合能力。
2.3.2 透明組合的取舍
漢語“詞”和“詞組”的界限問題集中在透明組合上。
關(guān)于透明組合,組合成分中至少有一方不獨立的情況,在理論上一定是詞,只是實踐中無法盡收;組合成分皆獨立的情況在理論上有雙重身分(比如把“晴”看成自由語素,“天”看成自由語素,“晴天”在理論上就可以算作詞,而把“晴”看成單純詞,“天”看成單純詞,“晴天”在理論上就可以看作詞組),實踐中同樣無法盡收。為此,我們從“同聚類字組”的多寡來考慮問題。透明組合分三種情況,見表3。這里說的“同聚類字組”是指一方組合成分相同(同用字、同意義、同位置),且組合關(guān)系相同。
表3:透明組合情況舉例
各種情況的處理如下:情況a,直接參照《現(xiàn)漢7》的取舍標準;情況b,每個聚類因成員有限而相對封閉,可以做到收錄的系統(tǒng)性,同一聚類的組合收則皆收,棄則皆棄;情況c,每個聚類都是開放集合,意味著不可能做到收錄的系統(tǒng)性,目前的做法是參照頻率信息收錄部分組合。
2.4.1 相關(guān)大綱詞表
條目基本確定后,與相關(guān)大綱、詞表進行比較,以進一步補充完善。
相關(guān)大綱或詞表有:1992年的《漢語水平詞匯與漢字等級大綱》(8822詞),2010年的《漢語國際教育用音節(jié)漢字詞匯等級劃分》(11092詞),2010年的《新漢語水平考試大綱(詞匯)》(5000詞),2015年的《HSK考試大綱(詞匯大綱)》(5000詞),《義務(wù)教育常用詞表(草案)》(14323詞)。
初步篩選:《漢語水平詞匯與漢字等級大綱》比較早,且《漢語國際教育用音節(jié)漢字詞匯等級劃分》可算是《漢語水平詞匯與漢字等級大綱》的修訂①劉英琳、馬箭飛(2010)指出:研制《漢語國際教育用音節(jié)和漢字詞匯等級劃分》不是對1992年《漢語水平詞匯與漢字等級大綱》所作的簡單的、一般性的修訂。,因此直接考慮《漢語國際教育用音節(jié)漢字詞匯等級劃分》?!禜SK考試大綱(詞匯大綱)》是對《新漢語水平考試大綱(詞匯)》的修訂,直接考慮《HSK考試大綱(詞匯大綱)》。《義務(wù)教育常用詞表(草案)》的具體條目未見公布,無法比較,暫不考慮。進一步篩選:《HSK考試大綱(詞匯大綱)》的總詞匯量是“5000及以上”,實際列出的條目是5000,規(guī)模太小,也不考慮。因此,只與《漢語國際教育用音節(jié)漢字詞匯等級劃分》做比較。
為表述方便,華測的詞匯大綱稱為《華測詞綱》,《漢語國際教育用音節(jié)漢字詞匯等級劃分》稱為《等級劃分》。
2.4.2 參照《等級劃分》進一步補充
將《華測詞綱》中的條目(已拆分、合并的條目還原為未拆分、未合并的條目)與《等級劃分》中的條目(也存在一些拆分、合并的條目,前者如“對”有兩個條目,后者如“爸爸|爸”“混濁(渾濁)”等,做類似還原處理)進行比較。《等級劃分》中有而《華測詞綱》里沒有的條目共1539個,從中補充了368個。未補充進《華測詞綱》的詞語主要有以下類型:(1)偏難的詞語。華測的最高級別是高中畢業(yè)群體,雖然已接軌成人,但有些詞語離該群體的日常生活還是較遠,如“兜售”“拜會”“隱情”等。(2)比較松散的結(jié)構(gòu)。劉英琳、馬箭飛(2010)指出《等級劃分》中會收一些常見、常用結(jié)構(gòu),如“打電話、看病”“比如說、是不是”“請問、家里”等。這與《華測詞綱》的收詞理念不一樣。(3)《華測詞綱》“附錄詞語”收錄的詞語?!度A測詞綱》分基本詞語和附錄詞語,后者收錄一些特殊類別的詞語,如地名、朝代名、節(jié)日等,見下文5。1539個詞語中已出現(xiàn)在《華測詞綱》附錄中的詞語,也不再作為基本詞語補充。比如“中秋節(jié)”在《等級劃分》中,不在《華測詞綱》的基本詞語里,但在《華測詞綱》的附錄詞語里,無需補充。
根據(jù)華測的總體設(shè)計,共有5個級別:一級(小學(xué)二年級)、二級(小學(xué)四年級)、三級(小學(xué)畢業(yè))、四級(初中畢業(yè))、五級(高中畢業(yè))。
基于作文語料庫(語言輸出性質(zhì))、教材語料庫(語言輸入性質(zhì)),算法加人工干預(yù),經(jīng)過3次定級完成整個定級工作。
基于作文語料庫(2.1中的小學(xué)庫、初中庫、高中庫)的分布信息,進行自動定級。
小學(xué)庫中的詞語根據(jù)年級分布信息設(shè)定算法自動定為一級、二級、三級。初中庫中的詞語初次定為四級,高中庫中的詞語初次定為五級。
小學(xué)庫的相關(guān)統(tǒng)計數(shù)據(jù)見表4。除了每個條目在小學(xué)庫中的總次數(shù),還按年級(一二年級、三四年級、五六年級)分別統(tǒng)計次數(shù),由于各年級段的語料規(guī)模不一致,進而計算頻率(技術(shù)上換算為百萬詞頻,即實際頻率統(tǒng)一乘100萬,含義為每100萬詞的語料中會出現(xiàn)多少次),然后根據(jù)頻率計算每個條目在各年級段的分布比例,最后按照統(tǒng)一的算法進行定級。具體的算法是:如果“一二年級比例”大于等于30%,級別為“一”;否則如果“一二年級比例”+“三四年級比例”之和大于等于60%,級別為“二”;否則級別為“三”。
表4:初次定級統(tǒng)計數(shù)據(jù)及條目舉例
人工干預(yù)進行二次定級。
首先,對不適合自動定級的詞語,通過人工干預(yù)定級。三庫中低頻回收入底表的條目以及補充、修改、拆分、合并的條目,人工干預(yù)定級。
其次,對自動定級結(jié)果明顯不合理的條目進行人工干預(yù),重新定級。如“娶”的自動定級結(jié)果為“一”,人工干預(yù)后定級為“三”。
再次,語料分詞錯誤會導(dǎo)致統(tǒng)計偏差,進而影響自動定級結(jié)果,也需人工干預(yù)來發(fā)現(xiàn)并調(diào)整級別。如“學(xué)會”一條,語料庫中出現(xiàn)了大量的“學(xué)會”,其實是“學(xué)會做什么”的“學(xué)會”,并不是《現(xiàn)漢7》中作為詞的“學(xué)會”(【學(xué)會】xuéhuì名由研究某一學(xué)科的人組成的學(xué)術(shù)團體,如物理學(xué)會、生物學(xué)會等。)經(jīng)過人工干預(yù),保留了“學(xué)會”,但將其級別由“一”調(diào)整為“五”。
基于教材語料庫,對各條目的級別做進一步調(diào)整。
所利用的國內(nèi)語文教材和國外華文教材及對應(yīng)級別見表5。有的教材無法收集到從小學(xué)一年級一直到高中畢業(yè)全套,有的教材本身就不覆蓋全部學(xué)段,此外,由于國外的學(xué)制與國內(nèi)學(xué)制并不完全一樣,所以國外教材的級別只是做了大致對應(yīng)。
表5:教材語料庫
底表中各條目在教材庫中的分布信息(在幾套教材中出現(xiàn)),見表6舉例。參照該信息,人工干預(yù)進行三次定級。比如“必然”二次定級為“四”,參照教材分布信息,三次定級仍為“四”;“習(xí)性”二次定級為“三”,三次定級調(diào)整為“四”;“袖子”二次定級為“一”,參照教材分布信息,似乎調(diào)整為“三”更合適,但教材的語料規(guī)模畢竟有限,僅供參考而已,考慮到“袖子”一詞認知年齡很低且沒有習(xí)得難度,仍保留為“一”。
基本詞語等級分布見表7。
表6:教材庫條目分布信息舉例
表7:基本詞語條目等級分布
大綱中每個條目的標注信息,除了“等級”外,還有“拼音”“詞類”“示例”。
首先,拼音?!冬F(xiàn)漢7》的拼音標注非常細致,會對輕讀重讀、多字條目中間是否可插入其他成分、多字條目是連寫還是分寫等進行區(qū)分,詳見其“凡例3注音”。對詞匯大綱來說,語文詞典式的拼音標注過于繁瑣,因此大綱采用最基本的音節(jié)加聲調(diào)標注。
其次,詞類?;静捎谩冬F(xiàn)漢7》的標注,詳見其“凡例5詞類標注”。有幾點說明:(1)參照《現(xiàn)漢7》,大綱在詞類標注上也對詞與非詞進行區(qū)分,非詞的包括:不夠獨立的單字語素條目給出的標記是“語素”;極少數(shù)二字條目(如“但愿”“極了”“沒錯”等10個左右)、一部分三字條目、絕大多數(shù)三字以上條目不做標注。(2)《現(xiàn)漢7》的詞類標注是具體到義項的,所以不存在兼類,大綱收錄的多義條目,如果義項間差別不大且不同義項沒有難度差別,就不會拆分為不同條目,因此會有兼類情況。比如“陳設(shè)”標注為“動、名”,“韻”標注為“名、語素”。(3)基本參照《現(xiàn)漢7》而沒有完全嚴格按照其標注結(jié)果,原因是漢語“詞”的類別問題和“詞”的界限問題一樣存在很多爭議,比如《現(xiàn)漢7》對“海嘯”標注的是名詞,而對“地震”標注的是動詞,我們認為二者從內(nèi)部結(jié)構(gòu)看,構(gòu)詞成分同類、組合關(guān)系一致,從整體語義看屬于同語義場,因此我們都標注為“名”。
再次,示例。拆分產(chǎn)生的條目,為了區(qū)別,會給出“示例”信息,如上文表2所示。其他條目不給出“示例”。
將收錄的條目分為基本詞語和附錄詞語。上文表7的統(tǒng)計數(shù)據(jù)是基本詞語部分。附錄詞語不分等級。
附錄詞語類別包括:大寫數(shù)字、天干、地支、筆畫、朝代、貨幣、節(jié)日、民族、行星、星座、姓氏、地名-洲、地名-洲區(qū)劃、地名-國家、地名-省中國、地名-城市中國、地名-城市世界、地名-洋、地名-山河江海、化學(xué)元素、節(jié)氣、標點、字體、軍銜、中國軍隊編制單位。
這些類別有的是封閉集合,有的是半封閉集合,有的是開放集合。每個類別在羅列所包含的詞語時,有的窮舉,有的枚舉,規(guī)律性強的給出規(guī)律提示。見表8舉例。
本文首先明確了華測漢字大綱與詞匯大綱的分工,然后介紹了詞匯大綱條目收錄、定級、標注的具體工作。
表8:附錄詞語類別舉例
大綱收錄的都是現(xiàn)代漢語普通話詞匯,沒有涉及海外華語特色詞,是基于以下兩點考慮:(1)華測是面向海外華裔群體的通用考試,并非針對某個國家地區(qū)開發(fā),而華語特色詞具有地域?qū)S眯?,因此不適合作為通用條目收入大綱。(2)大綱主要服務(wù)于輸入性考試(聽力、閱讀)的語料難度控制及考點詞匯選擇,當考生在輸出性考試(口語、寫作)中使用了華語特色詞時,華測采用接受的評判標準。