摘 要:華裔留學(xué)生漢語聽說能力與漢字讀寫能力脫節(jié)現(xiàn)象給教學(xué)帶來不少難題。本文提出一種算法簡單、實(shí)用的,基于大規(guī)模真實(shí)語料的華裔留學(xué)生漢字學(xué)習(xí)文本的獲取方法,將識別出來的句子集作為漢字學(xué)習(xí)文本,使學(xué)習(xí)者通過學(xué)習(xí)最少的句子認(rèn)識最多的高頻漢字。
關(guān)鍵詞:華裔留學(xué)生 ?漢字學(xué)習(xí)文本獲取 ?高頻漢字句子集 ?句子識別
一、問題的提出
漢字難認(rèn)、難記是漢語學(xué)習(xí)者和漢語教師的共識。華裔留學(xué)生作為特殊的漢語學(xué)習(xí)群體,在留學(xué)生中占有相當(dāng)大的比重,他們與其他學(xué)習(xí)者有著不同的語言和文化背景。相當(dāng)數(shù)量的留學(xué)生在家庭環(huán)境中使用普通話或粵語、客家話等漢語方言。一般來說,華裔留學(xué)生對語義、句法知識的掌握水平較高,同時(shí)具有較高的漢語聽說水平;然而其漢字認(rèn)讀水平與其他單項(xiàng)習(xí)得水平嚴(yán)重脫節(jié)。這種現(xiàn)象長期以來給教學(xué)分班、教材選擇和課堂教學(xué)帶來了相當(dāng)大的難題。筆者針對華裔留學(xué)生做過一項(xiàng)學(xué)習(xí)動機(jī)與需求調(diào)查,結(jié)果表明,絕大多數(shù)學(xué)習(xí)者希望在加強(qiáng)聽、說、讀、寫整體漢語水平的基礎(chǔ)上,能在有限的時(shí)間內(nèi)盡可能掌握更多的漢字。尤其是以字母文字為母語的華裔學(xué)生,如何在最大程度上提高常用漢字的認(rèn)讀能力,始終是他們在整個學(xué)習(xí)過程中最為關(guān)心的問題。
漢字教學(xué)是對外漢語教學(xué)的重點(diǎn)和難點(diǎn)。據(jù)統(tǒng)計(jì),漢字的總數(shù)超過8萬個。《現(xiàn)代漢語常用詞表》中常用漢字的數(shù)目為3500個左右。其中,按照使用頻率分類,常用漢字2500個,次常用漢字1000個。面對如此龐大的漢字集,究竟哪些漢字對留學(xué)生來說最需要記憶,采用何種記憶方式,提供何種漢字學(xué)習(xí)材料,在具體操作中隨意性和主觀性較大?,F(xiàn)行通用的漢字學(xué)習(xí)輔助資料一般分為兩種。一是漢字介紹型書籍,主要針對有代表性的獨(dú)體字、形聲字等進(jìn)行描述與解釋,進(jìn)而幫助學(xué)習(xí)者在音、形、義的基礎(chǔ)上去臨摹、認(rèn)讀與記憶漢字。另一種為按拼音從A至Z排序的詞表型詞典。課堂漢字教學(xué)普遍參照課后的生詞表、整本書的生詞表或《新HSK詞匯等級大綱詞表》(以下簡稱《大綱》)。上述兩類傳統(tǒng)的漢字學(xué)習(xí)材料一直被廣泛使用,但這些學(xué)習(xí)文本有著自身無法克服的缺陷。漢字介紹型書籍主要以激發(fā)學(xué)習(xí)者學(xué)習(xí)漢字的興趣為目的,篇幅集中于一些象形字或形聲字等。然而這些字相對于3500個常用字來說所占比例極小,對于掌握一定數(shù)量的常用漢字的目標(biāo)來說遠(yuǎn)遠(yuǎn)不夠。詞表型詞典以拼音排序,漢字之間缺少內(nèi)在的語義關(guān)聯(lián),即便是同一篇課文后的生詞表,詞匯之間語義割裂現(xiàn)象依舊明顯。漢字的學(xué)習(xí)不能脫離語義信息。分析語言現(xiàn)象,必須把和它所依賴的語境聯(lián)系起來,把一個語言片段孤立起來分析,難于判斷這個語言片段的結(jié)構(gòu)和意義。[1]從認(rèn)知語言學(xué)的角度分析,詞匯是語義場中的節(jié)點(diǎn),節(jié)點(diǎn)之間互相關(guān)聯(lián),一個節(jié)點(diǎn)的激活引發(fā)下一個節(jié)點(diǎn)的激活。孤立地去記憶詞匯,不僅枯燥、單調(diào)且較難產(chǎn)生長久記憶;同時(shí),詞語只有進(jìn)入上下文語言環(huán)境才能與其他詞匯建立某種有意義的關(guān)聯(lián)。詞匯的意義表達(dá)不能脫離語言形式與組配關(guān)系。若根據(jù)人為主觀判斷提供給學(xué)習(xí)者一個句子、段落或篇章進(jìn)行漢字學(xué)習(xí),就有可能出現(xiàn)超綱詞或非常用詞,同時(shí),重復(fù)出現(xiàn)的詞匯會影響漢字學(xué)習(xí)效率。漢字學(xué)習(xí)不僅是一個多看、多寫、多練的過程。提供給學(xué)習(xí)者何種漢字學(xué)習(xí)材料能達(dá)到最高效的漢字習(xí)得目標(biāo),同樣需要引起對外漢語教學(xué)界的重視。
本文利用語料庫語言學(xué)的方法為華裔留學(xué)生提供一種不同于傳統(tǒng)漢字學(xué)習(xí)的參考文本,學(xué)習(xí)者可通過學(xué)習(xí)最少的句子,掌握最多的漢字。基于語料庫的識別方法可提供給學(xué)習(xí)者最客觀的,能夠體現(xiàn)詞匯搭配關(guān)系及語用價(jià)值的真實(shí)語言,使教師在選材過程中不受主觀人為因素的干擾,避免了孤立、無關(guān)聯(lián)的漢字組合或人為主觀虛構(gòu)的句子的出現(xiàn)。獲取這樣的句子集合,對于漢語教師以及漢語學(xué)習(xí)者都具有現(xiàn)實(shí)意義。
語料庫語言學(xué)與對外漢語教學(xué)的結(jié)合,前人已有研究。鄭艷群[2]、盧偉[3]將語料庫的知識廣泛應(yīng)用于漢語教學(xué)相關(guān)分支;郭曙綸[4]、蔡永強(qiáng)[5]等將語料庫知識輔助漢語詞典編纂;張寶林[6]使用語料庫對語法項(xiàng)目進(jìn)行考察;楊泉[7]用語料庫進(jìn)行偏誤、糾錯研究等。然而,將語料庫語言學(xué)應(yīng)用于面向漢字學(xué)習(xí)文本的識別,學(xué)界尚不多見。
一般來說,語料中使用頻度高的文本應(yīng)作為教學(xué)材料選擇的候選集。對留學(xué)生而言,掌握該類漢字集更具有實(shí)用價(jià)值。獲取該漢字集并非只是依靠語料進(jìn)行字頻或詞頻統(tǒng)計(jì)、排序得到一個高頻字詞表的工作。漢字教學(xué)不能脫離句子教學(xué),句子集合不是詞匯的簡單羅列。句子囊括的漢字不僅使用頻度高,且能體現(xiàn)真實(shí)的句法功能和詞語間的搭配信息。筆者通過考察幾套市面上使用較為廣泛的漢語教材,發(fā)現(xiàn)主觀性較強(qiáng)、句子語用價(jià)值不高,或在真實(shí)語言中使用頻率極低的句子被教材收錄的現(xiàn)象始終存在。例如:一些教材中以常見的句式“這是桌子”為例進(jìn)行闡述。從語用價(jià)值層面分析“這是桌子”可能出現(xiàn)的語境分為兩類。一是幼兒語言習(xí)得;二是說話者抱怨一張不能正常使用的桌子,且該句應(yīng)采用反問語氣“這是桌子?”。顯然,這兩種語言環(huán)境都不適用于漢語作為第二語言教學(xué)。這種低語用價(jià)值的句子在真實(shí)語料中出現(xiàn)的概率極低,我們認(rèn)為不應(yīng)作為漢語教學(xué)的參考文本。例句的選取應(yīng)展示詞匯的語法特點(diǎn),提供充足的語義信息,具有實(shí)際的語用價(jià)值。[5]基于大規(guī)模語料庫的句子識別,避免了教材編纂者閉門造車現(xiàn)象的發(fā)生。
二、基于語料庫統(tǒng)計(jì)的句子識別
本文采用句子的高頻詞密度定義句子中包含高頻常用詞的程度,從而識別出高頻詞密度大的句子集合。詞型詞例比用來衡量文本中的詞匯密度,即不同的詞全部數(shù)目占文本實(shí)際出現(xiàn)的詞語總數(shù)的比率。反映在漢字能力測試層面,詞型詞例比體現(xiàn)學(xué)生所掌握詞匯的覆蓋率。同理,句子的高頻詞詞匯密度反映了句子的使用頻度,包含高頻詞匯多的句子具有較高的高頻詞匯密度。
基于以上觀察,本文采用統(tǒng)計(jì)的方式來進(jìn)行高頻漢字句子集的識別。計(jì)算步驟如圖1:
圖1:高頻漢字句子集識別流程圖
流程說明:
1.語料的預(yù)處理
通過語料庫過濾去掉噪音信息,文本以句子集合的純文本格式保存。
2.將句子進(jìn)行分詞并統(tǒng)計(jì)詞頻
《大綱》是教材編纂、等級考試、學(xué)生學(xué)習(xí)以及教師教學(xué)重要的詞匯參考指標(biāo)?!洞缶V》中的一、二、三級詞匯主要面向初、中級漢語學(xué)習(xí)者。其中,一級詞匯150個,總字?jǐn)?shù)172個;二級詞匯300個,總字?jǐn)?shù)344個;三級詞匯600個,總字?jǐn)?shù)623個?!洞缶V》中前三級所包含的詞匯基本能滿足大部分華裔學(xué)生的認(rèn)讀需求與目標(biāo)。本文只選用大綱前三個等級的詞匯進(jìn)行實(shí)驗(yàn)。由于每個等級詞匯數(shù)與字?jǐn)?shù)基本一致,我們采用詞頻統(tǒng)計(jì)的方法以保證漢字意義的完備性和形式上的整體性。識別算法基于詞頻統(tǒng)計(jì),因此,需要對語料庫文本進(jìn)行分詞處理。本文使用中科院的ICTCLAS分詞軟件對整個語料庫進(jìn)行分詞處理。
3.句子長度(將句子長度定義為詞語個數(shù))的處理
適合華裔學(xué)生漢字學(xué)習(xí)的句子需要考慮二語學(xué)習(xí)者的可接受程度及句子的可擴(kuò)展程度。因此,句子長度需要做一定的限制。詞匯擴(kuò)展是對外漢語課堂詞匯教學(xué)的一項(xiàng)重要內(nèi)容,將詞擴(kuò)展到短語,短語擴(kuò)展到單句,單句擴(kuò)展到復(fù)句是詞匯操練的一個重要項(xiàng)目。在對語料的考察中,我們發(fā)現(xiàn),長度小于3的句子多數(shù)為短語,而考察的目標(biāo)是識別出一個語法結(jié)構(gòu)完整的句子;而長度大于15的句子,多以復(fù)句或多重嵌套形式出現(xiàn),不適合漢語教學(xué)對象的語言水平。因此,本文針對華裔留學(xué)生的語言學(xué)習(xí)特點(diǎn),將長度小于3的或大于15的句子過濾掉。
4.使用《大綱》詞表進(jìn)行過濾
依據(jù)《大綱》制定過濾模板,過濾掉包含詞表之外詞語的句子。由于句子識別是基于較大規(guī)模語料庫,同時(shí)語料庫可進(jìn)行動態(tài)更新,所以,詞表過濾過程不會影響到識別的召回率。
5.句子評分算法
句子評分算法為每個句子提供客觀的評價(jià)依據(jù)。由于每個詞匯在實(shí)際語料庫中出現(xiàn)的頻率不同,即每個詞匯在語料中的重要程度對識別結(jié)果的貢獻(xiàn)度不同,因此,句子評分采用詞頻作為權(quán)重。
設(shè):
(1)語料庫為,其中為第i個句子;
(2)句子,其中為句子中的某個詞匯,m為句子中的詞匯總數(shù);
(3)語料庫中出現(xiàn)的所有詞匯集合為,其中:為語料庫中出現(xiàn)的詞匯;
(4)每個詞匯的權(quán)重得分為:
其中:
為減少句子中重復(fù)詞匯對句子得分的影響,我們對詞匯的權(quán)重按如下公式進(jìn)行平滑處理:
(5)每個句子的得分為
算法的目的是尋找語料庫中得分最高的句子,即
句子評分公式如下:
其中:
經(jīng)過該公式為所有句子評分后,從語料庫中識別出得分最高的若干句子作為候選句子集合。
6.詞匯去重
高頻詞匯句子集識別的目標(biāo)是從語料庫中識別出最少的句子且識別出的句子包含最多的詞匯,同時(shí)這些詞匯具有不重復(fù)性,即識別出的句子集合中各個句子之間詞匯交集最小。某些詞匯,比如:虛詞“了和的”,代詞“我和你”等在語料中出現(xiàn)頻率極高,重疊出現(xiàn)是不可避免的,由于這類詞匯數(shù)量相對有限,對整個識別效率的影響可忽略不計(jì)。
假設(shè)已識別的句子集合為F,而集合F中的詞匯集合為H,則算法描述如下:
輸入–語料庫C
輸出–結(jié)果句子集合F
重復(fù)以下步驟直到F中的句子包含所有的《大綱》詞匯
找出C中得分最高的句子S
F ←F + S
C ←C - S
H ←H + S中的所有詞匯
其中計(jì)算C中每個句子得分時(shí)需將集合H中的詞匯影響去掉。
三、實(shí)驗(yàn)與結(jié)果分析
(一)實(shí)驗(yàn)方案
實(shí)驗(yàn)使用的語料庫來源為互聯(lián)網(wǎng)、報(bào)刊雜志和專業(yè)書籍等。語料規(guī)模為150M。語料庫內(nèi)容以日常生活、語言學(xué)習(xí)類文本為主,同時(shí)還兼有文體娛樂及文學(xué)體裁的內(nèi)容,這些文本含有大量的日常用語,能滿足留學(xué)生的學(xué)習(xí)、工作等交際需要。另外,語料庫中文化負(fù)載詞、漢語特有句式密度較大,這可以幫助學(xué)習(xí)者掌握必要的語用知識以及相關(guān)的中國文化知識。語料庫經(jīng)過本文描述的算法處理后得到最終結(jié)果。
(二)實(shí)驗(yàn)評價(jià)指標(biāo)
本文采用召回率、準(zhǔn)確率和識別效率3個參數(shù)對系統(tǒng)進(jìn)行客觀評價(jià)。
1.召回率
召回率反映系統(tǒng)正確識別的結(jié)果占所有可能正確結(jié)果的比例,計(jì)算表達(dá)式為:
其中,n為《大綱》詞表中的詞匯總數(shù),m為識別的句子集合S中包含的《大綱》詞表中的詞匯數(shù)。
2.準(zhǔn)確率
準(zhǔn)確率反映系統(tǒng)正確選取的結(jié)果占所有選取結(jié)果的比例,計(jì)算表達(dá)式為:
其中,n為識別出的句子集合S中的詞匯總數(shù),m為集合S中包含的《大綱》詞表中的詞匯數(shù)。只有準(zhǔn)確率較高才能保證識別的集合較小。
3.識別效率
識別效率反映算法每次迭代識別時(shí)句子中有效詞匯的比例,計(jì)算表達(dá)式為:
其中,n為當(dāng)前句子的詞匯數(shù),m為當(dāng)前句子中包含的《大綱》詞表中的詞匯數(shù)。該值越高,說明一次迭代識別到的有效詞匯越多,因此,需要的總迭代次數(shù)就越小,從而使得識別句子的集合最小。
(三)實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)發(fā)現(xiàn),隨著識別句子數(shù)的增加,系統(tǒng)的召回率逐步增大。句子數(shù)為50句時(shí),集合中《大綱》前三個等級詞匯為215個;句子數(shù)為100句時(shí),詞匯為406個;而在200句左右時(shí)趨于穩(wěn)定,集合中前三個等級詞匯達(dá)到545個,召回率達(dá)到89.72%。如果綜合考慮算法效率和最終召回率,在相當(dāng)規(guī)模的語料庫基礎(chǔ)上,可將此數(shù)字作為迭代的終止次數(shù)。
實(shí)驗(yàn)發(fā)現(xiàn),隨著句子數(shù)目的增加,準(zhǔn)確率不斷下降,即識別句子中非《大綱》前三個等級的詞匯占比逐漸增加。句子數(shù)為50句時(shí),集合中的總詞匯為232個,其中,《大綱》前三個等級詞匯為215個,準(zhǔn)確率為92.67%;句子數(shù)為100句時(shí),集合中的總詞匯為406個,前三個等級詞匯為324個,準(zhǔn)確率為79.80%;當(dāng)句子數(shù)達(dá)到200句時(shí),集合中的總詞匯為779個,前三個等級詞匯已經(jīng)達(dá)到545個,而此時(shí)的準(zhǔn)確率仍大于69.96%。
實(shí)驗(yàn)顯示,隨著句子數(shù)的增加,識別效率不斷下降,但很快穩(wěn)定在0.19%左右,說明每次迭代都可以識別到新的詞匯,整個算法是收斂的。
識別出來的句子集除了包含一些在語料中統(tǒng)計(jì)出的極為高頻的詞匯以外,句子之間的詞匯沒有其他交集。在語料選擇上,教師可根據(jù)學(xué)習(xí)者的學(xué)習(xí)需求加以選擇。例如:面向有商務(wù)漢語學(xué)習(xí)需求的學(xué)生,教師可加大語料中商務(wù)領(lǐng)域文本的比重。教師也可根據(jù)學(xué)習(xí)者學(xué)習(xí)時(shí)間的長短,在句子數(shù)量上加以選擇。在文本數(shù)量要求大,或?qū)︻I(lǐng)域性有一定傾向的情況下,應(yīng)該保證識別集合中的詞匯與《大綱》的緊密度與在真實(shí)母語環(huán)境中的流通度。僅憑借教師的經(jīng)驗(yàn)手工編寫句子文本顯然是不現(xiàn)實(shí)的,而通過本文的識別方法能滿足這兩方面的條件。
四、結(jié)語
本文利用語料庫語言學(xué)的方法來發(fā)現(xiàn)包含高頻詞匯的最小句子集,以服務(wù)于華裔留學(xué)生這一特殊漢語學(xué)習(xí)群體的漢語學(xué)習(xí)。學(xué)習(xí)者通過學(xué)習(xí)最少的句子集合,掌握最多的常用漢字。這些詞匯不僅是真實(shí)漢語語料庫中的高頻詞,也是對外漢語教學(xué)的基本詞匯。利用該識別方法,漢語教師可從龐大的、雜亂無章的語料中獲取最適合教給學(xué)生的漢語句子集,避免了手工編寫漢字學(xué)習(xí)文本的主觀性。由于識別過程基于大規(guī)模語料庫,教師可自行選擇識別句子的數(shù)量,同時(shí),可依據(jù)學(xué)習(xí)者的學(xué)習(xí)需求在語料選擇領(lǐng)域性上加以調(diào)整。這些特點(diǎn)都是傳統(tǒng)的漢字學(xué)習(xí)教材所不能同時(shí)兼顧的。該方法也可為對外漢語教材及詞典編纂者提供真實(shí)的例句素材,使描述與再現(xiàn)語言更客觀且有據(jù)可依。在實(shí)驗(yàn)過程中,筆者也發(fā)現(xiàn)一些得分較高的識別結(jié)果在實(shí)際教學(xué)過程中不太符合留學(xué)生的學(xué)習(xí)需求,教師可將識別結(jié)果進(jìn)行適當(dāng)?shù)娜斯ばεc調(diào)整,使語料庫語言學(xué)的統(tǒng)計(jì)方法更有效地服務(wù)于漢字教學(xué)。
本課題為北京語言大學(xué)院級科研項(xiàng)目(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助),項(xiàng)目編號為[16YJ080303]。
參考文獻(xiàn):
[1]張志公.現(xiàn)代漢語[M].北京:人民教育出版社,1982.
[2]鄭艷群.語料庫技術(shù)在漢語教學(xué)中的應(yīng)用透視[J].語言文字應(yīng)用,
2013,(1).
[3]盧偉.語料庫在對外漢語教學(xué)中的應(yīng)用[J].廈門大學(xué)學(xué)報(bào)(哲學(xué)
社會科學(xué)版),1999,(4).
[4]郭曙綸.語料庫技術(shù)在對外漢語學(xué)習(xí)詞典編纂中的問題及處理[A].
第三屆對外漢語學(xué)習(xí)詞典學(xué)國際研討會論文集[C].北京:中國社會科學(xué)出版社,2008.
[5]蔡永強(qiáng).略論對外漢語學(xué)習(xí)詞典的編寫原則[A].鄭定歐,李祿興,
蔡永強(qiáng)主編.對外漢語學(xué)習(xí)詞典學(xué)國際研討會論文集(二)[C].北京:中國社會科學(xué)出版社,2006.
[6]張寶林.回避與泛化-基于“HSK”動態(tài)作文語料庫的“把”字句
習(xí)得研究[J].世界漢語教學(xué),2010,(2).
[7]楊泉.基于HSK作文語料庫的留學(xué)生離合詞偏誤計(jì)算機(jī)自動糾錯
系統(tǒng)初探[J].語言文字應(yīng)用,2011,(2).
(張榕 ?北京語言大學(xué)漢語速成學(xué)院 ?100083)