王治敏 俞士汶
摘?要?文章利用2005—2009年這5年的《人民日?qǐng)?bào)》和廣播電視語料,重點(diǎn)考察了《漢語國際教育用音節(jié)漢字詞匯等級(jí)劃分》中的名詞在大規(guī)模真實(shí)語料中的分布,通過設(shè)計(jì)統(tǒng)計(jì)時(shí)點(diǎn)連續(xù)分布的標(biāo)準(zhǔn),成功過濾出過時(shí)的詞匯,同時(shí)賦予《等級(jí)劃分》中的名詞以常用度等各種統(tǒng)計(jì)特征, 提供詞語孰先孰后的證據(jù),最后也提供了大規(guī)模語料中教學(xué)新詞語的備選。文章的研究可為《等級(jí)劃分》的舊詞過濾、新詞擴(kuò)充、詞語的等級(jí)劃分提供新依據(jù)。
關(guān)鍵詞?教學(xué)詞表?統(tǒng)計(jì)特征?統(tǒng)計(jì)時(shí)點(diǎn)?教材編寫?詞匯等級(jí)
一、 引言
《漢語水平詞匯與漢字等級(jí)大綱》(以下簡稱《詞匯大綱》)作為對(duì)外漢語教學(xué)總體設(shè)計(jì)、教材編寫、課堂教學(xué)和成績測試的主要依據(jù),在學(xué)界發(fā)揮了重要作用。但由于時(shí)代的發(fā)展,《詞匯大綱》中收取的詞匯在今天看來略顯過時(shí),為了適應(yīng)漢語國際化的趨勢,2010年國家漢語國際推廣領(lǐng)導(dǎo)小組辦公室和教育部社會(huì)科學(xué)司研制了《漢語國際教育用音節(jié)漢字詞匯等級(jí)劃分》(以下簡稱《等級(jí)劃分》),這是面向全球漢語教學(xué)的國際標(biāo)準(zhǔn)?!兜燃?jí)劃分》依據(jù)30多億字次的當(dāng)代大型動(dòng)態(tài)語料庫和具有代表性、針對(duì)性的詞典、詞表、字表[1],共收錄了11093條詞語,從數(shù)量和規(guī)模上說應(yīng)該是大數(shù)據(jù)時(shí)代漢語教學(xué)詞表的代表,但是經(jīng)過筆者的統(tǒng)計(jì)調(diào)查,發(fā)現(xiàn)《等級(jí)劃分》中依然保留著一些教學(xué)中不常用的詞匯。例如:“焦距、幾率、經(jīng)度、隕石、巫婆、閻王、霍亂、慘白、隱身”等,這些詞都是《等級(jí)劃分》的4級(jí)詞匯,而它們?cè)?999—2003年《人民日?qǐng)?bào)》20個(gè)季度節(jié)點(diǎn)中的平均頻次(總次數(shù)除以20)分別為“1.65、4.9、0、1.5、0、0.7、7.85、0、0”次。頻率如此之低對(duì)留學(xué)生來說學(xué)習(xí)的意義不大,而廣泛出現(xiàn)在中國語言生活中的“提出、展開、達(dá)到、批準(zhǔn)、人才、農(nóng)民工、條例、消費(fèi)者”等常用詞語卻不在詞表之中。
如何使《等級(jí)劃分》保持一種自我更新的能力,使其真正成為一個(gè)名副其實(shí)的標(biāo)準(zhǔn)是亟待解決的問題。
關(guān)于對(duì)教學(xué)詞表的更新,很多學(xué)者做過針對(duì)《詞匯大綱》的專門研究。例如:關(guān)于詞表內(nèi)部的調(diào)整(張凱1997;姜德梧2004;趙金銘等2003;李紅印2005),關(guān)于詞表與教材超綱詞的研究(楊德峰1997;李清華1999;蘇新春2006),關(guān)于詞表字詞選擇和分級(jí)的建議(江新等2006),對(duì)外漢語教學(xué)用詞表的多元化與動(dòng)態(tài)更新(劉長征2008),但還未見到針對(duì)《等級(jí)劃分》的更新研究。
目前《等級(jí)劃分》只能粗略提供詞語的等級(jí)。在漢語教學(xué)快速發(fā)展的同時(shí),迫切需要進(jìn)行一些基礎(chǔ)性研究,迫切需要組織力量研究以下一些問題,其中包括:一年級(jí)學(xué)生應(yīng)該掌握多少詞語?哪些詞語?各個(gè)詞語在教材中出現(xiàn)時(shí),孰先孰后?復(fù)現(xiàn)率為幾?遞增率為幾?(陸儉明1999,2004,2005,2007),而解決詞語孰先孰后的可能途徑就是要建立詞語與大規(guī)模語料的關(guān)聯(lián),通過計(jì)量的方式,建立詞語常用度客觀、真實(shí)的標(biāo)準(zhǔn)。因此本文擬通過對(duì)《等級(jí)劃分》與大規(guī)模語料的關(guān)聯(lián),賦予教學(xué)常用詞語在真實(shí)語料中的分布信息,為詞語使用孰先孰后提供證據(jù),最終實(shí)現(xiàn)《等級(jí)劃分》的過濾與更新。
二、 統(tǒng)計(jì)時(shí)點(diǎn)的設(shè)計(jì)與語料的選擇
《等級(jí)劃分》的標(biāo)準(zhǔn)是將一級(jí)常用詞根據(jù)常用性的差異分為兩個(gè)檔次:第一檔次為最常用的詞,第二檔次為常用的詞。篩選的方式是,第一步:用一級(jí)900字與5個(gè)詞表的前1600詞進(jìn)行交集[2],保留那些完全由這900字組成的詞。隨后,將這5個(gè)詞表進(jìn)行比對(duì),分別得出5個(gè)表、4個(gè)表、3個(gè)表共有的詞,這些詞大多進(jìn)入第一檔次,部分進(jìn)入第二檔次。第二步:用一級(jí)900字與5個(gè)詞表中頻度位置在1601—3000的詞進(jìn)行交集,同樣保留那些完全由這900字組成的詞。隨后,將這5個(gè)詞表進(jìn)行交集,分別得出5個(gè)表、4個(gè)表共有的詞,這些詞少量進(jìn)入第一檔次,部分進(jìn)入第二檔次。(劉英林,馬箭飛2010)該方法兼顧了漢字和詞匯的關(guān)系,但是無法看到同一等級(jí)之間不同詞語之間的差異,也無法衡量詞語的常用程度。
本文賦予《等級(jí)劃分》中全部詞語在歷時(shí)語料中的出現(xiàn)頻次,看這些詞語在歷時(shí)語料中的變化,就可以檢驗(yàn)出詞表中哪些詞語常用,哪些詞語不常用。這里要考慮語料的統(tǒng)計(jì)時(shí)點(diǎn)、語料領(lǐng)域、時(shí)間跨度及常用詞語的判定標(biāo)準(zhǔn)。
如何設(shè)定斷點(diǎn)是我們首先需要考慮的問題,如果以年度作為統(tǒng)計(jì)時(shí)點(diǎn),幾乎所有的詞語都會(huì)出現(xiàn),但是如果以天、月、季度作為統(tǒng)計(jì)時(shí)點(diǎn),詞語之間的差距就會(huì)出現(xiàn),有的詞語在每天、每月、每季度、每年連續(xù)出現(xiàn),有的詞語只能年度連續(xù)出現(xiàn),無法做到季度、月份、天連續(xù)出現(xiàn)。漢語教學(xué)的詞語一般是人們語言生活中頻繁使用的,那么它在歷時(shí)語料中出現(xiàn)的頻次也會(huì)很高。筆者曾經(jīng)做過天、月、季度、年度的對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)季度節(jié)點(diǎn)效果最好。因此本文設(shè)定教學(xué)詞語常用的標(biāo)準(zhǔn)主要看該詞在季度節(jié)點(diǎn)中是否連續(xù)出現(xiàn),如果連續(xù)出現(xiàn)就認(rèn)為其常用,如果沒有連續(xù)出現(xiàn),就認(rèn)為其不常用。
選擇語料方面,筆者綜合考慮了書面語和口語兩個(gè)方面的因素,同時(shí)還考慮詞語在歷時(shí)語料中的持續(xù)時(shí)間。筆者選擇了2005—2009年度國家語言資源監(jiān)測研究中心的《人民日?qǐng)?bào)》作為書面語文本,同時(shí)也選擇2005—2009年度國家有聲媒體分中心的廣播電視文本作為口語文本,這一時(shí)間的語料恰恰涵蓋了《等級(jí)劃分》選用語料的時(shí)間范圍。兩種語料的規(guī)模分別為812,417,024字節(jié)和787,218,432字節(jié)。雖然2005—2009年的語料是10年前的歷時(shí)語料,但是我們的研究目標(biāo)是提取現(xiàn)代漢語教學(xué)基礎(chǔ)詞匯,實(shí)現(xiàn)詞表過濾,語言教學(xué)的基礎(chǔ)詞匯在任何語料中都是最穩(wěn)定的集合,所以選擇這個(gè)時(shí)段的語料是合適的。
另外,這兩種語料是書面語與口語的代表,體現(xiàn)著當(dāng)今中國語言生活的變遷,兩種語料所包含的常用句型與詞匯是外國留學(xué)生學(xué)習(xí)的典范。為了驗(yàn)證《人民日?qǐng)?bào)》提取漢語教學(xué)詞匯的效果,筆者曾經(jīng)做過《人民日?qǐng)?bào)》(1999—2003年)的教學(xué)詞匯提取(王治敏2010),建立了這一時(shí)段的教學(xué)詞語統(tǒng)計(jì)詞表,并與《2006年中國語言生活狀況報(bào)告》中發(fā)布的1500個(gè)教材高頻詞做了對(duì)比,1500個(gè)教材高頻詞由12套教材統(tǒng)計(jì)得到,最低頻次為33次,覆蓋了總語料的77%。教材高頻詞從語言教學(xué)經(jīng)典教材中獲得,是一線教師多年教學(xué)經(jīng)驗(yàn)的集中體現(xiàn),也是教學(xué)詞語的典型代表。通過對(duì)比,我們發(fā)現(xiàn)479條高頻名詞中有466條詞語都包含在統(tǒng)計(jì)詞表中,占全部詞語的97.29%。這足以說明,從《人民日?qǐng)?bào)》提取的教學(xué)詞語具有很好的覆蓋性,雖然它是新聞?wù)Z料,但基本涵蓋了人們的日常生活詞匯,因此,選擇《人民日?qǐng)?bào)》語料作為實(shí)驗(yàn)語料完全可行。
三、 《等級(jí)劃分》名詞等級(jí)及舊詞的過濾
《等級(jí)劃分》中名詞及兼類名詞共計(jì)4472條,占詞表全部詞匯的40.31%。《等級(jí)劃分》中名詞兼類的具體情況如圖1所示。
從圖1的數(shù)據(jù)可以看出,非兼類占據(jù)絕大多數(shù),共計(jì)3963條,占全部名詞的88.48%,這3963條名詞等級(jí)如何?本文對(duì)此進(jìn)行了具體考察,如圖2所示。
《等級(jí)劃分》中包含1級(jí)1等、1級(jí)2等、1級(jí)3等、2級(jí)、3級(jí)、3級(jí)附加等6個(gè)等級(jí)。其中這6個(gè)等級(jí)并非均勻分布,1級(jí)分三個(gè)等級(jí),梯度上升,但是到了1級(jí)3等,數(shù)量急劇增加,導(dǎo)致1級(jí)3等到2級(jí)的跨度最大。對(duì)于留學(xué)生來說,詞匯學(xué)習(xí)是個(gè)循序漸進(jìn)的過程,隨著年級(jí)的升高,所學(xué)習(xí)的詞匯數(shù)量也相應(yīng)地增加,而非下降的趨勢,因此建議在第2級(jí)、第3級(jí)也設(shè)定相應(yīng)層次,讓詞匯的學(xué)習(xí)有梯度地增加。
筆者把6個(gè)級(jí)別的名詞全部投射到五年《人民日?qǐng)?bào)》和廣播電視語料的大背景中,其目的就是要檢查它們?cè)谔囟v史時(shí)段中的連續(xù)分布規(guī)律。投射方法具體如下:
首先設(shè)置一時(shí)間區(qū)間T,并將所述時(shí)間區(qū)間T分成多個(gè)時(shí)間子區(qū)間t1,t2,…,tn,其中,t1=t2=…=tn,2005—2009年度《人民日?qǐng)?bào)》和廣播電視語料各包含20個(gè)季度,因此選取對(duì)應(yīng)于所述子區(qū)間t1,t2,…,t20的語料,利用中國科學(xué)院自動(dòng)化研究所的分詞軟件對(duì)所有的語料切分標(biāo)注,統(tǒng)計(jì)全部詞語在所述子區(qū)間t1,t2,…,t20對(duì)應(yīng)的所述語料中出現(xiàn)的子次數(shù)f1,f2,…,f20?!兜燃?jí)劃分》中能夠持續(xù)出現(xiàn)在兩種語料季度節(jié)點(diǎn)f1,f2,…,f20的名詞分別為3786條、3496條。具體如表1所示:
《等級(jí)劃分》在兩種語料中連續(xù)出現(xiàn)的名詞比例很高,分別達(dá)到了95.53%、88.22%,但是也發(fā)現(xiàn)有少量詞語未連續(xù)出現(xiàn)在兩種語料中,廣播電視語料中未連續(xù)出現(xiàn)的名詞有177條,《人民日?qǐng)?bào)》有467條, 兩種語料都未連續(xù)出現(xiàn)的有131條。這些名詞分布在《等級(jí)劃分》的不同等級(jí)中,具體如圖3所示。
《等級(jí)劃分》中無法持續(xù)的名詞主要分布在2級(jí)、3級(jí)及3級(jí)附加這三個(gè)等級(jí)中,未連續(xù)出現(xiàn)在語料中的標(biāo)準(zhǔn)可以有效甄別每一個(gè)詞是否持續(xù)流行,這也是我們發(fā)現(xiàn)歷史詞匯的重要線索,特別是無法同時(shí)出現(xiàn)在兩種語料中的名詞是我們的研究重點(diǎn)。
筆者調(diào)查了10位北京語言大學(xué)初、中、高不同階段的一線漢語教師。讓他們對(duì)未連續(xù)出現(xiàn)在兩種語料的131個(gè)詞語進(jìn)行逐一排查,具體如表2所示。
從表2過濾出的詞語可以看出,有些詞語所代表的物品已基本消失。有些詞語是很少使用的過時(shí)用具及物品,有的詞語是難度較高的科技詞匯與專業(yè)術(shù)語,還有的詞語是難度較高的宗教詞匯。
前文提到《等級(jí)劃分》在選詞的過程中兼顧了900常用字和詞語頻次的組合,但是這種選詞方法存在的問題是,有些由最常用字構(gòu)成的詞已經(jīng)很少使用,《等級(jí)劃分》無法將其剔除。例如:“汽水、便條、寫字臺(tái)”等。
過濾出來的未連續(xù)出現(xiàn)在語料中的詞匯是特別的備選集合,數(shù)量少,問題集中,通過一線教師一一甄別,最后可以把不常見的詞匯全部過濾出去。
四、 《等級(jí)劃分》的詞匯更新與等級(jí)調(diào)整
除了過濾歷史詞匯外,本文還提取了2005—2009年度的《人民日?qǐng)?bào)》和廣播電視語料中季度節(jié)點(diǎn)持續(xù)流行的詞語,這些詞語是《等級(jí)劃分》最好的新詞備選。按照前文兩種語料40個(gè)季度節(jié)點(diǎn)的統(tǒng)計(jì),筆者發(fā)現(xiàn)持續(xù)出現(xiàn)在兩種語料的名詞如表3所示:
兩種語料季度統(tǒng)計(jì)時(shí)點(diǎn)的名詞很多,但是通過季度節(jié)點(diǎn)連續(xù)出現(xiàn)的標(biāo)準(zhǔn),很多的詞語都會(huì)被過濾掉,最后得到《人民日?qǐng)?bào)》和廣播電視語料共同出現(xiàn)的詞語有7639條。雖然有了如此多的備選,但如何衡量這些詞語是否常用,如何設(shè)定一個(gè)統(tǒng)一的標(biāo)準(zhǔn)是需要考慮的問題。
王治敏(2010)設(shè)計(jì)了一個(gè)專門針對(duì)語言教學(xué)的詞匯提取模型,該模型考慮了詞語的時(shí)間跨度,穩(wěn)定程度等多方面的因素。模型具體如下:
stdev(f)表示詞語出現(xiàn)頻次的標(biāo)準(zhǔn)差,其計(jì)算公式如式(3)所示。
式(2)、式(3)中,n為詞語統(tǒng)計(jì)頻次f的個(gè)數(shù)。當(dāng)stdev(f)=0時(shí),U→∞,若編程實(shí)現(xiàn)時(shí),U可取大于已有計(jì)算結(jié)果最大值的某個(gè)值,不過這只是一種極端情況,通常不會(huì)出現(xiàn)。本文利用這個(gè)模型,對(duì)《等級(jí)劃分》名詞進(jìn)行了計(jì)算,賦予了《等級(jí)劃分》中持續(xù)出現(xiàn)在20個(gè)季度節(jié)點(diǎn)全部名詞的常用度屬性信息。例如:《等級(jí)劃分》中收錄了“酒店、賓館、旅館、旅店”這四個(gè)詞,其中“酒店”為1級(jí)1等,其余為2級(jí)詞匯。它們的常用度如表4所示:
常用度排序最高的是2級(jí)詞匯“賓館”,第二位置是2級(jí)詞匯“旅館”,而1級(jí)1等(1#1)詞匯“酒店”位居第三,排序靠后的原因在于,“酒店”的波動(dòng)太大,從而導(dǎo)致常用度降低,但其平均頻次遠(yuǎn)遠(yuǎn)高出其他三個(gè)詞,為了更深入地觀察 “酒店、賓館、旅館、旅店”的排序,本文繪制了四個(gè)詞語的季度變化曲線。如圖4所示:
從圖4不難看出,雖然“酒店”的變化幅度很大,但是其平均頻次最高,應(yīng)該排序在第一位,原有模型有待改進(jìn)。本文經(jīng)過反復(fù)試驗(yàn),找到了提高平均頻次f的權(quán)重、降低stdev的有效方法。公式如下:
模型修改后,本文對(duì)上述四個(gè)詞進(jìn)行了重新計(jì)算,得到新的常用度。具體如表5所示:
這里“酒店、賓館、旅館、旅店”四個(gè)詞的排序完全符合季度曲線分布。這說明我們的模型完全符合人們的視覺經(jīng)驗(yàn)。
大規(guī)模語料可以提供《等級(jí)劃分》的新詞備選,前文提到兩種語料共有7963條詞語在季度節(jié)點(diǎn)中連續(xù)出現(xiàn),筆者提取了排序前600條的詞語,發(fā)現(xiàn)下列詞語并不在《等級(jí)劃分》的收詞范圍內(nèi)。具體如表6所示:
表6中的詞語廣泛出現(xiàn)在我們的語言生活中,其平均頻次及常用度居于前列,是很好的教學(xué)詞匯備選,但是否進(jìn)入教學(xué)詞表還須仔細(xì)斟酌。未來我們將提取季度節(jié)點(diǎn)連續(xù)出現(xiàn)的高頻詞匯,在一線教師中做廣泛調(diào)研,有選擇收入符合一線教師經(jīng)驗(yàn)的常用詞語,更新現(xiàn)有的教學(xué)詞表。
《等級(jí)劃分》的詞匯被賦予各種統(tǒng)計(jì)數(shù)據(jù)后,可以為詞匯等級(jí)調(diào)整提供很好的幫助,我們以親屬稱謂詞為例。在《等級(jí)劃分》中,“爸爸、媽媽、哥哥、姐姐、弟弟、妹妹、叔叔、阿姨”分屬不同等級(jí),其中“爸爸、媽媽、哥哥、姐姐”為1級(jí)1等,“弟弟、妹妹”為1級(jí)2等,“叔叔、阿姨”是2級(jí)詞匯。筆者提取了這組詞的常用度排序,如表7所示:
表7給出了親屬稱謂詞的序列,其中“媽媽”在語料中平均頻次最高,常用度也最高?!鞍职帧蔽痪拥诙瑥哪信Q謂來看,廣播電視語料中一般是女性稱謂常用度排序位居男性稱謂之前。比如:“媽媽、妹妹、阿姨”分別排列在“爸爸、弟弟、叔叔”之前。
從詞匯等級(jí)來看,《等級(jí)劃分》中“哥哥、姐姐”標(biāo)注為1級(jí)1等,和“媽媽、爸爸”為同一級(jí)別,但是從實(shí)際語料來看,“哥哥、姐姐”的平均頻次、常用度和1級(jí)2等的“弟弟、妹妹”非常接近,和1級(jí)1等的“媽媽、爸爸”相距甚遠(yuǎn),而且從親屬稱謂的語義關(guān)系方面來看,“哥哥、姐姐”也和“弟弟、妹妹”一樣,同樣屬于子女,因此,我們可以重新調(diào)整“哥哥、姐姐”的詞匯等級(jí),把這兩個(gè)詞歸并到1級(jí)2等較為合適。
再比如,《等級(jí)劃分》在1級(jí)3等中收取了“白色、黑色、黃色、藍(lán)色、綠色”等顏色詞,但是沒有收入“橙色、紫色”,而且收取的顏色詞只是按音序排列,孰先孰后沒做區(qū)分,本文設(shè)計(jì)的統(tǒng)計(jì)模型完全可以提供顏色詞的常用度序列,請(qǐng)見表8。
顏色詞的排列順序分別是“綠色、紅色、白色、黑色、黃色、藍(lán)色”,而沒有收錄的“橙色、紫色”位居最后兩位,通過這種方法可以明確地展示出孰先孰后的證據(jù),同時(shí)也給出了可以不收“橙色、紫色”的理由。當(dāng)然,“橙色、紫色”在語言生活中經(jīng)常出現(xiàn),連續(xù)出現(xiàn)在季度節(jié)點(diǎn)中,也可以擴(kuò)充到《等級(jí)劃分》中。以往教學(xué)詞表同類詞的收入,需要大量專家人工干預(yù),但是專家人工干預(yù)憑借的都是主觀經(jīng)驗(yàn),本文提供的各種常用度統(tǒng)計(jì)信息可以精準(zhǔn)地定位同類詞匯的常用度,為語言教學(xué)教材編寫及詞匯教學(xué)提供直接的經(jīng)驗(yàn)。
五、 結(jié)語
本文基于大規(guī)模語料,重點(diǎn)考察了《等級(jí)劃分》中名詞在歷時(shí)語料中的分布,通過設(shè)計(jì)季度時(shí)點(diǎn),可成功過濾出未連續(xù)出現(xiàn)在2005—2009年度《人民日?qǐng)?bào)》和廣播電視語料中的《等級(jí)劃分》名詞,這種方法可以有效發(fā)現(xiàn)不用的過時(shí)詞語。同時(shí),本文還提取了2005—2009年度的《人民日?qǐng)?bào)》和廣播電視語料季度節(jié)點(diǎn)中持續(xù)流行的詞語,通過常用度提取模型,對(duì)《等級(jí)劃分》名詞進(jìn)行了計(jì)算,賦予《等級(jí)劃分》中全部名詞在20個(gè)季度節(jié)點(diǎn)中的統(tǒng)計(jì)信息及常用屬性特征,最后文章重點(diǎn)分析了酒店類、親屬稱謂、顏色詞等類別詞語,通過同義詞族群內(nèi)部特點(diǎn)驗(yàn)證其在《等級(jí)劃分》中的級(jí)別,教學(xué)統(tǒng)計(jì)詞表不僅為解決詞語孰先孰后,同義詞辨析提供有價(jià)值的數(shù)據(jù),而且還可為《等級(jí)劃分》提供大規(guī)模語料持續(xù)流行的新詞備選。
教學(xué)詞表的過濾與更新從理論上涉及常用詞語的科學(xué)定義、常用詞語與大規(guī)模語料的關(guān)系、詞語的穩(wěn)定性度量等科學(xué)問題,以往學(xué)者對(duì)于常用詞語的定義一般是針對(duì)人的語言描述,對(duì)于機(jī)器而言不僅有定義,還要做到可操作、可執(zhí)行。本文提出了常用詞在空間連續(xù)分布的界定方法,將“常用”變成了可量化的定義。同時(shí),常用詞語來源于語言生活,來源于語料,常用詞語與大規(guī)模語料可以互相印證,本文通過《等級(jí)劃分》在歷時(shí)語料的分布,意在建立詞語與歷時(shí)語料的關(guān)聯(lián),發(fā)現(xiàn)詞語的分布特點(diǎn)。當(dāng)然,詞語的穩(wěn)定性度量也同樣離不開歷時(shí)語料的支撐,本文通過設(shè)計(jì)季度節(jié)點(diǎn),可以清楚看到詞語的變化曲線,詞語的穩(wěn)定是衡量詞語常用的因素之一,常用度提取模型考慮詞語穩(wěn)定性的影響因素,提取效果符合人們的心理經(jīng)驗(yàn)。
另外,本文提出的常用詞語提取方法建立在歷時(shí)語料之上,該技術(shù)不僅適用于不同時(shí)段語料的教學(xué)基礎(chǔ)詞匯提取,也適用于歷時(shí)領(lǐng)域語料的專業(yè)詞匯提取,其對(duì)漢語國際教學(xué)詞匯大綱和專業(yè)領(lǐng)域詞匯大綱的編撰具有廣泛的應(yīng)用價(jià)值。未來本研究將建立近二十年的歷時(shí)語料處理集合,研發(fā)漢語教學(xué)基礎(chǔ)詞匯大綱,滿足漢語國際教育學(xué)科發(fā)展的現(xiàn)實(shí)需求。
附?注
[1]《等級(jí)劃分》參照的詞表包括《現(xiàn)代漢語詞典》《漢語語言文字啟蒙》《漢語水平詞匯與漢字等級(jí)大綱》《漢語水平等級(jí)標(biāo)準(zhǔn)與語法等級(jí)大綱》《高等學(xué)校外國留學(xué)生漢語語言專業(yè)教學(xué)大綱》《香港地區(qū)普通話教學(xué)與測試詞表》《漢語教材常用詞表與常用字表統(tǒng)計(jì)分析報(bào)告》《現(xiàn)代漢語常用字表》《普通話水平測試實(shí)施綱要》《現(xiàn)代漢語常用字表》。同時(shí)也征求了100位海內(nèi)外專家的意見。(參見《等級(jí)劃分》代序)
[2]文中5個(gè)詞表包括廣播電視對(duì)話詞頻表,有聲媒體詞頻統(tǒng)計(jì)表,多媒體(報(bào)紙、電視、網(wǎng)絡(luò)新聞)詞頻統(tǒng)計(jì)表,中小學(xué)新課標(biāo)語文科詞頻表,國家語言文字工作委員會(huì)平衡語料庫詞頻表,所有詞均去除人名、地名和英文字母詞。
參考文獻(xiàn)
1. 北京語言學(xué)院教學(xué)研究所.現(xiàn)代漢語頻率詞典.北京:北京語言學(xué)院出版社,1986.
2. 國家漢語水平考試委員會(huì)辦公室考試中心.漢語水平詞匯與漢字等級(jí)大綱(修訂本).北京:經(jīng)濟(jì)科學(xué)出版社,2001.
3. 國家漢語國際推廣領(lǐng)導(dǎo)小組辦公室, 教育部社會(huì)科學(xué)司.漢語國際教育用音節(jié)漢字詞匯等級(jí)劃分.北京:北京語言大學(xué)出版社,2010.
4. 國家語言資源監(jiān)測與研究中心.中國語言生活狀況報(bào)告(2005)下編.北京:商務(wù)印書館,2006.
5. 國家語言資源監(jiān)測與研究中心.中國語言生活狀況報(bào)告(2009)下編.北京:商務(wù)印書館,2010.
6. 姜德梧.關(guān)于《漢語水平詞匯與漢字等級(jí)大綱》的思考.世界漢語教學(xué),2004(1).
7. 江新,趙果,黃慧英等.外國學(xué)生漢語字詞學(xué)習(xí)的影響因素——兼論《漢語水平大綱》字詞的選擇與分級(jí).語言教學(xué)與研究,2006(2).
8. 李紅印.《漢語水平詞匯與漢字等級(jí)大綱》收“語”分析.語言文字應(yīng)用,2005(4).
9. 李清華.《漢語水平詞匯與漢字等級(jí)大綱》的詞匯量問題.語言教學(xué)與研究,1999(1).
10. 劉長征.對(duì)外漢語教學(xué)用詞表的多元化與動(dòng)態(tài)更新.語言文字應(yīng)用,2008(2).
11. 劉英林,馬箭飛.研制《音節(jié)和漢字詞匯等級(jí)劃分》探尋漢語國際教育新思維.世界漢語教學(xué),2010(1).
12. 陸儉明.關(guān)于開展對(duì)外漢語教學(xué)基礎(chǔ)研究之管見.語言文字應(yīng)用,1999(4).
13. 陸儉明.增強(qiáng)學(xué)科意識(shí),發(fā)展對(duì)外漢語教學(xué).世界漢語教學(xué),2004(1).
14. 陸儉明.對(duì)外漢語教學(xué)與漢語本體研究的關(guān)系.語言文字應(yīng)用,2005(1).
15. 陸儉明.漢語作為第二語言教學(xué)的本體研究和漢語本體研究.世界漢語教學(xué),2007(3).
16. 蘇新春.對(duì)外漢語詞匯大綱與兩種教材詞匯狀況的對(duì)比研究.語言文字應(yīng)用,2006(2).
17. 王治敏.基于時(shí)間跨度的漢語教學(xué)常用詞表統(tǒng)計(jì)研究.華文教學(xué)與研究,2010(4).
18. 王治敏,楊爾弘.面向漢語教學(xué)的常用動(dòng)詞計(jì)量研究.語言教學(xué)與研究,2012(1).
19. 楊德峰.試論對(duì)外漢語教材的規(guī)范化.語言教學(xué)與研究,1997(3).
20. 趙金銘, 張博,程娟.關(guān)于修訂《漢語水平詞匯等級(jí)大綱》的若干意見.世界漢語教學(xué),2003(3).
21. 張凱.漢語構(gòu)詞基本字的統(tǒng)計(jì)分析.語言教學(xué)與研究,1997(1).
(王治敏?北京語言大學(xué)漢語國際教育研究院,漢語國際教育學(xué)部?北京?100083)
(俞士汶?北京大學(xué)計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室?北京?100871)
(責(zé)任編輯?馬?沙)