劉宇凡,郭金忠,陳清華
(1. 石家莊經(jīng)濟(jì)學(xué)院 人文社科學(xué)院,河北 石家莊 050031;2. 北京師范大學(xué) 管理學(xué)院,北京 100875)
人們很早就發(fā)現(xiàn),文學(xué)作品或者文集中的基本組成單元或元素并不是等概率出現(xiàn)的,少數(shù)的字和詞使用非常頻繁,而只出現(xiàn)一次的字和詞非常多。這種特定的統(tǒng)計(jì)分布形式具有非常強(qiáng)的普適性,存在于不同地區(qū)不同時(shí)期多種語(yǔ)言之中。這種統(tǒng)計(jì)研究除了在理論上討論語(yǔ)言的共性外,其結(jié)果也具有實(shí)際應(yīng)用價(jià)值,例如它可以應(yīng)用于語(yǔ)言信息的計(jì)算機(jī)化處理,包括文本的壓縮、輸入法的編碼等,以及目前比較流行的文本自動(dòng)分析和處理,還可以用于語(yǔ)言學(xué)習(xí)材料的組織和其他方面,如小學(xué)課本中常用字詞的選取等。
語(yǔ)言的統(tǒng)計(jì)研究可以追溯到很久以前,古印度語(yǔ)法學(xué)家在研究《吠陀》時(shí),就進(jìn)行過(guò)單詞和音節(jié)數(shù)目的統(tǒng)計(jì)。1898年德國(guó)學(xué)者Kaeding編制了世界上第一部頻率詞典《德語(yǔ)頻率詞典》。1935年和1949年哈佛大學(xué)語(yǔ)言學(xué)家Zipf先后出版了兩本著作[1-2],提出了著名的Zipf規(guī)律(或齊夫定律)。他在總結(jié)前人統(tǒng)計(jì)發(fā)現(xiàn)的基礎(chǔ)上,指出在文集中詞的出現(xiàn)不是等概率的,它們滿足這樣的形式:p(r)=Cr-β,其中P(r)為排序在第r位置的詞出現(xiàn)的頻率,β為Zipf指數(shù),C為常數(shù)。后續(xù)一些研究發(fā)現(xiàn)西班牙語(yǔ)、法語(yǔ)、愛(ài)爾蘭語(yǔ)[3]、希臘語(yǔ)[4]、印度語(yǔ)[5]、土耳其語(yǔ)[6]均滿足這種分布特征,甚至現(xiàn)在已經(jīng)滅絕的語(yǔ)言也是如此[7]。隨著計(jì)算機(jī)技術(shù)的發(fā)展,對(duì)語(yǔ)料庫(kù)的統(tǒng)計(jì)工作變得非常簡(jiǎn)單,這方面的研究工作變得更容易進(jìn)行。
但對(duì)于漢語(yǔ)來(lái)說(shuō),這種基本元素的統(tǒng)計(jì)非常特殊。漢語(yǔ)具有兩個(gè)基本單元,一個(gè)是字(character或ideogram),另一個(gè)詞(word)。這兩方面的統(tǒng)計(jì)研究工作歷史上都有過(guò)一些,例如,1975—1976年,北京新華印刷廠等19個(gè)單位發(fā)動(dòng)了1 500名中學(xué)生對(duì)出版物中的2 162萬(wàn)字的材料進(jìn)行統(tǒng)計(jì),編成《漢字頻率表》;中國(guó)“七四八”工程查頻組首次利用計(jì)算機(jī)對(duì)漢字的頻度進(jìn)行統(tǒng)計(jì),得出《現(xiàn)代漢字綜合使用頻度表》;1990年,Zhao對(duì)統(tǒng)計(jì)結(jié)果嘗試進(jìn)行了曲線擬合,發(fā)現(xiàn)字頻分布具有半指數(shù)半冪律特征[8];1999年,關(guān)毅等人以當(dāng)時(shí)Internet網(wǎng)上的中文字頻統(tǒng)計(jì)共享資源為對(duì)象進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)在現(xiàn)代漢語(yǔ)的字、詞、二元對(duì)等層次結(jié)構(gòu)上,同樣存在Zipf形式的頻度——頻級(jí)關(guān)系[9]。2003年,Ha等人討論了單個(gè)漢字和漢字多元對(duì)的分布,發(fā)現(xiàn)單個(gè)漢字不服從Zipf分布,而多元對(duì)的分布近似服從Zipf規(guī)律,這與英文多元對(duì)的分析情況是一致的[10]。
這些工作都是針對(duì)同一個(gè)時(shí)期的文字材料,缺乏對(duì)于字詞使用的動(dòng)態(tài)分析。2005年,Wang Dahui等人首次發(fā)現(xiàn)字頻隨著歷史發(fā)展存在變化,他們對(duì)中國(guó)不同時(shí)代的文獻(xiàn)著作分別進(jìn)行了分析[11],統(tǒng)計(jì)了甲骨文、青銅器上的銘刻、《詩(shī)經(jīng)》、《爾雅》、《毛澤東選集》、《亮劍》等文學(xué)作品中的漢字使用分布,發(fā)現(xiàn)漢字的使用分布在不同時(shí)代具有顯著差異,早期的中國(guó)文獻(xiàn)的字的頻數(shù)和排序關(guān)系是滿足Zipf分布的,而晚期(秦朝以后)的文獻(xiàn)并不滿足這個(gè)分布,而更多地表現(xiàn)出指數(shù)的特征。Da Jun的統(tǒng)計(jì)也發(fā)現(xiàn)現(xiàn)代漢語(yǔ)和古代漢語(yǔ)在字頻使用上存在差異[12]。那么,歷史上字頻是一次性突變還是經(jīng)歷了一個(gè)變化過(guò)程?這是一個(gè)有趣的問(wèn)題。討論歷史上各個(gè)時(shí)期文字材料(本文選取自唐以來(lái)的各個(gè)歷史時(shí)期漢語(yǔ)文學(xué)作品)中字頻分布的精確性質(zhì)及其演變,可以為我們更加深入研究漢語(yǔ)言的演變提供重要依據(jù)。
中國(guó)歷史上的很多時(shí)期有其代表性的文學(xué)樣式,其發(fā)展順序大致為: 詩(shī)經(jīng)→楚辭→先秦散文→漢賦樂(lè)府→魏晉駢文→唐詩(shī)→宋詞→元曲→明清小說(shuō)。其中,唐詩(shī)、宋詞、元曲和明清小說(shuō)是其中的杰出代表,留存也較為齊全。我們從互聯(lián)網(wǎng)(如天涯在線書庫(kù)http://www.tianyabook.com/等)上獲得了如下材料建立語(yǔ)料庫(kù),如表1所示。
表1 統(tǒng)計(jì)材料說(shuō)明
其中全唐詩(shī)共 900卷,收錄唐代和五代詩(shī)篇 48 900余首,作者2 200多人。全宋詞收集詞人1 300多人,詞作19 900余篇。明清小說(shuō)文集我們選擇四大名著(即《三國(guó)演義》、《水滸》、《西游記》和《紅樓夢(mèng)》)。網(wǎng)絡(luò)小說(shuō)來(lái)源于互聯(lián)網(wǎng)寫手所創(chuàng)作的最新小說(shuō),我們從Google網(wǎng)絡(luò)小說(shuō)排行榜(http://www.google.cn/rebang/)上隨機(jī)選取了2009年4月20日上榜的50篇中的10篇文章,如《長(zhǎng)生界》、《壞蛋是怎樣煉成的》、《鬼吹燈》,其中一些小說(shuō)還在連載中而沒(méi)有終稿。我們?cè)诮y(tǒng)計(jì)字頻之前去除了文集中的所有標(biāo)點(diǎn)符號(hào)、阿拉伯?dāng)?shù)字和英文字母,只保留了漢字字符。
經(jīng)過(guò)簡(jiǎn)單統(tǒng)計(jì)發(fā)現(xiàn),不同的字在同一個(gè)文集中出現(xiàn)的次數(shù)有很大差異,如全唐詩(shī)中 “花” 出現(xiàn) 11 356 次, “明” 出現(xiàn)6 818次,“話”出現(xiàn)518次,而“神”只出現(xiàn)了1次。此外,不同語(yǔ)料庫(kù)中同樣的字出現(xiàn)的絕對(duì)次數(shù)不一樣,如全唐詩(shī)中“不”字出現(xiàn) 26 502 次,而全宋詞中出現(xiàn)10 177次,在四大名著小說(shuō)中共出現(xiàn)38 983次,它們的相對(duì)頻率也不同,如表2所示。
表2列出了我們所討論的5個(gè)文集中出現(xiàn)最多的20個(gè)字及其頻率,其頻率的值越大說(shuō)明在文集中出現(xiàn)的次數(shù)越多。全唐詩(shī)中“日”的頻率為 0.005 75,意味著在唐詩(shī)文集中平均每174個(gè)字中會(huì)有一個(gè)“日”字。我們可以看出不同文集中出現(xiàn)最多的20個(gè)字不完全相同,但文集的對(duì)應(yīng)時(shí)期越近,列表中相同的字?jǐn)?shù)越多,且順序更一致。對(duì)所有5個(gè)文集來(lái)講,有5個(gè)字都在出現(xiàn)頻率最高的前20名內(nèi),它們是“不”、“一”、“來(lái)”、“人”和“有”。為定量衡量這個(gè)差異,我們使用Shlomo Havlin在1995年提出的計(jì)算兩個(gè)概率序列距離的公式。
表2 字頻統(tǒng)計(jì)
其中λ表示兩個(gè)序列i,j中都有的字,ri(λ)表示在序列i中的位置,N為λ的個(gè)數(shù),即兩個(gè)序列中包含的相同的字的個(gè)數(shù)。結(jié)果如表3所示,說(shuō)明較近時(shí)期的文學(xué)作品對(duì)漢字的使用具有更大的相似性。元曲和明清小說(shuō)的差別最小,而唐詩(shī)和現(xiàn)代網(wǎng)絡(luò)小說(shuō)在漢字的使用習(xí)慣上差別最大。
表3 不同文集字頻序列的距離
在語(yǔ)言方面的研究工作中,常常將字頻或者詞頻按大小順序從左到右排列起來(lái),橫軸為所在的位置序號(hào),縱軸為這個(gè)字/詞出現(xiàn)的頻率。如圖1所示,圖中的曲線自上而下分別為全唐詩(shī)、全宋詞、全元曲、明清小說(shuō)和網(wǎng)絡(luò)小說(shuō)。采用的坐標(biāo)為縱軸為對(duì)數(shù)坐標(biāo),圖形右端類似直線,表現(xiàn)出很強(qiáng)的指數(shù)特征,即字頻的下降速度很快。圖形右上角的子圖為Zipf圖,即為雙對(duì)數(shù)坐標(biāo)。左端具有一定的線性規(guī)律,表示字頻具有一定的冪律特性。唐詩(shī)和宋詞冪律部分較為接近,宋詞和元曲在指數(shù)部分比較接近,即唐詩(shī)和宋詞在高頻詞的使用頻率上比較接近,而宋詞和元曲在低頻詞的使用頻率上更為相似,網(wǎng)絡(luò)小說(shuō)的詞頻則呈現(xiàn)出兩個(gè)極端。
圖1 漢字字頻的Zipf圖形
圖2 唐詩(shī)和現(xiàn)代網(wǎng)絡(luò)小說(shuō)文集的字頻擬合
我們用這個(gè)函數(shù)對(duì)實(shí)證數(shù)據(jù)進(jìn)行擬合。為了減少擬合過(guò)程中對(duì)高端數(shù)據(jù)偏差帶來(lái)的懲罰效應(yīng),我們采用logP(r)=logA-ar-blogr使用Matlab中的nlinfit函數(shù)進(jìn)行擬合,得到較好的擬合效果,如圖2所示,是我們對(duì)全唐詩(shī)文集和現(xiàn)代網(wǎng)絡(luò)小說(shuō)文集中字頻統(tǒng)計(jì)的擬合結(jié)果。除了在高頻部分存在一定的偏差外,擬合曲線很好地符合了實(shí)證數(shù)據(jù)。
擬合過(guò)程得到的參數(shù)估計(jì)如表4所列。
表4 字頻擬合的參數(shù)結(jié)果
以上參數(shù)中,a描述的是指數(shù)特性,而b描述的是冪律特性。整體看,隨著歷史的發(fā)展,漢語(yǔ)文學(xué)作品中字的使用頻率的衰減指數(shù)特性增強(qiáng),冪律特性減弱。唐詩(shī)、宋詞、元曲具有更大的相似性。
本文討論了自唐代以來(lái)各個(gè)歷史時(shí)期文學(xué)作品中漢字的使用情況。自秦始皇統(tǒng)一中國(guó)的文字以來(lái),漢字的書寫方式和種類相對(duì)固定。討論漢字使用習(xí)慣的演變是一個(gè)很有意義的事情,可以幫助我們深入了解漢語(yǔ)言的變遷,并對(duì)將來(lái)漢字的發(fā)展情況做出預(yù)期。我們的討論結(jié)果表明,漢字的使用在不同歷史時(shí)期存在差異,相近的歷史時(shí)期漢字的使用習(xí)慣更具有一致性,并且冪律特性逐步減弱而指數(shù)特性逐漸增強(qiáng)。這個(gè)原因可能是因?yàn)樵跉v史早期,人們往往用一個(gè)漢字(即單音節(jié)詞)來(lái)表達(dá)意思,而隨著歷史的發(fā)展,人們更多采用多音節(jié)詞來(lái)表達(dá)意思。具體如何造成指數(shù)特性增強(qiáng)而冪律特性減弱還需要進(jìn)一步討論。
[1] Zipf G K. The Psycho-Biology of Language[M]. Boston:Houghton Mifflin, 1935.
[2] Zipf G K. Human Behavior and the Principal of Least Effort[M]. Cambridge :Addison-Wesley,MA,1949.
[3] Ha L Q, Stewart D, Hanna P. Zipf and Type-Token rules for the English, Spanish, Irish and Latin languages[J]. Web Journal of Formal Computational & Cognitive Linguistics, 2006, http://fccl.ksu.ru/issue8/ha_fccl_zipf.pdf.
[4] Hatzigeorgiu N, Mikros G, Carayannis G. Word length, word frequencies and Zipf’s law in the Greek language[J]. Journal of Quantitative Linguistics,2001,8(3):175-185.
[5] Jayaram B D, Vidya M N. Zipf’s law for Indian languages [J]. Journal of Quantitative Linguistics, 2008,15(4): 293-317.
[7] Smith R D. Investigation of the Zipf-plot of the extinct Meroitic language[J]. Glottometrics, 2007, 15:53-61 .
[8] Zhao Kaihua. Physics nomenclature in China[J]. American Journal of Physics 58(5) (May 1990) 449-452.
[9] 關(guān)毅,王曉龍,張凱.現(xiàn)代漢語(yǔ)計(jì)算語(yǔ)言模型中語(yǔ)言單位的頻度一頻級(jí)關(guān)系[J].中文信息學(xué)報(bào),1999,13(2):8-15.
[10] Ha L Q, Sicilia-Garcia E I, Ji Ming. Extension of Zipf’s law to words and character N-gram for English and Chinese[J]. Computational Linguistics and Chinese Language Processing, 2003,8(1):77-101.
[11] Wang Dahui, Li Menghui, Di Zengru. True reason for Zipf’s law in language[J]. Physica A, 2005, 358(2-4):545-550.
[12] Da Jun. A corpus-based study of character and bigram frequencies in Chinese e-texts and its implications for Chinese language instruction. In Zhang, Pu, Tianwei Xie and Juan Xu. (eds.). The studies on the theory and methodology of the digitalized Chinese teaching to foreigners[C]//Proceedings of the Fourth International Conference on New Technologies in Teaching and Learning Chinese: 501-511. Beijing: Tsinghua University Press.