秦克霄
(山西大學圖書館,山西太原,030006)
古代已有詞語頻次的觀念,人們很早就發(fā)現(xiàn)了語言中詞語使用的頻次是有差異的.19世紀以來,隨著語言學的發(fā)展以及文學風格和速記研究的需要,人們開始對語言的成分進行統(tǒng)計分析.德國語言學家F.W.Kaeding耗時七年編纂了H?ufigkeitsw?rterbuch der Deutschen Sprache,這是世界上第一部頻率詞典,是第一次現(xiàn)代意義上的以統(tǒng)計調(diào)查方法完成的詞匯研究工作.美國教育學家兼心理學家E.L.Thorndike,在20 世紀初先后編寫了Teacher’s Word Book of 20,000 Words和 Teacher’s World Book of 30,000 Words,做了大量關(guān)于英語詞匯的頻率統(tǒng)計工作.由于有了大量不同語言中詞頻資料的積累,關(guān)于詞語頻次的特征不斷得到了揭示,人們開始從理論上思考詞頻差異這種現(xiàn)象.頻率詞典實際上就是一種詞表,包含兩個最基本的數(shù)據(jù)就是詞的出現(xiàn)頻次和詞的等級,二者反映了一個詞在詞表中的地位和性質(zhì),因此這兩個基本數(shù)據(jù)間的相互關(guān)系成為了人們要首先著重研究的,并試圖在一定的篇章范圍內(nèi)總結(jié)出語言成分出現(xiàn)頻次所滿足的嚴格的數(shù)學原理.如艾思杜、貢東、朱斯和芒代爾布羅等學者先后對這個問題進行了大量的研究.
美國哈佛大學語言學教授齊夫(G.K.Zipf)在前人研究的基礎上,收集了大量的文本語料,并進行了系統(tǒng)的分析,正式創(chuàng)立了詞頻分布定律,驗證下面的公式:若把一篇較長的文章中每個詞出現(xiàn)的頻次從高到低進行遞減排列,某個詞在文中出現(xiàn)的頻率次數(shù)f(詞頻)與它的排列序號數(shù)r(詞序)的乘積為一個常數(shù)c,即所謂的齊夫第一定律
齊夫定律表明,在自然語言文本中,文檔中詞匯的頻次與其排序等級呈現(xiàn)反比例關(guān)系,即兩者乘積保持為一常數(shù).對上式兩邊取自然對數(shù)可得:lnf+alnr=lnc.對統(tǒng)計數(shù)據(jù)結(jié)果繪制lnf與lnr的關(guān)系曲線,即可得到斜率-a與截距l(xiāng)nc.國內(nèi)也有很多學者展開了對齊夫定律本身[1]及其應用[2~4]的研究.近來江南大學的研究者以諾貝爾文學獎得主莫言的《紅高粱》《蛙》和《透明的紅蘿卜》為主要研究對象,統(tǒng)計莫言作品中字頻、詞頻,發(fā)現(xiàn)都能滿足齊夫定律.所得研究結(jié)果與包括英語、西班牙語、法語等在內(nèi)的多種語言結(jié)果一致.這種研究結(jié)果從統(tǒng)計學角度提供了莫言可以成為中國大陸首位獲諾貝爾文學獎得主的可能原因之一.在詞語頻次的統(tǒng)計中,主要采用以下兩種方法確定詞語等級:
1)隨機法.齊夫第一定律在確立時,最先使用的就是隨機法.隨機法是指詞級在確立的過程中,如果遇到同頻詞,則按照統(tǒng)計文本中詞語的自然詞序或隨機詞序排列確定詞語的等級,這樣每個詞的詞級就是它的自然或隨機詞序.例如詞序為第 5~8的詞是同頻詞,那么它們的詞級隨機排列則是 5,6,7,8.
2)并列法.徐文霞在《齊夫定律與中文詞頻分布機理》[5]一文中采用并列法來確定詞級.并列法是指把遇到的同頻詞并列為一個詞級,并延承上一個詞級.例如詞序為第5~8的詞是同頻詞,那么它們的詞級就是5;若詞序為第9~12的詞也是同頻詞,那么這些詞的詞級則要延承上一個詞級成為6.
分詞原則:
(一)采用計算機自動分詞統(tǒng)計時,以齊夫定律理論為基礎,根據(jù)漢語自身的語言特點,參考《現(xiàn)代漢語詞典》條目所列出的詞語形態(tài),把保留詞語語義的完整性作為前提.
(二)地名、人名等這些專有名詞要作為獨立的詞來進行劃分.
(三)標點符號等非漢字書寫符號在統(tǒng)計時不計入內(nèi).
根據(jù)文獻《十九大報告》中出現(xiàn)的詞頻(字頻)與等級序號的統(tǒng)計數(shù)據(jù),我們建立一個直角坐標系,其橫坐標表示詞的等級序號r,縱坐標表示相應的頻次f,描繪出這些點得到一條曲線,即齊夫分布曲線,類似雙曲線的一支.再將等級序號r與頻次f都取對數(shù)坐標,則上述齊夫規(guī)律變成一線性關(guān)系,即齊夫分布對數(shù)曲線.若滿足這種類型的分布,就叫做齊夫分布.我們選用《十九大報告》文本作為研究分析的語料庫,此文本共有32384個書寫符號,其中漢字共有29255個,累計總詞數(shù)3082個,不同頻次71個.
表1 十九大報告文本統(tǒng)計結(jié)果
續(xù)表
圖1 詞頻f—詞序r分布圖
圖2 詞頻—詞序?qū)?shù)分布圖以及線性回歸
由圖1、圖2中齊夫分布曲線的反比例函數(shù)分布特性和齊夫?qū)?shù)分布的線性性可以看出,用隨機法《十九大報告》文本中的詞頻與詞級極好地滿足齊夫分布定律(詳見表2線性擬合結(jié)果).
表2 圖2的線性擬合分析
由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進行擬合,即可得到斜率-a與lnc.如圖2.
由表2可知,修正決定系數(shù) Adj.R-Square=0.96036,反映了線性回歸的良好.截距l(xiāng)nc=7.80389(標準誤差 為0.02607),可知 c=2450.114409;斜率-a=-1.00258(標準誤差為0.00367)近似等于齊夫第一定律標準值-1,表明《十九大報告》文本語料庫采用隨機法的統(tǒng)計方法,其結(jié)果完全符合齊夫第一定律[6].
由圖3、圖4齊夫分布曲線的反比例函數(shù)分布特性和齊夫?qū)?shù)分布的線性性可以看出,采用并列法《十九大報告》文本中的詞頻與詞級亦極好地滿足齊夫分布定律(詳見表3線性擬合結(jié)果).
圖3 詞頻f—詞序r分布圖
圖4 詞頻—詞序?qū)?shù)分布圖以及線性回歸
由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進行擬合,即可得到斜率-a與lnc.如圖4.
表3 圖4的線性擬合分析
由表3可知,修正決定系數(shù)Adj.R-Square=0.76914反映了線性回歸的良好,截距l(xiāng)nc=7.3475(標準誤差為0.25002),可得c=1552.38851.斜率-a=-1.12717(標準誤差為0.07213),十分接近標準值-1.從數(shù)據(jù)結(jié)果可知,采用并列法符合情況不如隨機法好,但也基本符合齊夫分布和齊夫定律.
以上結(jié)果表明,隨機法和并列法的齊夫?qū)?shù)分布曲線回歸效果都很好,斜率-a的值都接近齊夫第一定律設定值-1,均符合齊夫第一定律.
本文主要通過《十九大報告》文本中語料庫的詞頻詞序的統(tǒng)計和分析,對齊夫定律在漢語中的適用性進行了研究和驗證.筆者分別采用隨機法和并列法,對《十九大報告》文本語料庫進行了數(shù)據(jù)的統(tǒng)計和分析,并依據(jù)散點分布圖繪制出了齊夫分布曲線和齊夫?qū)?shù)分布曲線.利用數(shù)學軟件擬合出散點分布圖的線性回歸趨勢來進行分析.依據(jù)這些散點圖,我們能看出齊夫分布曲線均呈現(xiàn)出了比較明顯的雙曲線特征,而齊夫?qū)?shù)分布曲線呈現(xiàn)線性關(guān)系,并且斜率值-a十分接近標準值-1,符合齊夫第一定律的設定.可見,統(tǒng)計結(jié)果中的詞頻分布呈現(xiàn)出較為明顯的齊夫分布規(guī)律.在《十九大報告》文本中,頻次出現(xiàn)最高的十個詞依次為“的、和、黨、發(fā)展、人民、建設、中國、社會主義、是、堅持 ”,此外,“新、特色、制度、體系、文化、政治、改革、創(chuàng)新、經(jīng)濟、安全”頻次也比較高,這體現(xiàn)了中國過去五年的發(fā)展狀況以及未來五年的發(fā)展趨勢.可以看出,齊夫定律對中文報告類題材同樣具有其普適性.齊夫定律已經(jīng)在很多領域有了廣泛的應用(如語言學、情報學、地理學、經(jīng)濟學、信息科學等),而且取得了可喜的成果.齊夫定律是描述詞頻分布規(guī)律的強大數(shù)學工具,作為經(jīng)驗定律,它仍然有待進一步完善.