鄭錦全
(美國伊利諾大學榮退教授,臺灣師范大學講座教授)
過去數(shù)十載,學界使用電腦處理語言資料,提煉出人類語言活動的規(guī)律。研究過程中大家面對浩瀚的原始資料,希望能建立更大的語料庫。例如崔希亮、張寶林《全球漢語學習者語料庫建設方案》一文(《語言文字應用》,2011年第2期),提出建構(gòu)全球漢語學習者中介語大語料庫的設想。2012年美國科技業(yè)關注大數(shù)據(jù)資源的流通與應用。中文計算機學界的響應是如何把大量資料以“詞向量”計算法列出詞語在中文文本中與臨近詞語出現(xiàn)的關系,例如2018年騰訊人工智能實驗室發(fā)文《開源大規(guī)模高質(zhì)量中文詞向量數(shù)據(jù),800萬中文詞隨你用》。這樣的大數(shù)據(jù)能給語言學界提供什么樣的新的研究領域并不明顯。
我個人近年關注的問題是如何衡量古今漢語的異同,如果單以詞語的有無來考察,是無法顯示不同時期或體裁差異的,例如“之”,古今都用,但是古代用“之”的有些語境,現(xiàn)在白話文用“的”。所以古今漢語比較,需要有斷詞的文本,才能探究詞語的屬性。近年我研究所用的語料包括臺灣“中研院”典藏的上古漢語文本,取自秦漢(公元3世紀以前)的傳世文獻,有斷詞和詞類語法標記,一共111 000多個詞;唐詩三百首(公元7世紀至公元10世紀),有斷詞,無詞類標記,一共有11 000多個詞;宋詞三百首(公元10世紀至公元13世紀),有斷詞,無詞類標記,一共有13 000多個詞;近代漢語文本包括唐五代到清代的作品,例如《水滸傳》、《紅樓夢》等,一共有2 865 000多個詞;現(xiàn)代漢語語料包括臺灣“中研院”1990年前后分兩期建構(gòu)的文本,有斷詞和詞類標記,前后兩期各收大約五百萬個詞;新聞體裁文本包括北京大學標記的《人民日報》1998年1月份有斷詞的新聞稿,共約100萬個詞;臺灣“中央通訊社”1991年至2002年每天發(fā)布的新聞稿,共約950萬個詞,有斷詞標記。
我從這些語料里計算出詞語使用的特色,區(qū)別特色的關鍵在于詞語在語流中的使用次數(shù),從出現(xiàn)最高的詞語往下排列出來,以出現(xiàn)頻次最高的15個詞的累計頻率百分比作為該文本的詞匯動態(tài)屬性。細節(jié)請見鄭錦全《漢語詞匯動態(tài)屬性與變異》一文(《語言學論叢》,2017年第2期)。通過詞匯動態(tài)屬性能清楚地區(qū)別所考查的古代、近代、現(xiàn)代、詩詞和新聞稿的異同和近似值。其中,唐詩三百首(3.431)和宋詞三百首(3.327)的屬性接近(括號中的數(shù)字為詞語屬性數(shù)值,下同);北京大學標記的《人民日報》1998年1月新聞稿(13.827)和臺灣“中央社”發(fā)布的新聞稿(12.392),這兩個語料庫的新聞稿屬性接近;現(xiàn)代漢語語料中的后五百萬詞(15.782)、現(xiàn)代漢語一千萬詞(16.705)和現(xiàn)代漢語前五百萬詞(17.712),三者之間的現(xiàn)代漢語屬性接近;近代漢語(18.078)類似現(xiàn)代漢語;上古漢語(28.757)則離現(xiàn)代漢語較遠。今后應該大量擴展這些語料成為大數(shù)據(jù),希望能從中看到更多可以深入研究的理念。