摘 要 《現代漢語新詞語計量研究與應用》以基于大規(guī)模語料庫建構的《現代漢語新詞語信息電子詞典》為依托,對新詞語進行了多角度全方位的考察。不僅提出了新詞語的界定原則、方法,對新詞語的語法特征、構詞法等進行了統(tǒng)計分析和精細描寫,還進一步提出了新詞語發(fā)現與識別的方法。該書具有研究基礎的堅實性、研究內容的豐富性、研究方法的新穎性三大特點。無論是對漢語本體研究,還是語言信息處理,都具有前瞻和應用價值。
關鍵詞 新詞語 計量研究 研究方法 應用
呂叔湘先生1984年在《辭書研究》上呼吁對新詞語進行研究之后,漢語新詞的研究猶如雨后春筍。據不完全統(tǒng)計,近年來發(fā)表的各種研究新詞語的論文有1000多篇,出版的新詞語詞典有60多部,但專著僅有四五部??傮w來看,目前新詞語研究特點表現為三個方面:新詞語詞典多,研究新詞語的專著少;新詞語的理論研究多,應用研究少;新詞語的局部問題研究多,全方位研究少。
而讀罷亢世勇等著的《現代漢語新詞語計量研究與應用》(中國社科出版社,2008,以下簡稱《研究與應用》),感覺耳目一新。該書突破了目前新詞語研究的諸多局限,把定量統(tǒng)計和定性描寫結合,理論和應用并舉,全方位多角度對新詞語進行描寫。全書近三十萬言,從新詞界定到電子詞典開發(fā),再到語法特征、構詞分析以及詞典編纂和新詞的發(fā)現識別都有涉及。全書涵蓋四大塊內容:首先在對國內新詞語研究進行綜述歸納的基礎上,提出了語料庫、定量與定性結合、理論與應用研究結合等三種研究方法。其次提出了《現代漢語新詞語電子詞典》的實現問題,為新詞語研究打下基礎。第三部分對新詞語的特點、語法特征、構詞法及類型等進行了多角度的統(tǒng)計和描寫,屬于新詞語的理論研究。最后是對新詞語的識別發(fā)現和詞典編纂等應用問題研究,這也是目前大多數研究新詞語的專著中所缺少的。從理論描寫到應用研究,從局部分析到大規(guī)模新詞語電子信息詞典的建立,從本體的統(tǒng)計描寫到基于網絡的發(fā)現識別,無論是對漢語新詞新語研究的縱向深入,還是語言信息處理中未登錄詞問題的解決,都極具前瞻和應用價值。
《研究與應用》內容豐富,立意高遠,構思縝密,展示出諸多新特色和閃光點,體現了作者在新詞語研究方面的獨特見解,啟人深思。
一、研究基礎的堅實性
與目前新詞語的專著相比,《研究與應用》的高明之處首先表現在以大型《現代漢語新詞語信息電子詞典》為依托,有大規(guī)模的定量統(tǒng)計作為研究支撐。該電子詞典收錄新詞語近4萬條,是目前規(guī)模最大的新詞詞典。該詞典按照人機兩用的研究理念,采用分類和屬性描述相結合的方法,對所收錄的每個詞的語法語義屬性信息進行詳細描述,并采用關系數據庫的形式描述詞語和語法、語義屬性的二維關系。主要屬性信息包括:詞的常規(guī)信息、語法信息、構詞法信息、產生途徑信息、應用領域信息、來源信息、產生時間信息。對所收錄的每一個新詞語,按照所設置的屬性信息字段進行描寫。同時,該詞典還具有動態(tài)性和開放性,跟蹤漢語詞匯發(fā)展變化和信息處理的發(fā)展,不斷增加新詞語,規(guī)模正不斷擴大?;谠撾娮釉~典進行新詞語的研究,研究基礎堅實,檢索方便,統(tǒng)計數據可靠,不僅改變了傳統(tǒng)的內省式的研究方法,也真正把新詞語的研究手段技術化?;陔娮釉~典所作的定量統(tǒng)計,為定性描寫提供了有力的支持。依托大規(guī)模的新詞語信息電子詞典進行研究,成為該書的一大特色。
二、研究內容的豐富性
《研究與應用》內容豐富,信息量大。全書八章,分別是新詞語研究的現狀及方法、新詞語信息電子詞典的實現、新詞語界定、語法特征統(tǒng)計、構詞法研究、類型研究、新詞語詞典編纂、新詞語發(fā)現與識別。不僅包含了其他新詞語專著尚未涉及的新詞語電子詞典等前沿內容,對新詞語的分析也別具特色。以新詞語的類型分析為例,目前新詞語專著通常區(qū)分為新詞形、新意義、新用法三種類型,然后對各個小類進行簡單分析。而《研究與應用》中新詞語類型研究涉及到縮略語、舊詞新用、科技詞語、外來詞的本土化、方言詞新用、字母詞、網絡用語等,每一部分都有下位的小類劃分及數量的統(tǒng)計說明,然后對其語音、語義等特點進行分析,并對發(fā)展趨勢進行預測。
三、研究方法的新穎性
目前的新詞語研究,主要還是內省式或對少數詞語的簡單分析,而少有大規(guī)模的統(tǒng)計描寫?!堆芯颗c應用》把新詞語研究的各項工作建立在定量研究和定性研究相結合的基礎上,每一步研究都真實有據,結論令人信服。如對新詞語中名詞組合能力的分析,不再停留在“名詞大都受數量詞修飾”的理論敘述上,而是用切實的數據統(tǒng)計進行說明,指出新詞語中名詞受數詞修飾的比例占81.19%,受個體量詞修飾的比例僅占55.83%。《研究與應用》還綜合運用了語料庫語言學方法以及理論與應用研究并舉的方法。這些方法雖然也是其他新詞語專著中所倡導的,但往往流于形式。而《研究與應用》收錄的新詞,都是在大規(guī)模的動態(tài)語料庫的支持下獲取的,這正是其優(yōu)勢。正如李行健(2003)所言:“正因為利用了高新技術,才可以廣泛地收集語料并使語料變換聚合的形態(tài),改變查找語料的方式,方便而準確地對語料進行對比分析,確定每個新詞語出現的語境,概括其含義和用法,選擇鮮活的例句?!?/p>
另外,新詞語的發(fā)現和識別方法研究也是《研究與應用》的特色。目前新詞語專書對此問題的研究相對薄弱。新詞語的發(fā)現策略主要包括基于規(guī)則和基于統(tǒng)計兩種類型?;诮y(tǒng)計的方法可移植性強,但難以解決數據稀疏問題,缺乏語言學驗證。基于規(guī)則的方法則難以窮盡語料,且資源建設代價高,可移植性差。新詞語的出現和使用沒有必然的理據性,產生新詞可以自然或按照一定的標準聚合成一定語法類或其他類,但這些都是后驗性的,所以目前的基于規(guī)則和基于統(tǒng)計的發(fā)現策略存在很大的缺陷。《研究與應用》針對這些缺陷,提出了三種新詞語的發(fā)現識別策略:基于動態(tài)流通語料庫的VSM(向量空間模型)的新詞發(fā)現策略、面向Inter-net的中文新詞語檢測策略和基于分類網頁鏈接分析的快速獲取領域新詞語的策略?;趧討B(tài)流通語料庫的VSM的新詞發(fā)現策略要建立在語素屬性庫的基礎上,建立VSM模型,利用VSM進行空間向量相似度的計算,并通過對訓練語料的統(tǒng)計來判斷組合是否是合法組合,通過語言學視角、認知視角等進行驗證。面向Internet的中文新詞語檢測策略,首先要對大規(guī)模網頁進行處理,對于切分后的網頁內容,用重復串查找尋找新詞語,并根據給定的時間,建立一個給定時間之前的大規(guī)模的詞與串的背景詞串集合;在背景詞串集合的基礎上,通過評價函數對給定時間之后的詞和串進行比較,從中得到新詞語候選;最后通過過濾規(guī)則進行過濾,得到最終的新詞語。而基于分類網頁鏈接分析快速獲取領域新詞語的方法建立在超大規(guī)模語料庫的基礎上,直接抽取語料庫中網頁上人工標引的“關鍵詞”和其他詞語信息,并按照該網頁欄目的對應類別將新詞語分類,同時達到了新詞語識別和領域聚類的目的。從實踐結果看,這三種新方法是行之有效的,是新詞語自動獲取研究的大膽嘗試,具有重要的實踐價值。
《研究與應用》對新詞語進行了全方位研究,提出了很多解決問題的新思路,以及值得進一步研究的新課題。該書在對新詞語進行多角度理論研究的同時,強調應用研究,書中提供的分析數據具有較高的應用價值。理論與應用并舉,是新詞語研究的方向。這是一部理論與應用相結合的漢語新詞語研究力作,值得一讀。由于《研究與應用》各章節(jié)由多人合作完成,某些章節(jié)在內容上有些重復,如新詞語類型研究和新詞語詞典編纂部分。白玉微瑕但瑕不掩瑜,作為新詞語多維度研究的典范,《研究與應用》可以給新詞語的理論和應用研究提供參考和幫助,也可以為新詞語愛好者提供理論指導。
(責任編輯 劉 琳)