亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

對頻率與互信息在漢語詞典編撰中的作用的實例考察

2015-03-08 02:23:42余一驕

華中學術 2015年1期

余一驕賈凌

（1.2.華中師范大學語言學系，湖北武漢，430079）

余一驕1賈凌2

（1.2.華中師范大學語言學系，湖北武漢，430079）

頻率與互信息是近年來漢語新詞自動發(fā)現(xiàn)中最重要的特征，它們還被列入現(xiàn)代漢語詞典編撰選詞原則中。本文以《現(xiàn)代漢語詞典》（第6版）中全體包含“蛋”字的二字詞、三字詞為考察對象，分別在北京大學CCL語料庫、華中師范大學Cici語料庫中統(tǒng)計其頻次，計算互信息。對比被收錄詞和部分未被收錄詞的頻次和互信息卻發(fā)現(xiàn)：部分被收錄詞的頻次、互信息都比一些未被收錄的詞低。分析多組頻次和互信息數值，可推測在《現(xiàn)代漢語詞典》編撰中，詞的頻次與互信息其實不如詞典編撰者的語感關鍵。

頻次互信息現(xiàn)代漢語詞典詞短語

一、前言

詞典應盡量多地收錄詞，收錄最常用的詞?！暗湫汀钡臐h語詞應具有結構穩(wěn)固、意義凝聚、音節(jié)適長等特點[1]，然而具有以上特征的漢字組既可能是詞，也可能是短語。在現(xiàn)代漢語中，詞、短語之間的界限不是很明確[2]。一些意義凝聚且使用頻繁的二字組、三字組到底是詞還是短語，有時語言學家們的意見也并不一致[3]。詞、短語難區(qū)分的特點，給漢語詞典選詞帶來諸多挑戰(zhàn)。頻率是短語詞化的一個重要動力[4]，漢字組的使用頻率對區(qū)分詞和短語起著關鍵性作用。另外，由于詞典收錄的詞數有限，哪些詞應被優(yōu)先收錄往往也存在爭議。

電子詞典是在中文信息處理中必需的語言學資源，電子詞典的收詞數量、質量直接影響中文信息處理結果的準確性。面向中文信息處理用的電子詞典開發(fā)模式與傳統(tǒng)漢語詞典編撰模式有很大差異[5]。電子詞典大多是先由計算機程序統(tǒng)計漢字組的頻次、互信息（Mutual Information）等數值；然后采用特定的判別規(guī)則，分析頻次、互信息統(tǒng)計結果，從中自動發(fā)現(xiàn)備選詞集；最后將備選詞集提供給語言學本體研究者校驗。與之相反，傳統(tǒng)的漢語詞典選詞以人工判斷為主，收詞原則嚴格，所收詞條數量遠低于電子詞典。

漢字組的頻率對漢語語法化、詞法化研究很關鍵[6]。通過查詢大規(guī)模真實語料庫，獲得特定漢字組的使用頻次、頻次歷時變化狀況，如今成為漢語語法研究的常見手段。語法化、詞法化研究與漢語詞典編撰聯(lián)系緊密，十多年前就有研究者提出：《現(xiàn)代漢語詞典》在收詞上要充分吸收機器分詞的成果，要把詞的頻度作為一個重要參數加以利用[7]?！冬F(xiàn)代漢語詞典》（第6版）（以下簡稱為《現(xiàn)代漢語詞典》）的收詞原則就涉及詞的使用頻度[8]?！冬F(xiàn)代漢語詞典》應用廣泛且具有極高的學術聲譽，其收詞原則對電子詞典開發(fā)亦具有重要的指導意義。計算語言學研究有必要研究它的收詞原則，以及所收條目的頻次、互信息分布特點。

本文通過實驗、計算和數據分析，試圖回答以下兩個問題：第一，《現(xiàn)代漢語詞典》所收錄詞的頻次、互信息分布有何特征；第二，選詞過程中，頻率、互信息與詞典編撰者的語感相比，哪個更關鍵。

二、測試實例與語料庫選取

《現(xiàn)代漢語詞典》共收條目69 000余條[9]。要對全體詞條進行頻次統(tǒng)計、互信息計算，工作量太大，本文只能隨機挑選部分詞條進行考察。鑒于“雞蛋”“鴨蛋”是詞還是短語曾有過長期爭議，本文特對涉及“蛋”字的漢字組進行考察。

漢字組的頻次是指漢字組在語料庫中的出現(xiàn)次數。不同的語料庫其語料來源不一致，語料規(guī)模也有差異，因此在不同語料庫中查詢同一個漢字組所獲得的頻次會不同，計算出來的互信息也不一致。為了避免漢字組的頻次信息受單個語料庫的影響，我們特意檢索兩個獨立開發(fā)的大型語料庫：北京大學CCL語料庫、華中師范大學Cici語料庫。

CCL在線語料庫已被漢語研究者使用多年，是國內最具影響的中文語料庫。它的現(xiàn)代漢語語料包括509 913 589個漢字，其中“蛋”字出現(xiàn)42 162次[10]。在CCL網絡語料庫中檢索漢字組，語料庫檢索系統(tǒng)能直接反饋包括該漢字組的語料條數，卻不能反饋漢字組在語料庫中的總頻次。由于在一條檢索結果中可能多次出現(xiàn)檢索詞，例如輸入“雞蛋”得到“這是一個古老的問題，沒有雞何來雞蛋？但沒有雞蛋又何來雞呢？”的檢索結果。我們需要把CCL反饋的全部檢索結果下載到本地電腦，再用漢字組頻次統(tǒng)計軟件做統(tǒng)計。筆者開發(fā)的“中文文本N-gram串統(tǒng)計與檢索軟件Cici V2.0”具有對指定文本進行任意漢字組頻次統(tǒng)計、互信息計算功能，本文研究中用該軟件統(tǒng)計來自CCL語料庫的檢索結果。

Cici是筆者自主開發(fā)的現(xiàn)代漢語語料庫，包括486 408 743個漢字，其中“蛋”字出現(xiàn)57 988次。Cici包含四大類語料：現(xiàn)當代文學作品、政府公文、新聞、網絡小說。雖然它的語料來源不及CCL豐富，但卻收錄了不少近十年的語料，因此在反映近十年的漢語使用特點方面有一定優(yōu)勢。網絡文學在青少年中很流行，Cici包含較多網絡文學作品，能反映當前對青少年讀者影響巨大的語言風格。過去已用“中文文本N-gram串統(tǒng)計與檢索軟件Cici V2.0”對Cici的全體語料進行窮盡式的漢字組頻次、互信息計算。在本文研究中，只需查詢過去的統(tǒng)計結果，就可以快速獲得漢字組的頻次、互信息。

三、二字詞的頻次分布

《現(xiàn)代漢語詞典》收錄了14個“X蛋”格式的二字詞以及“臉蛋兒”一詞?！澳樀皟骸陛^多地使用在口語中，書面語中大多使用“臉蛋”。檢索CCL和Cici兩個語料庫，都是“臉蛋”的出現(xiàn)頻次遠高于“臉蛋兒”。以下把“臉蛋兒”一詞作二字詞“臉蛋”處理，故被考察的“X蛋”格式的二字詞共15個，表1列出了它們分別在CCL和Cici兩個語料庫中的出現(xiàn)頻次。

表1 被收錄“X蛋”格式的二字詞的頻次

從表1可知，“笨蛋”“彩蛋”“搗蛋”“紅蛋”“混蛋”“臉蛋”“完蛋”等詞在兩個語料庫中的頻次差異顯著。不妨以“混蛋”為例，考察語料來源對詞匯使用頻率的影響。為了吸引青少年讀者，網絡文學比傳統(tǒng)出版的文學作品口語化，且愛使用詈辭。Cici中包含較多網絡文學語料，因此“混蛋”等在Cici中的出現(xiàn)頻率比在CCL中的出現(xiàn)頻率高許多。由此例可知，漢語研究者在考察某個詞的使用頻率時，其實很有必要查詢多個語料庫。

“變蛋”“零蛋”在兩個語料庫中的出現(xiàn)頻次均很低，沒超過50次。我們曾在華中師大語言學系近50名本科生和研究生中做關于“變蛋”一詞的調查，除了一位來自河南的學生明確表示知道該詞外，其他學生幾乎未曾聽說過該方言詞。但這位河南籍的學生并不認同《現(xiàn)代漢語詞典》上將該詞釋義為“松花”，而是覺得“變蛋”是一種蛋清為黃色的“皮蛋”。

表2 被收錄的“蛋X”格式的二字詞的頻次

表2列出了《現(xiàn)代漢語詞典》收錄的13個“蛋X”格式的二字詞的頻次。“蛋雕”“蛋羹”“蛋青”“蛋塔”“蛋撻”“蛋鴨”的頻次很低，沒超過60次?！暗鞍踪|”“蛋白酶”等三字詞均包括“蛋白”二字。在CCL語料庫中“蛋白質”的頻次為6 579，“蛋白酶”的頻次為386，所以“蛋白”作為二字詞的出現(xiàn)頻次其實不超過5 088次。鑒于“蛋撻”是近年來從香港、澳門傳入內地，并成為日趨常見的食品，它反映了人們生活的新變化。它被收錄到詞典，尚可以理解。但“蛋雕”“蛋鴨”等詞既具有見字明義的特點，又頻次極低，為何它們能被收錄到《現(xiàn)代漢語詞典》有些讓人費解。

表3 部分未被收錄的“蛋X”或“X蛋”二字組的頻次

“雞蛋”“鵝蛋”“鳥蛋”“咸蛋”“蛋殼”“蛋湯”等在日常生活中使用頻繁，它們在CCL和Cici語料庫中的使用頻次如表3所示。將表3分別與表1、表2做比較，“雞蛋”“鵝蛋”“鳥蛋”“咸蛋”的頻次遠比“變蛋”“彩蛋”“零蛋”高。其中，“雞蛋”和“鴨蛋”的頻次差異更值得關注。因為《現(xiàn)代漢語詞典》第6版中新增“鴨蛋”一詞，卻仍沒有收錄“雞蛋”。“蛋殼”的頻率比“蛋青”“蛋子”等高得多，卻沒被收錄。由此可知，《現(xiàn)代漢語詞典》收錄的詞條并不完全符合高頻優(yōu)先的選詞原則。

四、二字詞的互信息分布

（1）

CCL網絡語料庫在線提供了現(xiàn)代漢語語料庫中各漢字的頻次[12]，故可直接在其漢字頻次表中查詢f（a）、f（b）的值。根據公式（1）計算出表1所列“X蛋”格式二字組的互信息如表4所示，“蛋X”格式二字組的互信息如表5所示?！白兊啊币辉~的互信息在兩個語料庫中均小于零，自動構建電子詞典時這樣的二字組，肯定不會列入備選詞集。

表4 被收錄的“X蛋”格式二字詞的互信息

在表4中，“笨蛋”“搗蛋”“混蛋”“臉蛋”“鴨蛋”等互信息很高，容易被電子詞典構建軟件自動識別，并收錄到電子詞典。在表5中，“蛋雕”“蛋品”“蛋青”“蛋塔”“蛋子”等的互信息低于2。通常在基于互信息的二字詞識別中，互信息低于4的二字組不大會引起識別軟件的關注。然而這些詞卻被《現(xiàn)代漢語詞典》收錄，這說明電子詞典和傳統(tǒng)詞典的選詞標準存在不可忽視的區(qū)別。

表5 被收錄的“蛋X”格式二字詞的互信息

表6列出了表3所列二字組的互信息。“雞蛋”“咸蛋”的互信息比“變蛋”“彩蛋”“紅蛋”“零蛋”“下蛋”等高得多；“蛋殼”的互信息比“蛋雕”“蛋青”“蛋塔”“蛋子”等高得多?！冬F(xiàn)代漢語詞典》收錄了互信息較低的，卻沒收錄互信息較高的。

表6 部分未被收錄的“蛋X”或“X蛋”二字組的互信息

表1至表6中的數據反映了當前中文信息處理中關于詞、短語區(qū)分的一個尷尬局面。漢語研究者按傳統(tǒng)的語言學規(guī)則來分辨詞和短語，但自20世紀50年代至今，他們越來越覺得僅靠純語言學信息難以明確分清二者。一些語言學研究者轉而期望通過借助頻率、互信息等定量、客觀的數值特征，來區(qū)分詞和短語。來自計算機背景的中文信息處理研究者因缺乏系統(tǒng)的語言學知識，大多堅持根據概率、統(tǒng)計學知識，分析漢字組的頻次、互信息，從中總結出一些可行且正確率較高的漢語詞自動發(fā)現(xiàn)算法。然而表4、表5中所列漢語詞的互信息值顯示：有些漢語詞互信息較高，與源自概率理論的漢語詞自動發(fā)現(xiàn)原則是一致的，但“變蛋”“蛋塔”等語言學家確認是詞的互信息卻極低。顯然，傳統(tǒng)詞典的選詞原則和電子詞典的選詞原則有沖突，到底哪種原則更適應未來詞典編撰的需要，目前還不得而知。

五、三字詞的頻次和互信息分布

漢語三字組的互信息I（abc）根據公式（2）來計算，其中f（abc）是三字組abc的頻次；f（a）、f（b）、f（c）是三個漢字的頻次；N是語料庫總字數[13]。

（2）

《現(xiàn)代漢語詞典》收錄了15個包含“蛋”字的三字組，另包含“屁股蛋兒”一詞。類似對“臉蛋兒”的處理方式，在此把“屁股蛋兒”當作“屁股蛋”來處理?！冬F(xiàn)代漢語詞典》中沒有標注“吃鴨蛋”的詞性，因此將其當短語處理。16個包含“蛋”字的三字組在CCL語料庫和Cici語料庫中的頻次和互信息如表7所示。

表7 被收錄含“蛋”字三字組的頻次與互信息

值得指出的是：“鴨蛋圓”在語料庫Cici中的頻次為0，故其互信息為負無窮大?！俺曾喌啊薄暗鞍纂恕薄盀觚數啊薄傍喌扒唷薄傍喌皥A”等在兩個規(guī)模約5億字的語料庫中的出現(xiàn)頻次不超過10次，其使用頻率不到每五千萬字出現(xiàn)一次。它們不僅不滿足使用頻繁的選詞原則，其在不同領域的通用程度也值得懷疑。表8列出了一些常見的含“蛋”字的三字組的頻次與互信息。比較表8和表7，“王八蛋”“恐龍蛋”“鵪鶉蛋”“土雞蛋”等在書面語中頻繁使用，在口語中更是耳熟能詳；它們的互信息比表7中一些三字詞的互信息高。無論是定量比較頻次和互信息，還是普通百姓的語感，它們似乎更應優(yōu)先收到詞典中。

表8 部分未被收錄含“蛋”字三字組的頻次與互信息

《現(xiàn)代漢語詞典》還收錄了“雞飛蛋打”“借雞生蛋”“血紅蛋白”“雞蛋里挑骨頭”。由于漢語研究中詞、短語難分辨主要集中在二字組、三字組，在此不對以上四字組、六字組的頻次和互信息做細致分析。

六、結束語

本文考察《現(xiàn)代漢語詞典》收錄的含“蛋”字的二字詞、三字詞在CCL和Cici兩個語料庫中的頻次和互信息分布特征，并將其與部分未被收錄的漢字組的頻次、互信息做對比。實驗數據顯示，一些高頻詞沒被收錄，有些低頻詞卻被收錄；一些互信息高的漢字組沒被收錄，有些互信息極低的詞卻被收錄了。也許在詞典編撰過程中，詞典編撰者的語感比來自語料庫的頻次信息更關鍵。另外，現(xiàn)代漢語研究逐步采用頻率、互信息等數值特征來輔助漢語本體研究。如今權威的《現(xiàn)代漢語詞典》中的詞條頻次、互信息分布特點與中文信息處理中的新詞自動發(fā)現(xiàn)規(guī)則有沖突。電子詞典自動構建理論缺乏明確的語言學規(guī)則指導，阻礙了電子詞典開發(fā)與傳統(tǒng)詞典編撰的相互借鑒。語言學研究中該如何看待基于概率統(tǒng)計理論的漢語詞自動發(fā)現(xiàn)算法，這是一個值得進一步研究的問題。

*本文系教育部人文社會科學研究項目“邏輯推理與詞義匹配相融合的中文網頁語義檢索技術研究”【10YJA740120】的階段性成果。

注釋：

[1] 劉云、李晉霞：《論頻率對詞感的制約》，《語言教學與研究》2009年第3期，第1～7頁。

[2] 胡明揚：《說“詞語”》，《語言文字應用》1999年第3期，第3～9頁。

[3] 王洪君：《從字和字組看詞和短語——也談漢語中詞的劃分標準》，《中國語文》1994年第2期，第102～112頁。

[4] 劉云、李晉霞：《論頻率對詞感的制約》，《語言教學與研究》2009年第3期，第1～7頁。

[5] Jingshin Chang,Yichung Lin,and Kehyih Su.“Automatic Construction of a Chinese Electronic Dictionary”,ProceedingsofthirdworkshoponVeryLargeCorpora,Cambridge:MIT Press,1995,pp.107～120.

[6] 彭睿：《臨界頻率和非臨界頻率——頻率和語法化關系的重新審視》，《中國語文》2011年第1期，第3～18頁。

[7] 蘇新春、顧江萍：《“人”“機”分詞差異及規(guī)范詞典的收詞依據——對645條常用詞未見于〈現(xiàn)漢〉的思考》，《辭書研究》2000年第5期，第47～54頁。

[8] 江藍生：《〈現(xiàn)代漢語詞典〉第6 版概述》，《辭書研究》2013年第2期，第1～19頁。

[9] 江藍生：《〈現(xiàn)代漢語詞典〉第6 版概述》，《辭書研究》2013年第2期，第1～19頁。

[10] CCL：《現(xiàn)代漢語語料》。[2003年]http://ccl.pku.edu.cn:8080/ccl_corpus/xiandai_char_info.pdf.

[11] 孫茂松、肖明、鄒嘉彥：《基于無指導學習策略的無詞表條件下的漢語自動分詞》，《計算機學報》2004年第6期，第736～742頁。

[12] CCL：《現(xiàn)代漢語語料》。[2003年]http://ccl.pku.edu.cn:8080/ccl_corpus/xiandai_char_info.pdf.

[13] 余一驕、尹燕飛、劉芹：《基于大規(guī)模語料庫的高頻漢字組互信息分布規(guī)律分析》,《計算機科學》2014年第10期，第276～282頁。

華中學術2015年1期

華中學術的其它文章: 鐘祥方言語音記略; 文學倫理學批評：理論建構與批評實踐研究; 馬克思主義文學批評研究; 婦人之言何以為教？
——以沈德潛《清詩別裁集》論“溫柔敦厚”為中心; 論韓愈《南山詩》與李賀《昌谷詩》的“感知”表現(xiàn); 論桃花塢敘事年畫的敘事時空

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

對頻率與互信息在漢語詞典編撰中的作用的實例考察

一、前言

二、測試實例與語料庫選取

三、二字詞的頻次分布

四、二字詞的互信息分布

五、三字詞的頻次和互信息分布

六、結束語

二、測試實例與語料庫選取

三、二字詞的頻次分布

五、三字詞的頻次和互信息分布