亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對頻率與互信息在漢語詞典編撰中的作用的實例考察

        2015-03-08 02:23:42余一驕
        華中學術 2015年1期

        余一驕 賈 凌

        (1.2.華中師范大學語言學系,湖北武漢,430079)

        對頻率與互信息在漢語詞典編撰中的作用的實例考察

        余一驕1賈 凌2

        (1.2.華中師范大學語言學系,湖北武漢,430079)

        頻率與互信息是近年來漢語新詞自動發(fā)現(xiàn)中最重要的特征,它們還被列入現(xiàn)代漢語詞典編撰選詞原則中。本文以《現(xiàn)代漢語詞典》(第6版)中全體包含“蛋”字的二字詞、三字詞為考察對象,分別在北京大學CCL語料庫、華中師范大學Cici語料庫中統(tǒng)計其頻次,計算互信息。對比被收錄詞和部分未被收錄詞的頻次和互信息卻發(fā)現(xiàn):部分被收錄詞的頻次、互信息都比一些未被收錄的詞低。分析多組頻次和互信息數值,可推測在《現(xiàn)代漢語詞典》編撰中,詞的頻次與互信息其實不如詞典編撰者的語感關鍵。

        頻次 互信息 現(xiàn)代漢語詞典 詞 短語

        一、前言

        詞典應盡量多地收錄詞,收錄最常用的詞?!暗湫汀钡臐h語詞應具有結構穩(wěn)固、意義凝聚、音節(jié)適長等特點[1],然而具有以上特征的漢字組既可能是詞,也可能是短語。在現(xiàn)代漢語中,詞、短語之間的界限不是很明確[2]。一些意義凝聚且使用頻繁的二字組、三字組到底是詞還是短語,有時語言學家們的意見也并不一致[3]。詞、短語難區(qū)分的特點,給漢語詞典選詞帶來諸多挑戰(zhàn)。頻率是短語詞化的一個重要動力[4],漢字組的使用頻率對區(qū)分詞和短語起著關鍵性作用。另外,由于詞典收錄的詞數有限,哪些詞應被優(yōu)先收錄往往也存在爭議。

        電子詞典是在中文信息處理中必需的語言學資源,電子詞典的收詞數量、質量直接影響中文信息處理結果的準確性。面向中文信息處理用的電子詞典開發(fā)模式與傳統(tǒng)漢語詞典編撰模式有很大差異[5]。電子詞典大多是先由計算機程序統(tǒng)計漢字組的頻次、互信息(Mutual Information)等數值;然后采用特定的判別規(guī)則,分析頻次、互信息統(tǒng)計結果,從中自動發(fā)現(xiàn)備選詞集;最后將備選詞集提供給語言學本體研究者校驗。與之相反,傳統(tǒng)的漢語詞典選詞以人工判斷為主,收詞原則嚴格,所收詞條數量遠低于電子詞典。

        漢字組的頻率對漢語語法化、詞法化研究很關鍵[6]。通過查詢大規(guī)模真實語料庫,獲得特定漢字組的使用頻次、頻次歷時變化狀況,如今成為漢語語法研究的常見手段。語法化、詞法化研究與漢語詞典編撰聯(lián)系緊密,十多年前就有研究者提出:《現(xiàn)代漢語詞典》在收詞上要充分吸收機器分詞的成果,要把詞的頻度作為一個重要參數加以利用[7]?!冬F(xiàn)代漢語詞典》(第6版)(以下簡稱為《現(xiàn)代漢語詞典》)的收詞原則就涉及詞的使用頻度[8]?!冬F(xiàn)代漢語詞典》應用廣泛且具有極高的學術聲譽,其收詞原則對電子詞典開發(fā)亦具有重要的指導意義。計算語言學研究有必要研究它的收詞原則,以及所收條目的頻次、互信息分布特點。

        本文通過實驗、計算和數據分析,試圖回答以下兩個問題:第一,《現(xiàn)代漢語詞典》所收錄詞的頻次、互信息分布有何特征;第二,選詞過程中,頻率、互信息與詞典編撰者的語感相比,哪個更關鍵。

        二、測試實例與語料庫選取

        《現(xiàn)代漢語詞典》共收條目69 000余條[9]。要對全體詞條進行頻次統(tǒng)計、互信息計算,工作量太大,本文只能隨機挑選部分詞條進行考察。鑒于“雞蛋”“鴨蛋”是詞還是短語曾有過長期爭議,本文特對涉及“蛋”字的漢字組進行考察。

        漢字組的頻次是指漢字組在語料庫中的出現(xiàn)次數。不同的語料庫其語料來源不一致,語料規(guī)模也有差異,因此在不同語料庫中查詢同一個漢字組所獲得的頻次會不同,計算出來的互信息也不一致。為了避免漢字組的頻次信息受單個語料庫的影響,我們特意檢索兩個獨立開發(fā)的大型語料庫:北京大學CCL語料庫、華中師范大學Cici語料庫。

        CCL在線語料庫已被漢語研究者使用多年,是國內最具影響的中文語料庫。它的現(xiàn)代漢語語料包括509 913 589個漢字,其中“蛋”字出現(xiàn)42 162次[10]。在CCL網絡語料庫中檢索漢字組,語料庫檢索系統(tǒng)能直接反饋包括該漢字組的語料條數,卻不能反饋漢字組在語料庫中的總頻次。由于在一條檢索結果中可能多次出現(xiàn)檢索詞,例如輸入“雞蛋”得到“這是一個古老的問題,沒有雞何來雞蛋?但沒有雞蛋又何來雞呢?”的檢索結果。我們需要把CCL反饋的全部檢索結果下載到本地電腦,再用漢字組頻次統(tǒng)計軟件做統(tǒng)計。筆者開發(fā)的“中文文本N-gram串統(tǒng)計與檢索軟件Cici V2.0”具有對指定文本進行任意漢字組頻次統(tǒng)計、互信息計算功能,本文研究中用該軟件統(tǒng)計來自CCL語料庫的檢索結果。

        Cici是筆者自主開發(fā)的現(xiàn)代漢語語料庫,包括486 408 743個漢字,其中“蛋”字出現(xiàn)57 988次。Cici包含四大類語料:現(xiàn)當代文學作品、政府公文、新聞、網絡小說。雖然它的語料來源不及CCL豐富,但卻收錄了不少近十年的語料,因此在反映近十年的漢語使用特點方面有一定優(yōu)勢。網絡文學在青少年中很流行,Cici包含較多網絡文學作品,能反映當前對青少年讀者影響巨大的語言風格。過去已用“中文文本N-gram串統(tǒng)計與檢索軟件Cici V2.0”對Cici的全體語料進行窮盡式的漢字組頻次、互信息計算。在本文研究中,只需查詢過去的統(tǒng)計結果,就可以快速獲得漢字組的頻次、互信息。

        三、二字詞的頻次分布

        《現(xiàn)代漢語詞典》收錄了14個“X蛋”格式的二字詞以及“臉蛋兒”一詞?!澳樀皟骸陛^多地使用在口語中,書面語中大多使用“臉蛋”。檢索CCL和Cici兩個語料庫,都是“臉蛋”的出現(xiàn)頻次遠高于“臉蛋兒”。以下把“臉蛋兒”一詞作二字詞“臉蛋”處理,故被考察的“X蛋”格式的二字詞共15個,表1列出了它們分別在CCL和Cici兩個語料庫中的出現(xiàn)頻次。

        表1 被收錄“X蛋”格式的二字詞的頻次

        從表1可知,“笨蛋”“彩蛋”“搗蛋”“紅蛋”“混蛋”“臉蛋”“完蛋”等詞在兩個語料庫中的頻次差異顯著。不妨以“混蛋”為例,考察語料來源對詞匯使用頻率的影響。為了吸引青少年讀者,網絡文學比傳統(tǒng)出版的文學作品口語化,且愛使用詈辭。Cici中包含較多網絡文學語料,因此“混蛋”等在Cici中的出現(xiàn)頻率比在CCL中的出現(xiàn)頻率高許多。由此例可知,漢語研究者在考察某個詞的使用頻率時,其實很有必要查詢多個語料庫。

        “變蛋”“零蛋”在兩個語料庫中的出現(xiàn)頻次均很低,沒超過50次。我們曾在華中師大語言學系近50名本科生和研究生中做關于“變蛋”一詞的調查,除了一位來自河南的學生明確表示知道該詞外,其他學生幾乎未曾聽說過該方言詞。但這位河南籍的學生并不認同《現(xiàn)代漢語詞典》上將該詞釋義為“松花”,而是覺得“變蛋”是一種蛋清為黃色的“皮蛋”。

        表2 被收錄的“蛋X”格式的二字詞的頻次

        表2列出了《現(xiàn)代漢語詞典》收錄的13個“蛋X”格式的二字詞的頻次。“蛋雕”“蛋羹”“蛋青”“蛋塔”“蛋撻”“蛋鴨”的頻次很低,沒超過60次?!暗鞍踪|”“蛋白酶”等三字詞均包括“蛋白”二字。在CCL語料庫中“蛋白質”的頻次為6 579,“蛋白酶”的頻次為386,所以“蛋白”作為二字詞的出現(xiàn)頻次其實不超過5 088次。鑒于“蛋撻”是近年來從香港、澳門傳入內地,并成為日趨常見的食品,它反映了人們生活的新變化。它被收錄到詞典,尚可以理解。但“蛋雕”“蛋鴨”等詞既具有見字明義的特點,又頻次極低,為何它們能被收錄到《現(xiàn)代漢語詞典》有些讓人費解。

        表3 部分未被收錄的“蛋X”或“X蛋”二字組的頻次

        “雞蛋”“鵝蛋”“鳥蛋”“咸蛋”“蛋殼”“蛋湯”等在日常生活中使用頻繁,它們在CCL和Cici語料庫中的使用頻次如表3所示。將表3分別與表1、表2做比較,“雞蛋”“鵝蛋”“鳥蛋”“咸蛋”的頻次遠比“變蛋”“彩蛋”“零蛋”高。其中,“雞蛋”和“鴨蛋”的頻次差異更值得關注。因為《現(xiàn)代漢語詞典》第6版中新增“鴨蛋”一詞,卻仍沒有收錄“雞蛋”。“蛋殼”的頻率比“蛋青”“蛋子”等高得多,卻沒被收錄。由此可知,《現(xiàn)代漢語詞典》收錄的詞條并不完全符合高頻優(yōu)先的選詞原則。

        四、二字詞的互信息分布

        (1)

        CCL網絡語料庫在線提供了現(xiàn)代漢語語料庫中各漢字的頻次[12],故可直接在其漢字頻次表中查詢f(a)、f(b)的值。根據公式(1)計算出表1所列“X蛋”格式二字組的互信息如表4所示,“蛋X”格式二字組的互信息如表5所示?!白兊啊币辉~的互信息在兩個語料庫中均小于零,自動構建電子詞典時這樣的二字組,肯定不會列入備選詞集。

        表4 被收錄的“X蛋”格式二字詞的互信息

        在表4中,“笨蛋”“搗蛋”“混蛋”“臉蛋”“鴨蛋”等互信息很高,容易被電子詞典構建軟件自動識別,并收錄到電子詞典。在表5中,“蛋雕”“蛋品”“蛋青”“蛋塔”“蛋子”等的互信息低于2。通常在基于互信息的二字詞識別中,互信息低于4的二字組不大會引起識別軟件的關注。然而這些詞卻被《現(xiàn)代漢語詞典》收錄,這說明電子詞典和傳統(tǒng)詞典的選詞標準存在不可忽視的區(qū)別。

        表5 被收錄的“蛋X”格式二字詞的互信息

        表6列出了表3所列二字組的互信息。“雞蛋”“咸蛋”的互信息比“變蛋”“彩蛋”“紅蛋”“零蛋”“下蛋”等高得多;“蛋殼”的互信息比“蛋雕”“蛋青”“蛋塔”“蛋子”等高得多?!冬F(xiàn)代漢語詞典》收錄了互信息較低的,卻沒收錄互信息較高的。

        表6 部分未被收錄的“蛋X”或“X蛋”二字組的互信息

        表1至表6中的數據反映了當前中文信息處理中關于詞、短語區(qū)分的一個尷尬局面。漢語研究者按傳統(tǒng)的語言學規(guī)則來分辨詞和短語,但自20世紀50年代至今,他們越來越覺得僅靠純語言學信息難以明確分清二者。一些語言學研究者轉而期望通過借助頻率、互信息等定量、客觀的數值特征,來區(qū)分詞和短語。來自計算機背景的中文信息處理研究者因缺乏系統(tǒng)的語言學知識,大多堅持根據概率、統(tǒng)計學知識,分析漢字組的頻次、互信息,從中總結出一些可行且正確率較高的漢語詞自動發(fā)現(xiàn)算法。然而表4、表5中所列漢語詞的互信息值顯示:有些漢語詞互信息較高,與源自概率理論的漢語詞自動發(fā)現(xiàn)原則是一致的,但“變蛋”“蛋塔”等語言學家確認是詞的互信息卻極低。顯然,傳統(tǒng)詞典的選詞原則和電子詞典的選詞原則有沖突,到底哪種原則更適應未來詞典編撰的需要,目前還不得而知。

        五、三字詞的頻次和互信息分布

        漢語三字組的互信息I(abc)根據公式(2)來計算,其中f(abc)是三字組abc的頻次;f(a)、f(b)、f(c)是三個漢字的頻次;N是語料庫總字數[13]。

        (2)

        《現(xiàn)代漢語詞典》收錄了15個包含“蛋”字的三字組,另包含“屁股蛋兒”一詞。類似對“臉蛋兒”的處理方式,在此把“屁股蛋兒”當作“屁股蛋”來處理?!冬F(xiàn)代漢語詞典》中沒有標注“吃鴨蛋”的詞性,因此將其當短語處理。16個包含“蛋”字的三字組在CCL語料庫和Cici語料庫中的頻次和互信息如表7所示。

        表7 被收錄含“蛋”字三字組的頻次與互信息

        值得指出的是:“鴨蛋圓”在語料庫Cici中的頻次為0,故其互信息為負無窮大?!俺曾喌啊薄暗鞍纂恕薄盀觚數啊薄傍喌扒唷薄傍喌皥A”等在兩個規(guī)模約5億字的語料庫中的出現(xiàn)頻次不超過10次,其使用頻率不到每五千萬字出現(xiàn)一次。它們不僅不滿足使用頻繁的選詞原則,其在不同領域的通用程度也值得懷疑。表8列出了一些常見的含“蛋”字的三字組的頻次與互信息。比較表8和表7,“王八蛋”“恐龍蛋”“鵪鶉蛋”“土雞蛋”等在書面語中頻繁使用,在口語中更是耳熟能詳;它們的互信息比表7中一些三字詞的互信息高。無論是定量比較頻次和互信息,還是普通百姓的語感,它們似乎更應優(yōu)先收到詞典中。

        表8 部分未被收錄含“蛋”字三字組的頻次與互信息

        《現(xiàn)代漢語詞典》還收錄了“雞飛蛋打”“借雞生蛋”“血紅蛋白”“雞蛋里挑骨頭”。由于漢語研究中詞、短語難分辨主要集中在二字組、三字組,在此不對以上四字組、六字組的頻次和互信息做細致分析。

        六、結束語

        本文考察《現(xiàn)代漢語詞典》收錄的含“蛋”字的二字詞、三字詞在CCL和Cici兩個語料庫中的頻次和互信息分布特征,并將其與部分未被收錄的漢字組的頻次、互信息做對比。實驗數據顯示,一些高頻詞沒被收錄,有些低頻詞卻被收錄;一些互信息高的漢字組沒被收錄,有些互信息極低的詞卻被收錄了。也許在詞典編撰過程中,詞典編撰者的語感比來自語料庫的頻次信息更關鍵。另外,現(xiàn)代漢語研究逐步采用頻率、互信息等數值特征來輔助漢語本體研究。如今權威的《現(xiàn)代漢語詞典》中的詞條頻次、互信息分布特點與中文信息處理中的新詞自動發(fā)現(xiàn)規(guī)則有沖突。電子詞典自動構建理論缺乏明確的語言學規(guī)則指導,阻礙了電子詞典開發(fā)與傳統(tǒng)詞典編撰的相互借鑒。語言學研究中該如何看待基于概率統(tǒng)計理論的漢語詞自動發(fā)現(xiàn)算法,這是一個值得進一步研究的問題。

        *本文系教育部人文社會科學研究項目“邏輯推理與詞義匹配相融合的中文網頁語義檢索技術研究”【10YJA740120】的階段性成果。

        注釋:

        [1] 劉云、李晉霞:《論頻率對詞感的制約》,《語言教學與研究》2009年第3期,第1~7頁。

        [2] 胡明揚:《說“詞語”》,《語言文字應用》1999年第3期,第3~9頁。

        [3] 王洪君:《從字和字組看詞和短語——也談漢語中詞的劃分標準》,《中國語文》1994年第2期,第102~112頁。

        [4] 劉云、李晉霞:《論頻率對詞感的制約》,《語言教學與研究》2009年第3期,第1~7頁。

        [5] Jingshin Chang,Yichung Lin,and Kehyih Su.“Automatic Construction of a Chinese Electronic Dictionary”,ProceedingsofthirdworkshoponVeryLargeCorpora,Cambridge:MIT Press,1995,pp.107~120.

        [6] 彭睿:《臨界頻率和非臨界頻率——頻率和語法化關系的重新審視》,《中國語文》2011年第1期,第3~18頁。

        [7] 蘇新春、顧江萍:《“人”“機”分詞差異及規(guī)范詞典的收詞依據——對645條常用詞未見于〈現(xiàn)漢〉的思考》,《辭書研究》2000年第5期,第47~54頁。

        [8] 江藍生:《〈現(xiàn)代漢語詞典〉第6 版概述》,《辭書研究》2013年第2期,第1~19頁。

        [9] 江藍生:《〈現(xiàn)代漢語詞典〉第6 版概述》,《辭書研究》2013年第2期,第1~19頁。

        [10] CCL:《現(xiàn)代漢語語料》。[2003年]http://ccl.pku.edu.cn:8080/ccl_corpus/xiandai_char_info.pdf.

        [11] 孫茂松、肖明、鄒嘉彥:《基于無指導學習策略的無詞表條件下的漢語自動分詞》,《計算機學報》2004年第6期,第736~742頁。

        [12] CCL:《現(xiàn)代漢語語料》。[2003年]http://ccl.pku.edu.cn:8080/ccl_corpus/xiandai_char_info.pdf.

        [13] 余一驕、尹燕飛、劉芹:《基于大規(guī)模語料庫的高頻漢字組互信息分布規(guī)律分析》,《計算機科學》2014年第10期,第276~282頁。

        伊人久久大香线蕉av色婷婷色| 国产亚洲女在线线精品| 一区二区三无码| 日本一区二区不卡在线| 性刺激的大陆三级视频| 双乳被一左一右吃着动态图| 女人的天堂av免费看| 成人免费毛片立即播放| 精品无码人妻夜人多侵犯18| 国产精品熟女一区二区| 国产在线视欧美亚综合| 国产黄色三级三级三级看三级| 欧美拍拍视频免费大全| 亚洲色www成人永久网址| 98国产精品永久在线观看| 日本一区二区视频免费在线观看| 无码一区二区三区| 又湿又黄裸乳漫画无遮挡网站 | 无码中文日韩Av| 久久精品亚洲成在人线av| 国精产品一区一区三区有限在线| 色五月丁香五月综合五月4438| 亚洲人成精品久久久久| 国产大屁股白浆一区二区三区| 亚洲av无码国产精品久久| 丰满人妻被中出中文字幕| 久久久久成人精品免费播放| 免费人妻精品一区二区三区| 亚洲人成网网址在线看| 极品粉嫩嫩模大尺度无码| 亚洲午夜久久久精品国产| 91视色国内揄拍国内精品人妻| 日本中文字幕一区二区高清在线 | 最新亚洲视频一区二区| 蜜桃视频一区二区在线观看| 欧美mv日韩mv国产网站| 精品国产爱在线观看| 亚洲精品在线免费视频| 欧美裸体xxxx极品少妇| 日本视频一区二区三区免费观看| 日本高清一区二区不卡|