亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向普通未登錄詞理解的二字詞語義構詞研究

        2015-04-21 10:52:22吉志薇馮敏萱
        中文信息學報 2015年5期
        關鍵詞:詞素構詞分詞

        吉志薇,馮敏萱

        (1. 南京師范大學 文學院,江蘇 南京 210097; 2. 天津濱湖中學,天津 300060)

        ?

        面向普通未登錄詞理解的二字詞語義構詞研究

        吉志薇1,2,馮敏萱1

        (1. 南京師范大學 文學院,江蘇 南京 210097; 2. 天津濱湖中學,天津 300060)

        把詞素作為基本資源,從語義上尋找他們組合成詞的規(guī)律,可以輔助自然語言理解。該文首先參照《現(xiàn)代漢語詞典》和知網(wǎng)標注了二字詞的詞素意義,繼而從意合結構、意根分布、意指方式、意變類型四個角度標注了詞素間的詞化意義,最后綜合詞素意義和詞化意義,在定量統(tǒng)計的基礎上建立了一個二字詞的語義描寫體系。通過對論壇及《現(xiàn)代漢語詞典》的新詞進行實驗,我們發(fā)現(xiàn)二字詞的語義構詞研究在普通未登錄詞的理解中具有一定的應用價值。

        二字詞;普通未登錄詞;語義構詞

        1 引言

        根據(jù)黃昌寧的研究,未登錄詞中除去日期、時間、百分數(shù)、人名、地名、機構名等專名以及派生詞的那一部分就是普通未登錄詞,也有學者稱之為新詞。在中文信息處理領域,未登錄詞是影響分詞精度最主要的因素之一。未登錄詞中的新詞數(shù)量眾多, 和

        現(xiàn)代漢語中基本詞、常用詞等在構詞規(guī)律上有很大的相似性,具有重要的研究價值。在現(xiàn)代漢語詞匯中,二字詞占主體地位,對其研究有助于我們了解大多數(shù)詞匯的構詞規(guī)律。與詞相比,詞素數(shù)量相對有限,在一個相對封閉的范圍內(nèi),對二字詞的詞素進行窮盡式考察可以幫助我們更好地發(fā)現(xiàn)一個字串之所以成為詞的理由。

        2 確定研究對象

        首先利用計算機提取《現(xiàn)代漢語詞典》*下文簡稱《現(xiàn)漢》。(第6版)[1]中的所有二三字詞*盡管本文的研究目標是二字詞,但考慮到三字詞的意義以及進一步研究的需要,我們選擇高頻詞素時也兼顧到了三字詞。和構成這些二三字詞的詞素,進而計算每個詞素的構詞量,最終選取構詞能力最強的50個詞素,在《現(xiàn)漢》中查找這些詞素構成的二字詞并將其錄入excel表格中。

        根據(jù)本文的研究目標,我們排除以下幾類詞匯: (1)標注有〈方〉的方言詞;(2)意義虛化、讀音弱化、位置固定、能產(chǎn)性強的典型詞綴構成的詞,以“子”為例,它有兩種用法: 有意義區(qū)別作用的自由和半自由詞素,如“父子”、“男子”等;沒有意義區(qū)別作用的不自由詞素,如“帽子”、“旗子”等。后一類就屬于典型詞綴構成的詞;(3)單純詞,如“卡車”;(4)簡稱,如“光驅”;(5)專名,如“道光”;(6)《現(xiàn)漢》(第6版)中新出現(xiàn)的二字詞。

        3 構建標注體系

        參照魯川[2]的詞義方程式,本文將詞素間的靜態(tài)關系,即義類組合,稱為詞素意義;將詞素間的動態(tài)關系,即詞素和詞素化合時產(chǎn)生的詞素義之外的意義,稱為詞化意義;綜合詞素意義和詞化意義即可得到一個二字詞的釋義模式。

        3.1 詞素意義的標注說明

        本文首先依據(jù)《現(xiàn)漢》標注詞義,又參照知網(wǎng)對前字和后字的義項進行歸類,最后根據(jù)詞義為前字和后字選擇相應的義類。以“滾水”為例,由《現(xiàn)漢》可知“滾水”的詞義是“正在開著的或剛開過的水”。

        “滾”字的義項見表1:

        表1 “滾”字的義項

        觀察上表可得“滾”字七個義項分屬五個義類,義項①、②和⑤均屬于“變空間位置”這一義類,需要進行合并。根據(jù)詞義“正在開著的或剛開過的水”可知,“滾”字在“滾水”一詞中使用的是義項③,所屬義類為“外觀變”。同理, “水”字在“滾水”一詞中使用的義項是“最簡單的氫氧化合物”,所屬義類為“液”。因此,“滾水”的詞素意義應為“外觀變+液”。8 984個二字詞共包含2 268個不同的詞素,通過標注,我們構建了基于這2 268個詞素的詞素-義類數(shù)據(jù)庫。

        3.2 詞化意義的標注說明

        詞化意義主要是從意合結構、意根分布、意指方式和意變類型四個方面進行界定: 意合結構說明詞素和詞素間的語法關系;意根分布是指二字詞意義核心所在的位置;意指方式說明詞素義和詞義之間的關系;意變類型立足于歷時發(fā)展,說明詞義變化的類型。具體分類如表2。

        表2 詞化意義標注體系

        續(xù)表

        另外,在標注失指(S)、另指(L)和仿指(F)時還需標出產(chǎn)生失落、換喻或隱喻的詞素的位置(YZWZ),具體有三種: 前字(Q)、后字(H)以及整詞(Z)。

        綜合詞素意義和詞化意義示例如表3所示。

        表3 標注示例

        4 二字詞語義描寫體系的構建

        對8 984個二字詞的詞素意義和詞素間的詞化意義逐一進行標注和統(tǒng)計,可得詞素意義分布表(見表4)、詞化意義分布表(見表5)和釋義模式分布表(見表6)。綜合詞素-義類數(shù)據(jù)庫,我們構建了二字詞的語義描寫體系。

        表4 二字詞詞素意義分布表部分示例

        ①本文所有數(shù)據(jù)均四舍五入精確到小數(shù)點后兩位。

        續(xù)表

        表5 二字詞詞素間詞化意義分布表部分示例

        表6 二字詞釋義模式部分示例

        續(xù)表

        5 二字詞語義描寫體系的應用

        (1) 實驗對象

        根據(jù)研究目標,本文從天涯論壇一則名為“你好,陌生人!日記接龍,獻給八卦的筒子們”的帖子*http://bbs.tianya.cn/post-funinfo-3189865-1.shtml中選取2014年4月至2015年4月的所有留言,經(jīng)過簡單的人工處理,得到共計3 128個字的實驗語料。

        (2) 實驗過程

        分別利用陳小荷的中文信息處理實驗平臺和中科院的ICTCLAS對實驗語料進行分詞。選取兩種分詞軟件均切分有誤的二字詞,可將其分成兩類: 一是專名,例如,“倒 春寒、回 南 天、汪 峰、徐 靜 蕾、齊 秦、星 某 克”等;二是普通未登錄詞,例如,“舍 友 、前 路、自 處、煎 蛋、水 煮、微 博、發(fā) 帖、命 格、妹 紙、腦 抽、驢 飲、扎 口”等。應用二字詞的語義描寫體系對分詞有誤的22個普通未登錄詞進行識別和理解。

        利用詞素-義類數(shù)據(jù)庫自動標注二字詞前后字的義類組合,以“安監(jiān)”為例,首先從詞素-義類數(shù)據(jù)庫中分別提取“安”和“監(jiān)”的所有義類,可知“安”有六種義類,“監(jiān)”有兩種義類;然后將“安”的所有義類逐一與“監(jiān)”的所有義類進行組合,最終共得12種義類組合類型(見表7)。依據(jù)詞素意義分布表,計算機會對所有義類組合進行自動排序,同時返回排名最高的義類組合作為該詞最有可能的詞素意義。仍然以“安監(jiān)”為例,觀察表7可得,“安監(jiān)”的義類組合中,排名最高的是“變空間位置+變感知”。

        依據(jù)釋義模式分布表,計算機會為已經(jīng)確定詞

        表7 “安監(jiān)”的義類組合類型

        素意義的新詞標注釋義模式并進行排序,同時返回排名最高的釋義模式,據(jù)此推測新詞的詞義。觀察表8可得,詞素意義為“變空間位置+變感知”的釋義模式共有五種,其中“XEG+(變空間位置+變感知)”的排名最高,因此“安監(jiān)”最有可能的釋義模式就是“XEG+(變空間位置+變感知)”。

        表8 “安監(jiān)”的釋義模式排序

        (3) 實驗結果

        觀察表9可得,除了“自處”一詞,其他21個普通未登錄詞的詞素意義均在詞素意義分布表中出現(xiàn)過,即這21個詞含有輔助計算機自動識別的詞素意義類型,可被計算機識別,識別率為95.45%。

        我們將詞素意義分布表的構詞量百分比*構詞量百分比是指在8 984個二字詞中,一定范圍的詞素意義能構成二字詞的比例。作為標準,結合構詞量,在降序排列的詞素意義分布表中以 20%左右的梯 度進行分類,設定了五個參照集(見表10)。在這個表格中,處于第1參照集的詞素意義構詞量最多,處于第5參照集的詞素意義構詞數(shù)量最少。構詞數(shù)量越多,證明此類詞素意義構詞能力越強,因此五個參照集中,第1參照集的構詞能力最強,剩下四個的構詞能力依次降低。

        表9 22個普通未登錄詞的識別結果

        表10 五個詞素意義參照集

        續(xù)表

        在21個可識別的普通未登錄詞中(見表11),有六個二字組處于第1參照集中,成詞可能性非常大;有四個二字組處于第2參照集中,成詞可能性比較大;有五個二字組處于第3參照集中,成詞可能性一般;有四個二字組和2個二字組分別處于第4和第5參照集中,成詞可能性比較小。

        表11 21個二字組的成詞可能性分布表

        利用釋義模式分布表標注各詞,結果如表12。觀察可得,22個詞中,只有“發(fā)帖、命格、舍友、霧霾、作死”5個詞的釋義模式可以大致推測出正確的詞義,理解正確率為22.73%。

        表12 22個普通未登錄詞的釋義模式

        續(xù)表

        本文的實驗語料來自論壇,所以這些分詞有誤的普通未登錄詞大多為網(wǎng)絡語言。這些詞有些為原創(chuàng),難以尋找構詞理據(jù),如“心塞”;有些為諧音,難以還原詞素意義,如“妹紙”;有些為借用,往往產(chǎn)生了引申義或比喻義,如“扎口”等。因此,盡管大多數(shù)詞都含有可輔助計算機自動識別的詞素意義,但計算機還是很難準確地推測出它們的詞義。

        鑒于上述實驗的局限性,作為補充,本文又在《現(xiàn)漢》(第6版)新出現(xiàn)的2 400多個二字詞中選取了新的實驗對象。本文構建的二字詞語義描寫體系只對8 984個二字詞中出現(xiàn)過的詞素所構成的新詞有應用價值。經(jīng)過篩選,我們共得到1 419個有效新詞,刪掉6個同形詞,最終確定了1 413個實驗對象。經(jīng)過實驗,我們發(fā)現(xiàn)有1 367個新詞含有至少出現(xiàn)一次的義類組合形式,約占新詞總數(shù)的96.74%?;谖鍌€詞素意義參照集,這1 367個二字組的成詞可能性如表13所示。

        我們選取了詞素意義排名最高的“特性值+人”作為考察對象,由釋義模式分布表可知,“特性值+人”最常和“JHG”連用,其次為“JHZ、JHJ、JHGT”等。在1 413個新詞中,共有71個詞的義類組合中有“特性值+人”這一類,由于此類排名最高,所以計算機自動將“JHG+(特性值+人)” 認定為這些詞最有可能的釋義模式。依據(jù)“JHG+(特性值+人)”進行推測,詞義應為“具有某種特性的人”。參照《現(xiàn)漢》(第六版)的釋義,我們可以發(fā)現(xiàn)共有31個詞,例如,“坐臺、主廚、雜役、淫婦、新兵”等可以表示這種詞義,其余40個詞如“座駕、坐臺、重器、中號”等均不含這種詞義,理解正確率為43.67%。由此可見,基于《現(xiàn)漢》(第6版)1 413個二字新詞的實驗效果更好,本文的研究成果對較為規(guī)范的普通未登錄詞的應用價值更大。

        表13 1 367個二字組的成詞可能性分布表

        ①百分比是指二字組個數(shù)在1367個總數(shù)中的百分比。

        6 結語

        通過面向自然語料的實驗,我們發(fā)現(xiàn)在規(guī)模較小的語料中,普通未登錄詞對分詞精度的影響非常之大。現(xiàn)有的基于詞表的分詞方法、基于統(tǒng)計的分詞方法以及基于隱馬爾科夫模型的分詞方法對普通未登錄詞的識別都有點兒束手無策,而二字詞的語義描寫體系能夠有效地輔助識別普通未登錄詞?,F(xiàn)有問題是究竟頻率多大的詞素意義可以被基本認定為詞,還有待進一步驗證。通過進一步的對比實驗,我們還發(fā)現(xiàn),二字詞的語義描寫體系對較為規(guī)范的二字詞的理解效果更好。從實驗結果來看,“從語義上尋找詞素和詞素組合成詞的規(guī)律,進而指導普通未登錄詞的識別和理解”這一思路對中文自動分詞存在著較高的應用價值,對這一專題深入研究,看似是一條提高自動分詞精度的可行之路。

        [1] 中國社會科學院語言所詞典編輯室.現(xiàn)代漢語詞典(第6版)[Z].北京: 商務印書館,2012.

        [2] 魯川,王玉菊.漢語信息語法學[M].濟南:山東教育出版社,2008.

        [3] 李行健.漢語構詞法研究中的一個問題—關于“養(yǎng)病”“救火”“打抱不平”等詞語的結構[J].語文研究,1982,(2):61-68.

        [4] 符淮青.現(xiàn)代漢語詞匯[M].北京:北京大學出版社,1985.

        [5] 王樹齋.漢語復合詞詞素義和詞義的關系[J].漢語學習,1993,(3):17-22.

        [6] 苑春法,黃昌寧.基于語素數(shù)據(jù)庫的漢語語素及構詞研究[J].世界漢語教學,1998,(2):7-12.

        [7] 朱彥.復合詞的語義結構與詞素義的提示機制[D].廣西師范大學碩士學位論文,2000.

        [8] 馮海霞,張志毅.《現(xiàn)代漢語詞典》釋義體系的創(chuàng)建與完善[J].中國語文,2006,(5):455-480.

        A Study on Semantic Word-Formation of Bi-Character Words for Common Unknown Word Understanding

        JI Zhiwei1,2, FENG Minxuan1

        (1. School of Chinese Language and Literature, Nanjing Normal University, Nanjing, Jiangsu 210097, China;2. Bin Hu Middle School, Tianjin 300060, China)

        The approach to investigate the semantic rules in word- formation via the the granularity of the morpheme can help understand natural language .This paper first labeles the sense of the front and back morpheme of the two-character words by referring to the Modern Chinese Dictionary and HowNet. Then we labele the lexicalized meaning between the morphemes from the perspectives of the structure of semantic combination, the distribution of semantic root, the mode of semantic combination and the type of semantic variation. Finally, we combined the morpheme meaning with lexicalization meaning quantitatively to set up a semantic scheme to account for the two-character words . Tested by the two-character words from BBS and the Modern Chinese Dictionary, it reveals some applicationvalue on the understanding of common unknown words.

        two-character words; semantic word-formation; common unknown word

        吉志薇(1988—),碩士研究生,主要研究領域為計算語言學、詞匯語義學。E-mail:sichenfeimengli@163.com馮敏萱(1978—),通信作者,副教授,主要研究領域為中文信息處理、平行語料庫建設。E-mail:fengminxuan@njnu.edu.cn

        1003-0077(2015)05-0063-06

        2015-07-10 定稿日期: 2015-09-10

        江蘇高校優(yōu)勢學科建設工程資助項目;基于注疏文獻的先秦漢語語料信息處理研究(15BYY096);向量組合學習框架下基于依存混合樹的中文語義解析研究(F020606)

        TP391

        A

        猜你喜歡
        詞素構詞分詞
        從構詞詞源看英漢時空性差異
        外語學刊(2021年1期)2021-11-04 08:08:24
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        詞素配價理論與應用
        亞太教育(2018年5期)2018-12-01 04:58:23
        認知視野下“好”、“壞”構詞的對稱性研究
        華中學術(2017年1期)2018-01-03 07:25:01
        從詞素來源看現(xiàn)代漢語詞素同一性問題
        辭書研究(2017年3期)2017-05-22 14:04:16
        值得重視的分詞的特殊用法
        “分”的音變構詞及其句法語義特征
        長江學術(2016年3期)2016-08-23 01:29:30
        詞素溶合與溶合詞素
        高考分詞作狀語考點歸納與疑難解析
        俄語詞素及其意義探究
        亚洲国产成人无码影院| 亚洲精品中文字幕视频色| 亚洲国产色一区二区三区| 蜜桃av一区二区三区| 久久精品国产亚洲av麻豆床戏| 中国娇小与黑人巨大交| 特级a欧美做爰片第一次| 18级成人毛片免费观看| 韩国无码精品人妻一区二| 亚洲精品久久麻豆蜜桃| 日本熟女中文字幕在线| 国产激情久久久久久熟女老人av | 波多野结衣一区二区三区视频| 日本少妇比比中文字幕| 国产三级精品av在线| 国产熟妇与子伦hd| 国产精品欧美成人| 96精品免费视频大全| 亚洲av色香蕉一区二区三区av| 日本一区二区三区免费精品| 日本中文字幕一区二区高清在线| 亚洲日韩欧美国产另类综合| 精品人妻av一区二区三区不卡| av网站不卡的av在线| 精品人妻一区二区三区四区在线| 男同gay毛片免费可播放| 久久国产国内精品对话对白| 亚洲精品在线观看自拍| av中文字幕一区不卡| 亚洲精品无码国产| 免费毛片性天堂| av免费观看在线网站| 精品亚洲国产成人av色哟哟| 欧美黑人群一交| 亚洲精品亚洲人成在线下载| 午夜精品人妻中字字幕| 真实夫妻露脸自拍视频在线播放| 亚洲va无码手机在线电影| 国产精品深夜福利免费观看| 国产农村妇女毛片精品久久麻豆 | 又湿又黄裸乳漫画无遮挡网站|