亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        支配性VN1N2結(jié)構中動詞語義指向的機器定位研究

        2015-10-14 04:58:43傅成宏
        關鍵詞:支配指向現(xiàn)代漢語

        傅成宏

        ?

        支配性VN1N2結(jié)構中動詞語義指向的機器定位研究

        傅成宏1*

        (阜陽師范學院 文學院,安徽 阜陽 236032)

        對現(xiàn)代漢語VN1N2序列的結(jié)構進行了分類并統(tǒng)計出各小類在語料中所占的比例。使用規(guī)則與統(tǒng)計相結(jié)合的方法,讓計算機自動定位支配型VN1N2結(jié)構中V的語義指向。具體方法是:先根據(jù)N1與N2的是否屬于相同語義類,把支配型VN1N2結(jié)構分成兩類;再分別使用規(guī)則和統(tǒng)計模型對兩種類型的VN1N2結(jié)構進行不同的處理;最終設計出相應的計算機軟件開發(fā)算法并畫出了程序設計的流程圖。

        VN1N2結(jié)構,語義指向,機器定位

        1 引言

        眾所周知,“語義指向”是漢語語法研究的一大特色,漢語語言學本體的研究在此方面已經(jīng)取得了豐碩的成果,這里不再贅述。中文信息處理領域?qū)Α罢Z義指向”的研究尚不多見,赫琳[1]對現(xiàn)代漢語副詞語義指向的計算機識別問題做出了深入的研究。陸儉明[2]認為,從句法成分的性質(zhì)上說,語義指向有兩大類,其中一類為動詞和名詞的語義指向關系。我們嘗試對現(xiàn)代漢語動詞語義指向的自動識別進行探討,本文選擇動詞結(jié)構的一個小類“支配性VN1N2結(jié)構”,對其中動詞V語義指向的機器定位問題做出初步的分析。

        我們對北京大學開發(fā)的1998年1月《人民日報》(192萬字,50551句)帶標語料庫[3]49-64進行檢索,共得到VN1N2序列11529條。這11529條中,并不全是支配性VN1N2結(jié)構,具體分布情況如下圖1:

        圖1 VN1N2詞性序列語法結(jié)構分布圖

        從上圖可見,我們所觀察到的VN1N2序列的語法結(jié)構共有4大類:

        A.動賓結(jié)構,N1N2作V的賓語,其中有3種情況:

        (1)N1與N2為定中關系,圖中標示為(N1)N2;

        (2)N1與N2為并列關系,圖中標示為N1+N2;

        (3)N1與N2為同位關系,圖中標示為N1=N2;

        B.中補結(jié)構,N2作動詞短語VN1的補語,圖中標示為(VN1)

        C.定中結(jié)構,VN1作N2的定語,圖中標示為(VN1)N2;

        D.N1、N2與V無直接關系,其中有4種情況:

        (1)N1、N2與后面的其他名詞性結(jié)構構成并列關系,圖中標示為N1+N2+N;

        (2)N1、N2與后面的其他名詞性結(jié)構構成定中關系,圖中標示為(N1N2)N;

        (3)N1、N2與后面的其他動詞性結(jié)構構成主謂關系,圖中標示為(N1N2)V;

        (4)其它,較(1)(2)(3)更為復雜,關系多樣。

        在B類和C類中,V的語義指向皆為N1,D類中N1、N2與V無直接關系,所以,我們更須要關注的是A類,即動賓結(jié)構中V的語義指向問題,這一類也是在整個VN1N2序列結(jié)構中所占比例最大的。而當N1與N2為并列關系時,V同時指向N1與N2,當N1與N2為同位關系時,V同時指向N1和N2,不會造成歧義。當N1與N2為定中關系時,V可能指向N1,也可能指向N2,并有可能造成歧義。所以,本文的研究的“支配性VN1N2結(jié)構”為上圖中的動賓結(jié)構,并以“N1與N2為定中關系”為重點研究內(nèi)容。

        關于研究方法,我們采用規(guī)則與統(tǒng)計相結(jié)合的方法。從語言學本體研究的成果語義類中提取相應的定位規(guī)則,使用統(tǒng)計計算的兩個模型計算并比較動詞V和名詞N1、N2在語義上結(jié)合的緊密程度,據(jù)此衡量語義指向可能性的大小。

        2 機器定位的方法

        2.1由語言知識構建的定位規(guī)則

        如前所述,當N1與N2屬于相同語義類時,我們須要使用一定的語言知識來構建定位規(guī)則。本文須要用到的語言知識主要是語義學中的語義類知識,語言學本體研究中的相關成果也比較多,我們選用比較新的《現(xiàn)代漢語分類詞典》[4]和董振東 “知網(wǎng)(How Net)”[5]中的語義分類方法。

        我們的定位策略是比較語義范圍的大小,可以分為兩種情況分別處理:

        第一種情況:VN1N2序列之前的分句中有與N1、N2相同語義類的名詞性結(jié)構N,此時N1與N2中比N的語義范圍小的是V的語義指向所在。如:

        例1 面包/n 吃/v 得/u 不/d 多/a ,/w 只/d 吃/v 了/u 一/m 塊/q 面包/n

        例2 食物/n 沒/d 吃/v 什么/r ,/w 只/d 吃/v 了/u 一/m 塊/q 面包/w

        這兩個例子中都出現(xiàn)了“只吃了一塊面包”,其中“一塊”和“面包”屬于相同語義類,但“吃”的語義指向不同。例1中,前文出現(xiàn)“面包”,與后面的“一塊”和“面包”屬于相同語義類,且語義范圍大于“一塊”,所以,“吃”的語義指向為“一塊”,同樣分析可以得出例2中“吃”的語義指向為“面包”。

        第二種情況:VN1N2序列之前的分句中沒有與N1、N2相同語義類的名詞性結(jié)構N,N1與N2中語義范圍小的是V的語義指向所在。如:

        例3 攻讀/v 碩士/n 學位/n

        例4 呼吁/v 全國/n 人民/n 團結(jié)/v 起來/v

        例3中,“碩士”和“學位”屬于相同語義類,前者的語義范圍小于后者,所以確定“攻讀”的語義指向為“碩士”。例4中,“全國”和“人民”屬于相同語義類,前者語義范圍大于后者,所以確定“呼吁”的語義指向為“人民”。

        2.2 語義指向定位的統(tǒng)計學模型

        支配性VN1N2結(jié)構中N1和N2不屬于同一個語義類的情況在語料庫中出現(xiàn)得非常多,我們很難利用語言學知識制定規(guī)則來進行V的語義指向的定位,只能采用統(tǒng)計的方法。如:

        例5 建造/v 農(nóng)民/n 新村/n → *建造/v 農(nóng)民/n 建造/v 新村/n

        例6 切/v 蘿卜/n 絲/n →切/v 蘿卜/n 切/v 絲/n

        “建造”的語義指向為“新村”,“切”的語義指向可以為“蘿卜”和“絲”。對于這種N1與N2屬不同語義類的情況,我們的定位策略是:首先使用曲維光[6]提出的相對詞序比RRWR對V的兩個候選語義指向?qū)ο笞龀醪皆u估與篩選,再使用互信息模型做最終的確定。

        (1)相對詞序比RRWR

        首先建造全集詞匯表(WORDS)和子集詞匯表(words)。WORDS的建造方法為:在全部語料(下文簡稱為E)中抽取所有的詞形,按其在E中出現(xiàn)的頻率降序排列,形成WORDS。words的建造方法為:從E中抽取所有VN1N2序列,構成子集語料(下文簡稱為e),從e中抽取所有的詞形,按其在e中出現(xiàn)頻率的降序排列,形成該動詞的words。為右側(cè)出現(xiàn)N1N2的所有的動詞建造不同的words。

        其次是RRWR的計算。如某個名詞n,在WORDS中的序號為i,在某個動詞v的words中的序號為j,則該n相對于動詞v的相對詞序比為:

        n1、n2在WORDS中的序號分別為i1、i2,在words中的序號分別為j1、j2。若i1≈i2,則反映出n1、n2在E中出現(xiàn)機率相近,這時須考慮它們在e中的出現(xiàn)情況,即j1、j2,若j1<j2,則反映出n1比n2更多出現(xiàn)在e中,根據(jù)公式①此時R(v,n1) >R(v,n2),因此可以判斷v指向 n1的可能性大于n2;相反,若j1≈j2,則反映出n1、n2在e中出現(xiàn)機率相近,這時須考慮它們在E中的出現(xiàn)情況,即i1、i2,若i1>i2,則反映出n1比n2更少出現(xiàn)在E中,根據(jù)公式①此時R(v,n1)>R(v,n2),因此可以判斷v指向 n1的可能性大于n2;如果R(v,n1)≈R(v,n2),則可以判斷v指向 n1、n2的可能性均等。則我們還須要設定一個閾值M1,只有當R(v,n1)、R(v,n2)均大于該閾值M1時,才考慮n1、n2是否被v指向并進入下一步的計算。

        (2)搭配互信息

        Church[7]指出:可以用兩個詞的互信息值來度量它們之間關系緊密程度,即:

        Smadja[8]、孫茂松等[9]、曲維光[6]等人將互信息用于衡量兩個詞的搭配力度,并將搭配窗口設置為[-5,+5],因此,對公式②做出改進:

        但實際上公式③對公式②的改進僅僅在于設定了窗口寬度,二者的計算在本質(zhì)上是完全一樣的,沒有考慮到搭配詞的位置因素。我們須要考慮的是動詞V在語義上是指向緊鄰其后(右側(cè))的第一個名詞n1還是第二個名詞n2,或是同時指向二者,即須要分別計算V和n1、n2的關系緊密程度。因此我們無須設置窗口寬度,但須設置搭配詞(被指向者)的位置,直接使用公式②即可,即:

        設語料庫的規(guī)模為N詞次,則④式推導為:

        其中,r(v)表示動詞v在語料庫中出現(xiàn)的頻次;當i=1時,r(v, n1)表示語料庫中名詞n1在動詞v右側(cè)第一個位置出現(xiàn)的頻次,當i=2時,r(v, n2)表示語料庫中名詞n2在動詞v右側(cè)第二個位置出現(xiàn)的頻次。我們還須設定一個閾值M2,根據(jù)公式⑤的計算結(jié)果,I(v, ni)的兩個值均小于該閾值時,計算機會認為n1、n2均不被V指向;否則最終確定V的語義指向為I(v, ni)中數(shù)值大者,但如果兩個數(shù)值非常接近,則認為V同時指向n1、n2。

        為降低計算的復雜程度,在得到R(v, n)和I(v, n)的計算結(jié)果之后,我們須要將二者結(jié)合起來形成一個調(diào)和結(jié)果Co,并設定一個調(diào)和閾值M,這樣,只要在Co1、Co2和M之間進行比較就可以了。此外,在實驗過程中,我們須要不斷調(diào)整M值和|Co1-Co2|值(即Co1與Co2的差值),以期得到較高的識別率與正確率。Co的計算方法為:

        Co= R(v, n)*0.3+I(v, n)*0.7 ⑥

        綜上,我們可以得到支配性VN1N2結(jié)構中動詞語義指向定位的主要流程,見圖2。

        圖2 支配性VN1N2結(jié)構中動詞語義指向的機器定位主流程圖

        3 結(jié)語

        本文嘗試從中文信息處理的角度對現(xiàn)代漢語動詞語義指向的機器自動定位問題進行探討,并結(jié)合動詞結(jié)構的一個小類“支配性VN1N2結(jié)構”做出了初步分析。對“支配性VN1N2結(jié)構”做出簡單地分類,針對不同類別提出了不同的語義指向定位策略。

        下一步的研究工作:

        (1)編譯出計算機程序,通過精確的數(shù)據(jù)來驗證本方法的可行程度;

        (2)在(1)的基礎上,不斷調(diào)整得到最佳|Co1-Co2|值及M值,得到最佳的Co計算方法,以便盡可能地提高識別率與正確率;

        (3)本文所涉及到的N,在語料庫中實際上有多種表現(xiàn)形式,如名詞性數(shù)量短語、名詞性的代詞等,這些詞語如果連續(xù)出現(xiàn)在動詞的后面,也應該納入到VN1N2結(jié)構中去;

        (4)本文所用的語言學知識,其提出的初衷并非直接為中文信息處理服務的,未必能很好地適用于本項研究任務,因此我們須尋找甚至自己構建更理想的能適應本任務的語言學知識。

        參考文獻:

        [1]赫琳.現(xiàn)代漢語副詞語義指向及其計算機識別研究[M].北京: 中國社會科學出版社,2009.

        [2]陸儉明.漢語和漢語研究十五講[M].北京:北京大學出版社,2003:318.

        [3]俞士汶,段慧明,等.北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J].中文信息學報,2002,(5).

        [4]蘇新春.現(xiàn)代漢語分類詞典[M].北京: 商務印書館,2013.

        [5]董振東.知網(wǎng)[CP/OL].http://www.keenage.com.

        [6]曲維光.基于框架的詞語搭配自動抽取方法[J].計算機工程,2004,(12): 22-24, 195.

        [7]Church K, Hanks P. Word Association Norms, Mutual Information, and Lexicography[c]. Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989:76-83.

        [8]Smadja F. Retrieving Collocations from Text: Xtract [J]. Computational Linguistics, 1993, 19(1):143- 177.

        [9]孫茂松, 黃昌寧, 方捷.漢語搭配定量分析初探[J].中國語文,1997, (1):29-38.

        ComputerPositioningof Semantic Orientation of Verb in the Verb Dominating Structure of VN1N2

        FU Cheng-hong

        (School of Chinese Language and Literature, Fuyang Normal University, Fuyang 236032, Anhui)

        We classified the structure of VN1N2 in the modern Chinese, and calculated the proportion of each small class in the corpus. Based on rules and statistics, the computer can find the location of V’s semantic orientation in the verb dominating structure of VN1N2 automatically. The specific method is: first, divide the verb dominating structure of VN1N2 into two categories according to whether the N1 and N2 belong to the same semantic category; and then analyze the two different categories by using the rules and statistical method; in the end, design corresponding algorithm of the computer software and draw its flow chart.

        structure of VN1N2, semantic orientation, computer positioning

        TP391

        A

        1004-4310(2015)04-0053-04

        10.14096/j.cnki.cn34-1044/c.2015.04.013

        2015-05-03

        2011年度教育部人文社會科學研究青年基金項目“基于詞性標注的現(xiàn)代漢語兼語式自動識別研究”(11YJCZH035);阜陽師范學院人文社會科學研究重點項目“現(xiàn)代漢語兼語結(jié)構的機器探測”(2010FSSK02ZD)。

        傅成宏(1971-),男,安徽明光人,講師,研究方向: 計算語言學及現(xiàn)代漢語語法。

        猜你喜歡
        支配指向現(xiàn)代漢語
        科學備考新指向——不等式選講篇
        被貧窮生活支配的恐懼
        意林(2021年9期)2021-05-28 20:26:14
        “楞”“愣”關系及“楞”在現(xiàn)代漢語中的地位
        跟蹤導練(四)4
        評《現(xiàn)代漢語詞典》(第6版)
        把準方向盤 握緊指向燈 走好創(chuàng)新路
        傳媒評論(2017年8期)2017-11-08 01:47:36
        基于決策空間變換最近鄰方法的Pareto支配性預測
        自動化學報(2017年2期)2017-04-04 05:14:34
        隨心支配的清邁美食探店記
        Coco薇(2016年8期)2016-10-09 00:02:56
        現(xiàn)代漢語中詞匯性的性范疇
        北大版《現(xiàn)代漢語》增訂本)出版
        国产精品久久久一本精品| 国语少妇高潮对白在线| 国产成人久久精品二区三区牛| 国产成人久久精品流白浆| 一区二区三区四区黄色av网站| 欧美激情综合色综合啪啪五月 | 国产又黄又硬又粗| 亚洲国产另类久久久精品黑人| av无码电影一区二区三区| 人妻暴雨中被强制侵犯在线| 国产精品九九九久久九九| 一本大道加勒比东京热| 中国久久久一级特黄久久久| 成 人免费va视频| 国产精品嫩草影院午夜| 蜜臀av一区二区三区精品| 国产自拍视频在线观看网站| 97人人超碰国产精品最新| 久久国产精品不只是精品| 免费女同毛片在线不卡| 国产视频自拍一区在线观看| av一区二区三区人妻少妇 | 巨臀精品无码AV在线播放| 大屁股流白浆一区二区三区| 亚洲妇女自偷自偷图片| 亚洲色成人网站www观看入口| 国产成人精品一区二区日出白浆| av素人中文字幕在线观看| 草草久久久无码国产专区| 国产在线精品福利大全| 蜜臀人妻精品一区二区免费| 久久婷婷五月国产色综合| 99精品电影一区二区免费看| 扒开双腿操女人逼的免费视频| 电驱蚊液可以插一晚上吗| 黑人巨大无码中文字幕无码| 国产在线一区二区三区av| 国产日产亚洲系列首页| 山外人精品影院| 日韩高清无码中文字幕综合一二三区 | 黄色精品一区二区三区|