亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語內(nèi)層最長名詞短語的識別研究

        2019-06-10 06:30:52錢小飛
        關(guān)鍵詞:歧義層級短語

        錢小飛

        (上海大學(xué) 文學(xué)院,上海200444)

        一、引言

        漢語信息處理領(lǐng)域所關(guān)注的名詞短語主要包括基本名詞短語和最長名詞短語。 基本名詞短語內(nèi)部結(jié)構(gòu)相對簡單,其識別(趙軍、黃昌寧 1999b;徐艷華 2008)和分析(趙軍、黃昌寧 1999a;張瑞霞、張蕾 2004)研究都取得了較好的效果。 最長名詞短語內(nèi)部結(jié)構(gòu)復(fù)雜,20 世紀(jì)90 年代以及2000 年的研究主要集中在識別上(Chen&Chen 1994;李文捷等 1995;周強(qiáng)等 2000),之后,統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的應(yīng)用使得最長名詞短語識別的效果得到了很大提升(Baiet al. 2006;馮沖等 2006;代翠等 2008;鑒萍、宗成慶 2009;Zhanget al. 2010)。然而,針對漢語最長名詞短語內(nèi)部結(jié)構(gòu)的分析研究還不多見。代翠(2009:42)使用條件隨機(jī)場(Conditional Random Field,簡稱 CRF)模型對漢語最長名詞短語作了完全分析,取得了75.6%的分析正確率,但分析和評測都沒有針對名詞性成分,而名詞性成分是揭示句法語義結(jié)構(gòu)的重要內(nèi)容,也是句法分析的難點(diǎn)。

        漢語內(nèi)層最長名詞短語(inner Maximal Noun Phrase,簡稱 iMNP)識別的目標(biāo)是在標(biāo)注了表層最長名詞短語(surface Maximal Noun Phrase, 簡稱 sMNP)的句子中,分析出其內(nèi)部多層次的最長名詞性成分,即位于最長名詞短語之中,而又不直接被名詞短語包含的名詞性成分(錢小飛、侯敏 2017: 131),如例(1)中的“藝術(shù)/n”:

        (1) {藝術(shù)/n 對象/n}創(chuàng)造/v 出/vB{懂得/v[藝術(shù)/n]和/c 能夠/vM 欣賞/v[藝術(shù)/n]的/u 大眾/n}。 /。①本文例句(包括其中詞性標(biāo)記)均來自于清華漢語樹庫。為了便于讀者區(qū)分內(nèi)層和表層最長名詞短語,筆者使用{ }標(biāo)識表層最長名詞短語,使用[ ]標(biāo)識內(nèi)層最長名詞短語。

        由于 iMNP 數(shù)量相對較少,邊界成分的鄰接概率較低,本文采用 CRF 模型和基本名詞塊提升規(guī)則相結(jié)合的 iMNP 識別方法,以緩解數(shù)據(jù)稀疏、結(jié)構(gòu)歧義和邊界歧義等問題,改善識別效果。

        二、iMNP 的層級分布

        由于漢語名詞短語構(gòu)造復(fù)雜,iMNP 呈現(xiàn)出多層級分布。 例如,最長名詞短語“{貫徹/v 落實(shí)/v[ 1鄧小平/nP 同志/n 關(guān)于/p [ 2 建設(shè)/v [ 3 有/v [ 4 中國/nS 特色/n ] 的/u 社會主義/n ] 的/u 思想/n ] 和/c十四大/nR 精神/n ] 方面/n}”,其中的阿拉伯?dāng)?shù)字標(biāo)識了 iMNP 的不同層次。 根據(jù)對清華漢語樹庫(Tsinghua Chinese Treebank,簡稱TCT)的統(tǒng)計(jì),iMNP 共計(jì)28065 例,分布在四個不同的層次上。

        iMNP 具有明顯的層級分布傾向性,分布在第一層的iMNP 占95.22%;分布在第二層的 iMNP占4.64%;分布在第三、四層的iMNP 數(shù)量很少,所占比例分別為0.14%和0.01%(錢小飛、侯敏2017:132)。 因此,第一、二層尤其是第一層是 iMNP 識別的重點(diǎn)。

        分布在第一層的 iMNP 主要由含“的”名詞短語引入。 而分布在第二、三、四層的 iMNP 不僅可由含“的”名詞短語內(nèi)嵌主謂、動賓或介賓等結(jié)構(gòu)構(gòu)造而成,同時主謂、動賓結(jié)構(gòu)直接作定語也是一種重要嵌套因素。

        復(fù)雜短語及其變體參與構(gòu)造最長名詞短語可使得結(jié)構(gòu)嵌套更深,如例(2):

        (2){上海/nS}在/p{貫徹/v 落實(shí)/v[鄧小平/nP 同志/n 關(guān)于/p[建設(shè)/v[有/v[中國/nS 特色/n]的/u 社會主義/n]的/u 思想/n]和/c 十四大/nR 精神/n]方面/n}很/dD 積極/a,/,很/dD 認(rèn)真/a,/,很/dD 有/v{成效/n},/,

        當(dāng)然,一些括號、引號等標(biāo)點(diǎn)符號以及并列結(jié)構(gòu)參與構(gòu)造最長名詞短語,也容易使得結(jié)構(gòu)復(fù)雜化,從而形成深度嵌套。

        三、iMNP 識別的難點(diǎn)與策略

        (一)識別難點(diǎn)

        盡管 iMNP 識別具備一些有利條件,比如其平均長度(2.21 詞)比 sMNP(3.03 詞)?。ㄥX小飛、侯敏2017:132), 同時還具有非常明顯的左鄰接詞類特征, 大多數(shù) iMNP 分布在動詞和介詞之后, 但是 iMNP 識別也有其自身的難點(diǎn)。 現(xiàn)擇要例舉如下:

        第一,數(shù)據(jù)相對稀疏。相較于 sMNP,iMNP 的數(shù)量較少,位于深層次(第二、三、四層)的數(shù)據(jù)尤為稀缺,這增加了統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法和實(shí)例性規(guī)則應(yīng)用的難度。

        第二,iMNP 呈現(xiàn)多層級結(jié)構(gòu),如何選擇合適的分析策略是一個重要問題。

        第三,從某一層的結(jié)構(gòu)來看,iMNP 的邊界歧義主要表現(xiàn)為左邊界處的動詞介詞內(nèi)含型歧義、名詞邊界歧義和量名邊界歧義。

        具體而言,第三個難點(diǎn)又包括多種情形,現(xiàn)例舉其中五種:

        1)名詞性成分+動詞性成分+De+中心語

        動詞介詞內(nèi)含型歧義。常見結(jié)構(gòu)是名詞性成分作動詞性成分的主語,形成主謂結(jié)構(gòu)作定語。然而,名詞性成分也可以作為其后定中結(jié)構(gòu)的修飾語,如“廠房/n 高聳/v 的/u 煙囪/n”。

        2)代詞+名詞短語+方位詞+[謂語]②此處[ ]表示其中成分可出現(xiàn)也可不出現(xiàn)。+De+中心語

        名詞邊界歧義。 代詞和名詞短語之間形成連續(xù)的名詞邊界歧義,如“這/rN [ 實(shí)際/n ] 上/f 虛無縹緲/iV 的/u 海市/n”。

        3)代詞+主語+謂語+De+中心語

        名詞邊界歧義。 代詞和主語之間形成連續(xù)的名詞邊界歧義,如“那些/rN [ 品質(zhì)/n ] 低劣/a 的/u 藥材/n”。

        4)量詞+名詞短語+ 方位詞+ [謂語]②+ De + 中心語

        量名邊界歧義。 量詞和名詞短語之間形成連續(xù)的量名邊界歧義,如“一/m 顆/qN [ 藥典/n ] 上/f 沒有/v 的/u 定心丸/n”。

        5)量詞+ 主語+ 謂語+ De + 中心語

        量名邊界歧義。 量詞在 sMNP 中一般不充當(dāng)左鄰接詞, 但在iMNP 中這種歧義現(xiàn)象較為常見,如“一/m 杯/n [ 香味/n ] 濃郁/a 的/u 雀巢/nR 咖啡/n”。

        上述歧義類型大都是謂詞性結(jié)構(gòu)嵌入名詞短語所形成的線性表現(xiàn),與關(guān)于謂詞性成分是構(gòu)造復(fù)雜最長名詞短語的重要因素的論斷一致。 相較于 sMNP,iMNP 雖然也存在連續(xù)的動詞或介詞邊界歧義,但是比例較低。

        (二)識別策略

        識別策略的確定需要著重考慮以下兩個方面的問題:一是如何識別多層級結(jié)構(gòu);二是如何降低數(shù)據(jù)稀疏、結(jié)構(gòu)歧義和邊界歧義可能造成的影響。

        多層級結(jié)構(gòu)的識別有兩種策略可供選擇:第一種是不分層識別,一次性識別所有的邊界位置;第二種是分層識別,由上至下逐一識別每一層的iMNP。 我們選擇分層識別策略,理由如下:

        其一,不分層識別主要存在兩個局限性:一是不能保證左右邊界數(shù)量相同,識別完成后需要對左右邊界重新匹配;二是iMNP 也存在邊界重疊的現(xiàn)象,比如“是/vC 在/p [ [ 通貨膨脹/n ] 長期/d 威脅/v的/u 背景/n ] 下/f 發(fā)展/v 起來/vB 的/u”。 不分層識別通常只能識別邊界位置,而不能確定一個邊界位置上的邊界數(shù)量。

        其二,iMNP 的多層級結(jié)構(gòu)呈現(xiàn)明顯的傾向性分布特征,分布在第一層的iMNP 達(dá)到95.22%,因此 iMNP 的識別效果基本取決于第一層結(jié)構(gòu)的識別效果。 在某種意義上,這對于解決多層級識別中的數(shù)據(jù)稀疏問題是一個有利條件。如果能夠找到其他方式對深層結(jié)構(gòu)的數(shù)據(jù)進(jìn)行補(bǔ)充,即可通過多層級的方式完成 iMNP 的識別。

        我們發(fā)現(xiàn),iMNP 與基本名詞塊③基本名詞塊是基本塊(Base Chunk)中的名詞塊,包括雙詞或多詞構(gòu)造的基本名詞短語和單個名詞實(shí)現(xiàn)的基本塊。有著較好的映射關(guān)系,在 TCT 中,約82%的 iMNP 由基本名詞塊直接實(shí)現(xiàn),而基本名詞塊可以在整個句子范圍內(nèi),而非上一層 iMNP 范圍內(nèi)進(jìn)行訓(xùn)練,數(shù)據(jù)量較為充足。 因此,借助對基本名詞塊映射為 iMNP 條件的判斷,可以召回部分漏識的 iMNP,并取消部分錯誤識別的 iMNP 的資格。

        四、多層級 iMNP 識別

        (一)系統(tǒng)流程

        多層級 iMNP 識別的基本思路是在識別上一層 iMNP 的基礎(chǔ)上,識別當(dāng)前層次的 iMNP,直至達(dá)到規(guī)定的訓(xùn)練深度,或者無法發(fā)現(xiàn)當(dāng)前層次存在目標(biāo)結(jié)構(gòu)為止,基本流程如圖1 所示:

        圖1 多層級 iMNP 識別流程圖

        在圖1 左部的訓(xùn)練模塊中,所獲取的“第i 層訓(xùn)練語料”并不是完整的句子,而是標(biāo)注了第i 層iMNP 信息的第i-1 層iMNP。 在圖1 右部的測試模塊中,“更新測試語料”是指將已識別的第i 層iMNP的邊界信息寫入測試語料。

        (二)特征及標(biāo)記集

        在統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型中,支持向量機(jī)(Support Vector Machine,簡稱SVM)和 CRF 模型都能較好地克服數(shù)據(jù)稀疏問題。 相較于 sMNP,iMNP 長度較小,絕大部分 iMNP 的內(nèi)部結(jié)構(gòu)更接近于基本名詞塊。根據(jù)徐昉等(2007)、年洪東(2009)的研究,在基本名詞短語識別上,相較于 CRF 模型,SVM 沒有特別的優(yōu)勢。 因此,本文采用 CRF 模型④本文采用的條件隨機(jī)場工具包是由日本松本實(shí)驗(yàn)室 Taku Kudo 博士開發(fā)的CRF++(version 0.51)。,并且為每一層結(jié)構(gòu)設(shè)置獨(dú)立的標(biāo)記集,同時允許不同的模板設(shè)置。 分層特征選擇如表1 所示:

        表1 分層特征選擇

        表1“標(biāo)記集”列中,B 表示 iMNP 的起始詞位置,I 表示除起始詞位置之外的位置,M 表示除起始詞和結(jié)束詞位置之外的中間位置,E 表示 iMNP 結(jié)束詞位置,O 表示iMNP 外部,S 表示單詞 iMNP。 經(jīng)過調(diào)試,iMNP 識別在特征窗口[-2,2]能夠取得較好效果,使用的特征包括詞語和詞類。

        五、基于規(guī)則的修正

        iMNP 總量不足sMNP 的1/6(錢小飛、侯敏 2017:132),數(shù)據(jù)稀疏、結(jié)構(gòu)歧義和邊界歧義可能造成錯識和漏識問題。 鑒于此,我們引入規(guī)則來修正識別結(jié)果。

        (一)iMNP 與基本名詞塊

        研究基本名詞塊實(shí)現(xiàn)為 iMNP 的條件有助于將基本名詞塊確認(rèn)為 iMNP,同時也有助于否決錯誤識別的 iMNP。 我們把基本名詞塊確認(rèn)為 iMNP 的過程稱作基本名詞塊的提升。

        iMNP 與基本名詞塊的關(guān)系可從實(shí)現(xiàn)關(guān)系和層次分布兩個方面進(jìn)行考察。 從實(shí)現(xiàn)關(guān)系來看,TCT中由基本名詞塊直接實(shí)現(xiàn)的 iMNP 的比例遠(yuǎn)大于 sMNP(65%)。從層次分布來看,基本名詞塊可以分布于各個層次,尤其是第一層和最內(nèi)層。 這使得基本名詞塊具備了提升為各個層次 iMNP 的可能,從而有望改善發(fā)生在各個層次上的錯識和漏識問題。 請看例(3):

        (3)當(dāng)/p[[2 川/n]上/f 有/vJY[2 水/n ]澆/v[2 地/n ]的/u 富/a 隊(duì)/n ]來/v[1 糧站/n ]賣/v[1 糧/n]的/u 時候/n

        在例(3)中,第一層有兩個 iMNP 與基本名詞塊重合,第二層有三個iMNP 與基本名詞塊重合。

        (二)基本名詞塊提升規(guī)則

        1.上下文提升規(guī)則

        為了判斷基本名詞塊是否可以提升為 iMNP,我們根據(jù)經(jīng)驗(yàn)編寫了由基本名詞塊的上下文信息組成的 74 條上下文提升規(guī)則,規(guī)則形式可以描述如下:

        (4) [attrib_loc_val]+→judgement

        (4)中箭頭前部分表示條件;箭頭后部分表示如果基本名詞塊符合該條件,應(yīng)該執(zhí)行的動作或者判斷;[]+表示該規(guī)則可以有多個條件。在條件部分,attrib 表示屬性,包括詞形word、詞類tag、詞形詞類wordtag 三種類型;loc 表示上下文相對于當(dāng)前基本名詞塊的位置,值為 0 時表示 iMNP 中心詞位置;val表示屬性值。 在動作部分,當(dāng)judgement 的值為 MT 時,表示提升該基本名詞塊;當(dāng) judgement 的值為 MF 時,表示否決該基本名詞塊。 請看(5)—(7):

        (5)tag_-1_v tag_1_v →MT

        (6)wordtag_-1_在/p wordtag_1_里邊/f →MT

        (7)tag_-1_、tag_1_c →MF

        (5)表示當(dāng)基本名詞塊前一個詞和后一個詞均是動詞時,將該基本名詞塊提升為 iMNP。 (6)表示當(dāng)基本名詞塊前一個詞是介詞“在”,后一個詞是后置詞(方位詞)“里邊”時,將該基本名詞塊提升為 iMNP。(7)表示當(dāng) iMNP(可與基本名詞塊重合)前一個詞是頓號,后一個詞是連詞時,否決該基本名詞塊。

        2.限制性規(guī)則

        盡管上下文提升規(guī)則的設(shè)計(jì)較為可靠,但是仍然無法完全避免句法歧義等問題的影響。 比如,當(dāng)“名詞性成分+動詞性成分+De+中心語”結(jié)構(gòu)位于賓語位置時,上下文提升規(guī)則對于消解歧義顯得力不從心,很容易將其中作修飾語的名詞性成分提升為 iMNP。 因此,我們編制了一個動詞配價表,收錄了9955 個動詞的配價信息,并利用這些信息設(shè)計(jì)了3 條限制性規(guī)則,以降低上下文提升規(guī)則的使用風(fēng)險:

        一是當(dāng)loc_-1 位置上的動詞為一價動詞,或者不具有帶賓語的能力時,禁止使用上下文提升規(guī)則。

        二是在“名詞性成分+動詞性成分+De+中心語”結(jié)構(gòu)中,當(dāng)動詞性成分為一價動詞時,禁止使用上下文提升規(guī)則。

        三是在“名詞性成分+任意成分+De+中心語”結(jié)構(gòu)中,當(dāng)“任意成分”不包含動詞時,禁止使用上下文提升規(guī)則。

        3.結(jié)構(gòu)化提升規(guī)則

        因?yàn)閕MNP 多由外層含De 最長名詞短語所包含,所以本文所設(shè)計(jì)的5 條結(jié)構(gòu)化提升規(guī)則主要針對含De 結(jié)構(gòu)。 當(dāng)“v bnc1De bnc2”“p bnc1De v”“v bnc1De v”結(jié)構(gòu)實(shí)現(xiàn)為最長名詞短語時,其中的bnc1都可以提升為iMNP。此外,當(dāng)上層iMNP 只包含一個De,De 前只有一個動詞或介詞時,將位于De 前、動詞或介詞后的基本名詞塊提升為iMNP;當(dāng)上層iMNP 只包含一個De,De 前只有一個介詞,而沒有動詞和形容詞時,取消介詞前iMNP 的資格。

        (三)識別算法

        基本名詞塊提升在多層級iMNP 識別完成后進(jìn)行,識別算法如下:

        輸入:多層級iMNP 識別結(jié)果、基本名詞短語識別結(jié)果和基本名詞塊提升規(guī)則庫

        輸出:iMNP 最終識別結(jié)果

        1) 順序掃描句子中每一個基本名詞塊NBCi⑤單詞基本名詞塊在掃描過程中直接識別。

        2) 如果NBCi與最長名詞短語MNPj不重合且不交疊

        3) 在限制性規(guī)則約束下,若匹配上下文提升規(guī)則成功,將NBCi提升為iMNP

        4) 若匹配結(jié)構(gòu)化提升規(guī)則成功,將NBCi提升為iMNP

        5) 輸出識別結(jié)果

        六、實(shí)驗(yàn)結(jié)果及分析

        (一)多層級iMNP 識別效果及分析

        為了檢驗(yàn)識別系統(tǒng)的性能,我們先采用隨機(jī)抽樣程序?qū)CT 語料進(jìn)行了5 次隨機(jī)抽樣,每個樣本的容量設(shè)置為2000 句。 然后,將樣本集合中每4 個樣本合并為訓(xùn)練語料,剩余1 個樣本作為測試語料,構(gòu)造5 組訓(xùn)練測試語料對,在正確標(biāo)注sMNP 的基礎(chǔ)上識別iMNP,并進(jìn)行5 折交叉驗(yàn)證,結(jié)果如表2 所示:

        表2 多層級iMNP 識別結(jié)果

        續(xù)表2

        實(shí)驗(yàn)取得了85.60%的結(jié)構(gòu)正確率(ST_prc)和77.49%的結(jié)構(gòu)召回率(ST_rec),結(jié)構(gòu)F1 值為81.34%。我們發(fā)現(xiàn),相較于數(shù)據(jù)稀疏,結(jié)構(gòu)歧義和邊界歧義才是造成iMNP 識別錯誤的深層次原因,而數(shù)據(jù)稀疏加劇了兩者的影響。 識別錯誤包括以下幾個方面:

        其一,上層結(jié)構(gòu)識別錯誤對下層結(jié)構(gòu)造成不利影響,即上層結(jié)構(gòu)的一個識別錯誤會影響到多個下層結(jié)構(gòu)的識別。

        其二,聯(lián)合結(jié)構(gòu)造成邊界歧義。 iMNP 內(nèi)部聯(lián)合結(jié)構(gòu)較多,識別錯誤主要包括三種情況:一是并列名詞短語被錯誤地切開;二是包含動詞性結(jié)構(gòu)的短語和名詞短語并列造成的識別錯誤,如當(dāng)名詞短語和主謂結(jié)構(gòu)并列時,并列項(xiàng)和主語被錯誤識別為iMNP;三是動賓結(jié)構(gòu)和主謂結(jié)構(gòu)并列時,賓語和主語被錯誤識別為iMNP。

        其三,“v n n”潛在歧義格式。 “v n n”作名詞短語,常常被錯誤劃分為“v [ n n ]”,主要包括兩種情況:一種是較為常見的多詞塊,如“反/v [ 腐敗/n 斗爭/n ]”;另一種是特殊句法位置上的臨時組合,如“那/rN 已/d 被/p 丑化/v 的/u 讀/v [ 書/n 姑娘/n ]”中的“讀/v [ 書/n 姑娘/n ]”。

        其四,De 后主謂結(jié)構(gòu)的干擾。 De 后名詞短語作最長名詞短語的中心語,但是諸如“一/m 門/qN 在/p[ 理論化/vN 和/c 數(shù)量化/vN 基礎(chǔ)/n ] 上/f,/,進(jìn)一步/d 綜合化/v、/、生態(tài)化/v、/、社會化/v 的/u 理論/n 與/c應(yīng)用/vN 并舉/v 的/u 兩棲/b 科學(xué)/n”的結(jié)構(gòu)使De 后名詞短語的歸屬發(fā)生了歧義。

        其五,iMNP 的特殊歧義序列造成識別錯誤。比如,“名詞性成分+動詞性成分+De+中心語”的潛在歧義造成模型無法判斷名詞性成分什么時候應(yīng)該被識別為iMNP,什么時候不應(yīng)該被識別為iMNP。當(dāng)然,模型無法考慮該序列的上下文特征,如左鄰接動詞和中心詞的搭配特征,這也是造成識別錯誤的一個原因。

        (二)基本名詞塊提升規(guī)則的修正效果及分析

        因?yàn)榛久~塊的中心詞構(gòu)成較為封閉,主要為名詞,所以在識別基本名詞短語的基礎(chǔ)上,其外部的單個名詞均可作為單詞基本名詞塊。 鑒于此,我們首先采用CRF 分類器基于BMEO 標(biāo)記集對測試語料中的基本名詞短語進(jìn)行預(yù)標(biāo)注,取得了90.83%的結(jié)構(gòu)正確率和92.63%的結(jié)構(gòu)召回率,結(jié)構(gòu)F1值為91.72%。

        基本名詞塊提升實(shí)驗(yàn)采用自動標(biāo)注了iMNP 及基本名詞短語,且正確標(biāo)注了sMNP 的5 份測試語料。實(shí)驗(yàn)采用了82 條修正規(guī)則,其中,上下文提升規(guī)則74 條,限制性規(guī)則3 條,結(jié)構(gòu)化提升規(guī)則5 條。實(shí)驗(yàn)結(jié)果如表3 所示:

        表3 修正實(shí)驗(yàn)結(jié)果

        續(xù)表3

        修正規(guī)則召回了部分漏識的簡單結(jié)構(gòu),使得結(jié)構(gòu)召回率提高了1.22%,結(jié)構(gòu)F1 值提高了0.50%。然而,其對“m qN n v De”等名詞邊界歧義,“n、n v”等名詞短語與動詞短語聯(lián)合的結(jié)構(gòu),“v n n”等動賓結(jié)構(gòu)作定語,還沒有辨別能力,仍然需要進(jìn)一步改進(jìn)。

        不容忽視的是,修正規(guī)則也導(dǎo)致了部分識別錯誤,造成了結(jié)構(gòu)正確率有所下降。 本文在此僅例舉一種識別錯誤,即限制性規(guī)則仍然無法完全約束“名詞性成分+動詞性成分+De+中心語”結(jié)構(gòu)中“名詞性成分”作定語的條件,如“芬/nP 陰差陽錯/iV 的/u 婚姻/n”中包含一價動詞,“芬/nP”作定語而非主語,又如“范麗/nP 帶/v 著/u 抽泣/v 的/u 回答/vN”中包含二價動詞,“范麗/nP”也是作定語而非主語。 由于限制性規(guī)則是上下文提升規(guī)則的附屬限制性條件,我們對5 份測試語料分別計(jì)算“上下文提升規(guī)則+限制性規(guī)則”和“結(jié)構(gòu)化提升規(guī)則”的錯誤率⑥錯誤率=(執(zhí)行規(guī)則導(dǎo)致的錯誤結(jié)構(gòu)數(shù)÷執(zhí)行規(guī)則的總次數(shù))×100%。,結(jié)果如表4 所示:

        表4 修正規(guī)則的錯誤率

        我們在實(shí)驗(yàn)過程中發(fā)現(xiàn),內(nèi)層名詞性成分的結(jié)構(gòu)并不像我們想象的那樣簡單,其內(nèi)部仍然存在比較多的歧義,特別是結(jié)構(gòu)歧義和名詞邊界歧義,加之深層結(jié)構(gòu)數(shù)量比較少,導(dǎo)致識別錯誤較多。盡管基本名詞塊提升規(guī)則能在一定程度上提高iMNP 的識別效果,但是其并不能完全化解所有歧義,因此需要更多句法語義知識的參與。

        七、結(jié)語

        綜上可知, 本文設(shè)計(jì)的多層級iMNP 識別系統(tǒng)借助CRF 模型和基本名詞塊提升規(guī)則, 取得了85.23%的結(jié)構(gòu)正確率和78.71%的結(jié)構(gòu)召回率, 可以為名詞短語理解和內(nèi)部語義角色標(biāo)注等奠定基礎(chǔ)。 然而,因?yàn)橄噍^于sMNP,iMNP 的數(shù)據(jù)更為稀疏,分布具有層級性,而相較于基本名詞塊,iMNP 的內(nèi)部結(jié)構(gòu)更為復(fù)雜, 所以iMNP 的識別方法還有待進(jìn)一步改進(jìn)。 除了進(jìn)一步提高分類器的識別正確率,如采取多分類器融合的方法提高統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的識別效果,還有必要在句法分析的過程中進(jìn)一步引入語言學(xué)規(guī)則,如在詞表中收錄含v 簡單組塊,運(yùn)用上下文無關(guān)文法(Context-Free Grammar,簡稱CFG)規(guī)則驗(yàn)證上層iMNP 的識別結(jié)果,反饋并指導(dǎo)下層iMNP 的識別。

        感謝清華大學(xué)周強(qiáng)老師為本文研究提供TCT。

        猜你喜歡
        歧義層級短語
        軍工企業(yè)不同層級知識管理研究實(shí)踐
        基于軍事力量層級劃分的軍力對比評估
        eUCP條款歧義剖析
        中國外匯(2019年12期)2019-10-10 07:26:58
        English Jokes: Homonyms
        任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
        “那么大”的語義模糊與歧義分析
        尋求歧義研究的解釋力度:從認(rèn)知視角到社會視角——兼評《現(xiàn)代漢語歧義識別與消解的認(rèn)知研究》
        中文字幕亚洲无线码a| 国产亚洲日韩在线一区二区三区| 亚洲中文字幕无码久久| 最新国产精品亚洲二区| 女同同成片av免费观看| 丰满人妻久久中文字幕| 青楼妓女禁脔道具调教sm| 国产一区二区精品在线观看 | 日韩精品亚洲一区二区| 东北妇女xx做爰视频| 免费看奶头视频的网站| 日日噜噜夜夜久久密挑| 久久精品国产亚洲超碰av| 亚洲日韩成人av无码网站| AV成人午夜无码一区二区| 久久综合九色综合久久久 | 亚洲国产最新免费av| 中文字幕亚洲精品无码| 亚洲黄色电影| 国产一区二区三区视频大全| 精品露脸熟女区一粉嫩av| 中字幕人妻一区二区三区| 试看男女炮交视频一区二区三区| 亚洲综合天堂av网站在线观看| 插上翅膀插上科学的翅膀飞| 性生交大片免费看淑女出招| 青青草视频华人绿色在线| 国产夫妻自偷自拍第一页| 午夜免费啪视频| 欧美自拍丝袜亚洲| 一区二区黄色素人黄色 | 国产精品偷伦视频免费手机播放| 亚洲美女av二区在线观看| 国产精品国产三级国产aⅴ下载| 国产在线观看www污污污| 精品的一区二区三区| 国产激情视频在线观看大全| 午夜福利试看120秒体验区| 中文字幕无码专区一VA亚洲V专| 中文字幕亚洲高清精品一区在线| 狂野欧美性猛xxxx乱大交|