亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        CRFs融合語義信息的英語功能名詞短語識(shí)別

        2016-06-01 11:29:46馬建軍裴家歡黃德根
        中文信息學(xué)報(bào) 2016年6期
        關(guān)鍵詞:語義功能實(shí)驗(yàn)

        馬建軍,裴家歡,黃德根

        (1. 大連理工大學(xué) 外國(guó)語學(xué)院,遼寧 大連 116024;2. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        CRFs融合語義信息的英語功能名詞短語識(shí)別

        馬建軍1,裴家歡2,黃德根2

        (1. 大連理工大學(xué) 外國(guó)語學(xué)院,遼寧 大連 116024;2. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

        名詞短語識(shí)別在句法分析中有著重要的作用,而英漢機(jī)器翻譯的瓶頸之一就是名詞短語的歧義消解問題。研究英語功能名詞短語的自動(dòng)識(shí)別,則將名詞短語的結(jié)構(gòu)消歧問題轉(zhuǎn)化成名詞短語的識(shí)別問題?;诿~短語在小句中的語法功能來確定名詞短語的邊界,選擇商務(wù)領(lǐng)域語料,采用了細(xì)化詞性標(biāo)注集和條件隨機(jī)域模型結(jié)合語義信息的方法,識(shí)別了名詞短語的邊界和句法功能。在預(yù)處理基于賓州樹庫細(xì)化了詞性標(biāo)注集,條件隨機(jī)域模型中加入語義特征主要用來識(shí)別狀語類的名詞短語。實(shí)驗(yàn)結(jié)果表明,結(jié)合金標(biāo)準(zhǔn)詞性實(shí)驗(yàn)的F值達(dá)到了89.04%,改進(jìn)詞性標(biāo)注集有助于提高名詞短語的識(shí)別,比使用賓州樹庫標(biāo)注集提高了2.21%。將功能名詞短語識(shí)別信息應(yīng)用到NiuTrans統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),英漢翻譯質(zhì)量略有提高。

        功能名詞短語;名詞短語識(shí)別;條件隨機(jī)域模型;語義信息

        1 引言

        名詞短語識(shí)別在句法分析中有著重要的作用,名詞短語的識(shí)別可以降低句法分析的復(fù)雜性,提高機(jī)器翻譯的性能和效率。英漢機(jī)器翻譯的瓶頸之一就是名詞短語的歧義消解問題,真實(shí)文本中存在的大量名詞短語結(jié)構(gòu)歧義是導(dǎo)致整句英漢機(jī)器翻譯正確率較低的主要因素之一。人工翻譯中看似簡(jiǎn)單的名詞短語結(jié)構(gòu)往往卻在機(jī)器翻譯中產(chǎn)生結(jié)構(gòu)歧義。例如,n1+prep+n2結(jié)構(gòu)。結(jié)合名詞短語在小句中的句法功能,這一表層結(jié)構(gòu)至少存在三種深層結(jié)構(gòu)如下:

        a. He likes the book on the table. (prep+n2結(jié)構(gòu)“on the table”做后置定語)

        b. He finds the book on the table. (prep+n2結(jié)構(gòu)“on the table”做狀語)

        c. He puts the book on the table.(prep “on”是小品詞,put…on…是固定搭配)

        將句子輸入到Google在線翻譯系統(tǒng),得到如下結(jié)果:

        a. 他喜歡的書放在桌子上。(參考譯文: 他喜歡桌子上的書。)

        b. 他發(fā)現(xiàn)在桌子上的書。(參考譯文: 他在桌子上找到了那本書。)

        c. 他把書放在桌子上。(參考譯文: 他把書放在桌子上。)

        從前兩個(gè)例句可以看出,在統(tǒng)計(jì)機(jī)器翻譯中,往往把prep+n2簡(jiǎn)單處理為n1的后置定語,造成明顯的翻譯錯(cuò)誤。因此專門針對(duì)機(jī)器翻譯領(lǐng)域,研究英語名詞短語的結(jié)構(gòu)歧義及消歧方法,對(duì)提高機(jī)器翻譯的效率,將起到關(guān)鍵作用。

        目前的英語名詞短語識(shí)別研究主要集中在基本名詞短語和最長(zhǎng)名詞短語的識(shí)別。Church[1]利用統(tǒng)計(jì)方法進(jìn)行名詞短語的識(shí)別,Voutlainen[2]設(shè)計(jì)了名詞短語識(shí)別系統(tǒng)NPTool,但是這兩個(gè)系統(tǒng)識(shí)別的名詞短語非常簡(jiǎn)單,甚至不包括名詞前的修飾成分。Ramshaw 和Marcus[3]提出了基本名詞短語的概念,把名詞之前的修飾語包含在名詞短語中。Koehn 和Knight[4]提出了最長(zhǎng)名詞短語的定義,把名詞后的修飾語包含在名詞短語中。這兩種名詞短語是根據(jù)名詞短語的邏輯結(jié)構(gòu)來定義的,如: 是否包括名詞前和名詞后的修飾語,而沒有考慮名詞短語的句法功能。文獻(xiàn)[5]研究發(fā)現(xiàn),這種定義方法在識(shí)別階段易于識(shí)別,但是在翻譯階段會(huì)引起許多結(jié)構(gòu)歧義。因此有必要融合結(jié)構(gòu)和句法功能來定義名詞短語,把對(duì)翻譯要素的考慮提前到句法分析階段,提高句法結(jié)構(gòu)歧義的消歧率和機(jī)器翻譯的質(zhì)量。馬建軍和黃德根[6]基于系統(tǒng)功能語法獲取名詞短語在小句中的句法功能,根據(jù)句法功能界定名詞短語的邊界,并將這種名詞短語定義為功能名詞短語,初步論證了這種界定方法在機(jī)器翻譯應(yīng)用中的實(shí)際意義。

        國(guó)內(nèi)外英語名詞短語的識(shí)別方法有很多,主要可分為兩大類: 基于規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谝?guī)則的方法主要指通過人工方法或人工結(jié)合機(jī)器學(xué)習(xí)的半自動(dòng)方法獲取規(guī)則,例如,基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法[7]?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法包括: 邊界統(tǒng)計(jì)方法[1]、基于實(shí)例的方法[8]、基于粗糙集的方法[9]、基于決策樹[10]、基于詞頻統(tǒng)計(jì)模型[11]、以及支持向量機(jī)方法[12-13]。從統(tǒng)計(jì)模型的角度看,主要有最大熵模型[14-16]、隱馬爾可夫模型[17-18]、條件隨機(jī)域模型[19-20]等。研究的趨勢(shì)是綜合多種不同的方法以及應(yīng)用不同的統(tǒng)計(jì)模型來識(shí)別名詞短語,如規(guī)則和邊界統(tǒng)計(jì)相結(jié)合[21],最大熵和規(guī)則方法相結(jié)合[22],基于條件隨機(jī)域和支持向量機(jī)的混合統(tǒng)計(jì)模型[23-24]。

        因此,本文選擇商務(wù)領(lǐng)域語料,采用了細(xì)化詞性標(biāo)注集和條件隨機(jī)域模型結(jié)合語義信息的方法,進(jìn)行功能名詞短語的自動(dòng)識(shí)別研究,不僅識(shí)別名詞短語的邊界,同時(shí)還識(shí)別名詞短語的句法功能。

        2 英語功能名詞短語的定義

        本文識(shí)別的功能名詞短語是指由中心名詞及其修飾語組成的短語。其結(jié)構(gòu)為 “前置修飾語+名詞+后置修飾語”。其中,前置修飾語可以是限定詞、數(shù)詞、形容詞、或名詞;名詞包括普通名詞、代詞和專有名詞;后置修飾語可以是介詞或“介詞+名詞短語”結(jié)構(gòu)或形容詞;前置修飾語和后置修飾語不是必須的結(jié)構(gòu)?;谙到y(tǒng)功能語法[25],本文把名詞短語在小句中的功能主要?dú)w納為六類: S,C,C1/C2/C3/C4,D,PR,和CR。其含義如表1所示。

        表 1 名詞短語功能塊標(biāo)注集

        具體例句如下:

        a. [S A very clever traveling salesman] sold [C his complete stock of washing machines] [D the next day].

        b. Please send [C1 us] [C2 all available data on your Hand Tools], enabling [C us] to introduce [C1 your products] to [C2 our customers].

        c. If [S your products] are satisfactory and [S prices] are right, [S we] expect to place [PR regular orders for] [C large numbers].

        3 標(biāo)注訓(xùn)練語料

        3.1 人工標(biāo)注訓(xùn)練語料

        本文所用的是自建的小型商務(wù)英語語料庫[26]。由10 059個(gè)經(jīng)過去重的英語句子及其中文翻譯構(gòu)成,包含14個(gè)類別,如: 詢價(jià)及回復(fù)、運(yùn)輸、建立業(yè)務(wù)、還價(jià)、合同、包裝、運(yùn)輸、付款、代理、索賠、訂貨、保險(xiǎn)、報(bào)價(jià)和市場(chǎng)營(yíng)銷。根據(jù)功能塊標(biāo)注集對(duì)近20萬詞的英語語料進(jìn)行了人工標(biāo)注,語料庫的語料信息如表2所示。

        表 2 語料庫信息

        表3詳細(xì)列舉了名詞短語功能塊的分布情況。表3表明,語料中名詞短語的句法功能歸納為九個(gè): S,C,D,C1,C2,C3,C4,PR,CR。其中,主語(S)、補(bǔ)語(C)和狀語(D)是名詞短語在小句中的三個(gè)主要句法功能,一共占整個(gè)語料的近84%;而C3,C4和CR則出現(xiàn)頻率很小,一共才占0.23%。值得注意的是,狀語占15.83%,是名詞短語識(shí)別的重點(diǎn),因?yàn)椴幌裰髡Z和補(bǔ)語,狀語往往包括那些諸如“for your reference”之類的以介詞開頭的名詞短語,而不是以名詞開頭的名詞短語。這些名詞短語以介詞開頭,在識(shí)別中很容易被誤認(rèn)為是之前名詞的后置定語,因而造成識(shí)別錯(cuò)誤,對(duì)機(jī)器翻譯帶來結(jié)構(gòu)歧義問題。

        表 3 名詞短語功能塊的分布

        續(xù)表

        名詞短語功能塊類型數(shù)目比率/%C126226.20C226226.20C3530.12C450.01D669815.83PR15373.63CR420.10所有42319100

        3.2 IOB2標(biāo)注方法

        在實(shí)驗(yàn)中,將名詞短語的識(shí)別任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù)。采用IOB2的標(biāo)注方法,對(duì)名詞短語塊的邊界進(jìn)行標(biāo)記,從而把塊分析問題轉(zhuǎn)化為序列標(biāo)記問題。標(biāo)記B表示當(dāng)前詞是名詞短語的首詞,標(biāo)記I和標(biāo)記O分別表示當(dāng)前詞屬于名詞短語內(nèi)還是名詞短語外。同時(shí),標(biāo)記I和標(biāo)記B還同名詞短語的句法功能結(jié)合起來,如: B-S表示當(dāng)前詞是名詞短語的開始,該名詞短語的句法功能是S(主語)。具體范例見表4。

        表 4 IOB2標(biāo)注方法范例

        4 研究方法

        4.1 CRFs的識(shí)別模型

        本文將功能名詞短語的識(shí)別問題轉(zhuǎn)化為序列標(biāo)注問題,利用條件隨機(jī)域建立功能名詞短語的序列標(biāo)注模型。本文介紹的條件隨機(jī)域模型是比較簡(jiǎn)單的線性鏈條件隨機(jī)域,給定參數(shù)Λ=(λ1,λ2,…,λn),線性鏈條件隨機(jī)域定義在一個(gè)給定的觀測(cè)序列X=(x1,x2,…,xn)上對(duì)應(yīng)的狀態(tài)標(biāo)記序列Y=(y1,y2,…,yn)的條件概率為式(1)。

        其中ZX是所有狀態(tài)序列的歸一化因子,使得在給定輸入上所有可能狀態(tài)序列的概率之和為1。fk(yt,yt-1,X,t)通常被定義為關(guān)于整個(gè)觀測(cè)序列和位置t以及位置t-1標(biāo)記的二值特征向量函數(shù),參數(shù)λk是在訓(xùn)練中得到的與特征函數(shù)fgk相關(guān)的權(quán)重,當(dāng)訓(xùn)練狀態(tài)序列被完全明確地標(biāo)記后,可為該模型找到最優(yōu)的λ值,一旦這些值被找到,一個(gè)新的未標(biāo)記序列的標(biāo)記工作就可以用Viterbi算法來完成,k的取值范圍取決于模版中特征的數(shù)量。那么求解序列標(biāo)注的任務(wù)就是求出使條件概率PΛ(Y|X)最大的Y,即最大可能的標(biāo)記序列為式(2)。

        條件隨機(jī)域模型識(shí)別名詞短語的關(guān)鍵在于特征的選擇,特征的選擇恰當(dāng)與否會(huì)對(duì)識(shí)別結(jié)果產(chǎn)生直接的影響。通常來講,豐富的上下文特征對(duì)于識(shí)別精確率的提高有著積極的作用。本文在進(jìn)行特征選擇的時(shí)候,不僅充分利用了詞和詞性本身的信息,考慮到詞和詞性及其上下文之間存在著的種種依賴關(guān)系,還利用了融入更多上下文信息的組合特征。在實(shí)驗(yàn)中,本文選擇了三種主要特征: 當(dāng)前詞、當(dāng)前詞的詞性以及組合特征。表5為條件隨機(jī)域模型所采用的特征模板,其中wi代表詞本身特征,ti代表詞的詞性特征,其他特征為詞和詞性的組合特征。特征模板描述如下。

        (1) 前后各三個(gè)詞的詞語和詞性特征;

        (2) 相鄰兩個(gè)詞的詞性組合特征;

        (3) 次相鄰兩個(gè)詞的詞性組合特征;

        (4) 當(dāng)前詞的詞性分別與前、后詞的詞語組合特征;

        (5) 相鄰兩個(gè)詞的詞性組合特征再分別與其正對(duì)應(yīng)窗口為四的詞語組合特征;

        (6) 后兩個(gè)詞的詞性組合特征再分別與當(dāng)前詞、前詞的詞性組合特征。

        其中,最后兩條特征是通過大量的特征選擇實(shí)驗(yàn)總結(jié)得出的對(duì)結(jié)果有較大影響的特征組合。利用表5中的特征模板,將給定的訓(xùn)練語料拿到CRFs上進(jìn)行訓(xùn)練,再用訓(xùn)練得到的名詞短語識(shí)別模型對(duì)測(cè)試語料進(jìn)行標(biāo)注,最后得到功能名詞短語的識(shí)別結(jié)果。

        表5 條件隨機(jī)域模型的特征模板

        4.2 CRFs結(jié)合語義信息

        通過大量的語言現(xiàn)象可以發(fā)現(xiàn),一些“介詞+名詞”搭配的短語對(duì)于提高功能塊的標(biāo)注效果有積極的作用,如for your reference為標(biāo)注整個(gè)句子的組塊標(biāo)記提供了重要的信息。為了進(jìn)一步利用這種固定搭配短語的特征,本文進(jìn)一步引入語義信息,即用語義類來代替固定搭配中的名詞部分,這樣一定程度上減少了數(shù)據(jù)稀疏的影響(具體見表6)。

        表 6 帶語義信息的功能名詞短語標(biāo)注舉例

        本文的語義信息是從詞典《柯林斯COBUILD英語語法句型2: 名詞與形容詞》[27]中人工抽取形成的。每個(gè)名詞只賦予一個(gè)語義標(biāo)記,若超過一個(gè),則選擇出現(xiàn)頻率最高的情況,另外對(duì)于不在詞典中的詞則統(tǒng)一用數(shù)字0來標(biāo)識(shí)。表7以“for + N”搭配為例說明了語義分析的結(jié)果。當(dāng)引入語義后,一些低頻的搭配短語可以聚集在一起。例如,for your reference(供您參考)和for your consideration(供您決定)可以分類為“for + N”的搭配中,同時(shí),reference和consideration根據(jù)語義還可以進(jìn)一步分類為“USE”類。這樣reference和consideration就屬于相同的語義類: For/USE 組,并賦予相同的語義標(biāo)記: For1。

        表 7 名詞語義信息列表

        此時(shí),在CRFs模型中引入固定搭配特征。通過觀察可以發(fā)現(xiàn),一個(gè)搭配短語對(duì)于標(biāo)記短語中的每一詞的BIO狀態(tài),以及前詞后詞的BIO狀態(tài)有重要的提示作用。因此,為了捕獲這些搭配短語的信息,需要在位置t位于搭配短語中時(shí),啟動(dòng)特征抽取過程。對(duì)于前詞和后詞的位置并不需要這樣,因?yàn)樗鼈兊臉?biāo)記可以通過fk(yt,yt-1,X,t)來影響其標(biāo)注。依舊以表6為例,抽取到的特征如下所示:

        當(dāng)t指向for時(shí): s1=F or 1

        當(dāng)t指向your時(shí): s2=F or 1

        當(dāng)t指向reference時(shí): s3=F or 1

        其中,s的下標(biāo)指示當(dāng)前詞在短語中的位置,等式右邊為短語的語義標(biāo)記。

        利用結(jié)合語義信息的CRFs模型進(jìn)行了預(yù)實(shí)驗(yàn),主要關(guān)注功能塊狀語D的識(shí)別。將英文語料按照商務(wù)情景分成七組,每組任意抽取300句,共2 100句子作為測(cè)試語料,其余7 959句子作為訓(xùn)練語料。評(píng)價(jià)指標(biāo)包括功能名詞短語的準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F值(F-1 measure,F(xiàn)β=1)。具體計(jì)算公式如式(3)~(5)所示。

        功能塊D識(shí)別結(jié)果如表8所示。結(jié)果表明,加入語義信息后,識(shí)別結(jié)果有所提高,準(zhǔn)確率、召回率和F值分別提高了3.76%、4.56%和4.16%。

        表 8 功能塊D標(biāo)注結(jié)果

        4.3 預(yù)處理

        預(yù)處理進(jìn)行了詞性標(biāo)注。為了提高名詞短語識(shí)別效果,本文面向機(jī)器翻譯的目的在賓州樹庫詞性標(biāo)注集[28]的基礎(chǔ)上構(gòu)建了本文的詞性標(biāo)注集。具體改進(jìn)方法如表9所示,主要在四個(gè)方面進(jìn)行了細(xì)化,包括: 區(qū)分介詞和從屬連詞;增加了功能詞it, for, by,如: It/IT is dangerous for/FOR children to walk alone in the forest中的it和for;區(qū)分單詞to的不同功能;定義小品詞的廣義定義,即與動(dòng)詞構(gòu)成短語動(dòng)詞的介詞或方位副詞,包括如: He informed Barbara of/RP his objections.中的of,而這個(gè)小品詞在賓州樹庫中標(biāo)注為介詞IN[26]。

        表 9 兩個(gè)標(biāo)注集的比較

        5 實(shí)驗(yàn)結(jié)果及分析

        5.1 封閉測(cè)試和開放測(cè)試實(shí)驗(yàn)結(jié)果

        應(yīng)用CRFs結(jié)合語義信息和規(guī)則的方法進(jìn)行了封閉測(cè)試和開放測(cè)試,開放測(cè)試采用五重交叉驗(yàn)證方法,分別進(jìn)行了結(jié)合金標(biāo)準(zhǔn)詞性標(biāo)記(gold standard POS tags)和結(jié)合實(shí)際輸出的詞性標(biāo)記兩種實(shí)驗(yàn)。為檢驗(yàn)本文的詞性標(biāo)注集在功能名詞短語識(shí)別中的作用,在開放測(cè)試中還選擇了斯坦福標(biāo)注器的詞性標(biāo)記來取代本文的詞性標(biāo)記,分別進(jìn)行了上述兩種相同的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表10所示。

        表10 名詞短語識(shí)別結(jié)果

        實(shí)驗(yàn)1的結(jié)果表明,封閉測(cè)試識(shí)別的準(zhǔn)確率達(dá)到99.56%,召回率達(dá)到99.54%,F(xiàn)值達(dá)到99.55%。實(shí)驗(yàn)2和實(shí)驗(yàn)3 結(jié)合金標(biāo)準(zhǔn)詞性標(biāo)記進(jìn)行了五重交叉實(shí)驗(yàn),分別基于本文的詞性標(biāo)注集和賓州樹庫詞性標(biāo)注集,基于賓州樹庫標(biāo)注集的金標(biāo)準(zhǔn)詞性標(biāo)記是通過斯坦福詞性標(biāo)注器標(biāo)注后,人工修訂標(biāo)注結(jié)果得到的。根據(jù)表10,使用本文的詞性標(biāo)注集的識(shí)別結(jié)果要好于使用賓州樹庫詞性標(biāo)注集。使用本文的金標(biāo)準(zhǔn)詞性標(biāo)記準(zhǔn)確率達(dá)89.47%,召回率88.62%,F(xiàn)值達(dá)到89.04%,這個(gè)結(jié)果比使用賓州樹庫詞性標(biāo)注集的結(jié)果分別提高了1.95%、2.47%和2.21%。實(shí)驗(yàn)4和實(shí)驗(yàn)5結(jié)合實(shí)際輸出的詞性進(jìn)行了實(shí)驗(yàn)。將實(shí)驗(yàn)4和實(shí)驗(yàn)5的結(jié)果分別同實(shí)驗(yàn)2和實(shí)驗(yàn)3的結(jié)果進(jìn)行比較,結(jié)果表明,無論是采用本文的詞性標(biāo)注集,還是采用賓州樹庫詞性標(biāo)注集,使用實(shí)際輸出的詞性標(biāo)記的識(shí)別結(jié)果低于使用金標(biāo)準(zhǔn)詞性結(jié)果,準(zhǔn)確率低近2.5個(gè)百分點(diǎn),召回率和F值的差值都超過了3個(gè)百分點(diǎn)。這說明,需要提高詞性標(biāo)注器的標(biāo)注效果,從而為名詞短語的識(shí)別提供更好的支持。另外,同實(shí)驗(yàn)2和實(shí)驗(yàn)3的結(jié)果一樣,采用本文的實(shí)際詞性標(biāo)記的識(shí)別結(jié)果仍然高于采用斯坦福詞性標(biāo)記的識(shí)別結(jié)果,這也說明了選擇詞性標(biāo)注集對(duì)名詞短語的識(shí)別有一定的影響。

        5.2 六種功能塊識(shí)別結(jié)果

        表11比較了結(jié)合金標(biāo)準(zhǔn)詞性的兩個(gè)試驗(yàn)中(實(shí)驗(yàn)2和實(shí)驗(yàn)3),六種名詞短語功能塊S,C,D,PR,C1,C2的識(shí)別結(jié)果,識(shí)別結(jié)果用平均值表示。沒有比較功能塊C3,C4和CR的識(shí)別結(jié)果,是因?yàn)槊~短語以這三種功能塊出現(xiàn)的頻率較小,在語料中分別占0.12%、0.01%和0.10%(見表3)。從表11可以看出,幾乎在所有六種功能塊的識(shí)別中,使用本文的詞性標(biāo)注集的識(shí)別結(jié)果都好于使用賓州樹庫標(biāo)注集。僅有一種情況除外,即結(jié)合斯坦福金標(biāo)準(zhǔn)詞性的PR的召回率(74.93%)略高于結(jié)合本文的金標(biāo)準(zhǔn)詞性的召回率(74.75%)。但是在其他所有情況,無論是準(zhǔn)確率還是召回率和F值,都是基于本文的詞性標(biāo)注集的結(jié)果好。此外,表11還表明在結(jié)合本文的金標(biāo)準(zhǔn)詞性標(biāo)記的實(shí)驗(yàn)中,S,C,C1的識(shí)別結(jié)果要比D,PR,C2好得多。S的識(shí)別結(jié)果最好,F(xiàn)值達(dá)到97.46%;而D的識(shí)別仍然是研究的難點(diǎn),F(xiàn)值為79.47%。所以,狀語D的識(shí)別問題值得進(jìn)一步研究[26]。

        表 11 功能塊識(shí)別結(jié)果

        5.3 在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用

        將功能名詞短語信息應(yīng)用到NiuTrans統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,以檢驗(yàn)功能名詞短語識(shí)別對(duì)機(jī)器翻譯質(zhì)量的影響。隨機(jī)選擇2 000英漢句對(duì)作為測(cè)試語料,其余8 059句對(duì)作為訓(xùn)練語料,應(yīng)用NiuTrans統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)構(gòu)建英漢機(jī)器翻譯baseline;然后將英語功能名詞短語的句法信息作為特征加入到生成的短語表。比較兩次翻譯的BLEU值,結(jié)果見表12。結(jié)果表明: 翻譯結(jié)果略有提高,BLEU值從9.87%提高到10.42%,提高了0.55%。

        表 12 統(tǒng)計(jì)機(jī)器翻譯結(jié)果

        6 結(jié)論

        本文改進(jìn)了詞性標(biāo)注集,采用了CRFs結(jié)合語義信息的方法識(shí)別英語功能名詞短語。實(shí)驗(yàn)結(jié)果表明:

        (1) 使用CRFs結(jié)合語義信息的方法能有效識(shí)別英語功能名詞短語,使用本文的金標(biāo)準(zhǔn)詞性標(biāo)記準(zhǔn)確率達(dá)89.47%,召回率88.62%,F(xiàn)值達(dá)到89.04%。

        (2) 細(xì)化詞性標(biāo)注集有助于提高功能名詞短語的識(shí)別。結(jié)合金標(biāo)準(zhǔn)詞性標(biāo)記的開放測(cè)試結(jié)果表明,使用細(xì)化的詞性標(biāo)注集比使用賓州樹庫標(biāo)注集F值提高了2.21%。結(jié)合實(shí)際輸出的詞性標(biāo)記的開放測(cè)試也表明,采用細(xì)化的實(shí)際詞性的識(shí)別結(jié)果仍然高于采用斯坦福詞性的識(shí)別結(jié)果,F(xiàn)值提高了2.15%。

        (3) 功能名詞短語識(shí)別的主要問題集中在作狀語的名詞短語識(shí)別方面。

        (4) 在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中加入功能名詞短語識(shí)別信息,略微提高了英漢機(jī)器翻譯的質(zhì)量,BLEU值提高了0.55%。

        功能名詞短語識(shí)別可以應(yīng)用到機(jī)器翻譯的研究中,因?yàn)樽R(shí)別這類名詞短語能夠在識(shí)別階段就解決了名詞短語結(jié)構(gòu)歧義問題,把名詞短語的結(jié)構(gòu)消歧問題轉(zhuǎn)化成名詞短語的識(shí)別問題。如果這類名詞短語在識(shí)別階段能夠較好地識(shí)別出來,就能夠在一定程度上提高機(jī)器翻譯的質(zhì)量。

        [1] Church K. A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text[C]//Proceedings of Second Conference on Applied Natural Language Processing. Austin, USA: Association for Computational Linguistics, 1988: 136-143.

        [2] Voutilamen A. NPTool, A Detector of English Noun Phrases[C]//Proceedings of the Workshop on Very Large Corpora: Academic and Industrial Perspectives. Columbus, USA: Association for Computational Linguistics, 1993: 48-57.

        [3] Ramshaw L, Marcus R. Text Chunking using Transformation-Based Learning[C]//Proceedings of the Fourth Workshop on Very Large Corpus. Copenhagen, Denmark: Association for Computational Linguistics, 1995: 82-94.

        [4] Koehn P, Knight K. Feature-Rich Statistical Translation of Noun Phrases[C]//Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan: Association for Computational Linguistics, 2003: 311-318.

        [5] 馬建軍. 基于規(guī)則和統(tǒng)計(jì)的機(jī)器翻譯方法歧義問題比較分析[J].大連理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2010, 31(3): 114-119.

        [6] 馬建軍,黃德根.英語功能名詞短語的研究及其應(yīng)用[J].大連理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 52(1): 126-131.

        [7] Brill E. Transformation-based error-driven parsing[C]//Proceedings of the Third International Workshop on Parsing Technologies. Tiburg, Netherlands: Association for Computational Linguistics, 1993: 13-16.

        [8] Veenstra J, Buchholz S. Fast NP Chunking Using Memory-Based Learning Techniques[C]//Proceedings of the Eighth Belgian-Dutch Conference on Machine Learning. Wageningen, Netherlands: Wageningen ATO-DLO, 1998: 71-78.

        [9] 郭永輝,楊紅衛(wèi),馬芳,等. 基于粗糙集的基本名詞短語識(shí)別[J]. 中文信息學(xué)報(bào), 2006, 20(3): 14-21.

        [10] 李生, 孟遙. 基于決策樹的英語BNP識(shí)別[J]. 黑龍江工程學(xué)院學(xué)報(bào), 2001, 15(1): 36-39.

        [11] Kong L, Ren F, Sun X. et al. Word Frequency Statistics Model for Chinese Base Noun Phrase Identification[C]//Proceedings of the 10th International Conference on Intelligent Computing (ICIC). Taiyuan, China: Springer International Publishing, 2014: 635-644.

        [12] Kudo T, Magsumoto Y. Chunking with support vector machines[C]//Proceedings of NAACL-2001. Pittsburgh, USA: Association for Computational Linguistics, 2001: 192-199.

        [13] Wu Y C, Lee Y S, Yang J C. Robust and Efficient Multiclass SVM Models for Phrase Pattern Recognition[J]. Pattern Recognition, 2008(41): 2874-2889.

        [14] Koeling R. Chunking with Maximum Entropy Models[C]//Proceedings of CoNLL-2000 and LLL-2000. Lisbon, Portugal: Association for Computational Linguistics, 2000: 139-141.

        [15] 周雅倩, 郭以昆, 黃萱菁,等. 基于最大熵方法的中英文基本名詞短語識(shí)別[J]. 計(jì)算機(jī)研究與發(fā)展, 2003, 40(3): 440-446.

        [16] 王曉娟, 趙春. 最大熵方法在英語名詞短語識(shí)別中的應(yīng)用研究[J]. 計(jì)算機(jī)仿真, 2011, 28(3): 414-417.

        [17] Molina A, Pla F. Shallow Parsing using Specialized HMMs[J]. Journal of Machine Learning Research, 2002(2): 595-613.

        [18] Shen H, Sarkar A. Voting between Multiple Data Representations for Text Chunking[C]//Proceedings of the Eighteenth Meeting of the Canadian Society for Computational Intelligence, Canadian AI. Victoria, Canada: Springer Berlin Heidelberg, 2005: 389-400.

        [19] Sha F,Pereira F. Shallow Parsing with Conditional Random Fields[C]//Proceedings of HLT-NAACL 2003. Edmonton, Canada: Association for Computational Linguistics, 2003: 213-220.

        [20] Sun X, Morency L P, Okanohara D et al. Modeling Latent-Dynamic in Shallow Parsing: A Latent Conditional Model with Improved Inference[C]//Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, UK: Association for Computational Linguistics, 2008: 841-848.

        [21] 梁穎紅,趙鐵軍,翟舒. 規(guī)則和邊界統(tǒng)計(jì)相結(jié)合的英語基本名詞短語識(shí)別[C].全國(guó)第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集. 哈爾濱, 中國(guó): 中文信息學(xué)會(huì),2003: 173-178.

        [22] 呂琳,劉玉樹. 最大熵和Brill方法結(jié)合識(shí)別英語BaseNP[J]. 北京理工大學(xué)學(xué)報(bào), 2006, 26(6): 500-503.

        [23] 譚魏璇, 孔芳, 倪吉,等. 基于混合統(tǒng)計(jì)模型的中文基本名詞短語識(shí)別[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011, 28(8): 254-156.

        [24] 錢小飛, 侯敏. 基于混合策略的漢語最長(zhǎng)名詞短語識(shí)別[J]. 中文信息學(xué)報(bào), 2013, 27(6): 16-22.

        [25] Halliday M A K. 功能語法導(dǎo)論[M]. 北京: 外語教學(xué)語研究出版社, 2008.

        [26] 馬建煙. 面向機(jī)器翻譯的英語功能名詞短語識(shí)別研究[D].大連:大連理工大學(xué),2012.

        [27] Sinclair J. 柯林斯COBUILD英語語法句型2: 名詞與形容詞[M].上海: 上海外語教育出版社, 2000.

        [28] Marcus M P, Santorini B, Marcinkiewicz M A. Building a large annotated corpus of English: the Penn Treebank[J]. Computational Linguistics, 1993, 19(2): 313-330.

        Identification of English Functional Noun Phrases by CRFs and the Semantic Information

        MA Jianjun1, PEI Jiahuan2, HUANG Degen2

        (1. School of Foreign Languages, Dalian University of Technology, Dalian, Liaoning 116024, China ;2. School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116024, China)

        The study on the automatic identification of English functional noun phrases (NP) may transform the task of resolving structural ambiguity caused by noun phrases into the task of NP chunking. Functional noun phrases refer to those noun phrases which are defined based on their syntactic functions in clauses. On a corpus of business domain, this study aims to identify both the scope of NP chunks and their syntactic function types by refining the Part-of-speech (POS) tagset, and adopting conditional random fields (CRFs) model combined with the semantic information. Modification to the Penn Treebank tagset is completed in the pre-processing, and semantic features are added to the CRFs model to improve the recognition of the adjunct types of noun phrases. Test results show that the system has achieved an F-score of 89.04% in the open test using our gold standard tags; and refining the POS tagset is a better approach for NP chunking, which has increased the F-score by 2.21%, compared with the model using the Penn Tree bank POS tags. This knowledge of English functional noun phrases is then combined with the NiuTrans SMT system, which slightly improves the English Chinese translation performance.

        functional noun phrases; noun phrase identification; CRFs; semantic information

        馬建軍(1972—),教授,主要研究領(lǐng)域?yàn)榫浞ǚ治?、機(jī)器翻譯。E-mail:majian@dlut.edu.cn裴家歡(1992—),博士研究生,主要研究領(lǐng)域?yàn)榫浞ǚ治?、查詢時(shí)間意圖分類和句子相似度計(jì)算。E-mail:p_sunrise@mail.dlut.edu.cn黃德根(1965—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯。E-mail:huangdg@dlut.edu.cn

        1003-0077(2016)06-0059-08

        2016-09-27 定稿日期: 2016-10-20

        教育部人文社會(huì)科學(xué)研究規(guī)劃基金(13YJAZH062)

        TP391

        A

        猜你喜歡
        語義功能實(shí)驗(yàn)
        也談詩的“功能”
        中華詩詞(2022年6期)2022-12-31 06:41:24
        記一次有趣的實(shí)驗(yàn)
        語言與語義
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        關(guān)于非首都功能疏解的幾點(diǎn)思考
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        中西醫(yī)結(jié)合治療甲狀腺功能亢進(jìn)癥31例
        久久人妻一区二区三区免费| 久久久男人天堂| 久久国产国内精品对话对白| 综合图区亚洲偷自拍熟女| 亚洲国产精品成人av网| 人妻熟女一区二区三区app下载 | 亚洲老女人区一区二视频| 天堂蜜桃视频在线观看| 亚洲精品久久久久avwww潮水| 97久久久久人妻精品专区| 蜜桃视频无码区在线观看| 国产一品道av在线一二三区| 国产成人AⅤ| 亚洲av熟女中文字幕| 先锋影音人妻啪啪va资源网站| 亚洲中文字幕无码不卡电影 | 亚洲久无码中文字幕热| 亚洲精品国产精品系列| 熟妇高潮一区二区三区在线观看| 亚洲日本中文字幕天天更新| 伊人精品无码AV一区二区三区| 无码久久精品蜜桃| 久久久亚洲av午夜精品| 天天躁夜夜躁狠狠躁2021a2| 亚洲性啪啪无码av天堂| 亚洲日韩欧美国产高清αv| 国产成人亚洲精品77| 亚洲精品女人天堂av麻| 国产在线观看自拍av| 曰韩人妻无码一区二区三区综合部| 四虎成人精品无码永久在线| 日本一区不卡在线观看| 国产情侣自拍在线视频| 天天燥日日燥| 99久久超碰中文字幕伊人| 丰满人妻一区二区三区免费| 国产精品一区二区三区自拍| 国产成人无码av一区二区| 欧美视频第一页| 97女厕偷拍一区二区三区| 久久婷婷五月国产色综合|