亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于同義詞詞林信息特征的語(yǔ)義角色自動(dòng)標(biāo)注

        2016-05-04 00:59:33李國(guó)臣王瑞波李濟(jì)洪
        中文信息學(xué)報(bào) 2016年1期
        關(guān)鍵詞:語(yǔ)義框架特征

        李國(guó)臣,呂 雷,王瑞波,李濟(jì)洪,李 茹

        (1. 太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;2. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3. 山西大學(xué) 計(jì)算中心,山西 太原 030006)

        基于同義詞詞林信息特征的語(yǔ)義角色自動(dòng)標(biāo)注

        李國(guó)臣1,2,呂 雷2,王瑞波3,李濟(jì)洪3,李 茹2

        (1. 太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;2. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3. 山西大學(xué) 計(jì)算中心,山西 太原 030006)

        該文使用同義詞詞林語(yǔ)義資源庫(kù),以詞林中編碼信息為基礎(chǔ)構(gòu)建新的特征,使用條件隨機(jī)場(chǎng)模型,研究了漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注。該文在先前的基于詞、詞性、位置、目標(biāo)詞特征的基礎(chǔ)上,在模型中加入不同的詞林信息特征,以山西大學(xué)的漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)為實(shí)驗(yàn)語(yǔ)料,研究了各詞林信息特征分別對(duì)語(yǔ)義角色邊界識(shí)別與分類(lèi)的影響。實(shí)驗(yàn)結(jié)果表明,詞林信息特征可以顯著提高語(yǔ)義角色標(biāo)注的性能,并且主要作用在語(yǔ)義角色分類(lèi)上。

        語(yǔ)義角色標(biāo)注;同義詞詞林;條件隨機(jī)場(chǎng);正交表

        1 引言

        自20世紀(jì)70年代末以來(lái),中文信息處理進(jìn)入了快速發(fā)展時(shí)期,大致可分為兩個(gè)階段:分詞和詞性標(biāo)注以及句法語(yǔ)義分析階段。目前,中文信息處理的主要瓶頸是詞義、句義的表示和語(yǔ)義理解問(wèn)題。

        語(yǔ)義角色標(biāo)注(Semantic Role Labeling,SRL)是淺層語(yǔ)義分析的一種實(shí)現(xiàn)方式,總結(jié)近幾年國(guó)內(nèi)外基于統(tǒng)計(jì)方法的語(yǔ)義角色標(biāo)注研究的內(nèi)容,主要可以歸結(jié)為特征提取及特征選擇的研究。在英文語(yǔ)義角色標(biāo)注中,Gildea等人[1]在語(yǔ)義角色標(biāo)注中使用了七個(gè)基本特征:謂詞、句法類(lèi)型、次范疇框架、路徑、位置、語(yǔ)態(tài)和中心詞;Pradhan等人[2]在基本特征的基礎(chǔ)上引入了中心詞、詞性、謂詞類(lèi)別、部分路徑等12種新特征。在之后的研究中,雖然Xue等人[3]對(duì)組合特征進(jìn)行了嘗試,但這些特征也都是在基本特征集合上面進(jìn)行的。

        在中文語(yǔ)義角色標(biāo)注實(shí)驗(yàn)中,大多效仿英文的做法,劉挺等人在文獻(xiàn)[4]中用最大熵分類(lèi)器對(duì)句子中謂詞的語(yǔ)義角色同時(shí)進(jìn)行識(shí)別和分類(lèi);李濟(jì)洪[5]的正交表選特征的方法在語(yǔ)義角色標(biāo)注技術(shù)得到了有效地應(yīng)用;在文獻(xiàn)[6-7]中,劉懷軍,李世奇等人針對(duì)中文的特點(diǎn),在英文語(yǔ)義角色標(biāo)注特征的基礎(chǔ)上,提出了一些更有效的新特征和組合特征;而Sun等人在文獻(xiàn)[8]中也將英文中短語(yǔ)結(jié)構(gòu)句法分析的特征移植到中文語(yǔ)義角色標(biāo)注上,然后利用在賓州中文樹(shù)庫(kù)上訓(xùn)練的Collins句法分析器進(jìn)行句法分析,并利用SVM分類(lèi)器在手工標(biāo)注的小規(guī)模語(yǔ)料上進(jìn)行了實(shí)驗(yàn)。這些工作基本上都是用不同的機(jī)器學(xué)習(xí)方法,針對(duì)基本特征及其組合對(duì)語(yǔ)義角色標(biāo)注進(jìn)行了研究。

        從以上文獻(xiàn)可以發(fā)現(xiàn),目前在語(yǔ)義角色標(biāo)注任務(wù)上所使用的特征中,謂詞、中心詞以及謂詞的前一個(gè)詞、后一個(gè)詞在標(biāo)注任務(wù)中起著重要的作用,但這些特征在使用的過(guò)程中,存在嚴(yán)重的詞特征稀疏問(wèn)題[9-10]。緩解詞特征的稀疏問(wèn)題應(yīng)有助于提高標(biāo)注器的性能。

        《同義詞詞林》是一部?jī)?yōu)秀的漢語(yǔ)詞義分類(lèi)詞典,它通過(guò)對(duì)詞進(jìn)行編碼,許多同義詞、近義詞將會(huì)被編為一類(lèi),在語(yǔ)義角色標(biāo)注中引入《同義詞詞林》語(yǔ)義資源,提取相應(yīng)特征,將改善訓(xùn)練集和測(cè)試集中詞特征的稀疏性,使語(yǔ)義角色標(biāo)注任務(wù)有可能提高。

        《同義詞詞林》按照樹(shù)狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞匯分成大、中、小三類(lèi),大類(lèi)有12個(gè),中類(lèi)有97個(gè),小類(lèi)有1 400個(gè)。每個(gè)小類(lèi)里都有很多的詞,這些詞有根據(jù)詞義的遠(yuǎn)近和相關(guān)性分成了若干個(gè)詞群(段落)。每個(gè)段落中的詞語(yǔ)又進(jìn)一步分成了若干個(gè)行,同一行的詞語(yǔ)要么詞義相同(有的詞義十分接近),要么詞義有很強(qiáng)的相關(guān)性。小類(lèi)中的段落可以看作第四級(jí)的分類(lèi),段落中的行可以看作第五級(jí)的分類(lèi)。這樣,詞典《同義詞詞林》就具備了五層結(jié)構(gòu)。例如,

        Ba01A02= 物質(zhì) 質(zhì) 素

        Cb02A01= 東南西北 四方

        Ba01A03@ 萬(wàn)物

        Cb06E09@民間

        Ba01B08# 固體 液體 氣體 流體 半流體

        Ba01B10# 導(dǎo)體 半導(dǎo)體 超導(dǎo)體

        具體的標(biāo)記參見(jiàn)表1。

        表1 詞語(yǔ)編碼表

        表1中的編碼位是按照從左到右的順序排列。第八位的標(biāo)記有三種,分別是“=”、“#”、“@”,“=”代表“相等”、“同義”。末尾的“#”代表“不等”、“同類(lèi)”,屬于相關(guān)詞語(yǔ)。末尾的“@”代表“自我封閉”、“獨(dú)立”,它在詞典中既沒(méi)有同義詞,也沒(méi)有相關(guān)詞。本文將以詞林對(duì)詞的編碼信息,提取不同特征,以提高標(biāo)注的性能。

        目前,國(guó)內(nèi)語(yǔ)義角色標(biāo)注的研究中,同義詞詞林的語(yǔ)義信息的研究還為數(shù)不多,本文在李濟(jì)洪[10]所選特征基礎(chǔ)上,融入同義詞詞林信息,使用條件隨機(jī)場(chǎng)模型建立漢語(yǔ)框架語(yǔ)義角色標(biāo)注模型,并使用統(tǒng)計(jì)正交表的特征模板優(yōu)選方法[5]進(jìn)行語(yǔ)義角色標(biāo)注的研究。

        本文結(jié)構(gòu)如下:第二節(jié)給出漢語(yǔ)框架語(yǔ)義角色標(biāo)注的任務(wù)描述;第三節(jié)說(shuō)明相應(yīng)的特征提取及選擇方法;第四節(jié)給出實(shí)驗(yàn)結(jié)果及分析;最后對(duì)全文進(jìn)行總結(jié),并給出下一步的研究方向。

        2 融合同義詞詞林信息的語(yǔ)義角色標(biāo)注任務(wù)

        考慮到漢語(yǔ)框架CFN的建設(shè)仍然屬于初始階段,可用的語(yǔ)料規(guī)模還比較小。為此,本文的CFN語(yǔ)義角色(框架元素)標(biāo)注的任務(wù)定為:對(duì)給定的一個(gè)漢語(yǔ)句子,在已知目標(biāo)詞及其所屬框架的前提下,自動(dòng)識(shí)別語(yǔ)義角色的邊界,標(biāo)出該目標(biāo)詞所支配的語(yǔ)義角色(框架元素,包括核心框架元素、非核心框架元素及通用語(yǔ)義角色)。

        通過(guò)BIO標(biāo)注策略,將語(yǔ)義角色標(biāo)注看作是以詞為基本標(biāo)注單位的序列標(biāo)注問(wèn)題。其標(biāo)記集合可表示為式(1)。

        (1)

        這里FESet為給定目標(biāo)詞的所屬框架的框架元素。本文可以使用條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)模型對(duì)漢語(yǔ)框架語(yǔ)義角色標(biāo)注進(jìn)行處理。

        條件隨機(jī)場(chǎng)(CRFs)模型是由Lafferty[11]在2001年提出的一種典型的判別式模型。它在觀測(cè)序列的基礎(chǔ)上對(duì)目標(biāo)序列進(jìn)行建模,重點(diǎn)解決序列化標(biāo)注的問(wèn)題。條件隨機(jī)場(chǎng)模型既具有判別式模型的優(yōu)點(diǎn),又具有產(chǎn)生式模型那樣要考慮到上下文標(biāo)記間的轉(zhuǎn)移概率,以序列化形式進(jìn)行全局參數(shù)優(yōu)化和解碼的特點(diǎn),解決了其他判別式模型(如最大熵馬爾科夫模型)難以避免的標(biāo)記偏置問(wèn)題。

        不同于傳統(tǒng)的分類(lèi)問(wèn)題,序列標(biāo)注任務(wù)有著獨(dú)特的特點(diǎn)。本文采用CRF模型,主要考慮到以下特點(diǎn)。

        1) CRF模型是解決序列標(biāo)注和分割問(wèn)題的,而語(yǔ)義角色標(biāo)注任務(wù)通過(guò)BIO策略可轉(zhuǎn)化為序列標(biāo)注問(wèn)題。

        2) 序列標(biāo)注模型中,一個(gè)序列中的每個(gè)標(biāo)注單位有著較強(qiáng)的相關(guān)性,而序列和序列之間是獨(dú)立的。很多研究者在進(jìn)行序列標(biāo)注時(shí),假設(shè)序列中的每個(gè)元素之間是獨(dú)立同分布的,并將序列標(biāo)注任務(wù)看作是對(duì)每個(gè)序列中每個(gè)元素進(jìn)行單點(diǎn)分類(lèi)任務(wù)。在此基礎(chǔ)上,使用最大熵或者支撐向量機(jī)模型進(jìn)行訓(xùn)練。顯然,這樣的假設(shè)不太符合實(shí)際。而條件隨機(jī)場(chǎng)模型便考慮到了元素之間的相關(guān)性,并將一個(gè)序列看作是一個(gè)整體。

        3) 正是由于序列之間各個(gè)元素具有相關(guān)性,開(kāi)窗口技術(shù)才被廣泛用于序列標(biāo)注問(wèn)題,而相應(yīng)窗口大小的選擇也是應(yīng)當(dāng)考慮的。

        本文考慮到漢語(yǔ)框架語(yǔ)義角色標(biāo)注模型的構(gòu)造及其特點(diǎn)滿足以上特點(diǎn),故使用CRF模型,以期達(dá)到較好的標(biāo)注結(jié)果。

        3 特征提取與特征選擇

        事實(shí)上,模型特征是影響機(jī)器學(xué)習(xí)性能的重要因素。構(gòu)建良好的特征,以及特征信息的有效利用是提高機(jī)器學(xué)習(xí)性能的關(guān)鍵。

        3.1 特征提取

        本文假設(shè)語(yǔ)料庫(kù)中的漢語(yǔ)句子已經(jīng)經(jīng)過(guò)了正確的分詞、詞性標(biāo)注,并且已經(jīng)識(shí)別出正確的目標(biāo)詞和相應(yīng)的框架信息。再以哈爾濱工業(yè)大學(xué)信息檢索中心的《同義詞詞林》為依托,自動(dòng)為每個(gè)句子的每個(gè)詞語(yǔ)標(biāo)上同義詞詞林編碼,根據(jù)編碼的層級(jí)提取出五種詞林信息。從給定的這些信息中,本文可以總結(jié)出如表2所示的幾種特征。

        表2 詞層面特征與詞林信息特征描述

        續(xù)表

        根據(jù)目前語(yǔ)料庫(kù)的狀況,候選特征除了以上九個(gè)特征以外,還有這些特征的二元組合、三元組合特征, 這些特征的兩兩組合特征。本文將這些特征的窗口大小限定在三以內(nèi)??蛇x窗口大小的表示與文獻(xiàn)[10]中表1相同。

        3.2 特征選擇

        本文以文獻(xiàn)[10]中基于詞特征的語(yǔ)義角色標(biāo)注實(shí)驗(yàn)為Baseline系統(tǒng),將五種詞林信息特征(F5,F(xiàn)6,F(xiàn)7,F(xiàn)8,F(xiàn)9)逐一替換Baseline系統(tǒng)中的詞特征進(jìn)行試驗(yàn),得到的系統(tǒng)記為CL1、CL2、CL3、CL4、CL5。

        考慮到特征的組合數(shù)非常龐大,以Baseline系統(tǒng)為例,所有特征的不同窗口大小組合可以構(gòu)成410×2種特征模板,在所有模板上進(jìn)行訓(xùn)練、測(cè)試,顯然不現(xiàn)實(shí)。因此,文獻(xiàn)[10]中提出使用正交表L32(49×24)來(lái)進(jìn)行特征選擇。具體方法可參見(jiàn)文獻(xiàn)[10]中的描述。

        本文在文獻(xiàn)[10]的Baseline系統(tǒng)基礎(chǔ)上,為了進(jìn)一步的驗(yàn)證詞林信息特征對(duì)語(yǔ)義角色標(biāo)注結(jié)果的影響,采用李濟(jì)洪在文獻(xiàn)[11]中提出基于分批正交表特征模板選優(yōu)方案,對(duì)系統(tǒng)Baseline+CL(Baseline所選特征與所有詞林信息的組合)進(jìn)行了特征選擇。第二個(gè)正交表采用L54(21×325)。

        該方案是在Baseline系統(tǒng)標(biāo)注結(jié)果最好的模板的基礎(chǔ)上,再確定下一個(gè)正交表中的特征的窗口。即后部分實(shí)驗(yàn)需要在前部分32個(gè)實(shí)驗(yàn)選出最優(yōu)模板的基礎(chǔ)上,再確定L54(21×325)表中的水平所對(duì)應(yīng)的窗口。實(shí)驗(yàn)方案能確保新選模板的性能不低于Baseline系統(tǒng)所選出的最優(yōu)模板。詳見(jiàn)文獻(xiàn)[5]中描述。實(shí)驗(yàn)所設(shè)系統(tǒng)如表3所示。

        表3 實(shí)驗(yàn)所設(shè)系統(tǒng)

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 語(yǔ)料來(lái)源

        為了能夠得到與文獻(xiàn)[10]中可以對(duì)比的實(shí)驗(yàn)結(jié)果,本文采用與文獻(xiàn)[10]相同的語(yǔ)料,該語(yǔ)料包含25個(gè)框架,這25個(gè)框架來(lái)自于“認(rèn)知”領(lǐng)域和其他領(lǐng)域,包含6 692條正確標(biāo)注的句子。由于目前語(yǔ)料規(guī)模不大,本文采用三組2-fold 交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),即任取兩份作為訓(xùn)練集,其他兩份作為測(cè)試集,這樣共可以做三組2-fold交叉驗(yàn)證。最終的評(píng)價(jià)指標(biāo)以三組交叉驗(yàn)證實(shí)驗(yàn)的F-值的平均值來(lái)評(píng)價(jià)標(biāo)注模型的性能。本文對(duì)于三組2-fold交叉驗(yàn)證中的詞信息進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表4所示。

        表4 語(yǔ)料中詞信息統(tǒng)計(jì)結(jié)果

        從表4我們可以發(fā)現(xiàn),在語(yǔ)義角色標(biāo)注實(shí)驗(yàn)中,測(cè)試集中有一半左右的詞信息沒(méi)有出現(xiàn)在訓(xùn)練集中,相應(yīng)的詞特征稀疏問(wèn)題嚴(yán)重。本文使用同義詞詞林信息特征后,經(jīng)統(tǒng)計(jì),詞林信息特征的特征數(shù)得到有效的縮減,如表5所示。

        表5 特征數(shù)統(tǒng)計(jì)結(jié)果

        詞林信息特征的引入為語(yǔ)料中詞義相近的詞搭建了橋梁,使訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料中共現(xiàn)特征數(shù)量大幅度的增多。

        4.2 評(píng)價(jià)方法

        4.2.1 評(píng)價(jià)指標(biāo)

        正確識(shí)別一個(gè)語(yǔ)義角色塊指的是語(yǔ)義角色塊的邊界正確,并且語(yǔ)義角色塊的類(lèi)型也識(shí)別正確。為此,本文使用準(zhǔn)確率(Precision),召回率(Recall)和F-值(F-Score)來(lái)評(píng)價(jià)漢語(yǔ)框架語(yǔ)義角色標(biāo)注模型的性能。

        假設(shè)模型標(biāo)注出的語(yǔ)義角色塊數(shù)為Cp,其中正確的塊(左右邊界正確,且語(yǔ)義角色類(lèi)型正確)數(shù)目為Cc,測(cè)試集中的語(yǔ)義角色塊的數(shù)目為Co,那么,準(zhǔn)確率如式(2)所示。

        (2)

        召回率如式(3)所示。

        (3)

        F值如式(4)所示。

        (4)

        最終以三組2-fold交叉驗(yàn)證的平均F-值(記為mF)來(lái)評(píng)價(jià)模型的性能。

        4.2.2 顯著性檢驗(yàn)

        因?yàn)橛须S機(jī)誤差因素存在,傳統(tǒng)的直接用F-值的平均值來(lái)評(píng)判系統(tǒng)優(yōu)劣的方法是不恰當(dāng)?shù)?。?yīng)當(dāng)構(gòu)造合理的統(tǒng)計(jì)檢驗(yàn)來(lái)實(shí)施正確推斷。在語(yǔ)義角色標(biāo)注的相關(guān)文獻(xiàn)中,常常需要分析新加入某個(gè)特征對(duì)系統(tǒng)性能的影響是否顯著,每類(lèi)特征重要性的分析一般是在基線模型B的基礎(chǔ)上,加入某類(lèi)特征X得到模型A進(jìn)行實(shí)驗(yàn),然后對(duì)模型A和B進(jìn)行t檢驗(yàn),來(lái)評(píng)判特征X的重要程度(是否顯著)。在給定的一組交叉驗(yàn)證的實(shí)驗(yàn)下,如果將評(píng)價(jià)指標(biāo)F-值近似看作服從正態(tài)分布,相應(yīng)的檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造主要是其方差的估計(jì)。為此,本文利用文獻(xiàn)[12]中給出的3×2交叉驗(yàn)證下方差的估計(jì)以及t-檢驗(yàn)方法。下面簡(jiǎn)要敘述顯著性檢驗(yàn)的方法。

        假設(shè)系統(tǒng)A,系統(tǒng)B(Baseline系統(tǒng))在三組2-fold交叉驗(yàn)證下的平均F-值為mFA,mFB,記式(5)。

        (5)

        這個(gè)問(wèn)題的正確的假設(shè)檢驗(yàn)提法為:

        基于分批正交表實(shí)驗(yàn)時(shí),由于實(shí)驗(yàn)的配置特點(diǎn)確保模型A的結(jié)果不會(huì)低于模型B的結(jié)果,因此檢驗(yàn)應(yīng)為單邊檢驗(yàn):

        原假設(shè)H0: CV3×2≥0

        備選假設(shè)H1:CV3×2<0

        其他情況下,檢驗(yàn)應(yīng)為雙邊檢驗(yàn):

        原假設(shè)H0: CV3×2=0

        備選假設(shè)H1:CV3×2≠0

        兩種檢驗(yàn)均使用式(6)。

        (6)

        4.3 語(yǔ)義角色標(biāo)注邊界識(shí)別與角色分類(lèi)同時(shí)做的實(shí)驗(yàn)結(jié)果

        從表6中,本文可以得到如下幾點(diǎn)結(jié)論。

        (1) 從表6中可以看出,在Baseline系統(tǒng)的基礎(chǔ)上加上CL信息,結(jié)果提高了0.69%,P-值結(jié)果為0.046,在α=0.05下是顯著的,證明詞林信息特征

        表6 各系統(tǒng)與Baseline結(jié)果的對(duì)比

        注:Baseline系統(tǒng)得到的實(shí)驗(yàn)結(jié)果(58.86%)與文獻(xiàn)[10]中不同,是因?yàn)楸疚膶?shí)驗(yàn)包含通用語(yǔ)義角色,文獻(xiàn)[10]中的實(shí)驗(yàn)不包含通用語(yǔ)義角色。

        對(duì)語(yǔ)義角色標(biāo)注結(jié)果的提高有作用。

        (2) 從五個(gè)加入不同的詞林信息特征系統(tǒng)的實(shí)驗(yàn)結(jié)果看出,CL3和CL4系統(tǒng)上比Baseline系統(tǒng)有顯著提高,說(shuō)明詞林信息特征編碼選在第三或第四類(lèi)較為合理。

        再分別看25個(gè)框架下的詳細(xì)實(shí)驗(yàn)結(jié)果(表7)。

        表7 25個(gè)框架下的所有系統(tǒng)的實(shí)驗(yàn)結(jié)果

        續(xù)表

        表7中最后一行的總計(jì)結(jié)果是在25個(gè)框架的測(cè)試集上的微平均的標(biāo)注準(zhǔn)確率、召回率和F-值,而不是25個(gè)框架的宏平均結(jié)果。從表7中,本文可以得到如下幾點(diǎn)結(jié)論。

        (1) 在25個(gè)框架上總體的標(biāo)注F-值在Baseline+CL系統(tǒng)下可以達(dá)到59.55%,可以看出來(lái),雖然總結(jié)果有所提高,但是從結(jié)果中可以發(fā)現(xiàn),只有八個(gè)框架的F-值有提升,并不是所有的結(jié)果都好于Baseline系統(tǒng)。初步分析,這可能主要是因?yàn)檎Z(yǔ)料相對(duì)較少的原因。

        (2) 從CL1到CL5的結(jié)果看,25個(gè)框架中的11個(gè)框架在CL3時(shí)最大,7個(gè)在CL2最大,3個(gè)在CL4最大,4個(gè)在CL5最大,1個(gè)在CL1最大,說(shuō)明詞林信息特征編碼選在第三類(lèi)較為合理。

        4.4 給定邊界下角色分類(lèi)的實(shí)驗(yàn)結(jié)果

        從前面的實(shí)驗(yàn)可以發(fā)現(xiàn),加入詞林信息特征對(duì)語(yǔ)義角色標(biāo)注性能的提高是顯著的,而語(yǔ)義角色標(biāo)注任務(wù)可以分為邊界識(shí)別和角色分類(lèi)。下面將進(jìn)一步深入分析詞林信息特征分別對(duì)邊界識(shí)別和角色分類(lèi)的影響。

        在本節(jié)中,本文將給出給定邊界的情況下做語(yǔ)義角色分類(lèi)的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如表8所示。

        表8 給定邊界的情況下做語(yǔ)義角色分類(lèi)的實(shí)驗(yàn)結(jié)果

        續(xù)表

        表8中給出了Baseline系統(tǒng)以及詞林信息特征替換詞特征所得到的給定邊界下角色分類(lèi)的平均F-值。從表8中可以得到以下結(jié)論。

        (1) 詞林信息特征對(duì)角色分類(lèi)有顯著作用。

        (2) CL3最高,且與Baseline系統(tǒng)有顯著差異,說(shuō)明詞林信息特征編碼選在第三類(lèi)較為合理。

        4.5 邊界識(shí)別實(shí)驗(yàn)結(jié)果

        對(duì)于漢語(yǔ)框架語(yǔ)義角色的邊界識(shí)別,本文將25個(gè)框架的所有訓(xùn)練集進(jìn)行統(tǒng)一訓(xùn)練,并在測(cè)試集上進(jìn)行測(cè)試。表9中給出了六組實(shí)驗(yàn)的平均指標(biāo)。

        表9 邊界識(shí)別的實(shí)驗(yàn)結(jié)果

        表9中統(tǒng)計(jì)的是Baseline系統(tǒng)以及詞林信息特征替換詞特征所得的在25個(gè)框架的測(cè)試集上的微平均的標(biāo)注F-值。從表9中可以得到如下幾點(diǎn)結(jié)論。

        (1) 從表中的結(jié)果可以看出,詞林信息特征替換詞特征所得到的邊界識(shí)別結(jié)果并不理想,說(shuō)明詞林信息特征在邊界識(shí)別中的作用沒(méi)有詞特征的作用大。

        (2) 在Baseline+CL系統(tǒng)中,邊界識(shí)別的性能比Baseline系統(tǒng)提高了0.19%,但并不顯著,說(shuō)明詞林信息特征在邊界識(shí)別中的作用不大。

        (3) 通過(guò)表6、表8、表9,可以得出,詞林信息特征的加入只對(duì)語(yǔ)義角色分類(lèi)提高有顯著作用,對(duì)于邊界識(shí)別的作用不大。

        從以上實(shí)驗(yàn)結(jié)果及分析中,可以看出,Baseline+CL系統(tǒng)的標(biāo)注結(jié)果最好,但CL包含了詞林信息特征的所有的各類(lèi)編碼,特征的訓(xùn)練測(cè)試耗時(shí)。從CL1到CL5的實(shí)驗(yàn)結(jié)果中我們發(fā)現(xiàn),三類(lèi)詞林信息特征的結(jié)果較好,因此,本文以分批正交表構(gòu)建Baseline+CL3系統(tǒng)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表10所示。

        表10 Baseline+CL3系統(tǒng)實(shí)驗(yàn)結(jié)果

        表10中可以看到,在顯著水平0.05下,數(shù)據(jù)顯示與上文中分析結(jié)果一致,這就是:

        (1) Baseline+CL3系統(tǒng)比Baseline系統(tǒng)的標(biāo)注結(jié)果有顯著提高。

        (2) 在給定邊界下的角色分類(lèi)也有顯著提高。因此,詞林信息特征的加入作用主要在角色分類(lèi)。

        (3) Baseline+CL3系統(tǒng)的邊界識(shí)別與Baseline系統(tǒng)沒(méi)有顯著差異。

        5 結(jié)論與展望

        本文針對(duì)詞林信息特征,用交叉驗(yàn)證的方法對(duì)其在語(yǔ)義角色標(biāo)注中的作用做了深入的研究,并將詞林信息特征加入到Baseline系統(tǒng)中,與Baseline系統(tǒng)的標(biāo)注結(jié)果做了對(duì)比,研究表明,同義詞詞林信息一定程度上提高了語(yǔ)義角色標(biāo)注的結(jié)果,但是只在語(yǔ)義角色分類(lèi)上作用顯著,而在邊界識(shí)別中的效果并不明顯,從而證明,詞林信息特征對(duì)語(yǔ)義角色標(biāo)注系統(tǒng)性能的提高有著一定的作用。

        下一步,本文將對(duì)同義詞詞林信息做進(jìn)一步研究學(xué)習(xí),擬將同義詞詞林信息加入到句法分析中,以期得到更好的標(biāo)注結(jié)果。

        致謝:本文采用了山西大學(xué)漢語(yǔ)框架網(wǎng)絡(luò)知識(shí)庫(kù)的語(yǔ)料資源,所使用的《同義詞詞林》是由哈爾濱工業(yè)大學(xué)信息檢索中心提供的,并且本文使用了山西省網(wǎng)絡(luò)科技環(huán)境高性能計(jì)算平臺(tái),在此表示衷心的感謝!

        [1] Gildea D, Jurafsky D. Automatic Labeling of Semantic Roles[J]. Computational Linguistics. 2002,28(3): 245-288.

        [2] Pradhan S, Hacioglu K, Krugler V, et al. Support vector learning for semantic argument classification[J]. Machine Learning Journal, 2005,60(3):11-39.

        [3] Xue N, Palmer M. Calibrating features for semantic role labeling[C]//Proceedings of the EMNLP-2004, 2004: 88-94.

        [4] Liu T, Che W X, Li S. Semantic role labeling with maximum entropy classifier[J]. Journal of Software, 2007,18(3):565-573.

        [5] 李濟(jì)洪. 漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注技術(shù)研究[D]. 山西大學(xué)博士學(xué)位論文, 2010.

        [6] 劉懷軍, 車(chē)萬(wàn)翔, 劉挺. 中文語(yǔ)義角色標(biāo)注的特征工程[J]. 中文信息學(xué)報(bào), 2007,21(1):75-80.

        [7] 李世奇, 趙鐵軍, 李晗靜, 等. 基于特征組合的中文語(yǔ)義角色標(biāo)注[J]. 軟件學(xué)報(bào), 2011,22 (2):222-232.

        [8] Sun H, Jurafsky D. Shallow semantic parsing of Chinese[C]//Proceedings of the NAACL 2004, Boston, USA, 2004: 249-256.

        [9] 劉挺, 車(chē)萬(wàn)翔, 李生. 基于最大熵分類(lèi)器的語(yǔ)義角色標(biāo)注[J].軟件學(xué)報(bào),2007,18(3):565-573.

        [10] 李濟(jì)洪, 王瑞波, 王蔚林, 等. 漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注[J]. Journal of Software, 2010,21(4):597-611.

        [11] Lafferty J, McCallum A, Pereira F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the ICML-01, 2001:282-289.

        [12] Wang Y, Wang R B, Jia H C, et al. Blocked 3×2 cross-validated t-test for comparing supervised classification learning algorithms[C]//Proceedings of the Submitted to Neural Computation. 2013.

        Semantic Role Labeling Based on TongYiCi CiLin Derived Features

        LI Guochen1,2,LV Lei2,WANG Ruibo3,LI Jihong3,LI Ru2

        (1. Department of Computer Engineering, Taiyuan Institute of Technology, Taiyuan, Shanxi 030008,China; 2. School of Computer and Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China; 3. Computer Center, Shanxi University, Taiyuan, Shanxi 030006, China)

        This paper presents an approach to label the semantic roles automatically by using a lexical resource named Tongyici Cilin, in which a CRFs model is constructed by a series of new features derived from the encoded information of Cilin. Compared with the features of word, part-of-speech and word positions, the proposed method investigates the Cilin features on the corpus of Chinese FrameNet (CFN), developed by Shanxi University to describe semantic knowledge. Experimental results show a significant improvement in the performance after adding the features of Cilin information.

        semantic role labeling; TongYiCi CiLin; conditional random fields; orthogonal array

        李國(guó)臣(1963—),教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼?mail:lgc1017@163.com呂雷(1988—),碩士,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E?mail:lvlei@sxu.edu.cn王瑞波(1985—),博士,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E?mail:wangruibo@sxu.edu.cn

        1003-0077(2016)01-0101-07

        2014-01-05 定稿日期: 2014-04-20

        國(guó)家語(yǔ)委“十二五”科研規(guī)劃項(xiàng)目(YB125-19);國(guó)家自然科學(xué)基金(61373082);國(guó)家自然科學(xué)基金(60873128,60970053);山西省回國(guó)留學(xué)人員科研項(xiàng)目(2013-015),國(guó)家863高技術(shù)研究發(fā)展計(jì)劃(2006AA01Z142)

        TP391

        A

        猜你喜歡
        語(yǔ)義框架特征
        框架
        廣義框架的不相交性
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        WTO框架下
        法大研究生(2017年1期)2017-04-10 08:55:06
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        一種基于OpenStack的云應(yīng)用開(kāi)發(fā)框架
        認(rèn)知范疇模糊與語(yǔ)義模糊
        国产欧美成人| 日韩人妻少妇一区二区三区| 中国杭州少妇xxxx做受| 亚洲av永久无码一区二区三区| 亚洲成在人网站av天堂| 日韩内射美女人妻一区二区三区| 亚洲国际无码中文字幕| 日韩偷拍一区二区三区视频| 国产一区二区三区白浆在线观看| 青青草视频在线观看9| 日韩激情视频一区在线观看| 男女交射视频免费观看网站| 国产激情艳情在线看视频| 凹凸在线无码免费视频| 久久久久久久性潮| 91福利精品老师国产自产在线| 午夜av福利亚洲写真集| 日韩中文字幕不卡在线| 亚洲综合另类小说色区| 亚洲精品国偷拍自产在线观看| 午夜不卡av免费| 91久久国产综合精品| 国产三级av在线播放| 日产分东风日产还有什么日产| 亚洲国产精品久久久av| 超碰cao已满18进入离开官网| 精品国产一区二区三区av 性色| 国产精品精品| 午夜日本理论片最新片| 蜜桃视频在线免费视频| 女人18毛片a级毛片| 久久久久久久久蜜桃| 91麻豆国产香蕉久久精品| 99久久精品一区二区三区蜜臀| 日本在线视频二区一区| 亚洲激情综合中文字幕| 国产高清av在线播放| 曝光无码有码视频专区| 国产中文制服丝袜另类| 久久综合一本中文字幕| 国产色视频在线观看了|