亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DNN的漢語(yǔ)框架識(shí)別研究

        2016-06-01 11:29:46趙紅燕張力文
        中文信息學(xué)報(bào) 2016年6期
        關(guān)鍵詞:語(yǔ)義特征模型

        趙紅燕,李 茹,張 晟,張力文

        (1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024;3. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)

        基于DNN的漢語(yǔ)框架識(shí)別研究

        趙紅燕1,2,李 茹1,3,張 晟1,張力文1

        (1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024;3. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)

        框架識(shí)別是語(yǔ)義角色標(biāo)注的基本任務(wù),它是根據(jù)目標(biāo)詞激起的語(yǔ)義場(chǎng)景,為其分配一個(gè)合適的語(yǔ)義框架。目前框架識(shí)別的研究主要是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,把它看作多分類問題,框架識(shí)別的性能主要依賴于人工選擇的特征。然而,人工選擇特征的有效性和完備性無(wú)法保證。深度神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征的能力,為我們提供了新思路。該文探索了利用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)目標(biāo)詞上下文特征,建立了一種新的通用的框架識(shí)別模型,在漢語(yǔ)框架網(wǎng)和《人民日?qǐng)?bào)》2003年3月新聞?wù)Z料上分別取得了79.64%和78.58%的準(zhǔn)確率,實(shí)驗(yàn)證明該模型具有較好的泛化能力。

        漢語(yǔ)框架;框架識(shí)別;深度神經(jīng)網(wǎng)絡(luò);分布式表征

        1 引言

        語(yǔ)義角色標(biāo)注(Semantic role labeling,簡(jiǎn)稱SRL)是淺層語(yǔ)義分析的一種有效方式,自2004年以來(lái)一直受到國(guó)內(nèi)外自然語(yǔ)言處理學(xué)者的關(guān)注。漢語(yǔ)框架語(yǔ)義角色標(biāo)注是基于漢語(yǔ)框架網(wǎng)(Chinese FrameNet,簡(jiǎn)稱CFN)語(yǔ)料資源的論元角色標(biāo)注,旨在研究目標(biāo)詞激起的特定語(yǔ)義場(chǎng)景下的角色標(biāo)注問題。語(yǔ)義角色標(biāo)注技術(shù)在大規(guī)模語(yǔ)義知識(shí)庫(kù)的構(gòu)建、機(jī)器翻譯、信息提取、自動(dòng)文摘、智能問答、信息檢索等應(yīng)用領(lǐng)域都有著廣泛的應(yīng)用,其深入的研究對(duì)自然語(yǔ)言處理技術(shù)的整體發(fā)展有著重要意義[1]。

        作為漢語(yǔ)框架語(yǔ)義角色標(biāo)注的任務(wù)之一的框架識(shí)別包括未登錄詞元框架識(shí)別和歧義詞元框架識(shí)別。其中,未登錄詞元框架識(shí)別旨在研究如何為能夠激起CFN中的語(yǔ)義場(chǎng)景,但沒有被收錄到相應(yīng)框架下的詞元分配正確的語(yǔ)義框架。然而,歧義詞元框架識(shí)別旨在研究如何為CFN中能夠激起多個(gè)框架的詞元分配一個(gè)正確的框架。對(duì)于未登錄詞元的框架識(shí)別,目前研究主要借助WordNet,Wikipedia和VerbNet等語(yǔ)義資源,通過相似度計(jì)算或者提取特征,利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法建立分類器實(shí)現(xiàn)未登錄詞元的框架識(shí)別。針對(duì)歧義詞元框架識(shí)別研究,采用的方法大多是借鑒“詞義消歧”思想,利用已有句法分析等工具,人工建立特征,利用條件隨機(jī)場(chǎng)(Conditional Random Field,簡(jiǎn)稱CRF)、支持向量機(jī)(Support vector machine,簡(jiǎn)稱SVM)、最大熵(maximum entropy,簡(jiǎn)稱ME)等分類器建立模型,把框架識(shí)別看作多分類問題[2-5]。

        以上研究在框架識(shí)別任務(wù)上已經(jīng)取得了一定的成效,但框架識(shí)別的性能主要依賴于人工選擇的特征和現(xiàn)有的自然語(yǔ)言處理系統(tǒng)。一方面手工選擇特征,費(fèi)時(shí)費(fèi)力,無(wú)法保證所選特征的有效性和完備性;另一方面現(xiàn)有自然語(yǔ)言處理工具中的誤差傳播也會(huì)影響框架識(shí)別的性能。并且現(xiàn)有框架識(shí)別研究大都是針對(duì)以上兩個(gè)任務(wù)中的一個(gè)進(jìn)行研究,不能實(shí)現(xiàn)對(duì)任意給定的目標(biāo)詞分配框架。

        深度神經(jīng)網(wǎng)絡(luò)具有自動(dòng)學(xué)習(xí)特征的能力,只需要給它提供一個(gè)底層的初始向量表征,通過網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)學(xué)出更高級(jí)別的特征,給我們進(jìn)行框架識(shí)別提供了新的思路。在此基礎(chǔ)上,Hermann[6]提出基于分布式表征的框架識(shí)別方法,在FrameNet語(yǔ)料上取得較好的結(jié)果,在中文上還沒有相關(guān)研究。

        本文結(jié)合Hermann提出目標(biāo)詞上下文的分布式表征和深度神經(jīng)網(wǎng)絡(luò)方法建立一個(gè)通用的漢語(yǔ)框架識(shí)別模型,克服了傳統(tǒng)利用統(tǒng)計(jì)學(xué)習(xí)方法選擇特征和利用已有自然語(yǔ)言處理工具誤差傳播的弊端,實(shí)現(xiàn)了為任何給定的目標(biāo)詞分配合適的語(yǔ)義框架。

        2 相關(guān)工作

        2.1 漢語(yǔ)框架網(wǎng)

        漢語(yǔ)框架網(wǎng)[7](Chinese FrameNet,CFN)是在劉開瑛教授的指導(dǎo)下,由山西大學(xué)從2004年開始建立。CFN是一個(gè)以Fillmore[8]的框架語(yǔ)義學(xué)為理論指導(dǎo)、 以伯克利的FrameNet為參照、 以漢語(yǔ)語(yǔ)料為依據(jù)的漢語(yǔ)詞匯語(yǔ)義知識(shí)庫(kù)。漢語(yǔ)框架網(wǎng)由詞元庫(kù)、框架庫(kù)和例句庫(kù)三部分組成。詞元,是能夠激起語(yǔ)義場(chǎng)景的詞,也叫目標(biāo)詞。漢語(yǔ)框架是存儲(chǔ)在人類經(jīng)驗(yàn)中的圖式化情境,既可以是一個(gè)實(shí)體,也可以是一種行為模式,甚至是一些社會(huì)習(xí)俗制度等。框架元素是語(yǔ)義場(chǎng)景中的各種參與者,包括核心框架元素、非核心框架元素和通用非核心框架元素三類。核心框架元素是框架語(yǔ)義場(chǎng)景中的必有成分。非核心框架元素表示目的、原因、時(shí)間等外圍語(yǔ)義成分。核心和非核心框架元素因框架不同而不同。通用非核心框架元素作為框架庫(kù)的補(bǔ)充,各個(gè)框架都適用。目前CFN已入庫(kù)框架361個(gè)、詞元4 547個(gè)、標(biāo)注例句40 000多條。據(jù)統(tǒng)計(jì),CFN中能夠激起多個(gè)框架的目標(biāo)詞達(dá)到1 245個(gè),占總詞元的27.5%。因此框架識(shí)別是框架語(yǔ)義角色標(biāo)注任務(wù)最基本但又重要的一步,它對(duì)框架語(yǔ)義角色標(biāo)注任務(wù)有著直接的影響。

        2.2 框架識(shí)別

        框架識(shí)別作為2007年SemEval中框架語(yǔ)義分析的一個(gè)子任務(wù)被提出,包括未登錄詞元框架識(shí)別和歧義詞元框架識(shí)別。

        未登錄詞元框架識(shí)別主要借助WordNet、Verbnet和Wikipedia等語(yǔ)義知識(shí)庫(kù)實(shí)現(xiàn)此任務(wù)。Aljoscha Burchardt等[9]于2005年提出一種基于規(guī)則的未登錄詞元框架識(shí)別系統(tǒng),利用WordNet語(yǔ)義知識(shí)庫(kù)為框架庫(kù)中的詞元選擇一個(gè)WordNet詞義,計(jì)算未登錄詞元和候選框架中詞元的相似度,把未登錄詞元分配給相似度最大詞元所在的框架,獲得39%的框架識(shí)別準(zhǔn)確率。2007年LTH研究小組[10]提出基于機(jī)器學(xué)習(xí)的未登錄詞元框架識(shí)別方法,選取WordNet的上下位關(guān)系作為特征,利用SVM構(gòu)建分類器,取得75.8%的框架識(shí)別準(zhǔn)確率。MPennacchiotti等[11]提出結(jié)合分布式模型與WordNet知識(shí)庫(kù)的未登錄詞元框架識(shí)別模型,使框架識(shí)別準(zhǔn)確率和召回率得到權(quán)衡。DipanjanDas等[12]未借助任何語(yǔ)義資源,采用基于圖的半監(jiān)督學(xué)習(xí)方法,獲得未登錄詞元62.35%的準(zhǔn)確率。陳雪麗等[13]2010年利用哈爾濱工業(yè)大學(xué)同義詞林,提出基于平均語(yǔ)義相似度計(jì)算及最大熵模型兩種方法,采用靜態(tài)特征和動(dòng)態(tài)特征相結(jié)合的特征選擇方法在CFN語(yǔ)料上和真實(shí)新聞?wù)Z料上都取得了較好的效果。

        歧義詞元框架識(shí)別主要借助“詞義消歧”思想,人工選擇特征,采用CRF、ME、SVM等建立分類器進(jìn)行實(shí)現(xiàn)。Cosmin Adrian Bejan等[14]選擇了FrameNet中556個(gè)歧義詞元,每個(gè)詞元至少包括五條例句,使用了SVM和Maximum Entropy為每個(gè)有歧義的目標(biāo)詞構(gòu)造了一個(gè)多分類器進(jìn)行框架排歧,在SVM分類器上取得了76.71%的準(zhǔn)確率。Richard Johansson和Pierre Nugues[15]針對(duì)歧義詞元采用詞形、目標(biāo)詞的詞根、目標(biāo)詞依存關(guān)系集合和父節(jié)點(diǎn)、子節(jié)點(diǎn)等特征,利用SVM對(duì)每個(gè)歧義詞元分別訓(xùn)練了一個(gè)分類器,針對(duì)FrameNet語(yǔ)料庫(kù)中所有存在歧義的詞元,取得了84%的準(zhǔn)確率。李茹[3]等提出基于依存分析的條件隨機(jī)場(chǎng)模型進(jìn)行漢語(yǔ)框架識(shí)別;李國(guó)臣[16]等研究了基于詞元語(yǔ)義特征的漢語(yǔ)框架語(yǔ)義排歧方法,提出采用自動(dòng)特征選擇方法進(jìn)行框架排歧。

        3 漢語(yǔ)框架識(shí)別模型

        漢語(yǔ)框架識(shí)別是針對(duì)一個(gè)給定目標(biāo)詞句子,計(jì)算機(jī)能夠根據(jù)目標(biāo)詞的上下文語(yǔ)境,在漢語(yǔ)框架庫(kù)中自動(dòng)給它選擇一個(gè)合適的框架。其形式化描述如式(1)所示。

        其中wt是目標(biāo)詞,fi是框架庫(kù)中的第i個(gè)框架,C是目標(biāo)詞的上下文集合,F是框架集合。

        3.1 漢語(yǔ)框架識(shí)別DNN架構(gòu)

        圖1是我們進(jìn)行漢語(yǔ)框架識(shí)別的DNN架構(gòu)圖,這個(gè)網(wǎng)絡(luò)針對(duì)一個(gè)給定目標(biāo)詞的句子,通過DNN學(xué)習(xí)更抽象的目標(biāo)詞上下文特征,來(lái)實(shí)現(xiàn)框架識(shí)別。該網(wǎng)絡(luò)主要包括上下文分布式表征層(輸入層)、兩個(gè)更高級(jí)別的特征學(xué)習(xí)層(隱層)及輸出層。網(wǎng)絡(luò)的輸入層是基于依存關(guān)系抽取的上下文分布式表征,特征抽取過程在3.2節(jié)介紹。通過兩個(gè)隱層學(xué)習(xí)目標(biāo)詞上下文的更好表征,最后把學(xué)好的表征輸入到一個(gè)softmax分類器。該分類器的輸出是一個(gè)向量,向量的每個(gè)維度上的值表示當(dāng)前目標(biāo)詞屬于相應(yīng)框架的概率,最后把概率最大的框架作為預(yù)測(cè)框架。

        圖1 漢語(yǔ)框架識(shí)別深度神經(jīng)網(wǎng)絡(luò)架構(gòu)

        3.2 上下文特征抽取

        要用深度神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行上下文特征學(xué)習(xí),首先要對(duì)上下文進(jìn)行分布式表示,把輸入的句子變成可以計(jì)算的實(shí)值,也就是尋找一個(gè)上下文表征函數(shù)g(x)來(lái)表示C。原則上g(x)可以是任何特征函數(shù),但在這里我們考慮兩種因素。一個(gè)是目標(biāo)詞直接或間接支配的依存關(guān)系作為插槽,形成特征模板;另一個(gè)是以依存關(guān)系對(duì)應(yīng)的詞向量去填充插槽,得到目標(biāo)詞的上下文初始表征,如果輸入句子中不存在某種關(guān)系或該關(guān)系對(duì)應(yīng)的詞向量在wordembedding庫(kù)中不存在,則用0向量表示。

        形式化描述,假設(shè)x是一個(gè)被標(biāo)記了目標(biāo)詞wt的句子,g(x)是wt的上下文映射函數(shù)。如果詞向量是n維,則g(x)是句子x到Rnk的一個(gè)映射,k是目標(biāo)詞支配的上下文依存關(guān)系類型數(shù)。例如,“他買了一本書”。如果g只考慮主胃關(guān)系(SBV)和動(dòng)補(bǔ)關(guān)系(CMP),那么g:x→R2n,前n維是主語(yǔ)“他”對(duì)應(yīng)的詞向量,由于本句中沒有CMP關(guān)系,所以n~2n維都是0,可表示為:

        g(x)=[前n維是“他”對(duì)應(yīng)的詞向量,0,0,0...,0]

        圖2給出了例1的依存分析圖①和上下文特征抽取過程②③④,帶陰影的小圓圈表示對(duì)應(yīng)的詞向量。圖3給出了例1的漢語(yǔ)框架語(yǔ)義角色標(biāo)注結(jié)果。

        圖2 例1依存分析樹與分布式表示特征抽取過程

        例1 小明昨天從超市購(gòu)買了一些美味的面包。

        圖3 例1漢語(yǔ)框架語(yǔ)義角色標(biāo)注結(jié)果

        3.2.1 直接依存特征

        從圖2和圖3可以看出和目標(biāo)詞有直接依存關(guān)系的塊往往是目標(biāo)詞的核心框架元素或非核心框架元素,對(duì)目標(biāo)詞所屬框架的判斷有著直接的關(guān)系。我們首先考慮和目標(biāo)詞有直接依存關(guān)系的成份,如圖2②所示,和目標(biāo)詞“購(gòu)買”有直接依存路徑的有SBV,ADV,VOB等。如果只考慮直接依存關(guān)系的話,句子通過g(x)到Rnk的映射,這里k就是直接依存關(guān)系的類型數(shù),也是上下文模板的插槽數(shù),然后根據(jù)依存關(guān)系找到對(duì)應(yīng)的詞元,用詞元在wordembedding中詞向量來(lái)填充插槽,作為目標(biāo)詞上下文的表征,記為T1。在這我們采用哈爾濱工業(yè)大學(xué)Ltp平臺(tái)[16]進(jìn)行依存分析,考慮了14種直接依存關(guān)系,如圖4所示。

        圖4 直接依存關(guān)系

        3.2.2 間接依存特征

        從圖2①和圖3上看,除了和目標(biāo)詞有直接依存關(guān)系的句法成分外,有著間接關(guān)系的“超市”等也是“購(gòu)買”框架元素。如果只考慮目標(biāo)詞的直接依存成分就會(huì)丟失很多有用的信息,為了獲取更多的上下文信息,我們把和目標(biāo)詞有二級(jí)和三級(jí)路徑的句法成分也當(dāng)作目標(biāo)詞的上下文特征,二級(jí)和三級(jí)特征抽取過程如圖2③④所示。在CFN所有語(yǔ)料庫(kù)中統(tǒng)計(jì),和目標(biāo)詞有二級(jí)關(guān)系的有110種,有三級(jí)關(guān)系的有497種。由于二級(jí)和三級(jí)關(guān)系太多,為了避免數(shù)據(jù)稀疏,論文中均選擇二級(jí)和三級(jí)關(guān)系的top30。如圖5所示。

        圖5 二級(jí)和三級(jí)依存路徑

        把以上兩種特征對(duì)應(yīng)的詞向量(圖2帶陰影的小圓圈)連接起來(lái)生成一個(gè)向量,來(lái)表示目標(biāo)詞的上下文,即g(x),作為框架識(shí)別神經(jīng)網(wǎng)絡(luò)的輸入。

        3.3 漢語(yǔ)框架識(shí)別網(wǎng)絡(luò)學(xué)習(xí)

        為了自動(dòng)學(xué)習(xí)更好的上下文特征,我們?cè)O(shè)計(jì)了一個(gè)包含兩個(gè)隱層的神經(jīng)網(wǎng)絡(luò)模型,如圖1所示,學(xué)習(xí)過程包括前饋計(jì)算和反向傳播兩個(gè)階段。兩個(gè)隱層的激活函數(shù)都采用tanh函數(shù)。因?yàn)閠anh導(dǎo)數(shù)具有如式(2)所示的特性。

        該特性使得它在進(jìn)行反向傳播時(shí)計(jì)算梯度更容易。

        3.3.1DNN前饋計(jì)算

        網(wǎng)絡(luò)的輸入層為3.2節(jié)中抽取的上下文表征g(x),g(x)∈Rnk×1,n是詞向量的維度,k是考慮的直接依存及二級(jí)、三級(jí)依存路徑的關(guān)系的種類。把各種關(guān)系對(duì)應(yīng)詞的詞向量連接起來(lái)作為DNN網(wǎng)絡(luò)的輸入。

        網(wǎng)絡(luò)的第一個(gè)隱層(Hiderlayer1),有n1個(gè)神經(jīng)元,該層的輸入為式(3)。

        Hiderlayer1輸出為式(4)。

        網(wǎng)絡(luò)的第二個(gè)隱層(Hyderlayer2),有n2個(gè)神經(jīng)元,該層輸入為式(5)。

        Hyderlayer2輸出為式(6)。

        其中H1,H2,U分別是第一個(gè)隱層、第二個(gè)隱層、輸出層的權(quán)值矩陣,b1,b2,b3分別是第一個(gè)隱層、第二個(gè)隱層、輸出層的閾值矩陣,初始的H1,H2,U,b1,b2,b3隨機(jī)產(chǎn)生。輸出層的神經(jīng)元個(gè)數(shù)為n3個(gè),等于框架識(shí)別系統(tǒng)中框架的數(shù)量。用θ=(H1,H2,U,b1,b2,b3)表示深度神經(jīng)網(wǎng)絡(luò)中的所有參數(shù),則y是θ的函數(shù),y∈Rn3×1,輸出層的每個(gè)節(jié)點(diǎn)yi表示目標(biāo)詞在它的上下文中屬于第i個(gè)框架的未歸一化log概率。最后使用softmax激活函數(shù)將輸出值y歸一化成概率,如式(8)所示。

        3.3.2DNN反向傳播訓(xùn)練

        模型訓(xùn)練的過程就是要通過已經(jīng)標(biāo)注的訓(xùn)練樣本(x(i),f(i)),i∈N(N為訓(xùn)練樣本數(shù),x(i)是第i個(gè)訓(xùn)練樣本,f(i)是第i條句子標(biāo)注目標(biāo)詞所屬框架),尋找參數(shù)集合θ使得帶正則項(xiàng)的對(duì)數(shù)似然概率最大化,似然函數(shù)如式(9)所示。

        R(θ)是為了防止過擬合加的正則項(xiàng)。我們采用隨機(jī)梯度上升方法學(xué)習(xí)似然函數(shù)中的參數(shù)θ。在DNN不同層之間采用反向傳播算法,不斷進(jìn)行迭代,更新參數(shù),直到達(dá)到預(yù)設(shè)精度或最大迭代次數(shù),迭公式如式(10)所示。

        η是學(xué)習(xí)率。

        4 實(shí)驗(yàn)設(shè)置和結(jié)果分析

        在這一部分我們給出實(shí)驗(yàn)所用的數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、實(shí)驗(yàn)的參數(shù)設(shè)置及實(shí)驗(yàn)所取得的結(jié)果,及和其它模型的比較情況。

        4.1 數(shù)據(jù)集

        本文的訓(xùn)練集(稱為train)選用CFN例句庫(kù)中25 000條句子,共涉及1 567個(gè)詞元,180個(gè)框架。測(cè)試集分為三部分,測(cè)試集1(稱為test1)選用CFN中未出現(xiàn)在訓(xùn)練集中的5 000條句子;測(cè)試集2(稱為test2)選用《人民日?qǐng)?bào)》2003年3月的986篇新聞,共9 573條句子,去掉不能激起語(yǔ)義場(chǎng)景的句子后,選擇了10 367個(gè)目標(biāo)詞作為候選目標(biāo)詞;測(cè)試集3(稱為test3)采用Li等[3]2010年Coling會(huì)議上所用數(shù)據(jù)集,該數(shù)據(jù)集包括“表示”、“想”、“叫”、“有”、“倒”、“下降”、“裝載”七個(gè)歧義詞元,128條句子作為測(cè)試數(shù)據(jù),每條句子人工標(biāo)注目標(biāo)詞。

        從 1989年HCV 被發(fā)現(xiàn)以后,HCV 疫苗的研發(fā)在美、歐發(fā)達(dá)國(guó)家備受關(guān)注,有多種類型的疫苗進(jìn)入了臨床試驗(yàn),但遲遲沒有 HCV 疫苗上市[8-10]。HCV 感染與致病的任何階段都涉及病毒與宿主因子的相互作用,正是大量宿主因子的參與才使得 HCV 能夠完成其完整的復(fù)制周期和引起肝組織的疾病。因此,尋找、鑒定與 HCV 互相作用的宿主因子,對(duì)于認(rèn)識(shí) HCV 感染與致病機(jī)制以及尋找可能用于 HCV 防治的干預(yù)靶點(diǎn)仍然具有重要意義。

        預(yù)處理: 本實(shí)驗(yàn)中所有訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)均利用哈爾濱工業(yè)大學(xué)語(yǔ)言技術(shù)平臺(tái)LTP[17]進(jìn)行依存分析。

        4.2 評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)中評(píng)價(jià)指標(biāo)采用式(11)。

        T是測(cè)試語(yǔ)料目標(biāo)詞的個(gè)數(shù),vij是第j次交叉驗(yàn)證目標(biāo)詞ti分類正確的句子數(shù),nij是第j次交叉驗(yàn)證含有目標(biāo)詞ti的測(cè)試樣本數(shù)。

        4.3 參數(shù)設(shè)置

        在實(shí)驗(yàn)中我們利用五折交叉驗(yàn)證的方法,調(diào)整提出模型中的三個(gè)超參數(shù),即Hiderlayer1的神經(jīng)元個(gè)數(shù)n1,Hiderlayer2的神經(jīng)元個(gè)數(shù)n2,及學(xué)習(xí)率η。隱層神經(jīng)元個(gè)數(shù)的調(diào)整方法是先根據(jù)經(jīng)驗(yàn)分別給n1、n2賦一個(gè)初值,通過固定其中一個(gè)調(diào)整另一個(gè),直到準(zhǔn)確率不再提升為止。圖6中給出了n1,n2和accuracy的變化關(guān)系,可以看到Hidden layer1神經(jīng)元個(gè)數(shù)在100附近準(zhǔn)確率不再增長(zhǎng), Hidden layer2神經(jīng)元個(gè)數(shù)在60左右準(zhǔn)確率accuracy有所下降,并且從圖6可以看到,在n1=100,n2=60,準(zhǔn)確率也達(dá)到最大。學(xué)習(xí)率η,通過實(shí)驗(yàn)(0.005,0.05,0.5)三種取值,如圖7所示。實(shí)驗(yàn)迭代了100次,當(dāng)η=0.5時(shí),代價(jià)函數(shù)始終都震蕩的很明顯,這是由于我們使用了隨機(jī)梯度進(jìn)行迭代時(shí),由于學(xué)習(xí)率太大,使算法在學(xué)習(xí)過程中越過了最小值。當(dāng)η=0.05時(shí)代價(jià)開始下降很快,但在大約70次迭代后有輕微震蕩,此時(shí)容易跨過全局最小值達(dá)到局部最小值。當(dāng)η=0.005時(shí),代價(jià)函數(shù)一直平滑下降到谷底,因此綜合考慮迭代速度和代價(jià)函數(shù)后,本實(shí)驗(yàn)選擇學(xué)習(xí)率為0.005。表1給出了我們實(shí)驗(yàn)中所用的超參取值。

        圖6 隱層參數(shù)的影響

        圖7 學(xué)習(xí)率影響

        表1 實(shí)驗(yàn)中的超參取值

        表2 在test1上實(shí)驗(yàn)結(jié)果

        4.4 實(shí)驗(yàn)結(jié)果及對(duì)比

        本文的詞向量采用北京理工大學(xué)的訓(xùn)練好的中文word Embedding庫(kù),規(guī)模約30萬(wàn),每個(gè)詞向量100維。首先對(duì)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料利用哈工大的LTP平臺(tái)進(jìn)行依存分析,然后利用3.2節(jié)介紹的方法提取上下文特征。本文考慮T1,T2,T3三種特征,分別對(duì)所有目標(biāo)詞、Ambiguous(歧義)目標(biāo)詞、未登錄(Unseen)目標(biāo)詞做了實(shí)驗(yàn),結(jié)果如表2所示。feature是采用的特征;All是測(cè)試數(shù)據(jù)集上所有目標(biāo)詞;Ambiguous是測(cè)試數(shù)據(jù)集上可以激起多個(gè)框架的歧義目標(biāo)詞;unseen是測(cè)試數(shù)據(jù)集中在框架庫(kù)和標(biāo)注語(yǔ)料中沒有出現(xiàn)的目標(biāo)詞,即未登錄目標(biāo)詞。

        在我們的方法中,網(wǎng)絡(luò)抽取了直接依存關(guān)系和二級(jí)三級(jí)路徑的依存關(guān)系對(duì)應(yīng)的詞作為目標(biāo)詞的上下文,為了分析每種特征的有效性,我們采用了ablation實(shí)驗(yàn),分別利用T1、T1+T2、T1+T2+T3組合在test1數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示,結(jié)果表明和目標(biāo)詞有直接依存關(guān)系的詞對(duì)框架識(shí)別結(jié)果顯著,在test1的所有測(cè)試數(shù)據(jù)上達(dá)到了67.21%的準(zhǔn)確率,在歧義目標(biāo)詞和未登錄目標(biāo)詞的框架識(shí)別上也分別達(dá)到了64.13%和53.72%的準(zhǔn)確率。分析其原因,發(fā)現(xiàn)直接依存關(guān)系往往是目標(biāo)詞的核心框架元素,而核心框架元素是一個(gè)框架在概念理解上的必有成分,在不同的框架中核心框架元素的類型和數(shù)量都不相同,核心框架元素顯示出一個(gè)框架的個(gè)性,對(duì)框架的識(shí)別起著決定性的作用。在加入二級(jí)路徑依存關(guān)系后,在所有測(cè)試的目標(biāo)詞中準(zhǔn)確率提升了10.32%,在歧義詞元框架識(shí)別準(zhǔn)確率提升了8.27%,而在未登錄目標(biāo)詞框架識(shí)別的準(zhǔn)確率提升最多達(dá)到11.91%,可見加入二級(jí)依存關(guān)系結(jié)果提升顯著,尤其是在未登錄詞元的框架識(shí)別上。經(jīng)分析發(fā)現(xiàn)二級(jí)依存關(guān)系大都是目標(biāo)詞的非核心框架元素,非核心框架元素表達(dá)目標(biāo)詞所激起語(yǔ)義場(chǎng)景的時(shí)間、空間、環(huán)境條件、原因、目的等外圍語(yǔ)義成分,這些成分對(duì)于框架的識(shí)別有一定的促進(jìn)作用。例如,例1中的“超市”就是目標(biāo)詞“購(gòu)買”的地點(diǎn)。三級(jí)依存關(guān)系加入后雖有提升,但不如二級(jí)顯著,最高提升2.11%,究其原因,三級(jí)依存關(guān)系要么是目標(biāo)詞的通用非核心框架元素,要么不是目標(biāo)詞的框架元素,而通用非核心框架元素在每個(gè)框架中承擔(dān)的語(yǔ)義角色都一樣,因此對(duì)目標(biāo)詞進(jìn)行框架識(shí)別時(shí)區(qū)分度不大。

        由于中文CFN起步較晚,沒有公開的數(shù)據(jù)集,在漢語(yǔ)框架識(shí)別方面研究也不多。本文只能跟目前已有的研究做一個(gè)宏觀的比較,本實(shí)驗(yàn)和已有漢語(yǔ)框架識(shí)別模型比較結(jié)果見表3。表3中Model是框架識(shí)別所用的模型,其中proposed為本文提出的模型;feature是各模型中國(guó)的特征;target是語(yǔ)料中采用的目標(biāo)詞數(shù)量;All,Ambiguons,Unseen同表2。

        表3 本文提出模型與其他模型對(duì)比

        表3中給出了目前研究漢語(yǔ)框架排歧的一些模型與實(shí)驗(yàn)結(jié)果(文獻(xiàn)[3],[16],[18]),并與本文提出的方法做了一個(gè)比較(采用T1+T2+T3組合特征分布式表示,測(cè)試語(yǔ)料用test1)。可以得出以下結(jié)論:

        (1) 使用傳統(tǒng)的特征進(jìn)行框架排歧時(shí),特征越豐富,模型性能越好。但特征的選擇依賴于人的經(jīng)驗(yàn)和知識(shí)庫(kù),人是不可能選出最好的特征的。

        (2) 模型二可以看出利用詞分布作為特征,通過最大熵模型并不能取得比傳統(tǒng)方法好的結(jié)果。

        (3) 可以看出本文提出的以基于依存位置提取的上下文分布式表示,作為初始輸入,通過DNN學(xué)習(xí)更好的特征表示對(duì)于框架識(shí)別是有效的。

        (4) 而且傳統(tǒng)的模型都是選擇極少數(shù)能激起多個(gè)框架的詞元建立模型的,例如,效果較好的模型三,僅選擇漢語(yǔ)框架中的“表示、想、叫、有、倒、下降、裝載”七個(gè)詞元做的實(shí)驗(yàn),模型一中選擇23個(gè)歧義詞元,模型二中選擇了88個(gè)有歧義的詞元。這些模型不能實(shí)現(xiàn)對(duì)未登詞元和所有目標(biāo)詞分配語(yǔ)義框架,不能直接應(yīng)用到漢語(yǔ)框架語(yǔ)義角色標(biāo)注任務(wù)中。

        而本文提出的方法對(duì)目標(biāo)詞沒有要求,可以實(shí)現(xiàn)對(duì)所有目標(biāo)詞進(jìn)行框架識(shí)別任務(wù)。在本實(shí)驗(yàn)中涉及到目標(biāo)詞1 567個(gè),遠(yuǎn)遠(yuǎn)大于以上模型,在通用框架識(shí)別任務(wù)上達(dá)到了79.64%的準(zhǔn)確率,因此本文提出的模型更具有泛化能力。分析本模型對(duì)于有歧義的目標(biāo)詞識(shí)別略低的原因,發(fā)現(xiàn)框架庫(kù)中有些目標(biāo)詞雖然能夠激起多個(gè)框架,但在某些框架下并沒有相應(yīng)的標(biāo)注例句,因此可以通過增加例句來(lái)提高有歧義目標(biāo)詞識(shí)別性能。未登錄目標(biāo)詞的識(shí)別低的原因除了語(yǔ)料庫(kù)不足外,也存在有些詞在詞向量表中找不到的因素。因此,如果把CFN語(yǔ)料加入詞向量訓(xùn)練,可能會(huì)提升框架識(shí)別的整體效果。

        為了和Li等實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,本文也在Li等2010年Coling會(huì)議所用test3數(shù)據(jù)集上做了實(shí)驗(yàn),本實(shí)驗(yàn)只是針對(duì)七個(gè)歧義目標(biāo)詞,實(shí)驗(yàn)過程和上述過程相同,實(shí)驗(yàn)結(jié)果如表4所示。本文提出方法比Li等所用方法在相同數(shù)據(jù)集上準(zhǔn)確率提高了4.23%,由此可見針對(duì)小規(guī)模語(yǔ)料,本文提出的基于目標(biāo)詞依存關(guān)系的上下文分布式表征的深度學(xué)習(xí)方法對(duì)目標(biāo)詞所屬框架識(shí)別具有較好的效果。

        表4 在test3數(shù)據(jù)集上與Li等實(shí)驗(yàn)結(jié)果比較

        另外,為了說(shuō)明本模型的通用性,本文采用《人民日?qǐng)?bào)》2003年3月新聞?wù)Z料作為測(cè)試集,對(duì)本文所提出模型進(jìn)行測(cè)試。從表3可以得知總是T1+T2+T3取得最好結(jié)果,所以這里選用三個(gè)組合特征,在test2上實(shí)驗(yàn)結(jié)果如表5所示。

        表5 test2實(shí)驗(yàn)結(jié)果

        由表5可見,在開放數(shù)據(jù)集的所有數(shù)據(jù)上、歧義詞元及未登錄詞元的框架識(shí)別準(zhǔn)確率取得的實(shí)驗(yàn)結(jié)果均和CFN例句庫(kù)中數(shù)據(jù)取得的結(jié)果相差不大,因此,本文提出的方法具有較好的通用性。

        以上實(shí)驗(yàn)結(jié)果表明,本文提出的深度神經(jīng)網(wǎng)絡(luò)方法針對(duì)少量的歧義目標(biāo)詞進(jìn)行框架識(shí)別結(jié)果優(yōu)于傳統(tǒng)的基于特征的統(tǒng)計(jì)模型,并且在開放語(yǔ)料上取得和CFN語(yǔ)料類似的準(zhǔn)確率,說(shuō)明通過深度神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到更好的特征,而有些特征人是無(wú)法捕捉到的。

        5 結(jié)論和展望

        本文初步探索了DNN在CFN框架識(shí)別任務(wù)上的應(yīng)用,實(shí)驗(yàn)表明本文提出的利用依存關(guān)系生成目標(biāo)詞的上下文分布式表征,通過DNN自動(dòng)學(xué)習(xí)目標(biāo)詞上下文的更好的表征,有助于漢語(yǔ)框架的識(shí)別。本方法把傳統(tǒng)的框架排歧、未登錄目標(biāo)詞框架識(shí)別及框架識(shí)別任務(wù)統(tǒng)一在一個(gè)模型下,能夠?yàn)闈h語(yǔ)框架語(yǔ)義角色標(biāo)注任務(wù)提供服務(wù)。為了評(píng)價(jià)本模型的性能,在《人民日?qǐng)?bào)》新聞?wù)Z料上進(jìn)行了測(cè)試,取得了和CFN語(yǔ)料的結(jié)果相差不大。并且采用和Li等同樣的數(shù)據(jù)集對(duì)七個(gè)歧義詞元進(jìn)行框架排歧,框架識(shí)別結(jié)果比Li等模型框架識(shí)別準(zhǔn)確率提升了4.23%。

        關(guān)于下一步的工作,本文所提出方法,輸入分布式表征維度較高,模型參數(shù)較多,學(xué)習(xí)過程計(jì)算量較大,下一步可以通過卷積神經(jīng)網(wǎng)絡(luò)和Relu激活函數(shù)來(lái)優(yōu)化本模型;另一方面,把框架識(shí)別應(yīng)用到語(yǔ)義角色標(biāo)注任務(wù)中,實(shí)現(xiàn)漢語(yǔ)框架語(yǔ)義角色標(biāo)注自動(dòng)化。

        [1] 李濟(jì)洪.漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注技術(shù)研究: [D].太原: 山西大學(xué)博士學(xué)位論文,2010.

        [2] Ken Litkowski. CLR: Integration of FrameNet in a Text Representation System[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Prague, Czech Republic, 2007: 113-116.

        [3] Ru Li, Haijing Liu, Shuanghong Li.Chinese Frame Identification using T-CRF Model[C]//Proceedings of International Conference on Computional Linguistics. Beijing, 2010: 674-682.

        [4] Cosmin Adrian Bejan, Hathaway Chris. UTD-SRL: A pipeline Architecture for Extracting Frame Semantic Structures[C]//Proceedings of the 4th International Workshop on Semantic Evaluations.Prague, 2007: 460-463.

        [5] C Baker, M Ellsworth, K Erk. SemEval-2007 Task 19: Frame Semantic Structure Extraction[C]//Proceedings of the 4th International Workshop on Semantic Evaluations.Prague, 2007: 99-104.

        [6] Karl Moritz Hermann, Dipanjan Das, Jason Weston,et al. Semantic Frame Identification with Distributed Word Representations[C]//Proceedings of ACL 2014 Baltimore, USA. 2014: 1448-1458.

        [7] 劉開瑛.漢語(yǔ)框架語(yǔ)義網(wǎng)(CFN)構(gòu)建現(xiàn)狀[C]//第四屆 全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集.2008: 1-7.

        [8] C J Fillmore. Frame Semantics[J]. Linguistics in the Moring Calm, Hanshin Publishing Co.. Seoul, South Korea. 1982: 111-137.

        [9] Burchardt A, Erk K, Frank A. A WordNet detour to FrameNet[C]//Proceedings of the GLDV 2005 Germa-Net II Workshop Bonn, Germany,2005.

        [10] R Johansson, P Nugues.Using WordNet to extend FrameNet coverage[C]//Proceedings of the workshop on Building Frame-semantic Resources for Scandinavian and Baltic Languages.Tartu,2007.

        [11] M Pennacchiotti, D De Cao, R Basili, et al.Automatic induction of FrameNet lexical units[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Honolulu,2008: 457-465.

        [12] Dipanjan Das, Noah A Smith. Semi-Supervised Frame-Semantic Parsing for Unknown Predicate[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon, 2011: 1435-1444.

        [13] 陳雪麗,李茹,王賽等.漢語(yǔ)框架網(wǎng)中未登錄詞元的框架選擇[J].中文信息學(xué)報(bào).2014,28(3): 48-54,61.

        [14] Cosmin Adrian Bejan, Hathaway Chris .UTD-SRL: A Pipeline Architecture for Extracting Frame Semantic Structures[C]//Proceedings of 45thannual meeting of Association for Computational Linguistics, 2007: 460-463.

        [15] Richard Johansson, Nugues Pierre.LTH: Semantic Structure Extraction using Nonprojective Dependency Trees[C]//Proceedings of the 4th International Work on Semantic Evaluations. Prague, 2007: 227-230.

        [16] 李國(guó)臣,張立凡,李茹等.基于詞元語(yǔ)義特征的漢語(yǔ)框架排歧研究[J].中文文信息學(xué)報(bào).2013,27(4): 44-51.

        [17] 哈爾濱工業(yè)大學(xué)LTP平臺(tái)[CP]. http://www.ltp-cloud.com/document/#api_rest_note

        [18] 黨帥兵,李國(guó)臣,王瑞波等. 基于詞分布表征的漢語(yǔ)框架排歧研究[J].中北大學(xué)學(xué)報(bào).2015,36(3): 328-332,337.

        Chinese Frame Identification with Deep Neural Network

        ZHAO Hongyan1,2, LI Ru1,3,ZHANG Sheng1,ZHANG Liwen1

        (1. School of Computer & Information Technology, Shanxi University, Taiyuan, Shanxi 030006,China;2. School of Computer Science & technology, Taiyuan University of Science and Technology, Taiyuan, Shanxi 030024, China;3. Key Laboratory of Ministry of Education for Computation Intelligence & Chinese Information Processing, Shanxi University, Taiyuan, Shanxi 030006,China)

        Frame identification is a basic task of semantic role labeling, which assigns a correct frame to the labeled target word based on the semantic scene. At present, the state-of-the-art methods are primarily based on statistical machine learning, in which the performance heavily depends on the quality of the extracted features. This paper proposes a DNN based frame identification method, trying to capture the target word context automatically. Experiments on the Chinese FrameNet and thePeople’sDaily(March, 2003) show 79.64% and 78.58% accuracy, respectively.

        Chinese FramNet; frame identification; deep neural network; distributed representation

        趙紅燕(1977—),博士研究生,主要研究領(lǐng)域?yàn)橹形男畔⑻幚怼-mail:lrxzhy@163.com李茹(1963—),通信作者,博士,教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚砼c數(shù)據(jù)庫(kù)技術(shù)。E-mail:liru@sxu.edu.cn張晟(1991—),學(xué)士,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E-mail:zhangsheng20xy@163.com

        1003-0077(2016)06-0075-09

        2016-09-27 定稿日期: 2016-10-24

        國(guó)家自然科學(xué)基金(61373082);國(guó)家863計(jì)劃(2015AA015407);山西省科技基礎(chǔ)條件平臺(tái)建設(shè)項(xiàng)目(2014091004-0103);山西省回國(guó)留學(xué)人員科研資助項(xiàng)目(2013-015);中國(guó)民航大學(xué)信息安全測(cè)評(píng)中心開放課題基金(CAAC-ISECCA-201402);國(guó)家自然科學(xué)基金(61673248)

        TP391

        A

        猜你喜歡
        語(yǔ)義特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        狂野欧美性猛xxxx乱大交| 久久精品国产亚洲av热九| 中文字幕人妻av一区二区| 成人区人妻精品一区二区三区| 天天夜碰日日摸日日澡| 日本视频中文字幕一区在线| 久久夜色精品国产亚洲av老牛 | 亚洲色欲色欲www成人网| 亚洲成人av大片在线观看| 人妻精品久久久久中文字幕| 毛片在线播放a| 少妇无码吹潮| 精品乱子伦一区二区三区 | 高清国产亚洲精品自在久久| 国模冰莲极品自慰人体| 丰满五十六十老熟女hd| 中文字幕亚洲综合久久| 黄色影院不卡一区二区| 国产精品无码aⅴ嫩草| 久久aⅴ无码一区二区三区| 国内自拍视频在线观看| 国产99一区二区三区四区| 亚洲欧美aⅴ在线资源| 国产亚洲欧美精品一区| 成人影院羞羞的视频免费观看| 色欲av伊人久久大香线蕉影院 | 国产精品国产三级国产av剧情 | 欧美大屁股xxxx高跟欧美黑人| 东北无码熟妇人妻AV在线| 日本福利视频免费久久久| 手机看片久久第一人妻| 亚洲欧美成人一区二区在线电影| 精品国产亚欧无码久久久| 国产亚洲3p一区二区| 色偷偷亚洲第一成人综合网址| 一本大道香蕉视频在线观看| 国产一级黄色性生活片| 亚洲乱码国产乱码精华| 无码久久精品国产亚洲av影片| 亚洲欧洲无码精品ⅤA| 日韩在线精品视频一区|