王旭陽(yáng) 朱鵬飛
(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院 甘肅 蘭州 730050)
語(yǔ)義角色標(biāo)注是淺層語(yǔ)義分析的常見(jiàn)實(shí)現(xiàn)方式,已廣泛應(yīng)用于機(jī)器翻譯等領(lǐng)域。語(yǔ)義角色標(biāo)注是分析句子中每個(gè)詞與對(duì)應(yīng)謂詞的語(yǔ)義關(guān)系,并作相應(yīng)的語(yǔ)義標(biāo)記,如施事、受事、工具或附加語(yǔ)等。傳統(tǒng)的語(yǔ)義角色標(biāo)注任務(wù)使用基于統(tǒng)計(jì)和基于規(guī)則的方法,文獻(xiàn)[1-3]研究了基于分詞、詞性和短語(yǔ)結(jié)構(gòu)的自動(dòng)語(yǔ)義標(biāo)注;Wang[4]提出一種基于Bi-RNN的漢語(yǔ)語(yǔ)義角色標(biāo)注方法,規(guī)避了傳統(tǒng)方法的缺點(diǎn)(如工作量大),同時(shí)利用序列中長(zhǎng)距離的信息在CPB語(yǔ)料上進(jìn)行了實(shí)驗(yàn),得到77.09%的F值;Roth等[5]提出了一種利用神經(jīng)序列建模技術(shù)進(jìn)行語(yǔ)義角色標(biāo)注的新模型;Sha[6]在論元關(guān)系識(shí)別過(guò)程中引入依存信息,在CPB上取得了77.69%的F值;Guo等[7]在充分利用了句法路徑信息的基礎(chǔ)上使用Bi-LSTM進(jìn)行建模;Marcheggiani[8]等利用雙向LSTM在標(biāo)準(zhǔn)的外域測(cè)試集上實(shí)現(xiàn)了最好的標(biāo)注結(jié)果;王瑞波等[9]將漢語(yǔ)詞語(yǔ)、詞性等特征進(jìn)行有效融合后利用神經(jīng)網(wǎng)絡(luò)構(gòu)建了語(yǔ)義角色標(biāo)注模型,并使用了Dropout技術(shù)改善模型的訓(xùn)練過(guò)程,使得模型的F值有了接近9%的提升;袁里馳等[10]利用配價(jià)結(jié)構(gòu)體現(xiàn)語(yǔ)義與句法結(jié)構(gòu)的關(guān)系,并將謂詞的配價(jià)信息融入語(yǔ)義角色標(biāo)注模型,在動(dòng)詞性謂詞標(biāo)注模型和名詞性謂詞標(biāo)注模型中分別取得了93.69%和79.23%的F值;張苗苗等[11]采用基于句法特征的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法,引入了Gate機(jī)制對(duì)詞向量進(jìn)行調(diào)整,最后F值達(dá)到了79.53%。傳統(tǒng)的語(yǔ)義角色標(biāo)注任務(wù)使用基于統(tǒng)計(jì)和基于規(guī)則的方法,具有以下缺點(diǎn):(1) 過(guò)于依賴句法分析的結(jié)果;(2) 特征的提取和選擇十分困難,并且投入較大;(3) 領(lǐng)域適應(yīng)性差。
總結(jié)上述內(nèi)容,本文提出一種基于模糊機(jī)制和語(yǔ)義密度聚類的漢語(yǔ)自動(dòng)語(yǔ)義角色標(biāo)注系統(tǒng),主要工作如下:
(1) 引入語(yǔ)義密度聚類算法,利用密度的概念對(duì)語(yǔ)料中的謂詞進(jìn)行全局的聚類,將稀疏謂詞替換為其所屬聚類集合中的常見(jiàn)謂詞。
(2) 引入模糊機(jī)制,利用距離的概念減小原始詞向量的語(yǔ)義性并提升與謂詞詞向量的相關(guān)性。
(3) 利用Bi-LSTM網(wǎng)絡(luò)實(shí)現(xiàn)端到端的SRL模型,對(duì)文本的歷史信息和未來(lái)信息能得到充分的利用。在訓(xùn)練階段引入了Dropout正則化,避免神經(jīng)網(wǎng)絡(luò)過(guò)擬合問(wèn)題的出現(xiàn)。最后使用CRF對(duì)標(biāo)簽概率進(jìn)行全局的歸一化處理后,完成最優(yōu)的序列標(biāo)注。
BRNN解決了傳統(tǒng)RNN網(wǎng)絡(luò)無(wú)法利用句子未來(lái)信息的缺陷,但是兩者都無(wú)法對(duì)長(zhǎng)距離信息進(jìn)行很好的建模,而且很容易出現(xiàn)梯度消失以及梯度爆炸的問(wèn)題,隨著LSTM單元的引入能很好地解決這些問(wèn)題。
所有的RNN網(wǎng)絡(luò)都有隱藏狀態(tài),也就是“記憶模塊”,用于結(jié)合當(dāng)前輸入與前一個(gè)狀態(tài),除此以外,LSTM還添加了一個(gè)單元狀態(tài)(cell state),用于記錄隨時(shí)間傳遞的信息。在傳遞過(guò)程中,通過(guò)當(dāng)前輸入、上一時(shí)刻隱藏層狀態(tài)、上一時(shí)刻細(xì)胞狀態(tài)以及門結(jié)構(gòu)來(lái)增加或刪除細(xì)胞狀態(tài)中的信息。門結(jié)構(gòu)用來(lái)控制增加或刪除信息的程度。LSTM單元的原理圖如圖1所示。
圖1 LSTM單元示意圖
LSTM利用三個(gè)門結(jié)構(gòu)來(lái)用于信息的更新和利用,即輸入門、遺忘門和輸出門。設(shè)h為L(zhǎng)STM單元輸出,c為L(zhǎng)STM記憶單元的值,x為輸入數(shù)據(jù)。所有門的計(jì)算除了受當(dāng)前輸入數(shù)據(jù)xt和前一時(shí)刻的LSTM單元輸出ht-1的影響外,還受前一時(shí)刻單元值ct-1的影響。
(1)
it=σ(wxi×xt+whi×ht-1+wci×ct-1+bi)
(2)
(2) 遺忘門:利用值域?yàn)?0,1)的ft函數(shù)控制前一時(shí)刻ct-1的細(xì)胞狀態(tài)傳遞到當(dāng)前時(shí)刻ct中的信息量。
ft=σ(wxf×xt+whf×ht-1+wcf×ct-1+bf)
(3)
式中:w代表權(quán)重。
由上可得當(dāng)前時(shí)刻細(xì)胞狀態(tài)值:
(4)
(3) 輸出門:用于控制LSTM記憶單元狀態(tài)值的輸出。
ot=σ(wxo×xt+who×ht-1+wco×ct-1+bo)
(5)
最后可以得出LSTM單元的輸出:
ht=ot⊙tanh(ct)
(6)
RNN-BLSTM使用LSTM單元在Bi-RNN的基礎(chǔ)上進(jìn)行了改進(jìn),在同一層使用兩套連接權(quán)重矩陣分別對(duì)正向和反向的信息進(jìn)行建模。Bi-LSTM結(jié)構(gòu)如圖2所示。
圖2 Bi-LSTM網(wǎng)絡(luò)示意圖
梯度下降算法是最常用的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練優(yōu)化算法。梯度下降算法的原理:目標(biāo)函數(shù)J(θ)關(guān)于參數(shù)θ的梯度就是目標(biāo)函數(shù)上升最快的方向。對(duì)于最小優(yōu)化問(wèn)題,只需在梯度相反的方向上將參數(shù)前進(jìn)一個(gè)步長(zhǎng),就能夠?qū)崿F(xiàn)目標(biāo)函數(shù)的下降,其中步長(zhǎng)又稱為學(xué)習(xí)率。參數(shù)θ的更新公式如下:
θ←θ-η·▽?duì)菾(θ)
(7)
式中:▽?duì)菾(θ)是參數(shù)的梯度。
小批量梯度下降算法的核心思想是每次更新的時(shí)候從訓(xùn)練集中隨機(jī)選擇n個(gè)樣本進(jìn)行學(xué)習(xí),更新公式如下:
θ=θ-η·▽?duì)菾(θ;xi:i+m;yi:i+m)
(8)
小批量梯度下降算法具有隨機(jī)梯度下降算法和批量梯度下降算法的優(yōu)點(diǎn),實(shí)現(xiàn)了更新速度和更新次數(shù)之間的平衡。與隨機(jī)梯度下降算法相比,小批量梯度下降算法減小了訓(xùn)練過(guò)程中參數(shù)的變化幅度,能夠更穩(wěn)定地收斂;相對(duì)于批量梯度下降算法,小批量梯度下降算法利用高度優(yōu)化提高了梯度計(jì)算的效率,加快了每次學(xué)習(xí)的速度,而且規(guī)避了內(nèi)存不足的現(xiàn)象。
Dropout正則化是Hinton[12]在2014年提出的一種防止神經(jīng)網(wǎng)絡(luò)過(guò)擬合的正則化約束技術(shù)。通過(guò)在反向傳播誤差更新權(quán)值的時(shí)候隨機(jī)選擇一部分權(quán)值不更新,相當(dāng)于隨機(jī)刪除一部分的Dropout隱藏節(jié)點(diǎn),隨著節(jié)點(diǎn)數(shù)目的減少,就能防止神經(jīng)網(wǎng)絡(luò)的過(guò)度訓(xùn)練,也就是防止參數(shù)過(guò)擬合問(wèn)題的出現(xiàn)。但這種刪除實(shí)質(zhì)上只是暫時(shí)的忽略這些節(jié)點(diǎn),而不是真正意義上的完全拋棄。
在訓(xùn)練過(guò)程中,被“丟棄”的隱藏節(jié)點(diǎn)是隨機(jī)的,也就是說(shuō)在每一次的訓(xùn)練過(guò)程中,使用的網(wǎng)絡(luò)都是不一樣的。由于每次用于訓(xùn)練的隱藏節(jié)點(diǎn)是隨機(jī)的,所以并不是每一個(gè)節(jié)點(diǎn)都能同時(shí)出現(xiàn)在每一次的訓(xùn)練過(guò)程中,這樣就可以保證權(quán)值的更新不依賴于有固定關(guān)系隱藏節(jié)點(diǎn)的共同作用,很大程度上保證了特征的有效性和隨機(jī)性;在模型用于預(yù)測(cè)的時(shí)候,又會(huì)用到所有的隱藏節(jié)點(diǎn),相當(dāng)于將所有的訓(xùn)練的模型進(jìn)行了有效的組合,得到了一個(gè)更完美的模型。
我們采用信息檢索中常用的精確度、召回率和 F 值來(lái)評(píng)估模型的性能。
(1) 精確度:反映了模型標(biāo)記的正確率。公式如下:
P=fn×100%/fa
(9)
(2) 召回率:衡量了模型標(biāo)記的正確覆蓋率。公式如下:
R=fn×100%/n
(10)
(3) F值:對(duì)精確度和召回率進(jìn)行調(diào)和平均。公式如下:
F=2×P×R/(P+R)
(11)
式中:fn表示模型能夠正確標(biāo)記的語(yǔ)義角色個(gè)數(shù),fa表示模型標(biāo)記出的語(yǔ)義角色個(gè)數(shù),n表示測(cè)試集中包含的所有語(yǔ)義角色的個(gè)數(shù)。
本文構(gòu)建并訓(xùn)練了一個(gè)LSTM網(wǎng)絡(luò)層,以獲得詞性特征的表達(dá),并利用詞性標(biāo)簽對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。
(12)
式中:nin表示網(wǎng)絡(luò)層輸入節(jié)點(diǎn)數(shù),nout表示網(wǎng)絡(luò)層輸出節(jié)點(diǎn)數(shù)。
在中文的語(yǔ)義角色標(biāo)注中,存在明顯的謂詞標(biāo)注不均勻問(wèn)題,常見(jiàn)謂詞和稀疏謂詞的標(biāo)注實(shí)例呈現(xiàn)兩種極端的狀況,稀疏謂詞由于標(biāo)注的次數(shù)很少,所以在模型訓(xùn)練過(guò)程中缺乏足夠的樣本實(shí)例,導(dǎo)致模型很難學(xué)習(xí)到該類謂詞的有效參數(shù),使得訓(xùn)練后的模型對(duì)稀疏謂詞不能進(jìn)行很好的語(yǔ)義分析。本文將出現(xiàn)15次以下的謂詞表示為稀疏謂詞,超過(guò)15次的表示為常見(jiàn)謂語(yǔ),并引入了語(yǔ)義密度聚類算法對(duì)稀疏謂詞進(jìn)行聚類以后替換為語(yǔ)義最相近的常見(jiàn)謂詞,提升語(yǔ)義角色標(biāo)注模型對(duì)于稀疏謂詞標(biāo)注的適用性。
我們采用wordvec提供的Skip-Gram模型訓(xùn)練維基百科中文數(shù)據(jù)得到的詞向量對(duì)語(yǔ)料中謂詞進(jìn)行初始化,然后使用語(yǔ)義密度聚類算法進(jìn)行聚類,其步驟描述如下:
(1) 計(jì)算每個(gè)謂詞詞向量與其他謂詞詞向量的歐式幾何距離。
(2) 計(jì)算每個(gè)謂詞詞向量的K距離,升序排列后得到E′。
(3) 根據(jù)E′繪制曲線,急劇變化位置所對(duì)應(yīng)的K距離作為Eps。
(4) 根據(jù)Eps計(jì)算得到所有核心向量,建立核心向量到Eps范圍內(nèi)的映射。
(5) 根據(jù)核心點(diǎn)集合以及Eps計(jì)算可以連通的核心向量,得到噪聲向量。
(6) 將能連通的每一組核心向量以及核心距離小于Eps的向量歸為一個(gè)聚類集合。
完成語(yǔ)義密度聚類以后,我們可以得到多個(gè)基于密度的詞向量集合。在數(shù)據(jù)輸入階段,當(dāng)一個(gè)謂詞輸入進(jìn)入語(yǔ)義角色標(biāo)注系統(tǒng)的時(shí)候,會(huì)先判斷其是否為稀疏謂詞,如果是稀疏謂詞,我們將其替換為其所在聚類集合中的常見(jiàn)謂詞,如果聚類集合中存在多個(gè)核心謂詞,則選擇距離最近的常見(jiàn)謂詞;如果是噪聲向量即沒(méi)有所屬聚類集合的謂詞,以及常見(jiàn)謂詞,我們不做任何替換。
語(yǔ)義角色標(biāo)注任務(wù)的目的是獲取文本中詞語(yǔ)與謂詞的語(yǔ)義關(guān)聯(lián),因此語(yǔ)義角色標(biāo)注模型實(shí)際上學(xué)習(xí)的是每個(gè)詞語(yǔ)與謂詞之間的關(guān)系,每個(gè)詞語(yǔ)具有獨(dú)立的語(yǔ)義。在訓(xùn)練之前,詞向量之間不能體現(xiàn)相互間的關(guān)系,所以在模型訓(xùn)練可以說(shuō)是從零開(kāi)始的。為此我們引入了詞向量“模糊”機(jī)制,利用距離的概念減小原始詞向量的語(yǔ)義表示性并提升與謂詞詞向量的相關(guān)性。
本文在數(shù)據(jù)輸入階段,對(duì)輸入句子的所有詞語(yǔ)進(jìn)行詞向量初始化,然后利用下列公式分別計(jì)算非謂詞與謂詞之間的距離di和距離總和d。
(13)
d=∑di
(14)
詞向量模糊機(jī)制由非謂詞詞向量以及謂詞詞向量和乘積相加操作組成,如式(15)所示,經(jīng)過(guò)這樣處理的詞向量在一定程度上減小了其原始語(yǔ)義信息的表示程度并提升了與謂詞詞向量的相關(guān)性。wd表示非謂詞詞向量,wp表示謂詞詞向量。
(15)
基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)模型,提出了一個(gè)基于模糊機(jī)制和語(yǔ)義密度聚類的漢語(yǔ)自動(dòng)語(yǔ)義角色標(biāo)注模型。
作為SRL模型的一部分輸入,我們將“模糊化”后的詞向量與詞性向量融合為一種的新的特征向量組合,所以在模型構(gòu)建階段,SRL模型網(wǎng)絡(luò)層的輸入向量可以定義為:
在模型的訓(xùn)練階段,對(duì)于整個(gè)模型的網(wǎng)絡(luò)層來(lái)說(shuō),輸入應(yīng)該是融合向量與輸入數(shù)據(jù)對(duì)應(yīng)的語(yǔ)義角色標(biāo)簽,所以我們定義模型的輸入為:
數(shù)據(jù)完成預(yù)處理以后,就發(fā)送到網(wǎng)絡(luò)層開(kāi)始訓(xùn)練。隨著神經(jīng)網(wǎng)絡(luò)深度的增加,容易出現(xiàn)過(guò)擬合現(xiàn)象,并且泛化能力會(huì)有所下降,所以本文構(gòu)建了4層B-LSTM網(wǎng)絡(luò)來(lái)用于我們的語(yǔ)義角色標(biāo)注任務(wù),圖3是一個(gè)只有兩層網(wǎng)絡(luò)的模型整體框架。
圖3 基于B-LSTM的漢語(yǔ)自動(dòng)語(yǔ)義角色標(biāo)注模型
在模型訓(xùn)練階段,我們使用小批量梯度下降法(MBGD)作為整體的訓(xùn)練技術(shù),實(shí)現(xiàn)目標(biāo)函數(shù)的優(yōu)化。輸入特征向量通過(guò)網(wǎng)絡(luò)層的特征學(xué)習(xí)后,將網(wǎng)絡(luò)層輸出送入CRF層使用維特比算法進(jìn)行序列標(biāo)記任務(wù)。
在本文的方法中,我們將語(yǔ)義角色標(biāo)注模型轉(zhuǎn)換為單詞序列標(biāo)注問(wèn)題,因此在我們計(jì)算出神經(jīng)網(wǎng)絡(luò)中輸入序列的每個(gè)單詞的標(biāo)簽概率之后,將標(biāo)簽概率送入CRF層,并且對(duì)所有表現(xiàn)序列歸一化處理以完成最優(yōu)的序列標(biāo)注。我們使用了維特比算法來(lái)進(jìn)行最優(yōu)標(biāo)簽序列的推斷。維特比偽算法如算法1所示。
算法1維特比偽算法
輸入:標(biāo)簽概率x=(x1,x2,…,xn)、特征向量F(y,x)和權(quán)值向量w。
(1) forj= 1 tom
(2)δ1(j)=w·F1(y0=start,y1=j,x);
(3) end for;
(4) fori=2 ton
(5) forl=1 tom
(6)δi(j)=max{δi-1(j)+w·Fi(yi-1=j,yi=l,x)};
(7)ψi(l)=argmax{δi-1(j)+w·Fi(yi-1=j,yi=l,x)};
(8) end for;
(9) max(w·F(y,x))=maxδn(j);
(11) end for;
本文利用Google開(kāi)源工具wordvec提供的Skip-Gram模型來(lái)訓(xùn)練維基百科中文數(shù)據(jù)得到詞向量,并用于對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行詞向量初始化。實(shí)驗(yàn)語(yǔ)料選取的是Chinese Proposition Bank(CPB),它是賓州大學(xué)人工標(biāo)注語(yǔ)料庫(kù),標(biāo)注標(biāo)注方法和English PropBank類似。CPB僅標(biāo)注核心動(dòng)詞及其相關(guān)語(yǔ)義角色,共定義了謂語(yǔ)動(dòng)詞、6類核心語(yǔ)義角色和13類附加語(yǔ)義角色,如Pred、Arg0-Arg5等。在本文的實(shí)驗(yàn)中,我們選取CPB第81分塊至第364分塊(chtb_081.fid~ chtb_364.fid)的文本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),選取第1分塊至第17分塊(chtb_001.fid~ chtb_017.fid)作為測(cè)試集,第41分塊至第59分塊(chtb_041.fid~ chtb_059.fid)作為開(kāi)發(fā)集。
我們將語(yǔ)義角色的識(shí)別和分類任務(wù)同時(shí)進(jìn)行,目的是為一個(gè)詞給出相應(yīng)的Arg0-Arg5或者ArgM的標(biāo)簽。在實(shí)際標(biāo)注過(guò)程中,一個(gè)語(yǔ)義角色不僅包含一個(gè)詞,也有可能由幾個(gè)詞組成,簡(jiǎn)單地使用像Arg0這樣的標(biāo)簽并不能真正識(shí)別語(yǔ)義角色的邊界或者非語(yǔ)義角色的詞。所以我們采用了IOBES標(biāo)注策略,使用I-ArgX表示語(yǔ)義角色的中間詞,B-ArgX表示語(yǔ)義角色的開(kāi)始詞,E-ArgX表示語(yǔ)義角色的結(jié)束詞,S-ArgX表示單一詞構(gòu)成的語(yǔ)義角色,增加標(biāo)記O為非語(yǔ)義角色的標(biāo)簽,共計(jì)形成77個(gè)標(biāo)簽。
本文將實(shí)驗(yàn)?zāi)P头譃樗念?,分別為:(1) 原始詞向量融合詞性特征向量作為輸入的模型;(2) 對(duì)非謂語(yǔ)詞向量進(jìn)行“模糊”化并融合詞性特征向量作為輸入的模型;(3) 對(duì)謂語(yǔ)進(jìn)行語(yǔ)義密度聚類并將原始詞向量融合詞性特征向量作為輸入的模型;(4) 對(duì)謂語(yǔ)進(jìn)行語(yǔ)義密度聚類并將“模糊”化后的非謂語(yǔ)詞向量融合詞性特征向量作為輸入的模型。為了方便描述,本文將這四類模型分別依次標(biāo)記為模型一、模型二、模型三和模型四。首先我們語(yǔ)義角色標(biāo)注模型的角度即dropout概率參數(shù)、學(xué)習(xí)率、向量維度三個(gè)影響因子對(duì)本文提出的模型四進(jìn)行性能評(píng)估。
默認(rèn)超參數(shù)設(shè)置:詞性向量維度為32,訓(xùn)練次數(shù)為150, 隱藏節(jié)點(diǎn)數(shù)為128。
3.2.1Dropout概率參數(shù)實(shí)驗(yàn)對(duì)比
我們?cè)诒?中對(duì)比了不同Dropout概率參數(shù)下模型的性能,該實(shí)驗(yàn)的超參數(shù)設(shè)置:學(xué)習(xí)率為0.003,詞向量維度為200。具體實(shí)驗(yàn)結(jié)果如表1所示。
表1 Dropout概率參數(shù)對(duì)比實(shí)驗(yàn)
從表1中可以看出,不加入Dropout正則化技術(shù)的時(shí)候模型的F值僅為73.84%,隨著連接的丟棄概率的逐漸升高,在概率為0.6時(shí)模型的F值較概率為0時(shí)提高了約5%,達(dá)到了78.96%;但是概率參數(shù)達(dá)到0.7時(shí),模型的F值會(huì)下降。從精確度和召回率角度分析,Dropout正則化技術(shù)的引入大幅度地提高了精確度,然而,對(duì)召回率的影響很小,這說(shuō)明,Dropout正則化有效地解決了模型過(guò)度擬合的問(wèn)題。
3.2.2學(xué)習(xí)率實(shí)驗(yàn)對(duì)比
我們?cè)诒?中對(duì)比了不同學(xué)習(xí)率下模型的性能,該實(shí)驗(yàn)的超參數(shù)設(shè)置:Dropout概率參數(shù)為0.6,詞向量維度為200。具體實(shí)驗(yàn)結(jié)果如表2所示。
表2 學(xué)習(xí)率對(duì)比實(shí)驗(yàn)
從表2可以看出,學(xué)習(xí)率從0.1減小到0.003,模型的F值有了約8%的提升。說(shuō)明隨著學(xué)習(xí)率的減小,可以使梯度下降法得到更好的性能,從而提高模型的訓(xùn)練效率。但是由于本文使用到的數(shù)據(jù)量不是十分的巨大,所以當(dāng)學(xué)習(xí)率降到0.001時(shí),模型的性能反而比不過(guò)學(xué)習(xí)率為0.003時(shí)的模型性能。
3.2.3詞向量維度實(shí)驗(yàn)對(duì)比
我們?cè)诒?中對(duì)比了不同詞向量維度下模型的性能,該實(shí)驗(yàn)的超參數(shù)設(shè)置:Dropout概率參數(shù)為0.6,學(xué)習(xí)率為0.003。具體實(shí)驗(yàn)結(jié)果如表3所示。
表3 詞向量維度對(duì)比實(shí)驗(yàn)
從表3可以看出,隨著詞向量維度的增加,模型的各個(gè)評(píng)價(jià)指標(biāo)值都有所增加,說(shuō)明詞向量維度的增加可以提高特征的區(qū)別度,提高模型對(duì)特征的捕捉能力;從另一角度來(lái)看,三個(gè)評(píng)價(jià)指標(biāo)的增長(zhǎng)幅度都不大,說(shuō)明word2eVec可以將字詞轉(zhuǎn)化為稠密向量用于表征詞,能很好地獲取詞義信息。
3.2.4語(yǔ)義密度聚類與模糊機(jī)制實(shí)驗(yàn)對(duì)比
通過(guò)上述三個(gè)實(shí)驗(yàn)可以得出結(jié)論:當(dāng)Dropout概率參數(shù)為0.6,學(xué)習(xí)率為0.003,詞向量維度為300,本文模型的性能達(dá)到最佳。利用該參數(shù)下的模型,我們?cè)诒?中對(duì)比了加入語(yǔ)義密度聚類和模糊機(jī)制模型的性能,具體實(shí)驗(yàn)結(jié)果如表4所示。
表4 語(yǔ)義密度聚類與模糊機(jī)制對(duì)比實(shí)驗(yàn)
從表4中我們可以看出,模糊機(jī)制與語(yǔ)義密度聚類對(duì)于提升模型的各項(xiàng)指標(biāo)都有較為明顯的促進(jìn)作用,說(shuō)明模糊機(jī)制能一定程度上提升非謂詞詞向量與謂詞詞向量的相關(guān)性并減小其原始的語(yǔ)義表達(dá)能力;語(yǔ)義密度聚類能減小模型對(duì)稀疏謂詞訓(xùn)練不足的缺陷,基本上能讓每個(gè)“謂詞-論元”組合都有足夠數(shù)量的訓(xùn)練樣本用于模型的訓(xùn)練,較大程度地提升模型的性能。
3.2.5不同方法組合的Loss圖
在對(duì)四個(gè)模型訓(xùn)練的過(guò)程中,我們統(tǒng)計(jì)了各個(gè)模型的Loss變化曲線,并整合為如圖4所示的曲線圖,以便于觀察比較。
圖4 不同模型的Loss變化曲線圖
從圖4可以看出,在訓(xùn)練了大概1 400個(gè)epoch之后,模型一開(kāi)始趨于穩(wěn)定;在訓(xùn)練了大概1 700個(gè)epoch之后,模型2開(kāi)始趨于穩(wěn)定;在訓(xùn)練了大概1 200個(gè)epoch之后,模型三開(kāi)始趨于穩(wěn)定;在訓(xùn)練了大概1 300個(gè)epoch之后,模型四開(kāi)始趨于穩(wěn)定。在將 “模糊”機(jī)制應(yīng)用于SRL模型以后,模型需要更多的數(shù)據(jù)訓(xùn)練才能趨于穩(wěn)定,說(shuō)明“模糊”機(jī)制使得詞向量變得更無(wú)規(guī)律性,減小了詞向量的原始語(yǔ)義表達(dá)能力。但是隨著訓(xùn)練的進(jìn)行,訓(xùn)練后期的Loss值變化相較于其他模型顯得平滑許多,說(shuō)明“模糊”機(jī)制使得非謂語(yǔ)詞向量增大了與謂語(yǔ)詞向量的相關(guān)性,在兩者差異性縮小以后,模型的適用性會(huì)得到提高。將語(yǔ)義密度聚類應(yīng)用于SRL模型以后,訓(xùn)練模型趨于平穩(wěn)所需要的數(shù)據(jù)量有了一定程度的縮小,說(shuō)明語(yǔ)義密度聚類減小了稀疏謂語(yǔ)對(duì)于模型訓(xùn)練不均衡的影響,使得“謂語(yǔ)-論元”的數(shù)據(jù)變得更加具有代表性。
3.2.6與其他模型實(shí)驗(yàn)對(duì)比
通過(guò)上述三個(gè)實(shí)驗(yàn)可以得出結(jié)論:當(dāng)Dropout概率參數(shù)為0.6,學(xué)習(xí)率為0.003,詞向量維度為300,本文模型的性能達(dá)到最佳。我們將用該參數(shù)下的模型與其他模型進(jìn)行性能對(duì)比。具體對(duì)比結(jié)果如表5所示。
表5 與已有標(biāo)注模型的結(jié)果對(duì)比
從表5可以看出,本文提出的方法相比較于依賴句法分析和人工特征的傳統(tǒng)方法,F(xiàn)值有了很大幅度的提升,說(shuō)明基于深度學(xué)習(xí)的語(yǔ)義角色標(biāo)注模型能更好地學(xué)習(xí)字詞特征之間細(xì)微差別,對(duì)于特征的學(xué)習(xí)效率更高。本文引入了“模糊”機(jī)制和語(yǔ)義密度聚類算法,能提升模型對(duì)于數(shù)據(jù)訓(xùn)練的密集程度,減小稀疏謂語(yǔ)對(duì)于模型訓(xùn)練不均衡的影響,并提升非謂語(yǔ)詞向量與謂語(yǔ)詞向量的相關(guān)性,提升模型的訓(xùn)練準(zhǔn)確度。
為了彌補(bǔ)傳統(tǒng)語(yǔ)義角色標(biāo)注方法和現(xiàn)有基于神經(jīng)網(wǎng)絡(luò)模型方法的局限性,本文提出了一種基于“模糊”機(jī)制和語(yǔ)義密度聚類的漢語(yǔ)語(yǔ)義角色標(biāo)注模型,并在CPB上進(jìn)行驗(yàn)證。實(shí)驗(yàn)表明:本文提出的方法較傳統(tǒng)語(yǔ)義角色標(biāo)注方法性能有了很明顯的改進(jìn),較已有的基于深度學(xué)習(xí)的語(yǔ)義角色標(biāo)注模型也有了小幅度的進(jìn)步。本文對(duì)不同的實(shí)驗(yàn)超參數(shù)以及不同模型的組合進(jìn)行了對(duì)比實(shí)驗(yàn),并且在模型訓(xùn)練過(guò)程中使用了Dropout正則化方法來(lái)緩解模型過(guò)擬合的現(xiàn)象,最終本文提出的模型最好的F值達(dá)到了81.24%。雖然本文提出的方法相較于以前的大部分方法,性能上有了一定的改進(jìn),但還有很多的不足。例如在語(yǔ)義密度聚類的時(shí)候,沒(méi)有考慮特征的選擇,而是直接利用距離來(lái)判斷謂詞之間語(yǔ)義的相關(guān)性進(jìn)行直接的替換,而且在模型的調(diào)優(yōu)方面沒(méi)有做到盡善盡美。后續(xù)工作將從詞向量的語(yǔ)義表達(dá)形式以及如何將領(lǐng)域信息融入SRL模型進(jìn)行深入的研究。