周惠巍,寧時賢,楊云龍,劉 壯,林英玉,李思嘉
(1.大連理工大學 計算機科學與技術(shù)學院 遼寧 大連 116024;2.臺灣逢甲大學 資訊電機學院 臺灣 臺中 40743)
模糊語言是一種常見的語言現(xiàn)象,模糊限制語(hedges)用來指“把一些事情弄得模模糊糊的詞語”,表示不確定性的觀點[1].由模糊限制語所引導的信息稱為模糊限制信息.2010年國際計算語言學協(xié)會將模糊限制信息檢測定為CoNLL(conference on computational natural language learning)共享任務[2],極大促進了英文模糊限制語的識別研究.
中文模糊限制語在不同領域中的作用存在差異.傳統(tǒng)的機器學習方法假設訓練數(shù)據(jù)和測試數(shù)據(jù)分布相同.但是由于中文模糊限制語存在領域特性,使得現(xiàn)有的基于某個領域訓練得到的識別模型很難直接應用于其他領域.同時,中文模糊限制語語料缺乏,語料標注費時費力,為每個領域都標注大量訓練語料是不現(xiàn)實的.文獻[3]指出可以利用資源豐富的領域(源領域)的模糊限制語語料,輔助資源貧乏的領域(目標領域)的模糊限制語的識別,從而減少目標領域的數(shù)據(jù)標注代價.
早期的模糊限制語識別是基于詞典匹配的方法,該方法取得了較高的召回率,但是精確率卻很低.機器學習的方法彌補了這個缺點.基于分類的passive aggressive方法在新聞領域獲得了70.53%的模糊限制性句子識別F值[4].基于序列標注方法識別中文模糊限制語,在構(gòu)建的《計算機學報》語料上獲得43.2%的F值[5].在科技文獻、股市和產(chǎn)品評論3個領域,構(gòu)建基于特征的序列標注模型,分別獲得73.27%、70.29%和68.57%的F值[6].
上述模糊限制語識別方法的訓練數(shù)據(jù)和測試數(shù)據(jù)均采用同領域的語料,即假定訓練數(shù)據(jù)與測試數(shù)據(jù)具有相同的分布.然而,模糊限制語的使用具有領域特性.文獻[3]將遷移學習用于跨領域英文模糊限制語識別.當訓練數(shù)據(jù)與測試數(shù)據(jù)分布不一致時,遷移學習能夠在不增加標注成本的情況下,提高系統(tǒng)在測試數(shù)據(jù)中的檢測性能.遷移學習主要分為兩種:基于特征的遷移學習[7]和基于實例的遷移學習[8].文獻[7]的特征遷移算法FruDA引入源領域和目標領域的公共特征,實現(xiàn)源領域知識向目標領域的遷移.文獻[8]的實例遷移學習算法TrAdaBoost通過迭代,調(diào)整源領域與目標領域訓練樣例的權(quán)重,從而挑選出與目標領域數(shù)據(jù)分布相似的源領域訓練樣例.
近年來,隨著深度學習的興起,神經(jīng)網(wǎng)絡被用于領域間共享特征表示的學習,并取得了較好的結(jié)果.文獻[9]利用兩種語言間拼寫的相似之處,學習兩種語言的共享字符表示,同時學習各語言的私有詞表示,用于跨語言序列標注任務.文獻[9]共享字符表示學習方法,難以學習到?jīng)]有共同字符的兩種語言間的共享特征.為了克服這一問題,文獻[10]采用一個共享的BLSTM(bidirectional long short-term memory)模塊和多個語言特定的私有BLSTM模塊分別學習多語言間的共享表示和各語言的私有表示.同時,在共享BLSTM模塊中引入了對抗學習,使得共享模塊變得與語言無關,從而獲得不含有私有特征的更純凈的共享表示.文獻[11]利用多個中文分詞語料庫學習共享表示,并引入對抗訓練方法抽取不同分詞標準間的共享特征,有效提高在各個語料上的分詞性能.
本文研究跨領域中文模糊限制語的識別,針對目標領域訓練數(shù)據(jù)非常稀少的情況(僅200個標注樣例),提出一種基于共享表示的跨領域中文模糊限制語識別方法.訓練時,利用源領域大量標注數(shù)據(jù)和目標領域少量標注數(shù)據(jù),交替學習各個領域的數(shù)據(jù);同時引入對抗訓練[12]獲得更純凈的共享表示.本文提出的方法能夠有效利用源領域和目標領域信息,取得了比傳統(tǒng)的遷移學習方法更好的跨領域識別性能.
文獻[11]提出融合對抗訓練的共享-私有模型,本文稱其為Sh-pri模型.我們借鑒文獻[11]的方法,基于跨領域中文模糊限制語識別的實際問題,提出一種共享-對抗(Sh-adv)模型,用于跨領域模糊限制語識別,如圖1所示.
圖1 共享-對抗模型Fig.1 The architecture of Sh-adv model
兩個模型均采用了共享表示學習和對抗訓練的思想,利用共享BLSTM模塊學習源領域和目標領域間的共享語義表示.Sh-pri模型在學習共享語義表示的同時,學習了各領域私有語義表示.Sh-adv模型未學習私有語義表示,而是直接引入領域判別器模塊,與共享BLSTM進行對抗訓練,獲得剝離領域私有特征的更純凈的共享表示.因為本文假設目標領域訓練數(shù)據(jù)極其稀少(僅200個標注樣例),在整體模型中引入私有BLSTM模塊無法充分學習到目標領域的私有語義表示.而源領域訓練數(shù)據(jù)遠遠大于目標領域,共享語義表示可能受到私有語義表示的影響,降低目標領域的模糊限制語識別性能.
實驗采用文獻[14]構(gòu)建的中文模糊限制語語料庫(https:∥github.com/DUT-NLP/CHScope),包含維基百科、生物醫(yī)學文獻的實驗結(jié)果、摘要和討論4部分語料,共24 414句,約100萬詞.各部分模糊限制語的個數(shù)分別是1 958、1 622、2 759和4 674.維基百科中,33.78%的句子包含模糊限制信息;生物醫(yī)學文獻中,實驗結(jié)果中27.8%的句子、摘要中25.28%的句子和討論中47.69%的句子包含模糊限制信息.為檢測維基百科和生物醫(yī)學兩個領域間的跨領域中文模糊限制語識別性能,共設置了6組實驗,如表1所示.
表1 實驗設置Tab.1 Experiment setup
為減小偶然性,每組數(shù)據(jù)進行實驗時,我們都做了五折交叉實驗,將目標領域數(shù)據(jù)平均分為5份,取每份中的200個實例作為訓練數(shù)據(jù),其余4份作為測試數(shù)據(jù).實驗采用F值對模型進行評價,公式為
F=2PR/(P+R),
其中:P表示準確率;R表示召回率.
我們從萬方數(shù)據(jù)庫下載了6.19 MB的生物醫(yī)學文獻摘要和106 MB的中文維基百科語料庫,加上實驗所用的4.16 MB語料,共計117 MB的語料用于訓練詞向量.采用Word2vec工具訓練詞向量.詞性向量和共現(xiàn)特征向量均為隨機初始化,通過模型訓練進行調(diào)整.詞向量、詞性向量和共現(xiàn)特征向量分別是100維、50維和10維.模型采用隨機梯度下降策略進行參數(shù)更新,對抗學習的權(quán)重系數(shù)λ=0.05.
為了探知共享表示對跨領域中文模糊限制語識別的影響,我們比較了下列4種基線方法,分別是:線形核函數(shù)的支持向量機SVM,單層的無共享機制的雙向長短期記憶神經(jīng)網(wǎng)絡BLSTM_NO,以及兩種性能優(yōu)異的遷移學習的方法:FruDA[7]特征遷移學習和TrAdaBoost[8]實例遷移學習.基線方法使用Target Only(TO)、Source Only(SO)、Target+Source(T+S)3種數(shù)據(jù)形式.
Target Only(TO):僅使用目標領域的200個標注數(shù)據(jù)訓練獲得識別模型.
Source Only(SO):僅使用源領域的標注數(shù)據(jù)訓練獲得識別模型.
Target+Source(T+S):同時使用TO數(shù)據(jù)和SO數(shù)據(jù)訓練獲得識別模型.
測試時,模型對目標領域測試數(shù)據(jù)進行檢測.另外,F(xiàn)ruDA和TrAdaBoost方法使用T+S數(shù)據(jù)進行訓練,所用的特征與本文其他方法相同,參數(shù)設置全部采用默認值.4種基線方法在6組實驗的平均F值如表2所示.
表2 基線方法的跨領域中文模糊限制語識別F值Tab.2 F-value of cross-domain Chinese hedge cue detection by baseline methods %
注:黑體表示F值的最高平均值.
從表2的實驗結(jié)果可以看出:1) TO數(shù)據(jù)的實驗結(jié)果最差,SO數(shù)據(jù)有較大提升,T+S數(shù)據(jù)表現(xiàn)最佳.說明使用源領域數(shù)據(jù)輔助學習能夠獲得兩個領域間相似的數(shù)據(jù)分布,為生物醫(yī)學領域和維基百科領域的數(shù)據(jù)遷移提供了可行性;2) FruDA方法和TrAdaBoost方法在T+S數(shù)據(jù)的平均識別結(jié)果均低于BLSTM_NO方法,說明BLSTM模型能夠更好地學習深層語義信息,幫助模型進行跨領域的模糊限制語識別.
表3比較了Sh-pri模型和我們提出的Sh-adv模型在6組跨領域中文模糊限制語識別實驗的F值.另外為驗證共享表示方法中判別器的效果,我們?nèi)サ袅薙h-pri模型和Sh-adv模型中的判別器模塊,進行了Sh-pri-only和Sh-only模型的實驗.
表3 共享表示方法的跨領域中文模糊限制語識別F值Tab.3 F-value of cross-domain Chinese hedge cue detection by shared representation methods %
注:黑體表示F值的最高平均值.
從表3可以看出共享表示方法均好于基線方法,說明共享表示在跨領域中文模糊限制語識別中的有效性.另外,比起帶有私有語義表示學習模塊的Sh-pri模型和Sh-pri-only模型,僅使用共享語義表示的Sh-adv模型和Sh-only模型的識別性能更好.在目標領域訓練數(shù)據(jù)量稀少的情況下,很難學習獲得目標領域的私有語義表示.同時,在整體模型訓練中引入源領域私有語義表示學習,會影響目標領域的模糊限制語識別性能.相反從不同領域間抽取共性特征能夠更好地實現(xiàn)跨領域模糊限制語識別.在融合對抗訓練后,Sh-adv模型取得了模糊限制語識別實驗75.43%的最高平均F值(表3中黑體表示),均好于其無對抗訓練的模型.但是對抗機制所帶來的提升并不明顯,其主要原因可能是共享模塊試圖通過共享參數(shù)來保持共有特征的不變,然而目標領域訓練數(shù)據(jù)太少,無法使得私有特征完全從共享表示中剝離,也就無法獲得更純凈的源領域和目標領域共享表示.
本文提出了一種基于共享表示的跨領域中文模糊限制語識別方法.通過大量的源領域訓練數(shù)據(jù)和少量的目標領域訓練數(shù)據(jù)(200個),利用對抗學習策略學習源領域和目標領域間的共享語義表示.在生物醫(yī)學和維基百科領域的實驗中,共享表示方法取得了較好的跨領域中文模糊限制語識別性能.本文僅研究了兩個領域間的跨領域中文模糊限制識別,如何利用多個源領域的數(shù)據(jù),輔助目標領域的模糊限制語識別,是本文下一步的主要研究工作.