亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于共享表示的跨領域中文模糊限制語識別

2019-04-12 06:22:22周惠巍寧時賢楊云龍林英玉李思嘉

鄭州大學學報(理學版) 2019年2期

周惠巍，寧時賢，楊云龍，劉壯，林英玉，李思嘉

(1.大連理工大學計算機科學與技術(shù)學院遼寧大連 116024；2.臺灣逢甲大學資訊電機學院臺灣臺中 40743)

0 引言

模糊語言是一種常見的語言現(xiàn)象，模糊限制語(hedges)用來指“把一些事情弄得模模糊糊的詞語”，表示不確定性的觀點[1].由模糊限制語所引導的信息稱為模糊限制信息.2010年國際計算語言學協(xié)會將模糊限制信息檢測定為CoNLL(conference on computational natural language learning)共享任務[2]，極大促進了英文模糊限制語的識別研究.

中文模糊限制語在不同領域中的作用存在差異.傳統(tǒng)的機器學習方法假設訓練數(shù)據(jù)和測試數(shù)據(jù)分布相同.但是由于中文模糊限制語存在領域特性，使得現(xiàn)有的基于某個領域訓練得到的識別模型很難直接應用于其他領域.同時，中文模糊限制語語料缺乏，語料標注費時費力，為每個領域都標注大量訓練語料是不現(xiàn)實的.文獻[3]指出可以利用資源豐富的領域(源領域)的模糊限制語語料，輔助資源貧乏的領域(目標領域)的模糊限制語的識別，從而減少目標領域的數(shù)據(jù)標注代價.

早期的模糊限制語識別是基于詞典匹配的方法，該方法取得了較高的召回率，但是精確率卻很低.機器學習的方法彌補了這個缺點.基于分類的passive aggressive方法在新聞領域獲得了70.53%的模糊限制性句子識別F值[4].基于序列標注方法識別中文模糊限制語，在構(gòu)建的《計算機學報》語料上獲得43.2%的F值[5].在科技文獻、股市和產(chǎn)品評論3個領域，構(gòu)建基于特征的序列標注模型，分別獲得73.27%、70.29%和68.57%的F值[6].

上述模糊限制語識別方法的訓練數(shù)據(jù)和測試數(shù)據(jù)均采用同領域的語料，即假定訓練數(shù)據(jù)與測試數(shù)據(jù)具有相同的分布.然而，模糊限制語的使用具有領域特性.文獻[3]將遷移學習用于跨領域英文模糊限制語識別.當訓練數(shù)據(jù)與測試數(shù)據(jù)分布不一致時，遷移學習能夠在不增加標注成本的情況下，提高系統(tǒng)在測試數(shù)據(jù)中的檢測性能.遷移學習主要分為兩種：基于特征的遷移學習[7]和基于實例的遷移學習[8].文獻[7]的特征遷移算法FruDA引入源領域和目標領域的公共特征，實現(xiàn)源領域知識向目標領域的遷移.文獻[8]的實例遷移學習算法TrAdaBoost通過迭代，調(diào)整源領域與目標領域訓練樣例的權(quán)重，從而挑選出與目標領域數(shù)據(jù)分布相似的源領域訓練樣例.

近年來，隨著深度學習的興起，神經(jīng)網(wǎng)絡被用于領域間共享特征表示的學習，并取得了較好的結(jié)果.文獻[9]利用兩種語言間拼寫的相似之處，學習兩種語言的共享字符表示，同時學習各語言的私有詞表示，用于跨語言序列標注任務.文獻[9]共享字符表示學習方法，難以學習到?jīng)]有共同字符的兩種語言間的共享特征.為了克服這一問題，文獻[10]采用一個共享的BLSTM(bidirectional long short-term memory)模塊和多個語言特定的私有BLSTM模塊分別學習多語言間的共享表示和各語言的私有表示.同時，在共享BLSTM模塊中引入了對抗學習，使得共享模塊變得與語言無關，從而獲得不含有私有特征的更純凈的共享表示.文獻[11]利用多個中文分詞語料庫學習共享表示，并引入對抗訓練方法抽取不同分詞標準間的共享特征，有效提高在各個語料上的分詞性能.

本文研究跨領域中文模糊限制語的識別，針對目標領域訓練數(shù)據(jù)非常稀少的情況(僅200個標注樣例)，提出一種基于共享表示的跨領域中文模糊限制語識別方法.訓練時，利用源領域大量標注數(shù)據(jù)和目標領域少量標注數(shù)據(jù)，交替學習各個領域的數(shù)據(jù)；同時引入對抗訓練[12]獲得更純凈的共享表示.本文提出的方法能夠有效利用源領域和目標領域信息，取得了比傳統(tǒng)的遷移學習方法更好的跨領域識別性能.

1 基于共享表示的跨領域中文模糊限制語識別模型

文獻[11]提出融合對抗訓練的共享-私有模型，本文稱其為Sh-pri模型.我們借鑒文獻[11]的方法，基于跨領域中文模糊限制語識別的實際問題，提出一種共享-對抗(Sh-adv)模型，用于跨領域模糊限制語識別，如圖1所示.

圖1 共享-對抗模型Fig.1 The architecture of Sh-adv model

兩個模型均采用了共享表示學習和對抗訓練的思想，利用共享BLSTM模塊學習源領域和目標領域間的共享語義表示.Sh-pri模型在學習共享語義表示的同時，學習了各領域私有語義表示.Sh-adv模型未學習私有語義表示，而是直接引入領域判別器模塊，與共享BLSTM進行對抗訓練，獲得剝離領域私有特征的更純凈的共享表示.因為本文假設目標領域訓練數(shù)據(jù)極其稀少(僅200個標注樣例)，在整體模型中引入私有BLSTM模塊無法充分學習到目標領域的私有語義表示.而源領域訓練數(shù)據(jù)遠遠大于目標領域，共享語義表示可能受到私有語義表示的影響，降低目標領域的模糊限制語識別性能.

1.1 數(shù)據(jù)處理及特征抽取

1.2 共享-對抗(Sh-adv)模型

2 實驗結(jié)果與分析

2.1 實驗數(shù)據(jù)及設置

實驗采用文獻[14]構(gòu)建的中文模糊限制語語料庫(https:∥github.com/DUT-NLP/CHScope)，包含維基百科、生物醫(yī)學文獻的實驗結(jié)果、摘要和討論4部分語料，共24 414句，約100萬詞.各部分模糊限制語的個數(shù)分別是1 958、1 622、2 759和4 674.維基百科中，33.78%的句子包含模糊限制信息；生物醫(yī)學文獻中，實驗結(jié)果中27.8%的句子、摘要中25.28%的句子和討論中47.69%的句子包含模糊限制信息.為檢測維基百科和生物醫(yī)學兩個領域間的跨領域中文模糊限制語識別性能，共設置了6組實驗，如表1所示.

表1 實驗設置Tab.1 Experiment setup

為減小偶然性，每組數(shù)據(jù)進行實驗時，我們都做了五折交叉實驗，將目標領域數(shù)據(jù)平均分為5份，取每份中的200個實例作為訓練數(shù)據(jù)，其余4份作為測試數(shù)據(jù).實驗采用F值對模型進行評價，公式為

F=2PR/(P+R)，

其中：P表示準確率；R表示召回率.

我們從萬方數(shù)據(jù)庫下載了6.19 MB的生物醫(yī)學文獻摘要和106 MB的中文維基百科語料庫，加上實驗所用的4.16 MB語料，共計117 MB的語料用于訓練詞向量.采用Word2vec工具訓練詞向量.詞性向量和共現(xiàn)特征向量均為隨機初始化，通過模型訓練進行調(diào)整.詞向量、詞性向量和共現(xiàn)特征向量分別是100維、50維和10維.模型采用隨機梯度下降策略進行參數(shù)更新，對抗學習的權(quán)重系數(shù)λ=0.05.

2.2 基線方法

為了探知共享表示對跨領域中文模糊限制語識別的影響，我們比較了下列4種基線方法，分別是：線形核函數(shù)的支持向量機SVM，單層的無共享機制的雙向長短期記憶神經(jīng)網(wǎng)絡BLSTM_NO，以及兩種性能優(yōu)異的遷移學習的方法：FruDA[7]特征遷移學習和TrAdaBoost[8]實例遷移學習.基線方法使用Target Only(TO)、Source Only(SO)、Target+Source(T+S)3種數(shù)據(jù)形式.

Target Only(TO)：僅使用目標領域的200個標注數(shù)據(jù)訓練獲得識別模型.

Source Only(SO)：僅使用源領域的標注數(shù)據(jù)訓練獲得識別模型.

Target+Source(T+S)：同時使用TO數(shù)據(jù)和SO數(shù)據(jù)訓練獲得識別模型.

測試時，模型對目標領域測試數(shù)據(jù)進行檢測.另外，F(xiàn)ruDA和TrAdaBoost方法使用T+S數(shù)據(jù)進行訓練，所用的特征與本文其他方法相同，參數(shù)設置全部采用默認值.4種基線方法在6組實驗的平均F值如表2所示.

表2 基線方法的跨領域中文模糊限制語識別F值Tab.2 F-value of cross-domain Chinese hedge cue detection by baseline methods %

注：黑體表示F值的最高平均值.

從表2的實驗結(jié)果可以看出：1) TO數(shù)據(jù)的實驗結(jié)果最差，SO數(shù)據(jù)有較大提升，T+S數(shù)據(jù)表現(xiàn)最佳.說明使用源領域數(shù)據(jù)輔助學習能夠獲得兩個領域間相似的數(shù)據(jù)分布，為生物醫(yī)學領域和維基百科領域的數(shù)據(jù)遷移提供了可行性；2) FruDA方法和TrAdaBoost方法在T+S數(shù)據(jù)的平均識別結(jié)果均低于BLSTM_NO方法，說明BLSTM模型能夠更好地學習深層語義信息，幫助模型進行跨領域的模糊限制語識別.

2.3 共享表示方法

表3比較了Sh-pri模型和我們提出的Sh-adv模型在6組跨領域中文模糊限制語識別實驗的F值.另外為驗證共享表示方法中判別器的效果，我們?nèi)サ袅薙h-pri模型和Sh-adv模型中的判別器模塊，進行了Sh-pri-only和Sh-only模型的實驗.

表3 共享表示方法的跨領域中文模糊限制語識別F值Tab.3 F-value of cross-domain Chinese hedge cue detection by shared representation methods %

注：黑體表示F值的最高平均值.

從表3可以看出共享表示方法均好于基線方法，說明共享表示在跨領域中文模糊限制語識別中的有效性.另外，比起帶有私有語義表示學習模塊的Sh-pri模型和Sh-pri-only模型，僅使用共享語義表示的Sh-adv模型和Sh-only模型的識別性能更好.在目標領域訓練數(shù)據(jù)量稀少的情況下，很難學習獲得目標領域的私有語義表示.同時，在整體模型訓練中引入源領域私有語義表示學習，會影響目標領域的模糊限制語識別性能.相反從不同領域間抽取共性特征能夠更好地實現(xiàn)跨領域模糊限制語識別.在融合對抗訓練后，Sh-adv模型取得了模糊限制語識別實驗75.43%的最高平均F值(表3中黑體表示)，均好于其無對抗訓練的模型.但是對抗機制所帶來的提升并不明顯，其主要原因可能是共享模塊試圖通過共享參數(shù)來保持共有特征的不變，然而目標領域訓練數(shù)據(jù)太少，無法使得私有特征完全從共享表示中剝離，也就無法獲得更純凈的源領域和目標領域共享表示.

3 結(jié)論與展望

本文提出了一種基于共享表示的跨領域中文模糊限制語識別方法.通過大量的源領域訓練數(shù)據(jù)和少量的目標領域訓練數(shù)據(jù)(200個)，利用對抗學習策略學習源領域和目標領域間的共享語義表示.在生物醫(yī)學和維基百科領域的實驗中，共享表示方法取得了較好的跨領域中文模糊限制語識別性能.本文僅研究了兩個領域間的跨領域中文模糊限制識別，如何利用多個源領域的數(shù)據(jù)，輔助目標領域的模糊限制語識別，是本文下一步的主要研究工作.