亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于共享表示的跨領域中文模糊限制語識別

        2019-04-12 06:22:22周惠巍寧時賢楊云龍林英玉李思嘉
        鄭州大學學報(理學版) 2019年2期
        關鍵詞:語料語義領域

        周惠巍,寧時賢,楊云龍,劉 壯,林英玉,李思嘉

        (1.大連理工大學 計算機科學與技術(shù)學院 遼寧 大連 116024;2.臺灣逢甲大學 資訊電機學院 臺灣 臺中 40743)

        0 引言

        模糊語言是一種常見的語言現(xiàn)象,模糊限制語(hedges)用來指“把一些事情弄得模模糊糊的詞語”,表示不確定性的觀點[1].由模糊限制語所引導的信息稱為模糊限制信息.2010年國際計算語言學協(xié)會將模糊限制信息檢測定為CoNLL(conference on computational natural language learning)共享任務[2],極大促進了英文模糊限制語的識別研究.

        中文模糊限制語在不同領域中的作用存在差異.傳統(tǒng)的機器學習方法假設訓練數(shù)據(jù)和測試數(shù)據(jù)分布相同.但是由于中文模糊限制語存在領域特性,使得現(xiàn)有的基于某個領域訓練得到的識別模型很難直接應用于其他領域.同時,中文模糊限制語語料缺乏,語料標注費時費力,為每個領域都標注大量訓練語料是不現(xiàn)實的.文獻[3]指出可以利用資源豐富的領域(源領域)的模糊限制語語料,輔助資源貧乏的領域(目標領域)的模糊限制語的識別,從而減少目標領域的數(shù)據(jù)標注代價.

        早期的模糊限制語識別是基于詞典匹配的方法,該方法取得了較高的召回率,但是精確率卻很低.機器學習的方法彌補了這個缺點.基于分類的passive aggressive方法在新聞領域獲得了70.53%的模糊限制性句子識別F值[4].基于序列標注方法識別中文模糊限制語,在構(gòu)建的《計算機學報》語料上獲得43.2%的F值[5].在科技文獻、股市和產(chǎn)品評論3個領域,構(gòu)建基于特征的序列標注模型,分別獲得73.27%、70.29%和68.57%的F值[6].

        上述模糊限制語識別方法的訓練數(shù)據(jù)和測試數(shù)據(jù)均采用同領域的語料,即假定訓練數(shù)據(jù)與測試數(shù)據(jù)具有相同的分布.然而,模糊限制語的使用具有領域特性.文獻[3]將遷移學習用于跨領域英文模糊限制語識別.當訓練數(shù)據(jù)與測試數(shù)據(jù)分布不一致時,遷移學習能夠在不增加標注成本的情況下,提高系統(tǒng)在測試數(shù)據(jù)中的檢測性能.遷移學習主要分為兩種:基于特征的遷移學習[7]和基于實例的遷移學習[8].文獻[7]的特征遷移算法FruDA引入源領域和目標領域的公共特征,實現(xiàn)源領域知識向目標領域的遷移.文獻[8]的實例遷移學習算法TrAdaBoost通過迭代,調(diào)整源領域與目標領域訓練樣例的權(quán)重,從而挑選出與目標領域數(shù)據(jù)分布相似的源領域訓練樣例.

        近年來,隨著深度學習的興起,神經(jīng)網(wǎng)絡被用于領域間共享特征表示的學習,并取得了較好的結(jié)果.文獻[9]利用兩種語言間拼寫的相似之處,學習兩種語言的共享字符表示,同時學習各語言的私有詞表示,用于跨語言序列標注任務.文獻[9]共享字符表示學習方法,難以學習到?jīng)]有共同字符的兩種語言間的共享特征.為了克服這一問題,文獻[10]采用一個共享的BLSTM(bidirectional long short-term memory)模塊和多個語言特定的私有BLSTM模塊分別學習多語言間的共享表示和各語言的私有表示.同時,在共享BLSTM模塊中引入了對抗學習,使得共享模塊變得與語言無關,從而獲得不含有私有特征的更純凈的共享表示.文獻[11]利用多個中文分詞語料庫學習共享表示,并引入對抗訓練方法抽取不同分詞標準間的共享特征,有效提高在各個語料上的分詞性能.

        本文研究跨領域中文模糊限制語的識別,針對目標領域訓練數(shù)據(jù)非常稀少的情況(僅200個標注樣例),提出一種基于共享表示的跨領域中文模糊限制語識別方法.訓練時,利用源領域大量標注數(shù)據(jù)和目標領域少量標注數(shù)據(jù),交替學習各個領域的數(shù)據(jù);同時引入對抗訓練[12]獲得更純凈的共享表示.本文提出的方法能夠有效利用源領域和目標領域信息,取得了比傳統(tǒng)的遷移學習方法更好的跨領域識別性能.

        1 基于共享表示的跨領域中文模糊限制語識別模型

        文獻[11]提出融合對抗訓練的共享-私有模型,本文稱其為Sh-pri模型.我們借鑒文獻[11]的方法,基于跨領域中文模糊限制語識別的實際問題,提出一種共享-對抗(Sh-adv)模型,用于跨領域模糊限制語識別,如圖1所示.

        圖1 共享-對抗模型Fig.1 The architecture of Sh-adv model

        兩個模型均采用了共享表示學習和對抗訓練的思想,利用共享BLSTM模塊學習源領域和目標領域間的共享語義表示.Sh-pri模型在學習共享語義表示的同時,學習了各領域私有語義表示.Sh-adv模型未學習私有語義表示,而是直接引入領域判別器模塊,與共享BLSTM進行對抗訓練,獲得剝離領域私有特征的更純凈的共享表示.因為本文假設目標領域訓練數(shù)據(jù)極其稀少(僅200個標注樣例),在整體模型中引入私有BLSTM模塊無法充分學習到目標領域的私有語義表示.而源領域訓練數(shù)據(jù)遠遠大于目標領域,共享語義表示可能受到私有語義表示的影響,降低目標領域的模糊限制語識別性能.

        1.1 數(shù)據(jù)處理及特征抽取

        1.2 共享-對抗(Sh-adv)模型

        2 實驗結(jié)果與分析

        2.1 實驗數(shù)據(jù)及設置

        實驗采用文獻[14]構(gòu)建的中文模糊限制語語料庫(https:∥github.com/DUT-NLP/CHScope),包含維基百科、生物醫(yī)學文獻的實驗結(jié)果、摘要和討論4部分語料,共24 414句,約100萬詞.各部分模糊限制語的個數(shù)分別是1 958、1 622、2 759和4 674.維基百科中,33.78%的句子包含模糊限制信息;生物醫(yī)學文獻中,實驗結(jié)果中27.8%的句子、摘要中25.28%的句子和討論中47.69%的句子包含模糊限制信息.為檢測維基百科和生物醫(yī)學兩個領域間的跨領域中文模糊限制語識別性能,共設置了6組實驗,如表1所示.

        表1 實驗設置Tab.1 Experiment setup

        為減小偶然性,每組數(shù)據(jù)進行實驗時,我們都做了五折交叉實驗,將目標領域數(shù)據(jù)平均分為5份,取每份中的200個實例作為訓練數(shù)據(jù),其余4份作為測試數(shù)據(jù).實驗采用F值對模型進行評價,公式為

        F=2PR/(P+R),

        其中:P表示準確率;R表示召回率.

        我們從萬方數(shù)據(jù)庫下載了6.19 MB的生物醫(yī)學文獻摘要和106 MB的中文維基百科語料庫,加上實驗所用的4.16 MB語料,共計117 MB的語料用于訓練詞向量.采用Word2vec工具訓練詞向量.詞性向量和共現(xiàn)特征向量均為隨機初始化,通過模型訓練進行調(diào)整.詞向量、詞性向量和共現(xiàn)特征向量分別是100維、50維和10維.模型采用隨機梯度下降策略進行參數(shù)更新,對抗學習的權(quán)重系數(shù)λ=0.05.

        2.2 基線方法

        為了探知共享表示對跨領域中文模糊限制語識別的影響,我們比較了下列4種基線方法,分別是:線形核函數(shù)的支持向量機SVM,單層的無共享機制的雙向長短期記憶神經(jīng)網(wǎng)絡BLSTM_NO,以及兩種性能優(yōu)異的遷移學習的方法:FruDA[7]特征遷移學習和TrAdaBoost[8]實例遷移學習.基線方法使用Target Only(TO)、Source Only(SO)、Target+Source(T+S)3種數(shù)據(jù)形式.

        Target Only(TO):僅使用目標領域的200個標注數(shù)據(jù)訓練獲得識別模型.

        Source Only(SO):僅使用源領域的標注數(shù)據(jù)訓練獲得識別模型.

        Target+Source(T+S):同時使用TO數(shù)據(jù)和SO數(shù)據(jù)訓練獲得識別模型.

        測試時,模型對目標領域測試數(shù)據(jù)進行檢測.另外,F(xiàn)ruDA和TrAdaBoost方法使用T+S數(shù)據(jù)進行訓練,所用的特征與本文其他方法相同,參數(shù)設置全部采用默認值.4種基線方法在6組實驗的平均F值如表2所示.

        表2 基線方法的跨領域中文模糊限制語識別F值Tab.2 F-value of cross-domain Chinese hedge cue detection by baseline methods %

        注:黑體表示F值的最高平均值.

        從表2的實驗結(jié)果可以看出:1) TO數(shù)據(jù)的實驗結(jié)果最差,SO數(shù)據(jù)有較大提升,T+S數(shù)據(jù)表現(xiàn)最佳.說明使用源領域數(shù)據(jù)輔助學習能夠獲得兩個領域間相似的數(shù)據(jù)分布,為生物醫(yī)學領域和維基百科領域的數(shù)據(jù)遷移提供了可行性;2) FruDA方法和TrAdaBoost方法在T+S數(shù)據(jù)的平均識別結(jié)果均低于BLSTM_NO方法,說明BLSTM模型能夠更好地學習深層語義信息,幫助模型進行跨領域的模糊限制語識別.

        2.3 共享表示方法

        表3比較了Sh-pri模型和我們提出的Sh-adv模型在6組跨領域中文模糊限制語識別實驗的F值.另外為驗證共享表示方法中判別器的效果,我們?nèi)サ袅薙h-pri模型和Sh-adv模型中的判別器模塊,進行了Sh-pri-only和Sh-only模型的實驗.

        表3 共享表示方法的跨領域中文模糊限制語識別F值Tab.3 F-value of cross-domain Chinese hedge cue detection by shared representation methods %

        注:黑體表示F值的最高平均值.

        從表3可以看出共享表示方法均好于基線方法,說明共享表示在跨領域中文模糊限制語識別中的有效性.另外,比起帶有私有語義表示學習模塊的Sh-pri模型和Sh-pri-only模型,僅使用共享語義表示的Sh-adv模型和Sh-only模型的識別性能更好.在目標領域訓練數(shù)據(jù)量稀少的情況下,很難學習獲得目標領域的私有語義表示.同時,在整體模型訓練中引入源領域私有語義表示學習,會影響目標領域的模糊限制語識別性能.相反從不同領域間抽取共性特征能夠更好地實現(xiàn)跨領域模糊限制語識別.在融合對抗訓練后,Sh-adv模型取得了模糊限制語識別實驗75.43%的最高平均F值(表3中黑體表示),均好于其無對抗訓練的模型.但是對抗機制所帶來的提升并不明顯,其主要原因可能是共享模塊試圖通過共享參數(shù)來保持共有特征的不變,然而目標領域訓練數(shù)據(jù)太少,無法使得私有特征完全從共享表示中剝離,也就無法獲得更純凈的源領域和目標領域共享表示.

        3 結(jié)論與展望

        本文提出了一種基于共享表示的跨領域中文模糊限制語識別方法.通過大量的源領域訓練數(shù)據(jù)和少量的目標領域訓練數(shù)據(jù)(200個),利用對抗學習策略學習源領域和目標領域間的共享語義表示.在生物醫(yī)學和維基百科領域的實驗中,共享表示方法取得了較好的跨領域中文模糊限制語識別性能.本文僅研究了兩個領域間的跨領域中文模糊限制識別,如何利用多個源領域的數(shù)據(jù),輔助目標領域的模糊限制語識別,是本文下一步的主要研究工作.

        猜你喜歡
        語料語義領域
        語言與語義
        領域·對峙
        青年生活(2019年23期)2019-09-10 12:55:43
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        “上”與“下”語義的不對稱性及其認知闡釋
        華語電影作為真實語料在翻譯教學中的應用
        新常態(tài)下推動多層次多領域依法治理初探
        認知范疇模糊與語義模糊
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學實證研究比較:語料類型與收集方法
        肯定與質(zhì)疑:“慕課”在基礎教育領域的應用
        国产成人精品一区二区三区av| 999国产精品视频| 国产精品亚洲A∨无码遮挡| 色噜噜亚洲精品中文字幕| 男女性杂交内射女bbwxz| 人妻少妇精品中文字幕av蜜桃| 337p日本欧洲亚洲大胆色噜噜| 国产免费99久久精品| 国产精品内射久久一级二| 开心五月激情综合婷婷色| 欧美在线成人午夜网站| 最新日韩精品视频免费在线观看| 国产亚洲av看码精品永久| 99精品国产在热久久| 一本大道久久精品 东京热 | 日韩精品无码区免费专区| 厕所极品偷拍一区二区三区视频| 国产亚洲精品在线视频| 亚洲精品无码av人在线播放| 香蕉视频一级| 国产内射视频免费观看| 亚洲av成人精品一区二区三区| 无码av免费精品一区二区三区| 香蕉视频免费在线| 手机av在线播放网站| 无码国产精品久久一区免费| 在线观看免费a∨网站| 日韩女优中文字幕在线| 久久精品人搡人妻人少妇| a级特黄的片子| 黑人巨大精品欧美在线观看| 久久久精品国产av麻豆樱花| 丰满熟女高潮毛茸茸欧洲视频| 国内少妇人妻丰满av| 国产一区二区三区资源在线观看| 日韩精品一区二区在线天天狠天| 国产精品_国产精品_k频道| 中文字幕第一页亚洲观看| 九九精品国产亚洲av日韩| 国产又色又爽又黄的| 一级片麻豆|