亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        命名實(shí)體識(shí)別的遷移學(xué)習(xí)研究綜述

        2021-02-05 18:10:34李艷玲
        計(jì)算機(jī)與生活 2021年2期
        關(guān)鍵詞:特征方法模型

        李 猛,李艷玲,林 民

        內(nèi)蒙古師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022

        命名實(shí)體識(shí)別(named entity recognition,NER)是自然語(yǔ)言處理(natural language processing,NLP)的一項(xiàng)非常重要的基礎(chǔ)任務(wù),旨在自動(dòng)檢測(cè)文本中的命名實(shí)體并將其分類(lèi)為預(yù)定義實(shí)體類(lèi)型,例如人名、地名、組織機(jī)構(gòu)名等,是人機(jī)對(duì)話系統(tǒng)、機(jī)器翻譯、關(guān)系抽取等的前置任務(wù)[1]。傳統(tǒng)以及深度NER[2-6]方法已經(jīng)取得了非常高的識(shí)別精度,但是訓(xùn)練模型需要大規(guī)模標(biāo)注數(shù)據(jù),模型性能與標(biāo)注數(shù)據(jù)量成正比,在訓(xùn)練語(yǔ)料匱乏的特定領(lǐng)域(如醫(yī)學(xué)、生物等)和小語(yǔ)種(如蒙古語(yǔ)、維吾爾語(yǔ)等)上,性能差強(qiáng)人意。由于訓(xùn)練集和測(cè)試集要求獨(dú)立同分布,因此導(dǎo)致將已有的模型運(yùn)用到其他領(lǐng)域或者語(yǔ)言上性能差強(qiáng)人意。

        遷移學(xué)習(xí)旨在利用源域中大量標(biāo)注數(shù)據(jù)和預(yù)訓(xùn)練模型提高目標(biāo)任務(wù)學(xué)習(xí)性能,憑借其對(duì)數(shù)據(jù)、標(biāo)注依賴性小和放寬了獨(dú)立同分布約束條件等優(yōu)點(diǎn)[7-8],已經(jīng)成為解決資源匱乏NER 的強(qiáng)大工具。NER 的遷移學(xué)習(xí)方法早期工作主要集中在基于數(shù)據(jù)的方法,利用并行語(yǔ)料庫(kù)、雙語(yǔ)詞典等作為橋梁將知識(shí)(如標(biāo)注、特征表示等)從高資源語(yǔ)言投影到低資源語(yǔ)言,主要用于跨語(yǔ)言NER 遷移。后來(lái)研究者將源模型部分參數(shù)或特征表示遷移到目標(biāo)模型上,不需要額外的對(duì)齊信息,實(shí)現(xiàn)了跨領(lǐng)域和跨應(yīng)用NER 遷移并取得了非常好的效果。最近NER 對(duì)抗遷移學(xué)習(xí)受到越來(lái)越多研究人員的關(guān)注,引入由生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[9]啟發(fā)的對(duì)抗技術(shù),生成一種“域無(wú)關(guān)特征”,進(jìn)而實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移,幫助目標(biāo)任務(wù)提高學(xué)習(xí)性能,同時(shí)有效緩解了負(fù)遷移問(wèn)題。

        劉瀏等人[10]從NER 定義、評(píng)測(cè)會(huì)議、主流研究方法等角度,介紹了NER 任務(wù)的發(fā)展歷程;Li 等人[11]詳細(xì)地總結(jié)和分析了NER 的深度學(xué)習(xí)方法,以及深度NER任務(wù)面臨的挑戰(zhàn)和未來(lái)發(fā)展方向。Pan和Yang[12]的綜述是一項(xiàng)開(kāi)創(chuàng)性工作,對(duì)遷移學(xué)習(xí)進(jìn)行了定義和分類(lèi),并回顧了2010 年之前的研究進(jìn)展;Weiss 等人[13]介紹并總結(jié)了許多同構(gòu)和異構(gòu)遷移學(xué)習(xí)方法;Zhuang 等人[8]從數(shù)據(jù)和模型角度對(duì)40 多種具有代表性的遷移學(xué)習(xí)模型進(jìn)行了介紹和對(duì)比。以上綜述都是對(duì)NER 或遷移學(xué)習(xí)單方面的闡述,沒(méi)有詳細(xì)地介紹兩者結(jié)合的方法。本文從基于數(shù)據(jù)遷移學(xué)習(xí)、基于模型遷移學(xué)習(xí)、對(duì)抗遷移學(xué)習(xí)這三方面對(duì)目前NER 任務(wù)的遷移學(xué)習(xí)方法進(jìn)行了研究和調(diào)查。

        1 命名實(shí)體識(shí)別

        1.1 傳統(tǒng)NER 方法

        傳統(tǒng)的NER 方法大致有三類(lèi):基于規(guī)則、無(wú)監(jiān)督學(xué)習(xí)和基于特征的有監(jiān)督學(xué)習(xí)[1,12]?;谝?guī)則的方法依賴語(yǔ)言學(xué)家和領(lǐng)域?qū)<沂止ぶ贫ǖ恼Z(yǔ)義語(yǔ)法規(guī)則,通過(guò)規(guī)則匹配識(shí)別各種類(lèi)型的命名實(shí)體,基于規(guī)則的方法雖然能夠在特定語(yǔ)料上(字典詳盡且大小有限)獲得很好的效果,但是構(gòu)建這些規(guī)則不僅耗時(shí),難以覆蓋所有規(guī)則,而且可擴(kuò)展性和可移植性比較差。無(wú)監(jiān)督學(xué)習(xí)方法利用在大型語(yǔ)料庫(kù)上獲得的詞匯資源、詞匯模型和統(tǒng)計(jì)信息,使用聚類(lèi)[14]推斷命名實(shí)體類(lèi)型?;谔卣鞯挠斜O(jiān)督學(xué)習(xí)方法通過(guò)監(jiān)督學(xué)習(xí),將NER 任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù),根據(jù)標(biāo)注數(shù)據(jù),將每個(gè)訓(xùn)練樣本用精心設(shè)計(jì)的特征表示出來(lái),然后利用機(jī)器學(xué)習(xí)算法訓(xùn)練模型,從看不見(jiàn)的數(shù)據(jù)中學(xué)習(xí)相似的模式,其缺點(diǎn)是需要大量人工標(biāo)注訓(xùn)練數(shù)據(jù)和人為構(gòu)造、選擇的有效特征[15]。

        基于規(guī)則的方法主要有LaSIE-Ⅱ[16]、NetOwl[17]、Facile[18]?;谔卣鞯挠斜O(jiān)督學(xué)習(xí)算法主要有隱馬爾可夫模型(hidden Markov model,HMM)[19]、決策樹(shù)(decision trees)[20]、最大熵模型(maximum entropy model,MEM)[21]、支持向量機(jī)(support vector machines,SVM)[22]、條件隨機(jī)場(chǎng)(conditional random fields,CRF)[23]等。

        1.2 深度NER 方法

        近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)的迅猛發(fā)展,NER 的深度學(xué)習(xí)方法已成為主流。深度學(xué)習(xí)有三個(gè)優(yōu)勢(shì):(1)深度神經(jīng)網(wǎng)絡(luò)可以進(jìn)行非線性變換,進(jìn)而從數(shù)據(jù)中學(xué)習(xí)到更復(fù)雜的特征;(2)深度學(xué)習(xí)可以從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征;(3)深度NER 模型屬于端到端模型[8]。

        NER的深度學(xué)習(xí)方法一般分為三個(gè)階段[8],如圖1所示,分別是分布式表示、特征提取器和標(biāo)簽解碼器。分布式表示把單詞或字符映射到低維實(shí)值密集向量中,其中每個(gè)維度代表一個(gè)隱藏特征,它可以自動(dòng)從文本中學(xué)習(xí)語(yǔ)義和句法特征,分布式表示有三種:詞向量(word embedding)[24]、字符向量(character embedding)[15]和混合表示[3]。特征提取器通過(guò)接收上一層的向量對(duì)上下文特征表示進(jìn)行學(xué)習(xí),常用的特征提取器有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[2]、Transformer[25]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[26]以及它的兩種變體門(mén)控循環(huán)單元(gated recurrent unit,GRU)[27]和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[3]。標(biāo)簽解碼器是最后一個(gè)階段,以上下文特征為輸入,生成標(biāo)簽序列,常見(jiàn)的解碼方式有Softmax[24]、CRF、RNN。

        Fig.1 Deep learning for NER flowchart圖1 NER 深度學(xué)習(xí)流程圖

        1.3 深度NER 的難點(diǎn)

        (1)資源匱乏。深度學(xué)習(xí)需要大規(guī)模標(biāo)注數(shù)據(jù)才能很好地訓(xùn)練模型,但數(shù)據(jù)標(biāo)注非常耗時(shí)且昂貴,尤其對(duì)于許多資源匱乏的語(yǔ)言和特定領(lǐng)域,如蒙古語(yǔ)、醫(yī)學(xué)、軍事領(lǐng)域。當(dāng)標(biāo)注數(shù)據(jù)較少時(shí),由于無(wú)法充分學(xué)習(xí)隱藏特征,深度學(xué)習(xí)的性能會(huì)大大降低,而且深度學(xué)習(xí)模型可移植性很差,無(wú)法將已有數(shù)據(jù)和模型應(yīng)用到資源匱乏領(lǐng)域[7]。因此,采用半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)資源的自動(dòng)構(gòu)建和補(bǔ)足,以及遷移學(xué)習(xí)等方法都可作為解決該問(wèn)題的研究方向[28]。

        (2)非正式文本。非正式文本即表達(dá)不符合書(shū)面語(yǔ)法規(guī)范的文本,如人機(jī)對(duì)話系統(tǒng)用戶提問(wèn)、Twitter 和微博等社交媒體上的文章評(píng)論等用戶生成文本,由于其語(yǔ)句簡(jiǎn)短、口語(yǔ)化、內(nèi)容寬泛、語(yǔ)意含糊、包含諧音字,使NER 變得非常困難,甚至無(wú)法識(shí)別。例如:“我中獎(jiǎng)了”寫(xiě)成“我中了”;“杯具”表示“悲劇”;“xswl”代表“笑死我了”。Li等人使用主動(dòng)學(xué)習(xí)將微博文本NER 的F1 值提高到了67.23%,但是仍需要人工標(biāo)記[29]。可以使用注意力機(jī)制和遷移學(xué)習(xí)結(jié)合深度學(xué)習(xí)完成對(duì)非正式文本的識(shí)別。

        (3)命名實(shí)體多樣性。隨著信息化時(shí)代的來(lái)臨,移動(dòng)互聯(lián)網(wǎng)的普及,數(shù)據(jù)規(guī)模海量化,命名實(shí)體及其類(lèi)型趨于多樣化,同時(shí)也在不斷演變[30]。傳統(tǒng)的實(shí)體類(lèi)型只有人名、地名和組織機(jī)構(gòu)名,但是現(xiàn)實(shí)生活中實(shí)體類(lèi)型復(fù)雜多樣,不同領(lǐng)域存在不同的實(shí)體類(lèi)型,需要識(shí)別更詳細(xì)的實(shí)體類(lèi)型,例如交通查詢領(lǐng)域,需要出發(fā)地、目的地、時(shí)間、交通工具等實(shí)體類(lèi)型??梢允褂眠w移學(xué)習(xí)技術(shù),重復(fù)利用已有數(shù)據(jù)和模型,實(shí)現(xiàn)細(xì)粒度NER。

        (4)命名實(shí)體歧義性。自然語(yǔ)言中存在大量歧義問(wèn)題,這給NER 帶來(lái)很大挑戰(zhàn)。在不同文化、背景、領(lǐng)域下,同一實(shí)體可能含有不同的含義,例如:“香格里拉”可能是“香格里拉市”也有可能是“香格里拉酒店”。因此需要充分理解上下文語(yǔ)義關(guān)系進(jìn)行識(shí)別,可以使用實(shí)體鏈接、注意力機(jī)制、特征融合、圖神經(jīng)網(wǎng)絡(luò)等方法,挖掘更詳細(xì)、更深層次的語(yǔ)義信息,從而消除命名實(shí)體的歧義性[28]。

        (5)實(shí)體嵌套。實(shí)體嵌套指實(shí)體內(nèi)部有一個(gè)或多個(gè)其他實(shí)體,例如:“中國(guó)駐俄羅斯大使館”這一組織機(jī)構(gòu)名中包含了“中國(guó)”和“俄羅斯”兩個(gè)地名。嵌套實(shí)體中包含了實(shí)體與實(shí)體之間豐富的語(yǔ)義關(guān)系,充分利用嵌套實(shí)體的嵌套信息,可以幫助人們更詳細(xì)、更深層次地理解文本。Xu 等人使用SVM 和CNN抽取中文嵌套實(shí)體的語(yǔ)義關(guān)系[31]。Xia 等人使用MGNER(multi-grained NER)模型,重構(gòu)了命名實(shí)體識(shí)別的流程,對(duì)嵌套實(shí)體進(jìn)行識(shí)別[32]。

        2 遷移學(xué)習(xí)

        隨著信息化時(shí)代的來(lái)臨,傳統(tǒng)機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)已經(jīng)取得了巨大的成功,并已經(jīng)應(yīng)用到許多實(shí)際生活中。但是它們嚴(yán)重依賴于大量具有相同數(shù)據(jù)分布的標(biāo)記訓(xùn)練數(shù)據(jù),然而實(shí)際應(yīng)用中,收集足夠的訓(xùn)練數(shù)據(jù)是非常困難的。半監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)可以放寬對(duì)大量標(biāo)注數(shù)據(jù)的需求進(jìn)而可以解決部分問(wèn)題,但是訓(xùn)練的模型性能不盡如人意[8]。遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)中解決訓(xùn)練數(shù)據(jù)不足這一基本問(wèn)題的重要方法,旨在利用來(lái)自源域的知識(shí)提高目標(biāo)任務(wù)學(xué)習(xí)性能[8]。它放寬了機(jī)器學(xué)習(xí)中的兩個(gè)基本假設(shè):(1)用于學(xué)習(xí)的訓(xùn)練樣本與新測(cè)試樣本滿足獨(dú)立同分布條件;(2)必須有足夠可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)性能不錯(cuò)的模型[33]。在遷移學(xué)習(xí)中,給定源域DS(含有大量標(biāo)注數(shù)據(jù),如英語(yǔ)、新聞?lì)I(lǐng)域等)和源任務(wù)TS,目標(biāo)域DT(只有少量或完全沒(méi)有標(biāo)注數(shù)據(jù),如蒙古語(yǔ)、社交媒體領(lǐng)域、醫(yī)學(xué)領(lǐng)域等)和目標(biāo)任務(wù)TT,其中DS≠DT或者TS≠TT。遷移學(xué)習(xí)已經(jīng)廣泛地應(yīng)用于NLP、計(jì)算機(jī)視覺(jué)等領(lǐng)域,是當(dāng)前機(jī)器學(xué)習(xí)中的研究熱點(diǎn)。

        2.1 傳統(tǒng)遷移學(xué)習(xí)方法

        傳統(tǒng)遷移學(xué)習(xí)方法分為基于數(shù)據(jù)和基于模型的方法?;跀?shù)據(jù)方法主要使用實(shí)例加權(quán)和特征轉(zhuǎn)換,以減小源域樣本和目標(biāo)域樣本之間的分布差異。Dai 等人提出了TrAdaboost[34],將Adaboost 算法擴(kuò)展到了遷移學(xué)習(xí)中,提高可用源域?qū)嵗龣?quán)重,降低不可用源域?qū)嵗龣?quán)重。Huang 等人提出核均值匹配法(kernel mean matching,KMM),通過(guò)再生核希爾伯特空間(reproducing kernel Hilbert space,RKHS)中匹配源域和目標(biāo)域?qū)嵗g的均值,估計(jì)源域和目標(biāo)域概率分布,使得帶權(quán)源域和目標(biāo)域概率分布盡可能相近[35]。Pan 等人提出遷移成分分析(transfer component analysis,TCA)[36],采用最大均值誤差(maximum mean discrepancy,MMD)[37]作為度量準(zhǔn)則測(cè)量邊緣分布差異,以分散矩陣作為約束條件,將源域和目標(biāo)域之間的分布差異最小化。

        基于模型方法是指利用源域和目標(biāo)域之間的相似性和相關(guān)性,將已訓(xùn)練好的部分源域模型或特征表示遷移到目標(biāo)模型上,以提高目標(biāo)模型的性能。Duan等人提出領(lǐng)域自適應(yīng)機(jī)(domain adaptation machine,DAM)通用框架,借助在多個(gè)源域上分別預(yù)先訓(xùn)練的基本分類(lèi)器,為目標(biāo)域構(gòu)造一個(gè)魯棒的分類(lèi)器[38]。為了解決分類(lèi)問(wèn)題,Tommasi 等人提出了一種單模型知識(shí)遷移方法(single-model knowledge transfer,SMKL),該方法基于最小二乘SVM,從源域選擇一個(gè)預(yù)先獲得的二進(jìn)制決策函數(shù),然后遷移其參數(shù)到目標(biāo)模型[39]。Yao 等人在TrAdaBoost 的基礎(chǔ)上做了多源擴(kuò)展,提出了TaskTrAdaBoost,首先在每個(gè)源域上執(zhí)行AdaBoost構(gòu)造一組候選分類(lèi)器,然后每次迭代挑選出在目標(biāo)域上具有最低分類(lèi)誤差的候選分類(lèi)器并為其分配權(quán)重,最后將所選分類(lèi)器組合產(chǎn)生最終預(yù)測(cè)[40]。

        2.2 深度遷移學(xué)習(xí)方法

        深度學(xué)習(xí)目前是機(jī)器學(xué)習(xí)領(lǐng)域最流行的方法,許多研究者利用深度學(xué)習(xí)技術(shù)構(gòu)建遷移學(xué)習(xí)模型,已經(jīng)成為解決深度學(xué)習(xí)數(shù)據(jù)依賴和訓(xùn)練數(shù)據(jù)不足等問(wèn)題的重要方法。深度遷移學(xué)習(xí)分為兩類(lèi):非對(duì)抗方法和對(duì)抗方法。

        非對(duì)抗方法復(fù)用在源域中預(yù)先訓(xùn)練好的部分深度神經(jīng)網(wǎng)絡(luò),將其遷移至目標(biāo)模型中。Tzeng 等人提出深度域混淆(deep domain confusion,DDC)解決深度網(wǎng)絡(luò)的自適應(yīng)問(wèn)題,在源域與目標(biāo)域之間添加了一層適應(yīng)層和MMD,讓深度遷移網(wǎng)絡(luò)在學(xué)習(xí)如何分類(lèi)的同時(shí),減小源域?qū)嵗c目標(biāo)域?qū)嵗g的分布差異[41]。Long 等人對(duì)DDC 進(jìn)行了擴(kuò)展,提出了深度自適應(yīng)網(wǎng)絡(luò)(deep adaptation network,DAN)[42],在深度神經(jīng)網(wǎng)絡(luò)中加入多層適應(yīng)層和表征能力更好的MK-MMD[43]。Long 等人在DAN 網(wǎng)絡(luò)的基礎(chǔ)上又提出了聯(lián)合自適應(yīng)網(wǎng)絡(luò)(joint adaptation network,JAN),相比于DAN 只考慮邊緣分布自適應(yīng),JAN 使用效果更好的多層聯(lián)合分布自適應(yīng)[44]。

        對(duì)抗方法引入由GAN 網(wǎng)絡(luò)啟發(fā)的對(duì)抗技術(shù),使模型無(wú)法識(shí)別特征來(lái)自源域還是目標(biāo)域,進(jìn)而完成源域知識(shí)到目標(biāo)域的遷移,同時(shí)有效緩解了負(fù)遷移問(wèn)題。Ganin 等人提出了結(jié)構(gòu)簡(jiǎn)單的領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)(domain-adversarial neural networks,DANN)[45],其由特征提取器、標(biāo)簽預(yù)測(cè)器和領(lǐng)域分類(lèi)器組成,特征提取器的作用類(lèi)似于GAN 網(wǎng)絡(luò)生成器,其目的是生成“域無(wú)關(guān)”的特征表示,領(lǐng)域分類(lèi)器起著類(lèi)似于判別器的作用,試圖檢測(cè)提取的特征是來(lái)自源域還是目標(biāo)域,通過(guò)在領(lǐng)域分類(lèi)器和特征提取器之間使用對(duì)抗技術(shù),學(xué)習(xí)一種“域無(wú)關(guān)特征”。Tzeng 等人提出了一種對(duì)抗領(lǐng)域自適應(yīng)的通用框架ADDA(adversarial discriminative domain adaptation)[46],利用判別模型、無(wú)條件權(quán)重共享和GAN 損失,解決領(lǐng)域之間的數(shù)據(jù)分布問(wèn)題。Zhang等人提出了一種部分領(lǐng)域自適應(yīng)的方法,稱(chēng)為基于重要性加權(quán)對(duì)抗網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)(importance weighted adversarial nets-based domain adaptation,IWANDA)[47],不再使用一個(gè)共享特征提取器,而是分別為源域和目標(biāo)域提供特定域的特征提取器。

        3 命名實(shí)體識(shí)別的遷移學(xué)習(xí)方法

        3.1 基于數(shù)據(jù)遷移學(xué)習(xí)

        NER 的基于數(shù)據(jù)遷移學(xué)習(xí)方法大多利用額外高資源語(yǔ)言標(biāo)注數(shù)據(jù)作為遷移學(xué)習(xí)的弱監(jiān)督訓(xùn)練,以對(duì)齊信息作為橋梁,如雙語(yǔ)詞典[48]、并行語(yǔ)料庫(kù)[49]和單詞對(duì)齊[50]等,將知識(shí)(標(biāo)注、詞向量、特征表示等)從高資源語(yǔ)言投影到低資源語(yǔ)言。基于數(shù)據(jù)方法在跨語(yǔ)言NER 中顯示出相當(dāng)大的優(yōu)越性,但是對(duì)高資源語(yǔ)言標(biāo)注數(shù)據(jù)和對(duì)齊信息的規(guī)模和質(zhì)量非常敏感,并且僅限于跨語(yǔ)言遷移。

        3.1.1 標(biāo)注和表示投影法

        為了提高跨語(yǔ)言NER 的性能以及針對(duì)目標(biāo)語(yǔ)言中沒(méi)有人工標(biāo)注,Ni 等人提出兩種弱監(jiān)督跨語(yǔ)言NER 方法[49]標(biāo)注和表示投影法,以及兩種共解碼方案基于排除-O 置信度和基于等級(jí)的共解碼方案。

        標(biāo)注投影法利用并行語(yǔ)料庫(kù)、翻譯等對(duì)齊語(yǔ)料,將高資源語(yǔ)言中的標(biāo)注遷移到對(duì)應(yīng)目標(biāo)語(yǔ)言上,并開(kāi)發(fā)了一種獨(dú)立于語(yǔ)言的數(shù)據(jù)選擇方案,可以從嘈雜的數(shù)據(jù)中選擇高質(zhì)量標(biāo)注投影數(shù)據(jù)。給定目標(biāo)語(yǔ)言句子y,以及質(zhì)量得分閾值q和實(shí)體數(shù)量閾值n,其投影質(zhì)量得分q(y),如式(1)所示:

        式中,e代表y中的每個(gè)實(shí)體,代表e用投影標(biāo)注l′(e)標(biāo)記的相對(duì)頻率,n(y)是y中的實(shí)體總數(shù)。數(shù)據(jù)選擇方案必須滿足q(y)≥q,n(y)≥n。

        表示投影法,首先使用以詞向量為輸入的前饋神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練英語(yǔ)NER 系統(tǒng),然后將目標(biāo)語(yǔ)言的詞向量通過(guò)線性映射M f→e投影到英語(yǔ)向量空間中;最后使用訓(xùn)練好的英語(yǔ)NER 系統(tǒng)對(duì)目標(biāo)語(yǔ)言進(jìn)行標(biāo)記??赏ㄟ^(guò)加權(quán)最小二乘法得到線性映射M f→e,如式(2)所示:

        其中,wi表示訓(xùn)練詞典中英語(yǔ)目標(biāo)語(yǔ)言單詞對(duì)(xi,yi)的權(quán)重,ui、vi分別表示英語(yǔ)單詞xi和目標(biāo)語(yǔ)言單詞yi的詞向量。

        共解碼方案可以有效地結(jié)合兩種投影法的輸出,提高識(shí)別精度。基于排除-O 置信度的共解碼方案是選擇置信度分?jǐn)?shù)較高的標(biāo)注投影法或表示投影法生成的標(biāo)簽,優(yōu)先選擇一種方法的非O 標(biāo)簽(即實(shí)體標(biāo)簽)?;诘燃?jí)的共解碼方案,給予標(biāo)注投影法更高優(yōu)先級(jí),即組合輸出包括標(biāo)注投影法檢測(cè)到的所有實(shí)體,以及與標(biāo)注投影法不沖突的所有表示投影法檢測(cè)到的實(shí)體。當(dāng)標(biāo)注投影法為一段x都生成了O 標(biāo)簽,則表示投影法檢測(cè)到x的實(shí)體標(biāo)簽不會(huì)與標(biāo)注投影沖突。例如:標(biāo)注投影法的輸出標(biāo)簽序列為(B-PER,O,O,O,O),表示投影法的輸出標(biāo)簽序列為(B-ORG,I-ORG,O,B-LOC,I-LOC),那么基于等級(jí)的共解碼方案合并輸出為(B-PER,O,O,B-LOC,ILOC)。

        Ni 的貢獻(xiàn)在于為標(biāo)注投影法開(kāi)發(fā)了一種語(yǔ)言無(wú)關(guān)數(shù)據(jù)選擇方案,以及兩種共解碼方案,有效地提高了NER 的識(shí)別精度。兩種投影法都具有較高靈活性,但是容易受到雙語(yǔ)單詞對(duì)的對(duì)齊準(zhǔn)確率和英語(yǔ)NER 系統(tǒng)準(zhǔn)確率的影響。

        3.1.2 雙語(yǔ)詞典特征表示遷移法

        為了豐富低資源語(yǔ)言的語(yǔ)義表示以及緩解詞典外單詞問(wèn)題,F(xiàn)eng 等人提出了雙語(yǔ)詞典特征表示遷移法,將雙語(yǔ)詞典特征表示和詞級(jí)實(shí)體類(lèi)型分布特征作為目標(biāo)NER 模型的額外輸入,并設(shè)計(jì)一個(gè)詞典擴(kuò)展策略估計(jì)詞典外單詞的特征表示[51]。

        雙語(yǔ)詞典特征表示:根據(jù)來(lái)自高資源語(yǔ)言的翻譯,對(duì)每個(gè)低資源語(yǔ)言單詞的所有翻譯詞向量使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)或注意力機(jī)制提取特征表示veci。每個(gè)翻譯項(xiàng)目T都由一個(gè)或多個(gè)高資源語(yǔ)言單詞組成,例如:中文單詞“美國(guó)”有四個(gè)英文翻譯“America”“United States”“USA”和“The United States of America”。

        詞典擴(kuò)展策略,用于估計(jì)詞典外單詞的雙語(yǔ)詞典特征表示。給定低資源語(yǔ)言單詞xi及其對(duì)應(yīng)詞向量wi和雙語(yǔ)詞典特征表示veci。使用線性映射函數(shù),如式(3)所示,作為兩個(gè)語(yǔ)義空間之間的轉(zhuǎn)換,最小化式(4)以優(yōu)化映射矩陣M,在獲得M之后,對(duì)每個(gè)詞典外單詞oi用式(5)估算其特征表示veoi:

        單詞實(shí)體類(lèi)型的分布特征是每個(gè)單詞被標(biāo)記為每種實(shí)體類(lèi)型的概率。實(shí)驗(yàn)中只使用了三種最常見(jiàn)的命名實(shí)體類(lèi)型,即P(人名)、L(地名)、O(組織名)以及隨機(jī)生成一個(gè)表示非實(shí)體的類(lèi)型N,因此構(gòu)造了四個(gè)實(shí)體類(lèi)型向量{EP,EO,EL,EN},Ej∈Rd。然后,使用標(biāo)準(zhǔn)余弦函數(shù)計(jì)算低資源詞向量wi與實(shí)體類(lèi)型向量Ej之間的語(yǔ)義相關(guān)性,如式(6)所示。最后,每個(gè)低資源和高資源語(yǔ)言單詞都分配有一個(gè)維數(shù)為4 的實(shí)體類(lèi)型分布特征,eij={eP,eO,eL,eN}。

        最后,將低資源詞向量wi、低資源字符向量ci、雙語(yǔ)詞典翻譯特征veci或veoi以及實(shí)體類(lèi)型分布特征eij的連接詞向量Wi={wi,ci,veci,eij}作為BiLSTMCRF 模型的輸入。

        該方法開(kāi)創(chuàng)性地使用雙語(yǔ)詞典特征表示和單詞實(shí)體類(lèi)型的分布特征表示,豐富了低資源語(yǔ)言的語(yǔ)義表示,并設(shè)計(jì)了一種詞典擴(kuò)展策略,有效地緩解了詞典外單詞問(wèn)題,在低資源NER 性能上取得很大的提升。該方法具有非常好的可擴(kuò)展性,可以將高資源語(yǔ)言的其他知識(shí)(例如:WordNet、知識(shí)圖譜等)整合到體系結(jié)構(gòu)中,還可以擴(kuò)展到其他NLP 任務(wù)(例如:意圖識(shí)別、情感分析)。

        3.2 基于模型遷移學(xué)習(xí)

        NER 的基于模型遷移學(xué)習(xí)不需要額外的高資源語(yǔ)言對(duì)齊信息,主要利用源域和目標(biāo)域之間的相似性和相關(guān)性,將源模型部分參數(shù)或特征表示遷移到目標(biāo)模型,并自適應(yīng)地調(diào)整目標(biāo)模型[52]。例如:Ando和Zhang[53]提出了一種遷移學(xué)習(xí)框架,該框架在多個(gè)任務(wù)之間共享結(jié)構(gòu)參數(shù),并提高了包括NER 在內(nèi)多種任務(wù)的性能。Collobert等人[2]提出一個(gè)獨(dú)立于任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),并采用聯(lián)合訓(xùn)練將知識(shí)從NER 和詞性標(biāo)注(part-of-speech tagging,POS)任務(wù)遷移到組塊識(shí)別任務(wù)。Wang 等人[54]利用標(biāo)簽感知MMD 完成特征遷移,實(shí)現(xiàn)了跨醫(yī)學(xué)專(zhuān)業(yè)NER 系統(tǒng)。Lin 等人[55]在現(xiàn)有的深度遷移神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上引入單詞和句子適應(yīng)層,彌合兩個(gè)輸入空間之間的間隙,在LSTM 和CRF 層之間也引入了輸出適應(yīng)層,以捕獲兩個(gè)輸出空間中的變化??紤]到目標(biāo)數(shù)據(jù)的領(lǐng)域相關(guān)性差異,Yang 等人[56]受知識(shí)蒸餾(knowledge distillation,KD)的啟發(fā),提出了一種用于序列標(biāo)記領(lǐng)域自適應(yīng)的細(xì)粒度知識(shí)融合模型,首先對(duì)目標(biāo)域句子和單詞的領(lǐng)域相關(guān)性進(jìn)行建模,然后在句子和單詞級(jí)別上對(duì)源域和目標(biāo)域進(jìn)行知識(shí)融合,有效平衡了目標(biāo)模型從目標(biāo)域數(shù)據(jù)學(xué)習(xí)和從源模型學(xué)習(xí)之間的關(guān)系。

        3.2.1 基于RNN 的遷移學(xué)習(xí)

        RNN 及其變體已被大量應(yīng)用于NER 任務(wù),并取得了非常高的識(shí)別精度。Yang 等人利用神經(jīng)網(wǎng)絡(luò)通用性,提出了一種基于RNN的序列標(biāo)注遷移學(xué)習(xí)框架(RNN-based transfer learning,RNN-TL)[52],通過(guò)源任務(wù)和目標(biāo)任務(wù)之間共享模型參數(shù)和特征表示,提高目標(biāo)任務(wù)的學(xué)習(xí)性能。并利用不同級(jí)別的共享方案,在一個(gè)統(tǒng)一的模型框架下處理跨域、跨應(yīng)用和跨語(yǔ)言遷移。

        Fig.2 RNN-based transfer learning model圖2 基于RNN 的遷移學(xué)習(xí)模型

        該遷移方法在一個(gè)統(tǒng)一的RNN-CRF 框架下,在低資源跨域、跨應(yīng)用和跨語(yǔ)言的序列標(biāo)注任務(wù)上取得了不錯(cuò)的效果,尤其是在跨領(lǐng)域方面。但是還存在一定不足:跨語(yǔ)言遷移只能是字母相似的語(yǔ)言;對(duì)于遷移的參數(shù)和特征表示沒(méi)有進(jìn)行任何篩選工作,這使得負(fù)遷移對(duì)模型性能產(chǎn)生消極影響。

        3.2.2 參數(shù)和神經(jīng)適應(yīng)器遷移

        NER 的實(shí)體類(lèi)型隨時(shí)間在不斷變化,為了解決目標(biāo)領(lǐng)域出現(xiàn)新的實(shí)體類(lèi)型而導(dǎo)致重新標(biāo)注數(shù)據(jù)和訓(xùn)練模型的問(wèn)題,Chen 等人[57]提出了一種解決方案:在目標(biāo)模型的輸出層添加新的神經(jīng)元并遷移源模型部分參數(shù),然后在目標(biāo)數(shù)據(jù)上進(jìn)行微調(diào)(fine-tuned),此外還設(shè)計(jì)一種神經(jīng)適應(yīng)器學(xué)習(xí)源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的標(biāo)簽分布差異,遷移過(guò)程如圖3 所示。

        Fig.3 Parameters and neural adapter transfer model圖3 參數(shù)和神經(jīng)適應(yīng)器遷移模型

        在目標(biāo)模型輸出層擴(kuò)展nM個(gè)神經(jīng)元用于學(xué)習(xí)新實(shí)體類(lèi)型,其中n取決于數(shù)據(jù)集標(biāo)簽格式(例如:如果數(shù)據(jù)集為BIO 格式,則n=2,因?yàn)閷?duì)于每個(gè)命名實(shí)體類(lèi)型,將有兩種輸出標(biāo)簽B-NE 和I-NE),M是新命名實(shí)體類(lèi)型的數(shù)量。遷移源模型參數(shù)時(shí),目標(biāo)模型輸出層參數(shù)用正態(tài)分布X~N(μ,σ2)得出的權(quán)重進(jìn)行初始化;其他參數(shù)都用源模型中相對(duì)應(yīng)參數(shù)進(jìn)行初始化。

        神經(jīng)適應(yīng)器使用BiLSTM 實(shí)現(xiàn),將源模型輸出層輸出連接到目標(biāo)模型相應(yīng)輸出上,作為目標(biāo)CRF 的附加輸入??梢詾槟繕?biāo)模型學(xué)習(xí)兩個(gè)任務(wù)之間的標(biāo)簽分布差異,以減少數(shù)據(jù)標(biāo)簽不一致的影響。

        該方案使用源模型的參數(shù)和神經(jīng)適應(yīng)器實(shí)現(xiàn)模型遷移,是一種非常簡(jiǎn)單的遷移方法,解決了目標(biāo)領(lǐng)域出現(xiàn)新實(shí)體類(lèi)型而導(dǎo)致重新標(biāo)注數(shù)據(jù)和訓(xùn)練模型的問(wèn)題。同時(shí)神經(jīng)適應(yīng)器可以解決標(biāo)簽不一致,且具有提高遷移模型性能的能力。

        3.3 對(duì)抗遷移學(xué)習(xí)

        NER 的基于模型遷移學(xué)習(xí)方法雖然取得了很好的性能,但是還存在以下問(wèn)題有待解決:(1)沒(méi)有考慮資源間的差異,強(qiáng)制在語(yǔ)言或領(lǐng)域之間共享模型參數(shù)和特征表示;(2)資源數(shù)據(jù)不平衡,高資源語(yǔ)言或領(lǐng)域的訓(xùn)練集規(guī)模通常比低資源訓(xùn)練集規(guī)模大得多[58],忽略了領(lǐng)域間的這些差異,導(dǎo)致泛化能力差。因此研究者引入受GAN 網(wǎng)絡(luò)啟發(fā)的對(duì)抗技術(shù),學(xué)習(xí)一種“域無(wú)關(guān)特征”,實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移,同時(shí)有效緩解了負(fù)遷移問(wèn)題。

        NER 的對(duì)抗遷移學(xué)習(xí)流程如圖4 所示。對(duì)抗鑒別器選擇有利于提高目標(biāo)任務(wù)性能的源任務(wù)特征,同時(shí)防止源任務(wù)的特定信息進(jìn)入共享空間。訓(xùn)練完成之后,對(duì)抗鑒別器和共享特征提取器達(dá)到平衡:對(duì)抗鑒別器無(wú)法區(qū)分共享特征提取器中的特征表示來(lái)自源域還是目標(biāo)域。但是訓(xùn)練達(dá)到這個(gè)平衡點(diǎn)需要花費(fèi)大量時(shí)間,還有可能發(fā)生模型崩潰。

        Fig.4 NER adversarial transfer learning flowchart圖4 NER 對(duì)抗遷移學(xué)習(xí)流程圖

        3.3.1 自注意力機(jī)制對(duì)抗遷移網(wǎng)絡(luò)

        取96孔板,加入100 μL不同濃度(0.625、1.250、2.500、5.000、10.000、20.000、40.000 mg/mL)的揮發(fā)油乙醇溶液,然后再分別加入100 μL新配制的ABTS工作液,室溫條件下靜置反應(yīng)10 min后,用酶標(biāo)儀在波長(zhǎng)405 nm下測(cè)定其吸光度。分別以無(wú)水乙醇和維生素C作為空白和陽(yáng)性對(duì)照,每個(gè)揮發(fā)油濃度重復(fù)3次。

        Cao 等人首次將對(duì)抗遷移學(xué)習(xí)應(yīng)用于NER 任務(wù),提出自注意力機(jī)制的中文NER 對(duì)抗遷移學(xué)習(xí)模型[59]。充分利用中文分詞(Chinese word segmentation,CWS)任務(wù)更加豐富的詞邊界信息,并通過(guò)任務(wù)鑒別器和對(duì)抗損失函數(shù)過(guò)濾中文分詞任務(wù)的特有信息,以提高中文NER 任務(wù)性能。同時(shí)在BiLSTM 層后加入自注意力機(jī)制明確捕獲兩個(gè)字符之間的長(zhǎng)距離依賴關(guān)系并學(xué)習(xí)句子內(nèi)部結(jié)構(gòu)信息。

        任務(wù)鑒別器,通過(guò)Maxpooling 層和softmax 層識(shí)別特征來(lái)自哪個(gè)領(lǐng)域,可以表示為式(7)、式(8):

        其中,H表示共享自注意力的輸出,θd表示任務(wù)鑒別器的參數(shù),Wd∈RK×2dh和bd∈RK是可訓(xùn)練參數(shù),K是任務(wù)數(shù)。

        通過(guò)引入對(duì)抗損失函數(shù)LAdv,如式(9)所示,防止中文分詞任務(wù)的特定信息進(jìn)入共享空間。LAdv訓(xùn)練共享特征提取器以產(chǎn)生共享特征,使得任務(wù)鑒別器無(wú)法可靠地判斷特征的領(lǐng)域。通過(guò)在softmax 層下方添加一個(gè)梯度反轉(zhuǎn)層完成minimax 優(yōu)化,使共享BiLSTM 生成一個(gè)特征表示來(lái)誤導(dǎo)任務(wù)鑒別器。

        式中,θs表示共享特征提取器可訓(xùn)練參數(shù),Es表示共享特征提取器,Tk是任務(wù)k訓(xùn)練實(shí)例的數(shù)量,是任務(wù)k的第i個(gè)實(shí)例。

        該模型首次將對(duì)抗遷移學(xué)習(xí)應(yīng)用于NER 任務(wù),在WeiboNER 數(shù)據(jù)集[60]和SighanNER 數(shù)據(jù)集[61]上,將F1 值分別從BiLSTM-CRF 模型的51.01%和89.13%提高到了53.08%和90.64%,并通過(guò)實(shí)驗(yàn)驗(yàn)證了遷移學(xué)習(xí)、對(duì)抗訓(xùn)練、自注意力機(jī)制各個(gè)方法對(duì)于模型的有效性。

        3.3.2 雙重對(duì)抗遷移網(wǎng)絡(luò)

        Zhou 等人提出了雙重對(duì)抗遷移網(wǎng)絡(luò)(dual adversarial transfer network,DATNet)[58],在通用深度遷移單元上引入兩種對(duì)抗學(xué)習(xí):一是用廣義資源對(duì)抗鑒別器(generalized resource-adversarial discriminator,GRAD),解決資源數(shù)據(jù)不均衡和資源差異問(wèn)題;二是對(duì)抗訓(xùn)練,分別在字符向量和詞向量層添加以一個(gè)小范數(shù)? 為界的擾動(dòng),以提高模型的泛化能力和魯棒性。

        DATNet 根據(jù)特征提取器的差異,有兩種體系結(jié)構(gòu):一是特征提取器有共享BiLSTM 和資源相關(guān)BiLSTM 的DATNet-F;二是特征提取器只有共享BiLSTM 而沒(méi)有資源相關(guān)BiLSTM 的DATNet-P。

        GRAD 通過(guò)權(quán)重α平衡高低資源的訓(xùn)練規(guī)模差異較大的影響,使源域和目標(biāo)域中提取的特征表示更加兼容,共享BiLSTM 的輸出與領(lǐng)域無(wú)關(guān),并為每個(gè)樣本提供自適應(yīng)權(quán)重,從而使模型訓(xùn)練的重點(diǎn)放在困難樣本上。為了計(jì)算GRAD 的損失函數(shù),如式(10)所示,共享BiLSTM 的輸出序列首先通過(guò)自注意力機(jī)制編碼為單個(gè)向量,然后通過(guò)線性變換投影到標(biāo)量r:

        式中,Ii∈DS和Ii∈DT是標(biāo)識(shí)函數(shù),分別表示特征來(lái)自源域還是目標(biāo)域;參數(shù)γ衡量困難和簡(jiǎn)單樣本損失貢獻(xiàn)對(duì)比,通過(guò)測(cè)量預(yù)測(cè)值與真實(shí)標(biāo)簽之間的差異控制各個(gè)樣本的損失貢獻(xiàn)。權(quán)重α和分別減少了高資源樣本和簡(jiǎn)單樣本的損失貢獻(xiàn)。

        對(duì)抗訓(xùn)練就是在原始樣本的基礎(chǔ)上添加以一個(gè)小范數(shù)?為界的擾動(dòng)ηx,計(jì)算如式(11)所示:

        其中,Θ是當(dāng)前模型參數(shù)集。ηx按照文獻(xiàn)[62]中的策略,通過(guò)如下線性化方法近似估算,g=?xlogp(y|Θ;x),?可在驗(yàn)證集上確定。在每個(gè)訓(xùn)練步驟中,由Θ參數(shù)化當(dāng)前模型找到的擾動(dòng)ηx,并通過(guò)xadv=x+ηx構(gòu)造一個(gè)對(duì)抗樣本,然后進(jìn)行原始樣本和對(duì)抗樣本混合訓(xùn)練以提高模型泛化能力。對(duì)抗訓(xùn)練損失函數(shù)lAT的計(jì)算如式(12)所示:

        其中,logp(y|Θ;x)、logp(y|Θ;xadv)分別表示原始樣本及其對(duì)抗樣本的損失。DATNet 分別在字符級(jí)和詞級(jí)向量層使用對(duì)抗訓(xùn)練,可以根據(jù)式(11)計(jì)算字符向量擾動(dòng)ηc、源域詞向量擾動(dòng)ηWS和目標(biāo)域詞向量擾動(dòng)ηWT。

        DATNet 很好地解決了表示差異和數(shù)據(jù)資源不平衡的問(wèn)題,提高了模型的泛化能力,并在跨語(yǔ)言和跨域NER 遷移上取得顯著改進(jìn)。通過(guò)實(shí)驗(yàn),DATNet-P 架構(gòu)更適合具有相對(duì)更多訓(xùn)練數(shù)據(jù)的跨語(yǔ)言遷移,而DATNet-F 架構(gòu)更適合具有極低資源和跨域遷移的跨語(yǔ)言遷移。

        4 評(píng)價(jià)指標(biāo)及NER 方法比較

        4.1 命名實(shí)體識(shí)別評(píng)價(jià)指標(biāo)

        目前,NER 最常用的評(píng)價(jià)標(biāo)準(zhǔn)有精確率(Precision)、召回率(Recall)和F1 值(F1-score)等。

        精確率,在給定數(shù)據(jù)集中,標(biāo)注正確實(shí)體數(shù)占所有被標(biāo)注實(shí)體數(shù)的比例,如式(13)所示:

        召回率,在給定數(shù)據(jù)集中,標(biāo)注正確實(shí)體數(shù)占數(shù)據(jù)集中所有實(shí)體數(shù)的比例,如式(14)所示:

        Table 1 Statistics of NER datasets表1 NER 數(shù)據(jù)集統(tǒng)計(jì)信息

        F1 值,同時(shí)考慮精確率和召回率,是平衡精確率和召回率的綜合指標(biāo),如式(15)所示:

        其中,TP(true positive)表示真陽(yáng)性,識(shí)別出的正確實(shí)體數(shù);FP(false positive)表示假陽(yáng)性,識(shí)別出的錯(cuò)誤實(shí)體數(shù);FN(false negative)表示假陰性,未被識(shí)別出的實(shí)體數(shù)。

        4.2 遷移學(xué)習(xí)評(píng)價(jià)指標(biāo)

        為了驗(yàn)證遷移學(xué)習(xí)模型的性能,通常是在同一數(shù)據(jù)集下,將實(shí)驗(yàn)?zāi)P团c深度神經(jīng)網(wǎng)絡(luò)模型、其他遷移學(xué)習(xí)模型的精確率、F1 值等進(jìn)行比較。

        4.3 NER 方法性能比較

        為了評(píng)估NER 遷移學(xué)習(xí)方法的性能,本文以CoNLL2003 英語(yǔ)NER 數(shù)據(jù)集[63]為源域,CoNLL2002西班牙語(yǔ)和荷蘭語(yǔ)NER 數(shù)據(jù)集[64]以及WNUT-2017英語(yǔ)Twitter NER 數(shù)據(jù)集[65]為目標(biāo)域進(jìn)行實(shí)驗(yàn)。這些數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示,使用官方的訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分方法。實(shí)驗(yàn)中使用30 維字符向量、50 維詞向量,LSTM 隱狀態(tài)的數(shù)量設(shè)置為100 維。

        表2 是一些NER 方法的F1 值比較,可以看出雙語(yǔ)詞典特征表示在跨語(yǔ)言遷移方面取得了非常好的效果,相比于LSTM-CRF 在西班牙語(yǔ)和荷蘭語(yǔ)上的F1 值分別提升了3.01 個(gè)百分點(diǎn)和6.65 個(gè)百分點(diǎn),由于領(lǐng)域之間沒(méi)有標(biāo)準(zhǔn)的對(duì)齊信息,該方法無(wú)法進(jìn)行跨領(lǐng)域遷移;DATNet 的兩個(gè)變體優(yōu)于其他方法,在3個(gè)數(shù)據(jù)集上都有很大提升,DATNet-P 更適合跨域遷移,而DATNet-F 在跨語(yǔ)言上更有優(yōu)勢(shì)。與多任務(wù)學(xué)習(xí)[66]相比,遷移學(xué)習(xí)最關(guān)心的是目標(biāo)任務(wù),而不是同時(shí)提升所有的源任務(wù)和目標(biāo)任務(wù)。

        Table 2 NER method performance comparison(F1-score)表2 NER 方法性能比較(F1 值)%

        5 總結(jié)與展望

        本文主要對(duì)應(yīng)用于NER 任務(wù)的遷移學(xué)習(xí)方法從基于數(shù)據(jù)、基于模型和對(duì)抗遷移學(xué)習(xí)三方面進(jìn)行了歸納總結(jié)。遷移學(xué)習(xí)對(duì)于解決NER 任務(wù)的資源匱乏、實(shí)體類(lèi)型多樣化等問(wèn)題,取得了非常好的效果。基于數(shù)據(jù)遷移學(xué)習(xí)在跨語(yǔ)言遷移任務(wù)中取得很大成功,但也僅限于跨語(yǔ)言遷移?;谀P瓦w移學(xué)習(xí)不需要額外的高資源語(yǔ)言表示,將源模型的部分參數(shù)和特征遷移到目標(biāo)模型上。對(duì)抗遷移學(xué)習(xí)以其獨(dú)特的對(duì)抗訓(xùn)練思想,生成一種“域無(wú)關(guān)特征”,實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移,幫助目標(biāo)任務(wù)提高學(xué)習(xí)性能,同時(shí)有效緩解了負(fù)遷移問(wèn)題,是目前發(fā)展?jié)摿ψ畲蟮腘ER 遷移學(xué)習(xí)方法,也是今后的研究重點(diǎn)。

        隨著對(duì)NER 遷移學(xué)習(xí)的深入研究,還有一些新的問(wèn)題需要解決:

        (1)負(fù)遷移是遷移學(xué)習(xí)道路上最大的阻礙,雖然尋找源域和目標(biāo)域之間相關(guān)性衡量標(biāo)準(zhǔn)以及對(duì)抗遷移學(xué)習(xí)可以緩解該問(wèn)題,但是這些方法都有其自身的局限性。如何更好地解決負(fù)遷移問(wèn)題,有待進(jìn)一步深入研究。

        (2)對(duì)于多步傳導(dǎo)式遷移學(xué)習(xí),如何尋找一個(gè)或幾個(gè)既能照顧到目標(biāo)域也能照顧到源域的中間領(lǐng)域,幫助相關(guān)性不大的兩個(gè)領(lǐng)域之間實(shí)現(xiàn)遷移學(xué)習(xí),以達(dá)到充分利用已有的大量數(shù)據(jù),是遷移學(xué)習(xí)未來(lái)的一個(gè)研究方向。

        (3)在NER 對(duì)抗遷移學(xué)習(xí)中如何構(gòu)建更加強(qiáng)大的對(duì)抗鑒別器,幫助共享特征提取器和對(duì)抗鑒別器之間更快達(dá)到平衡點(diǎn),處理多源域NER 對(duì)抗遷移學(xué)習(xí)任務(wù),以及更好地解決負(fù)遷移問(wèn)題,是下一步研究的主要工作。

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        丁香五月缴情综合网| 亚洲熟妇av一区二区在线观看| 99久久99久久精品国产片| 曰本大码熟中文字幕| 一本一本久久a久久精品| 国产精品成人无码久久久久久| 国产视频一区2区三区| 精品福利一区二区三区免费视频| 成人欧美一区二区三区的电影| 久久精品—区二区三区无码伊人色| 亚洲中文字幕高清乱码毛片| 国产一区二区长腿丝袜高跟鞋| 久久精品国产成人| 国产在线一区观看| 一区二区三区国产偷拍| 亚洲毛片在线免费视频| 女人让男人桶爽30分钟| 亚洲v日本v欧美v综合v| 国产特黄1区2区3区4区| 人妖av手机在线观看| 亚洲精品一区二区| 九九99国产精品视频| 网址视频在线成人亚洲| 亚洲精品国精品久久99热| 日韩精品一区二区亚洲av| 99久久精品久久久| 亚洲高清国产成人精品久久| 日本乱偷人妻中文字幕| 亚洲影院丰满少妇中文字幕无码| 中文字幕一区二区va| 亚洲tv精品一区二区三区| 国产一区二区在线视频| 日韩亚洲中文图片小说| 国产精品国产三级国产专区50| 亚洲欧美国产精品久久| 久久精品日韩av无码| 五月婷婷激情六月开心| 一本色道久久婷婷日韩| 亚洲日韩中文字幕一区| 国产精品无码不卡在线播放| 加勒比日韩视频在线观看|