亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移學(xué)習(xí)的實體關(guān)系抽取技術(shù)綜述

        2022-03-28 07:00:18郎春雨
        關(guān)鍵詞:源域實體標(biāo)簽

        郎春雨,侯 霞

        (北京信息科技大學(xué) 計算機(jī)學(xué)院,北京 100101)

        0 引言

        在當(dāng)今信息爆炸的背景下,如何從非結(jié)構(gòu)化、復(fù)雜冗余的數(shù)據(jù)中獲取有效的信息至關(guān)重要。信息抽取是從非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)中自動抽取信息的有效技術(shù),在信息檢索、問答系統(tǒng)等任務(wù)中有廣泛應(yīng)用。實體關(guān)系抽取則是信息抽取重要的子任務(wù)之一,其目的在于抽取出一對或多對實體并判斷實體對之間是否存在某種語義關(guān)系。實體關(guān)系抽取分為流水式和聯(lián)合式抽取。聯(lián)合抽取[1-2]在一定程度上可以緩解流水式抽取的誤差累積問題,但是其強(qiáng)行共享編碼可能會導(dǎo)致實體抽取的特征與關(guān)系抽取的特征出現(xiàn)過于一致或者相互沖突等情況[3]。

        近年來,借助于深度學(xué)習(xí)在特征提取和自動學(xué)習(xí)上的優(yōu)勢,基于深度學(xué)習(xí)的實體關(guān)系抽取研究取得了不少成果[4-5]。但是,深度學(xué)習(xí)在實體關(guān)系抽取任務(wù)中需要大量正確標(biāo)注的語料進(jìn)行訓(xùn)練,對數(shù)據(jù)的依賴性影響了其實際應(yīng)用。遷移學(xué)習(xí)是將從相似領(lǐng)域?qū)W習(xí)到的知識應(yīng)用到目標(biāo)領(lǐng)域,可在一定程度上緩解實體關(guān)系抽取任務(wù)中訓(xùn)練數(shù)據(jù)缺乏的問題。

        1 遷移學(xué)習(xí)的基本方法

        遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)的重要分支,它利用數(shù)據(jù)、任務(wù)或模型之間的相似性,讓模型通過已有的源域標(biāo)記數(shù)據(jù)向目標(biāo)域未標(biāo)記數(shù)據(jù)遷移,從而訓(xùn)練出適用于目標(biāo)域的模型。遷移學(xué)習(xí)包括4種基本方法[6]:樣本遷移,模型遷移,特征遷移和關(guān)系遷移。

        1.1 基于樣本的遷移

        基于樣本的遷移重復(fù)使用源域中的有標(biāo)簽數(shù)據(jù),訓(xùn)練出一個在目標(biāo)域中更準(zhǔn)確的模型。其中存在兩個關(guān)鍵問題:一是如何從源域中篩選出與目標(biāo)域有相似分布的有標(biāo)簽樣本;二是如何利用這些樣本訓(xùn)練出準(zhǔn)確的目標(biāo)域上的理想模型。

        第一種方法是基于樣本的非歸納式遷移,它利用源域有標(biāo)簽數(shù)據(jù)和目標(biāo)域無標(biāo)簽數(shù)據(jù)為目標(biāo)域未見數(shù)據(jù)訓(xùn)練出預(yù)測模型。通過對源域和目標(biāo)域的分布比值進(jìn)行估計得到樣本權(quán)重[7]。第二種是基于樣本的歸納式遷移,利用源域的有標(biāo)簽數(shù)據(jù)和目標(biāo)域一小部分有標(biāo)簽數(shù)據(jù),為目標(biāo)域訓(xùn)練預(yù)測模型。借鑒AdaBoost的思想,Dai等[8]提出TrAdaBoost,通過提高有利于目標(biāo)分類任務(wù)的樣本權(quán)重、降低不利于目標(biāo)分類任務(wù)的樣本權(quán)重,為目標(biāo)域?qū)W習(xí)集成分類器。在實際場景中,基于樣本方法的源域和目標(biāo)域數(shù)據(jù)往往不重疊,而且某些特征只適用于源域,重新加權(quán)或采樣的樣本不能減少域間差異。為了解決這些問題,引入基于特征的遷移方法。

        1.2 基于特征的遷移

        基于特征的遷移將源域和目標(biāo)域的數(shù)據(jù)特征變換到統(tǒng)一的特征空間,然后使用變換后的數(shù)據(jù)在新的特征空間中訓(xùn)練目標(biāo)分類器。同時,需要將目標(biāo)域未見數(shù)據(jù)映射到新的特征空間,然后進(jìn)行預(yù)測。

        第一種方法是最小化域間差異,識別不會導(dǎo)致域間差異的隱特征,并用它們表示源域數(shù)據(jù),從而獲得新特征訓(xùn)練目標(biāo)分類器。如何學(xué)習(xí)域間隱特征十分重要,研究者們主要利用最大均值差異距離[9]最小化不同數(shù)據(jù)的分布差異,同時避免計算難和泛化難的問題。第二種方法是學(xué)習(xí)通用特征,從若干個源域的無標(biāo)簽數(shù)據(jù)學(xué)習(xí)通用的高級特征,用高級特征表示目標(biāo)域有標(biāo)簽數(shù)據(jù),然后利用這些有標(biāo)簽數(shù)據(jù)訓(xùn)練分類器。研究者們采用編碼器[10]來學(xué)習(xí)通用特征并增強(qiáng)這些特征的可解釋性。

        1.3 基于模型的遷移

        基于模型的遷移也稱基于參數(shù)的遷移,其假設(shè)源域與目標(biāo)域數(shù)據(jù)中存在一些可以共享的模型參數(shù),它的核心目標(biāo)是找到源域中哪部分有助于目標(biāo)域?qū)W習(xí)。

        第一種是基于共享模型成分的遷移。Williams等[11]提出利用高斯過程在不同任務(wù)間共享知識,依靠訓(xùn)練數(shù)據(jù)間的相似性,預(yù)測未見數(shù)據(jù)標(biāo)簽。第二是基于正則化的遷移。Yang等[12]提出的自適應(yīng)支持向量機(jī),成為后續(xù)研究的基礎(chǔ)。

        基于深度學(xué)習(xí)的遷移模型逐漸出現(xiàn),參數(shù)微調(diào)是一種簡單有效的模型參數(shù)的遷移方法。Long等[13]改進(jìn)了深度網(wǎng)絡(luò)結(jié)構(gòu),通過在網(wǎng)絡(luò)中加入概率分布適配層,進(jìn)一步提高了深度遷移學(xué)習(xí)網(wǎng)絡(luò)對于大數(shù)據(jù)的泛化能力。

        1.4 基于關(guān)系的遷移

        許多實際領(lǐng)域中存在樣本間的關(guān)系結(jié)構(gòu),基于關(guān)系的遷移要構(gòu)建源關(guān)系域和目標(biāo)關(guān)系域之間關(guān)系知識的映射,其假設(shè)源域和目標(biāo)域之間的關(guān)系具有共同的規(guī)律。Nickel等[14]借助馬爾科夫邏輯網(wǎng)絡(luò)來發(fā)現(xiàn)不同領(lǐng)域之間的關(guān)系相似性,從而進(jìn)行關(guān)系的遷移。

        表1對遷移學(xué)習(xí)不同方法的適用場景進(jìn)行了總結(jié)。

        表1 遷移學(xué)習(xí)方法的適用場景

        2 基于遷移學(xué)習(xí)的實體關(guān)系抽取

        遷移學(xué)習(xí)最初應(yīng)用在圖像領(lǐng)域,近些年被應(yīng)用到自然語言處理(natural language processing,NLP)領(lǐng)域且逐漸獲得了一些較好的成果。本節(jié)將主要總結(jié)遷移學(xué)習(xí)在實體抽取和關(guān)系抽取兩方面的研究進(jìn)展。

        遷移學(xué)習(xí)在NLP領(lǐng)域通常被稱為領(lǐng)域自適應(yīng)。因為神經(jīng)網(wǎng)絡(luò)是領(lǐng)域自適應(yīng)的基本模型,所以使用梯度下降法在源域和目標(biāo)域進(jìn)行模型優(yōu)化,然后進(jìn)行遷移是比較容易的。NLP中的遷移主要有兩種方法,分別是參數(shù)初始化和多任務(wù)學(xué)習(xí),在某些情況下可以混合使用,先在源域參數(shù)初始化進(jìn)行預(yù)訓(xùn)練,然后在源域和目標(biāo)域同時進(jìn)行多任務(wù)學(xué)習(xí)。其中參數(shù)初始化有兩種方式:參數(shù)凍結(jié)和參數(shù)微調(diào)。參數(shù)凍結(jié)是將源域訓(xùn)練的模型直接應(yīng)用到目標(biāo)域,不進(jìn)行任何修改;參數(shù)微調(diào)則將源域訓(xùn)練的模型部分層固定,目標(biāo)域?qū)W習(xí)剩余的層。當(dāng)目標(biāo)數(shù)據(jù)集規(guī)模遠(yuǎn)小于源數(shù)據(jù)集時,參數(shù)凍結(jié)更優(yōu)[15],反之微調(diào)方法更優(yōu)[16]。

        2.1 實體抽取

        Qu等[17]通過共享詞匯和上下文特征,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)源標(biāo)簽和目標(biāo)標(biāo)簽間的相關(guān)性,并對模型微調(diào)以學(xué)習(xí)目標(biāo)域特征的方式,在目標(biāo)域與源域標(biāo)簽不匹配的情況下,將在大型醫(yī)學(xué)源域訓(xùn)練的模型遷移至小型醫(yī)學(xué)目標(biāo)域。在強(qiáng)基線的基礎(chǔ)上,僅基于125個目標(biāo)域的訓(xùn)練句子,F(xiàn)1值提高了160%。Giorgi等[18]基于長短時記憶網(wǎng)絡(luò)(long short time memory,LSTM)+條件隨機(jī)場(conditional random fields,CRF),將在大型、嘈雜的數(shù)據(jù)集上訓(xùn)練的模型遷移到很小但由人工標(biāo)注的數(shù)據(jù)集上,實體識別的錯誤平均減少約11%,且F1值有效提升,顯著改善了生物醫(yī)學(xué)實體抽取的最新結(jié)果,也證明了遷移學(xué)習(xí)對具有少量標(biāo)簽(約6 000或更少)的目標(biāo)數(shù)據(jù)集是非常有效的。電子健康記錄大多以非結(jié)構(gòu)化形式存在,對其進(jìn)行實體抽取是NLP解決的典型問題之一。為了保護(hù)患者信息,相關(guān)機(jī)構(gòu)在與研究者們共享信息前會去掉不同類型的個人信息,如姓名、地址和電話號碼,這對實體抽取任務(wù)來說會更加困難。Lee等[19]利用LSTM獲取字符特征,然后利用全連接網(wǎng)絡(luò)在大型源域訓(xùn)練模型,最后將其遷移到較小的目標(biāo)域,證明了對于標(biāo)簽數(shù)量較少的目標(biāo)域,遷移學(xué)習(xí)是有效的。電子健康記錄除了存在保密信息外,還存在格式錯誤的速記和非廣泛使用的首字母縮略詞,這使得實體識別難度更大,Gligic等[20]利用源域為目標(biāo)域中未標(biāo)注的電子健康記錄提供預(yù)訓(xùn)練詞嵌入表示,然后基于雙向長短時記憶網(wǎng)絡(luò)(bi-directional LSTM,BiLSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等模型進(jìn)行遷移學(xué)習(xí),在I2b2(2009)數(shù)據(jù)集上算法的F1值達(dá)到了94.7%。

        社交媒體上的用戶生成文本同樣存在數(shù)據(jù)缺失和語料少的問題。Von等[21]基于英文Twitter數(shù)據(jù),通過合并句子級特征和利用不同于Twitter數(shù)據(jù)標(biāo)簽的數(shù)據(jù),基于BiLSTM+CRF進(jìn)行遷移學(xué)習(xí)。對于中文實體抽取任務(wù),不僅只有很少的標(biāo)注數(shù)據(jù)可用,而且語料處理時比英文更復(fù)雜。為了緩解WeiboNER數(shù)據(jù)集規(guī)模小、標(biāo)注數(shù)據(jù)少的問題,Cao等[22]基于BiLSTM+CRF+對抗訓(xùn)練+自注意力機(jī)制進(jìn)行遷移,采用多任務(wù)學(xué)習(xí)的方式將新聞領(lǐng)域的模型遷移至社交媒體領(lǐng)域。其中對抗遷移學(xué)習(xí)充分利用任務(wù)共享邊界信息,自注意力機(jī)制捕獲兩個標(biāo)記之間的長距離依賴關(guān)系。在兩個公開數(shù)據(jù)集上的實驗結(jié)果表明該模型顯著優(yōu)于其他模型。

        近些年基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練語言表示模型快速發(fā)展,如ELMO、BERT等。預(yù)訓(xùn)練的本質(zhì)就是要進(jìn)行遷移學(xué)習(xí),對于實體任務(wù)來說,研究者們更傾向于利用源域獲得預(yù)訓(xùn)練嵌入,然后對其他深度學(xué)習(xí)模型微調(diào)進(jìn)行跨領(lǐng)域遷移。預(yù)訓(xùn)練模型的參數(shù)遷移使得模型訓(xùn)練更快,并且使用很少的訓(xùn)練樣本就能達(dá)到特定的效果。

        2.2 關(guān)系抽取

        遷移學(xué)習(xí)在關(guān)系抽取方面獲得了不少成果。因缺乏藥物—疾病關(guān)系的標(biāo)注數(shù)據(jù)集,張宏濤[23]分別利用基于樣本和特征組的方法進(jìn)行關(guān)系抽取?;跇颖镜姆椒ú捎肨rAdaboost算法,對樣本權(quán)重進(jìn)行學(xué)習(xí)調(diào)整;基于特征組的方法,在特征級別上對源域中有利于目標(biāo)域的多個特征進(jìn)行學(xué)習(xí)并調(diào)整權(quán)重。以上兩種方法在多個不同數(shù)據(jù)集上的召回率和F1值相較于基線均有很大提升;同時,基于特征組遷移比基于樣本遷移在召回率方面提升了10%以上,這是因為基于特征組遷移選取了較為通用的特征,不需要更多領(lǐng)域性的知識,所以通用性更強(qiáng)。在不同領(lǐng)域間進(jìn)行樣本遷移時,由于樣本差異,利用TrAdaboost算法容易出現(xiàn)負(fù)遷移。針對標(biāo)注語料不足而導(dǎo)致蛋白質(zhì)交互關(guān)系抽取性能較差的問題,李麗雙等[24]對TrAdaboost算法進(jìn)行了改進(jìn),通過調(diào)整源域已標(biāo)注數(shù)據(jù)集的樣本權(quán)重,使得模型學(xué)習(xí)有利于目標(biāo)域的樣本特征,得到了改進(jìn)算法DisTrAdaboost,并驗證了改進(jìn)算法的收斂速度和抽取效果明顯優(yōu)于TrAdaboost,且有效避免了負(fù)遷移。在公開數(shù)據(jù)集20newsgroups上的實驗結(jié)果也證明了DisTrAdaboost能更好地使用源域數(shù)據(jù)輔助模型訓(xùn)練,加速收斂。

        Di等[25]建立了領(lǐng)域感知的遷移方法,先提取目標(biāo)域詞匯特征,然后初始化實體關(guān)系的特征表示,再選取有利于目標(biāo)域的源域知識庫對實體關(guān)系表示進(jìn)行規(guī)范、細(xì)化與推斷,以DBpedia作為源域,Wiki-KBP和NYT作為目標(biāo)域,重新建立了新的知識庫,并優(yōu)于所有最先進(jìn)的基線。Jiang[26]利用源域有標(biāo)簽樣本向目標(biāo)域遷移,因域間關(guān)系類型不同,所以選擇共享模型權(quán)重在域間提取通用特征,然后再通過人工加以實體類型約束信息,學(xué)習(xí)目標(biāo)關(guān)系類型知識。在ACE2004數(shù)據(jù)集上的結(jié)果表明,將實體類型信息與自動選擇通用特征相結(jié)合,多任務(wù)遷移方法達(dá)到了最佳性能。于海濤[27]提出了一種基于BERT降噪的實體關(guān)系抽取模型:為了解決因遠(yuǎn)程監(jiān)督產(chǎn)生的噪聲問題,通過在外部語料訓(xùn)練BERT,然后將BERT遷移至目標(biāo)任務(wù)進(jìn)行微調(diào);在BERT輸出后添加位置增強(qiáng)卷積層處理實體位置信息,彌補(bǔ)預(yù)訓(xùn)練任務(wù)與關(guān)系抽取任務(wù)的語義鴻溝,獲取BERT的全局文本表示;同時改進(jìn)選擇性注意力(selective attention)機(jī)制,設(shè)計了時間衰減注意力機(jī)制,在訓(xùn)練的過程中按時間衰減機(jī)制避免低置信的樣本,達(dá)到降噪效果,提升了模型的精度,在NYT-10和GIDS公開數(shù)據(jù)集上表現(xiàn)出優(yōu)越的性能。

        近年來,大多數(shù)基于模型遷移的關(guān)系抽取都與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過在神經(jīng)網(wǎng)絡(luò)中加入領(lǐng)域適配層,然后聯(lián)合基于特征的遷移進(jìn)行訓(xùn)練。其中在基于特征遷移時,大都采用特征選擇法,從源域和目標(biāo)域中,利用樣本遷移估計數(shù)據(jù)分布,通過數(shù)據(jù)分布自適應(yīng)來選擇可共享的特征。在低資源條件下進(jìn)行跨領(lǐng)域遷移時,根據(jù)實際情況,可以一對一遷移,也可將多源域遷移至單一目標(biāo)域。

        2.3 常用數(shù)據(jù)集

        在實體和關(guān)系抽取研究中有一些常用數(shù)據(jù)集,表2對其中適合作為源領(lǐng)域的大型數(shù)據(jù)集進(jìn)行了匯總。

        表2 實體和關(guān)系抽取中的常用數(shù)據(jù)集

        2.4 遷移學(xué)習(xí)的主要問題及措施

        遷移學(xué)習(xí)的核心問題是找到兩個領(lǐng)域的相似性。但是如果兩個領(lǐng)域不相似或基本不相似,就會極大地影響遷移學(xué)習(xí)的效果,此種現(xiàn)象被稱為負(fù)遷移。產(chǎn)生負(fù)遷移的原因主要有兩點:首先是數(shù)據(jù)問題,源域和目標(biāo)域數(shù)據(jù)不相似;其次是方法問題,源域和目標(biāo)域數(shù)據(jù)相似,但是遷移方法不對。針對數(shù)據(jù)問題,Tan等[28]提出了傳遞遷移學(xué)習(xí),其目標(biāo)是在源域和目標(biāo)域共享較少樣本或特征的情況下,引入一個與源域和目標(biāo)域都相似的領(lǐng)域作為中間域,從而實現(xiàn)3個領(lǐng)域間知識的遷移。Tan等[29]又提出了遠(yuǎn)域遷移學(xué)習(xí),將其擴(kuò)展到了多個領(lǐng)域,且極大地提升了算法的精度。針對方法問題,需要利用合適的方式找到可遷移的部分,如DisTrAdaboost通過調(diào)整樣本權(quán)重有效地避免了負(fù)遷移。

        3 結(jié)束語

        在一般領(lǐng)域和醫(yī)學(xué)領(lǐng)域的實體關(guān)系抽取任務(wù)中,使用遷移學(xué)習(xí)可以在一定程度上有效緩解標(biāo)注語料不足的問題,但仍需研究者們在更多領(lǐng)域進(jìn)行不斷探索。通過對現(xiàn)有研究工作的探討與總結(jié),未來可從以下幾方面展開研究:

        1)深度遷移學(xué)習(xí)。利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移越來越受到研究者的關(guān)注。深度遷移學(xué)習(xí)[30]分為4類:基于實例、基于映射、基于網(wǎng)絡(luò)和基于對抗的深度遷移。目前的研究主要集中在有監(jiān)督學(xué)習(xí)上,如何利用深度神經(jīng)網(wǎng)絡(luò)在無監(jiān)督或半監(jiān)督學(xué)習(xí)中進(jìn)行知識傳遞,將成為今后研究的熱點。

        2)強(qiáng)化遷移學(xué)習(xí)。Taylor和Stone[31]定義了強(qiáng)化遷移學(xué)習(xí)的問題,并將強(qiáng)化遷移學(xué)習(xí)分為3類:從單一源任務(wù)到目標(biāo)任務(wù)的固定域遷移、跨多個源任務(wù)到目標(biāo)任務(wù)的固定域遷移、源任務(wù)和目標(biāo)任務(wù)不同域遷移。強(qiáng)化遷移學(xué)習(xí)已經(jīng)在圖像翻譯[32]、知識圖譜[33]等領(lǐng)域中獲得較大成果,如何將強(qiáng)化遷移學(xué)習(xí)更好地應(yīng)用在實體關(guān)系抽取任務(wù)中,還需要進(jìn)行更深入的研究。

        猜你喜歡
        源域實體標(biāo)簽
        多源域適應(yīng)方法綜述
        基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
        振興實體經(jīng)濟(jì)地方如何“釘釘子”
        標(biāo)簽化傷害了誰
        可遷移測度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
        精品淑女少妇av久久免费| 国产午夜福利小视频在线观看| 免费观看人妻av网站| 少妇粉嫩小泬喷水视频| 大伊香蕉在线精品视频75| 国产精品视频免费的| 亚洲国产女同在线观看| 人妻少妇被粗大爽.9797pw| 无码av免费一区二区三区| 视频在线观看一区二区三区| 国产三级一区二区三区在线观看 | 亚洲av无码国产精品色午夜字幕 | 三级黄片一区二区三区| 一区二区三区美女免费视频| 国产成人无码a区在线观看视频| 日本亚洲欧美在线观看| 国产一级一片内射视频在线| 嗯啊好爽高潮了在线观看| 久久夜色精品国产欧美乱| 国产免费看网站v片不遮挡| 日本熟女视频一区二区三区| 999zyz玖玖资源站永久| 人妻少妇被猛烈进入中文字幕| 国产成人cao在线| 成人男性视频在线观看| 中文字幕久久国产精品| 国产极品少妇一区二区| 中文无码一区二区不卡αv| 国产午夜视频免费观看| 久久综合五月天啪网亚洲精品| 亚洲综合av永久无码精品一区二区| 免费做爰猛烈吃奶摸视频在线观看| 国产精品香蕉网页在线播放| 精品国产中文字幕久久久| 挺进朋友人妻雪白的身体韩国电影| 亚洲熟妇色xxxxx欧美老妇| 亚洲一区二区三区1区2区| 国产在线无码不卡影视影院| 广东少妇大战黑人34厘米视频| 国产日韩午夜视频在线观看| 成人国产精品一区二区八戒网|