亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力遷移的跨語言關(guān)系抽取方法

        2022-01-01 00:00:00吳婧楊百龍田羅庚
        計算機應(yīng)用研究 2022年2期

        摘 要: "針對互聯(lián)網(wǎng)上日漸豐富的多語言文本和匱乏大規(guī)模標(biāo)注平行語料庫的問題, 為了從多語言的信息源挖掘語言間的關(guān)聯(lián)性與擴展知識圖譜,提出了基于注意力遷移的跨語言關(guān)系提取方法。首先針對語言間的實際平行語料情況,分類進行跨語言平行語料映射,并針對缺乏種子詞典的低資源語言對,提出神經(jīng)網(wǎng)絡(luò)翻譯模型獲取目標(biāo)語言數(shù)據(jù)集并保存多語言間的對應(yīng)注意力權(quán)重關(guān)系,然后利用BERT端對端的聯(lián)合抽取模型抽取訓(xùn)練數(shù)據(jù)實體關(guān)系特征,反向遷移語言間注意力權(quán)重關(guān)系,最后利用反向遷移的注意力進行增強的關(guān)系抽取。實驗表明,該模型的關(guān)系提取效果相比其他模型在準(zhǔn)確率和回歸上都有所提升,在缺乏雙語詞典情況下也表現(xiàn)出較好的性能。

        關(guān)鍵詞: "神經(jīng)機器翻譯; 關(guān)系提??; 無監(jiān)督; 注意力遷移; BERT預(yù)訓(xùn)練

        中圖分類號: "TP391.1 """文獻(xiàn)標(biāo)志碼: A

        文章編號: "1001-3695(2022)02-016-0417-07

        doi:10.19734/j.issn.1001-3695.2021.07.0317

        Cross language relationship extraction method based on attention transfer

        Wu Jing1, Yang Bailong1, Tian Luogeng1,2

        (1.Dept.of Information amp; Communication Engineering, Rocket Force University of Engineering, Xi’an 710000, China; 2.Dept. of Information amp; Communication, National University of Defense Technology, Xi’an 710000, China)

        Abstract: "Aiming at the problem of increasingly rich multilingual texts and lack of large-scale labeled parallel corpora on the Internet,in order to mine the relevance between languages from multilingual information sources and expand the knowledge map,this paper proposed a cross language relationship extraction method based on attention transfer.Firstly,according to the actual parallel corpus between languages,it classified the cross language parallel corpus mapping,and for the low resource language pairs lacking seed dictionaries,it proposed a neural network translation model to obtain the target language data set and save the corresponding attention weight relationship between multiple languages,and then it extracted the entity relationship feature of training data by using BERT end-to-end joint extraction model.Finally,it used the reverse transferred attention to extract the enhanced relationship.Experiments show that the relationship extraction effect of this model is better than other models in accuracy and regression,and also shows better performance in the absence of bilingual dictionary.

        Key words: "neural machine translation; relation extraction; unsupervised; attention transfer; BERT pre-training

        近年來,隨著人工智能技術(shù)的飛速發(fā)展,旨在架構(gòu)化建設(shè)概念、實體及其關(guān)系的知識圖譜也發(fā)展迅猛,涉及知識圖譜的知識獲取、表示、建模、融合、推理、推薦等重要技術(shù)也得到了一定的解決和進步,知識圖譜給互聯(lián)網(wǎng)搜索引擎、個性化推薦等知識應(yīng)用的落地帶來了巨大影響。因此,構(gòu)建一個能夠處理多種語言文本并與開放網(wǎng)絡(luò)交互的知識庫,可以極大推動智能信息服務(wù)效能。為了從多語言多源頭的信息源中擴展知識圖譜,自動從多種語言的龐雜數(shù)據(jù)信息中獲取新的實體及其之間的關(guān)系已成為知識圖譜的新興研究方向??缯Z言關(guān)系抽取有利于獲取隱藏在各種語言數(shù)據(jù)中的多樣信息,通過語言間關(guān)系模式的一致性和互助性來獲得更好的關(guān)系抽取結(jié)果??缯Z言訓(xùn)練通過從源語言中對語言文本進行采樣,隨后將當(dāng)前文本通過翻譯模型轉(zhuǎn)換成目標(biāo)語言,使用翻譯句子和源語言句子作為訓(xùn)練對進行訓(xùn)練。跨語言訓(xùn)練可以進一步利用語言間關(guān)系模式的一致性來有效剔除與關(guān)系相關(guān)性較低的實例,集中于信息豐富的實例。在上述背景下,本文將無監(jiān)督語言翻譯與跨語言關(guān)系提取任務(wù)相結(jié)合,提出一種無監(jiān)督情況下基于神經(jīng)網(wǎng)絡(luò)雙向翻譯模型的跨語言關(guān)系抽取方法,并將其應(yīng)用于多語言、跨語系及低資源語言等多種跨語言任務(wù),從而檢驗其對于提升目標(biāo)語言的關(guān)系提取效果。

        1 背景

        1.1 基于深度學(xué)習(xí)的實體關(guān)系抽取研究

        關(guān)系抽取的核心是設(shè)計準(zhǔn)確有效的特征,而基于機器算法的模型擬合能力十分有限,難以取得令人滿意的結(jié)果。而深度學(xué)習(xí)技術(shù)的應(yīng)用使得神經(jīng)關(guān)系提取模型得到了廣泛的關(guān)注與研究。依據(jù)標(biāo)注數(shù)據(jù)的量級,可將研究方向分為有監(jiān)督和遠(yuǎn)程監(jiān)督。有監(jiān)督的神經(jīng)關(guān)系抽取模型的研究主要集中在引入各種神經(jīng)網(wǎng)絡(luò)以從文本中提取語義特征并對關(guān)系進行分類。受圖像識別任務(wù)中各種卷積神經(jīng)網(wǎng)絡(luò)的啟示,卷積神經(jīng)網(wǎng)絡(luò)首先被用于關(guān)系抽取,并被擴展到諸多變種模型中。Zeng等人[1]最早利用卷積深層神經(jīng)網(wǎng)絡(luò)在詞段和語句級別提取特征,從而進行關(guān)系分類。Nguyen等人[2]在前者的基礎(chǔ)上利用過濾器的多窗口大小和預(yù)先訓(xùn)練的單詞嵌入作為非靜態(tài)架構(gòu)的初始化器來提高性能。之后,為了更好地建模自然語言的序列性特征,遞歸神經(jīng)網(wǎng)絡(luò)被引入,文獻(xiàn)[3]提出一種采用遞歸網(wǎng)絡(luò)的方法,通過將雙向樹狀結(jié)構(gòu)的長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)在雙向序列神經(jīng)網(wǎng)絡(luò)上的疊加來獲得單詞序列和依賴樹子結(jié)構(gòu)信息。Cai等人[4]的BRCNN模型深入探討了如何將卷積神經(jīng)網(wǎng)絡(luò)和具有長短期記憶塊的多路徑遞歸神經(jīng)網(wǎng)絡(luò)組合,利用為包設(shè)計的穩(wěn)定依存原則,很好獲得了上下文的依存關(guān)系信息。盡管有監(jiān)督的關(guān)系抽取模型取得了可觀的效果,但面對大規(guī)模數(shù)據(jù)的關(guān)系抽取,有監(jiān)督的方法很難支撐龐大的工程項目落地應(yīng)用。為了解決這個問題,Mintz等人[5]通過對齊知識圖譜中已有的世界知識和未經(jīng)標(biāo)注的自由文本來自動生成訓(xùn)練數(shù)據(jù),構(gòu)建出基于遠(yuǎn)程監(jiān)督的知識獲取系統(tǒng),從而使利用大規(guī)模數(shù)據(jù)訓(xùn)練出可用的抽取模型成為可能。近年來,研究者們在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上設(shè)計了多種方法和模型提升性能,Zeng[6]提出的分段卷積神經(jīng)網(wǎng)絡(luò)模型PCNN(piece-wise-CNN)在遠(yuǎn)程監(jiān)督的基礎(chǔ)上對按實體位置劃分的卷積表示段應(yīng)用分段最大池化。Jiang等人[7]的多實例多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)(multi-instance multi-label convolutional neural network,MIMLCNN)[7]進一步將其擴展到多標(biāo)簽學(xué)習(xí)中。Cai等人的BRCNN[4]模型、Qin等人[8]提出的對抗式學(xué)習(xí)框架——DSGAN,都增強了實體關(guān)系抽取的效果。

        1.2 跨語言的關(guān)系抽取

        跨語言關(guān)系抽取有利于獲取隱藏在各種語言數(shù)據(jù)中的多樣信息,通過語言間關(guān)系模式的一致性和互助性來獲得更好的關(guān)系抽取結(jié)果。多語言關(guān)系抽取一般通過文本編碼向量化訓(xùn)練、跨語言領(lǐng)域訓(xùn)練、對抗訓(xùn)練等步驟獲得最終模型。自編碼器通過將輸入信息作為學(xué)習(xí)目標(biāo),對輸入信息進行表征學(xué)習(xí)訓(xùn)練。跨語言領(lǐng)域訓(xùn)練通過從源語言中采樣的句子,使用當(dāng)前翻譯模型翻譯成目標(biāo)語言,使用翻譯句子和源句作為訓(xùn)練對進行訓(xùn)練。跨語言領(lǐng)域訓(xùn)練可以進一步利用語言間關(guān)系模式的一致性來有效剔除與關(guān)系相關(guān)性較低的實例,集中于信息豐富的實例。對抗訓(xùn)練可以有效增強神經(jīng)網(wǎng)絡(luò)的魯棒性,對混合一些微小擾動的樣本進行編/解碼還原出原始樣本內(nèi)容,經(jīng)過訓(xùn)練神經(jīng)網(wǎng)絡(luò)的樣本可以適應(yīng)噪聲干擾帶來的改變,從而使對抗樣本獲得抗干擾性。為了解決多語言中低資源語言的name tagging任務(wù),Huang等人[9]提出了一套多層次對抗訓(xùn)練的學(xué)習(xí)框架。單詞層級上,在源語言上應(yīng)用投影函數(shù)以及鑒別器生成目標(biāo)—源語言的語義共享空間;在語句層面上,訓(xùn)練序列編碼器和鑒別器來區(qū)分每個句子的目標(biāo)語言與源語言,兩種層級的對抗訓(xùn)練有效將注釋資源從源語言轉(zhuǎn)移到目標(biāo)語言。

        在國內(nèi)研究方面,我國的跨語言自然語言處理任務(wù)還與國際有著一定差距。田明杰等人[10]于2018年提出帶標(biāo)簽雙語主題模型,即利用科技文獻(xiàn)、新聞報道中的多標(biāo)簽信息與LDA(latent Dirichlet allocation)詞袋主題模型挖掘多個文檔的共同主題,發(fā)現(xiàn)文檔間關(guān)聯(lián)性與相關(guān)性,最終實現(xiàn)對新文檔的主題分類與標(biāo)簽推薦。2021年楊威亞等人[11]針對漢越跨語言話題發(fā)現(xiàn)任務(wù)缺乏平行語料,雙語詞嵌入訓(xùn)練困難的問題,提出通過訓(xùn)練主題分布的向量表示對齊的映射矩陣建立雙語聯(lián)系。根據(jù)新聞主題的相似性對雙語新聞進行文本聚類,分析獲得新聞話題。張磊等人[12]針對相同的問題,提出基于事件類型感知的漢越跨語言事件檢測方法。通過基于事件類型感知的特征提取網(wǎng)絡(luò)學(xué)習(xí)候選事件類型等與語言無關(guān)而與事件相關(guān)的特征信息提升跨語言事件檢測性能。國內(nèi)的跨語言文本處理主要集中在兩個方向,從平行語料中獲得雙語相關(guān)聯(lián)系或引入與下游任務(wù)相關(guān)的特征信息強化文本處理性能。前者需要大量標(biāo)注數(shù)據(jù),后者則適合特定下游工作任務(wù),如新聞主題分類、事件檢測等,而無法推廣到通用任務(wù)中。此外,楊威亞等人[11]也承認(rèn)跨語言方法與單語文本處理方法效果仍存在差距。

        總的來說,目前的研究仍然較多地局限于單語言實體關(guān)系抽取,針對跨語言實體關(guān)系抽取的研究則大多采用機器翻譯獲得平行語料,研究者們?yōu)榱四軌蛟诜g后的實例中找到對應(yīng)實體的位置,提出基于混合匹配原則的實體對齊、啟發(fā)式的實體對齊等,但仍然無法避免實體對齊錯誤的問題,從而影響跨語言實體關(guān)系抽取模型的表現(xiàn)。本文嘗試在單語料文本數(shù)據(jù)缺少標(biāo)注的情況下,首先使用各自語種的單語種平行語料數(shù)據(jù)訓(xùn)練兩種語言之間的機器翻譯模型,通過翻譯模型將完成目標(biāo)語種的文本集到源語種的翻譯,輔助翻譯系統(tǒng)生成的目標(biāo)數(shù)據(jù)及其對應(yīng)的真實數(shù)據(jù)本作為跨語言關(guān)系提取的輸入數(shù)據(jù),通過反向翻譯模型深入挖掘雙語種間的特征聯(lián)系,最終通過將源語言的特征表示遷移給目標(biāo)語言進行關(guān)系抽取。本文將此方法應(yīng)用到多語言數(shù)據(jù)集為基礎(chǔ)的跨語言關(guān)系抽取任務(wù)上,并進一步探究模型的各個模塊變化對關(guān)系抽取效果的影響。

        2 關(guān)系抽取模型

        跨語言關(guān)系提取早期使用大量標(biāo)注的平行語料,通過手工設(shè)定的特征模板對文本語句關(guān)系進行分類。盡管多語言特征下實現(xiàn)知識提取結(jié)果比單一語種更精確,但人工標(biāo)注平行語料的稀缺,導(dǎo)致很多問題難以解決:如何利用多種語言語料在相同任務(wù)中抽取特征來提升單一語言處理性能;如何解決跨語種語言的問題,提升遠(yuǎn)距離語言對和低資源語言的模型處理性能。

        針對上述研究問題,本文提出基于注意力遷移的跨語言關(guān)系抽取模型。該模型結(jié)構(gòu)由兩部分組成,即跨語言平行語料映射模塊(language parallel corpus mapping module,LPCMM)和基于注意力遷移的關(guān)系提取模塊(relationship extraction based on attention transfer,REAT)。如圖1所示,該方法通過翻譯模型獲取語言對的翻譯語料,并保存多語言間的對應(yīng)注意力權(quán)重關(guān)系,然后利用預(yù)訓(xùn)練BERT關(guān)系提取模塊抽取源語言實體關(guān)系特征,最后將多語言間注意力權(quán)重關(guān)系反向遷移并對目標(biāo)語言數(shù)據(jù)進行實體關(guān)系抽取,從而提高目標(biāo)語言文本關(guān)系提取準(zhǔn)確性,并將其應(yīng)用于多語言、跨語系及低資源語言等多種跨語言任務(wù),從而檢驗其對于提升目標(biāo)語言的關(guān)系提取效果。

        2.1 跨語言平行語料映射模塊

        在平行語料映射前先進行單語言語句編碼預(yù)處理,首先將兩種語料的單語語言對合并。然后,對于合并的單語數(shù)據(jù),將mosesdecoder作為統(tǒng)計機器翻譯工具進行數(shù)據(jù)預(yù)處理,對標(biāo)點符號、句子長度進行規(guī)范化,避免長句與空語句引起合并過程中雙語料不對齊的問題。之后將moses處理好的數(shù)據(jù)輸入到BPE(Byte pair encoder,字節(jié)對編碼)算法[13]進行分詞預(yù)處理,BPE算法先將訓(xùn)練語料分解為一個一個的字符,然后按照訓(xùn)練得到的字符對來合并,并對字符對的結(jié)果按照出現(xiàn)頻次進行排序,最后將字符串里頻次的一對字符被一個沒有在這個字符中出現(xiàn)的字符代替。解碼器將編碼器輸出作為輸入,通過加權(quán)輸出值,獲取最終的隱藏狀態(tài)以及編碼器原始輸入。這樣做有兩個好處:一是盡量減少單詞的個數(shù),可以在后續(xù)的翻譯步驟中減少生詞的出現(xiàn)次數(shù);二是更好地形成跨語言信息,因為詞表內(nèi)部已經(jīng)有大量的共同單詞。

        2.1.1 雙語詞典翻譯

        對于擁有成熟雙語詞典的源語言和目標(biāo)語言,可以直接通過雙語詞典將源語言翻譯獲得帶有標(biāo)簽的偽目標(biāo)語言數(shù)據(jù)集,并通過雙語詞典的多次迭代翻譯獲得兩種語言間的對稱語言對,并保留包含語言間對應(yīng)關(guān)系的注意力權(quán)重。

        L=E[- log "P(y|u*(y))+E[- log "P(x|v*(x))] ""(1)

        其中: u*(y) 為目標(biāo)語句通過反向翻譯獲得的偽源語言語料; v*(x) 是由源語言獲得的偽目標(biāo)語言語料。

        2.1.2 種子詞典擴展翻譯

        對于低資源語言,無法獲取雙語詞典的情況下,可以通過種子詞典進行擴展翻譯。首先通過種子詞典學(xué)習(xí)源語言和目標(biāo)語言詞向量的正交矩陣 W ,并對兩種語言的詞向量進行跨語言詞嵌入映射,并將詞向量映射到共同的語義空間。設(shè)種子詞典為D={ s "i, t "j}, s "i是源語言的第i個詞向量, s "i 為目標(biāo)語言對應(yīng)的詞向量,通過詞典規(guī)約(lexicon induction)[14]得到目標(biāo)詞向量與源詞向量的高維度上的相似度為

        r T(w t "i)= 1 K ∑ y t∈N T(w t "i) "cos (W t "i, s "j) ""(2)

        其中: N T(w t "i)是指w t "i 在目標(biāo)語言的詞向量中的 k 個最近鄰; N S(w s "j)是指y中源語言詞向量中的k個最近鄰居,其中 cos是余弦函數(shù),用于計算兩高維度向量的夾角, r 函數(shù)是一個懲罰項目,其值是所有最近鄰的平均余弦相似度。然后通過CSLS(相似度局部收縮)得到更多更準(zhǔn)確的翻譯詞對。

        CSLS( w t "i, s "j)=2 cos (w t "i, s "j)-r T(w t "i)-r S(w s "j) nbsp;"(3)

        2.1.3 無詞典擴展法

        對于連種子詞典都難以獲得的低資源語言對,使用可得到的有限的平行語料對,構(gòu)建神經(jīng)網(wǎng)絡(luò)翻譯模型。

        翻譯模型由編碼器和解碼器組成,分別對應(yīng)于將源語言語句和目標(biāo)語言語句編碼到隱空間,從隱空間中解碼出源語句和目標(biāo)語句。圖2為語言模型的架構(gòu)。

        右邊的語言A(源語言)解碼器和語言B(目標(biāo)語言)解碼器分別為兩個語言的語料庫語言模型。左邊的共享編碼器是兩個語料庫公用的編碼器,并且它的輸入是經(jīng)過預(yù)處理的跨語言詞嵌入。系統(tǒng)對語言A的語句迭代地進行訓(xùn)練,包括去噪和反向翻譯。在去噪過程中,它通過降噪自編碼對含有微小干擾的語料進行編碼和解碼重構(gòu)的優(yōu)化;反向翻譯過程中,通過目標(biāo)語言句子的反向翻譯來擴充并行訓(xùn)練語料庫,然后將合成的偽平行語料添加到真實的雙語語料中,通過兩種語言的互翻譯迭代訓(xùn)練,構(gòu)架出神經(jīng)網(wǎng)絡(luò)雙向翻譯模型。訓(xùn)練在源—目標(biāo)解碼器間交替進行,后者的步驟類似。在T-S翻譯模型中,訓(xùn)練自編碼器的時候如果不疊加一些干擾噪聲等影響條件,自編碼器會簡單粗暴地把原始信息作為解碼輸出,這個過程并不能學(xué)習(xí)獲知原始信息中的特征信息。為解決這個問題,本文參考去噪自編碼器[15]的思想將噪聲添加到原始語料中,設(shè)定目標(biāo)函數(shù)為

        Llm=E x~S[- log "P s→s(x|C(x))]+E y~T[- log "P t→t(y|C(y))] """(4)

        其中: x 是采樣于單語種A的語料表示; y 是采樣于單語種B的語料表示; C(x)是句子x 經(jīng)過隨機抽樣噪聲處理過的句子。通過向輸入句子添加不同類型的噪聲,使得輸入句子的每個單詞以一定概率 q 被丟棄掉, P s→s(x|C(x))指代C(x) 在源語言端運行的降噪自編碼的重建結(jié)果。

        最后將經(jīng)過預(yù)處理的語言輸入LaBSE(language-agnostic BERT sentence embedding,語言不可知論BERT句子嵌入)[16]模型,LaBSE將屏蔽語言模型和翻譯語言模型的預(yù)訓(xùn)練與使用雙向雙重編碼器的翻譯排名任務(wù)結(jié)合在一起,將雙編碼器翻譯排序模型的性能提升到雙文本挖掘的水平,對兩種語言預(yù)訓(xùn)練好的單語詞向量模型進行跨語言詞嵌入映射,并將詞向量映射到共同的語義空間,以詞的翻譯形式進行翻譯模型的初始化。

        LPCMM模塊對源語言數(shù)據(jù)集翻譯得到目標(biāo)語言數(shù)據(jù)集??紤]到雙語詞典翻譯后的實體對齊率較差,因此本文采取種子詞典擴展翻譯和無詞典擴展法獲取平行語料的詞向量。

        2.2 基于注意力遷移的關(guān)系提取增強

        在基于注意力遷移的關(guān)系提取增強模塊中,首先利用BERT預(yù)訓(xùn)練模型學(xué)習(xí)兩種語言實例的潛在特征表示,獲得源語言和目標(biāo)語言的關(guān)系分類,然后利用翻譯模型中學(xué)習(xí)到的兩種語言的語料關(guān)系表征的注意力權(quán)重,反向?qū)δ繕?biāo)語言的嵌入向量使用注意權(quán)重來獲取源單詞的傳遞信息,最后將源語言的語料序列與目標(biāo)語言的轉(zhuǎn)移模型知識組合進行關(guān)系分類預(yù)測。本模塊在輸入層輸入字符級詞向量,從而取得更細(xì)粒度的詞向量特征。圖3是預(yù)訓(xùn)練實體關(guān)系抽取模塊結(jié)構(gòu),模塊由實體抽取模塊和關(guān)系抽取模塊構(gòu)成。

        2.2.1 BERT關(guān)系抽取模塊

        該模塊與BERT預(yù)訓(xùn)練模型的差別在于,文本在通過BERT進行特征學(xué)習(xí)后接一個FFNN層,而非CRF層。

        對于輸入 N 個詞的句子序列 s={w 1,w 2,…,w N} ,經(jīng)過BERT層進行特征抽取后輸出一個向量序列 x (NER) 1, x (NER) 2,…, x (NER) N ,然后輸入FFNN層進行分類。

        s(NER) i =FFNN NER( x (NER) i) ""(5)

        輸出向量的維度為基于BIOES的訓(xùn)練數(shù)據(jù)標(biāo)注數(shù) |C(NER)| , 標(biāo)注意義為:B-為實體跨度的開始;

        I-為實體跨度的內(nèi)部;

        E-為實體跨度的結(jié)束;

        S-為用于任何單個實體;

        O-為所有字符。

        關(guān)系抽取的模塊輸入可以分為實體抽取信息以及BERT編碼信息兩個部分。前者首先通過實體抽取模塊獲得詞源的BIOES實體類別信息 s(NER) 1,s(NER) 2,…,s(NER) N ,在嵌入層編碼為向量組 e (NER) 1, e (NER) 2,…, e (NER) N 。然后將向量與對應(yīng)的BERT編碼向量拼接作為輸入,如式(6)所示。

        x (RE) i= x (NRE) i‖ e (NRE) i ""(6)

        該輸入并行通過兩個FFN層——FFN-head和FFN-tail層,獲得上下文的兩個向量。

        h (head) i =FFNN head( x (RE) i)

        h (tail) i =FFNN tail( x (RE) i) ""(7)

        將雙向量通過 Biaffine分類器[17],預(yù)測得到屬于上下文實體間關(guān)系的所屬關(guān)系類。

        s(RE) j,k =Biaffine( h (head) j, h (tail) k) "Biaffine (x 1,x 2)=x T 1∪ x 2+W(x 1‖x 2)+b ""(8)

        U維度為 m×|C(RE)|×m ,W為 |C(RE)|×2m。m 是上下文雙向量的維度, C(RE) 是實體應(yīng)屬關(guān)系類別的數(shù)量, s(RE) j,k 表示模型預(yù)測樣本屬于某關(guān)系的得分。

        實體識別模塊在訓(xùn)練過程中,通過softmax函數(shù)對NER目標(biāo)計算交叉熵?fù)p失獲得NER的損失函數(shù):

        L NER=-∑ N n=1 "log( e s(NER) n ∑C(NER) c e s(NER) n,c ) ""(9)

        其中: s(NER) n 表示第 n 個詞屬于正確類別的得分; s(NER) n,c 表示第 n 個詞屬于類別 c∈C(NER) 的得分。關(guān)系抽取模塊的損失函數(shù)為

        L RE=-∑ R r=1 "log( e s(RE) r ∑C(RE) c e s(RE) r ) ""(10)

        其中: s(RE) r 是模型預(yù)測的樣本中所含關(guān)系的預(yù)測得分;即 c∈C(RE) (標(biāo)簽所含的關(guān)系類別)。由于NER和RE模型需要共同優(yōu)化,所以總損失函數(shù)為

        L=L NER+λL RE ""(11)

        其中:參數(shù) λ 在訓(xùn)練中從0遞增到1,通過漸進改變 λ 的值使NER模型獲得更好的效果。

        2.2.2 反向注意力遷移

        神經(jīng)網(wǎng)絡(luò)翻譯模型通過給編碼器—解碼器定義合適的注意力,將不同語言環(huán)境中的語料關(guān)系表征對應(yīng)起來。利用這種對應(yīng)關(guān)系的可轉(zhuǎn)換性,反向注意力遷移通過強迫目標(biāo)語言B反向模仿源語言A的注意力,極大地提升了源語言A的性能[18]。

        低資源語言中的句子被用做模型的輸入。給定源語言的輸入句子 s={s 1,s 2,…,s n} ,翻譯模型將語句 s 翻譯成目標(biāo)語言的句子 t={t 1,t 2,…,t n} ,由于翻譯器中解碼器層的注意力權(quán)重可以用于回顧序列模型的過去狀態(tài),設(shè) i 層解碼器的注意力權(quán)重為 A i={a i1,a i2,…,a in} ,且 A i∈"Euclid Math TwoRAp

        n×m ,所有 L 層解碼器層的關(guān)注層權(quán)重的平均值為

        F sum(A)=∑ L i=1 |A i| ""(12)

        為了探索不同關(guān)注層對于變換矩陣的性能,保存了第一個關(guān)注層和最后一個關(guān)注層的權(quán)重 A 1 和 A L 。之后,使用預(yù)訓(xùn)練NER模塊(BERT-RE)對目標(biāo)語言的句子 t i 進行關(guān)系預(yù)測,得到

        t i=[t(NER) (i,j);t(RE) (i,j),(i,k);t(NER) (i,k)] ""(13)

        其中: t(NER) (i,j) 和 t(NER) (i,k) 分別表示句子 t i 中提取的第 j 和第 k 個實體; t(RE) (i,j),(i,k) 表示兩個實體間關(guān)系預(yù)測得分。 t i 中翻譯句子的語義和特定任務(wù)信息。預(yù)訓(xùn)練模型抽取包含的特征為

        Tk=(tk 1,tk 2,…,tk n) ""(14)

        其中: Tk∈"Euclid Math TwoRAp

        d×n,d為預(yù)訓(xùn)練模型特征維度。源語言輸入語句s i在目標(biāo)語言環(huán)境下的特征 f l i 為

        f l i=Tk×al i ""(15)

        注意權(quán)重矩陣的第 j行A j=(A j1,…,A jm) 表示源單詞 j 與目標(biāo)句子 t 中所有單詞之間的相關(guān)性。此后,通過反向使用注意權(quán)重來獲取源單詞的傳遞信息。

        Fl=TkA j ""(16)

        其中: Tk 表示在實體關(guān)系提取模型中目標(biāo)語料的全部輸出,并且 A∈"Euclid Math TwoRAp

        m×n,A j∈"Euclid Math TwoRAp

        1×n,TK∈"Euclid Math TwoRAp

        n×d,F(xiàn)l 表示源語言A的轉(zhuǎn)移模型知識,遷移特征 Fl={fl 1,fl 2,…,fl n} ,列向量 f l i 可以與源語言A的語料單詞相互對應(yīng)。在注意力遷移中,給定源網(wǎng)絡(luò)的層級權(quán)重,訓(xùn)練目標(biāo)不僅是獲得一個可以進行更準(zhǔn)確的實體關(guān)系提取,同時也要有和源網(wǎng)絡(luò)相似的特征深度。可以選擇通過降低遷移損失控制差值到目標(biāo)要求范圍內(nèi),定義遷移損失為

        L AT =CE (Tk,x)+ β 2 ‖ Q B ‖Q B‖ 2 - Q A ‖Q A‖ 2 ‖ p Q A =vec( ∑ n i=1 "f l i),Q B =vec( ∑ n i=1 t i) "CE (Tk,x)= "- log (Tk) "if "x=1 - log (1-Tk) "otherwise """(17)

        其中: Q A 和 Q B 分別是矢量化形式的語言A和B的注意力權(quán)重; p 指范數(shù)類型(一般選擇 p=2 );CE (Tk,x) 表示交叉熵?fù)p失函數(shù), x 代表樣本標(biāo)簽數(shù)。可以看出,當(dāng)標(biāo)簽為1時, p 愈大(逼近1),則損失愈小;標(biāo)簽為0時, p 愈?。ū平?),則損失越小,符合優(yōu)化的方向。

        2.2.3 信息增強關(guān)系抽取模塊

        為了避免重復(fù)依賴元語料數(shù)據(jù)集的自我注意力的信息干擾和部分領(lǐng)域小數(shù)據(jù)集的過擬合問題,本文模型包含BERT預(yù)訓(xùn)練多語言模型,由于BERT模型的大多參數(shù)都是預(yù)先訓(xùn)練過的,避免了大量冗余的重復(fù)訓(xùn)練工作,同時,為了解決多語言語料的不同粒度問題,對于遠(yuǎn)距離跨語系的語言,輸入向量為詞嵌入,避免字向量錯誤劃分的問題;對于近距離/同語系的語言,選擇更細(xì)粒度的字向量來提升準(zhǔn)確率。訓(xùn)練過程與預(yù)訓(xùn)練實體關(guān)系訓(xùn)練模塊保持一致,方便利用反向注意力遷移模塊輸出的遷移信息。與此前的信息抽取模型不同的是,由于遷移特征 Fl={fl 1,fl 2,…,fl n} ,列向量 f l i 可以與語言A的語料單詞相互對應(yīng),將語言A的語料序列 s i 與遷移自語言B的轉(zhuǎn)移模型知識 f i 組合作為模型輸入,輸入第 i 個句子的詞向量為

        r "i= ""s i "f l i """"(18)

        對于 N個詞的輸入序列q=[r 1,r 2,…,r n] ,經(jīng)過BERT輸出為向量序列[ y (NER) 1, y (NER) 2,…, y (NER) N] ,輸入FFNN層進行分類。

        q(NER) i =FFNN NER( y (NER) i) ""(19)

        將實體類別信息 [q(NER) 1,q(NER) 2,…,q(NER) N] 輸入embedding層獲得固定長度連續(xù)向量組[ c (NER) 1, c (NER) 2,…, c (NER) N] ,經(jīng)過BERT的輸出進行拼接。

        y (RE) i= y (NER) i‖ c (NER) i,

        m (head) i =FFNN head( w(RE) i), "m (tail) i =FFNN tail( w(RE) i) ""(20)

        將拼接后的輸出在Biaffine分類器[17]中進行關(guān)系分類:

        q(RE) j,k =Biaffine( m (head) j, m (tail) k) "Biaffine( y 1,y 2)=yT 1∪y 2+W(y 1‖y 2)+b ""(21)

        定義最終的loss函數(shù)為

        L=L NER+λL RE=

        -∑ N n=1 "log( e s(NER) n ∑C(NER) c e s(NER) n,c )+λ∑ R r=1 "log( e s(RE) r ∑C(RE) c e s(RE) r ) ""(22)

        參數(shù) λ 在訓(xùn)練的過程中從0逐漸增大到1。

        3 實驗設(shè)置

        本文在四個公共數(shù)據(jù)集上進行了實驗,以評價提出模型對NER任務(wù)的有效性。所有實驗都是使用11 GB內(nèi)存的GeForce RTX 2080Ti進行的。模型通過PyTorch架構(gòu)實現(xiàn),End to End-BERT-RE結(jié)構(gòu)以PyTorch Transformer庫中的bertbase模型為對照,對于八種語言的九個數(shù)據(jù)集分別釆用靜態(tài)詞向量與動態(tài)詞向量進行實驗,以觀察遷移信息對模型的影響。

        3.1 實驗數(shù)據(jù)

        本文考慮兩種跨語言關(guān)系抽取語言對:源語言為中文,目標(biāo)語言為中文;源語言為英文,目標(biāo)語言為中文。英文數(shù)據(jù)集選擇使用2016年WMT單語新聞爬取數(shù)據(jù)集[19]的可用句子。中文數(shù)據(jù)集選取自復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集[20],如表1所示。

        目標(biāo)語言:381 371 583 注:語料文本由Moses切詞器處理后進行詞例計數(shù)。中文文本在用默認(rèn)設(shè)置的Moses切詞器處理前,先用jieba切詞處理。

        3.2 標(biāo)注規(guī)范與評價指標(biāo)

        命名關(guān)系識別的評判標(biāo)準(zhǔn)為實體間關(guān)系的邊界是否正確,關(guān)系類型標(biāo)注是否正確,任何一項錯誤都判定為1。實驗評價指標(biāo)選取準(zhǔn)確率 Acc 、 精確率 P 、召回率 R 和綜合評價指標(biāo) F 1 值。

        準(zhǔn)確率 Acc 為正確分類的樣本數(shù)與測試數(shù)據(jù)集總樣本數(shù)之比。在正負(fù)樣本不均衡的情況下,不能只用準(zhǔn)確率作為評判指標(biāo)。

        Acc= T p+T n T p+T n+F p+F n """(23)

        其中: T p 為將正類準(zhǔn)確預(yù)測的樣本數(shù); T n 為將負(fù)樣本準(zhǔn)確預(yù)測; F p 為將負(fù)樣本錯誤預(yù)測為正類; F n 為將正樣本錯誤預(yù)測為負(fù)類。

        精確率 P 為將正類預(yù)測為正類占所有預(yù)測為正類的總樣本(分類后得到的樣本總數(shù))的比例。

        P= T p T p+F p """(24)

        召回率 R 為正確分類的正樣本占數(shù)據(jù)集中所有真正的正樣本總數(shù)的比例。

        R= T p T p+F n """(25)

        由于 Acc 和 R 的數(shù)值為[0,1),當(dāng)數(shù)值越大(接近1),意味著準(zhǔn)確率/召回率就越高。準(zhǔn)確率和召回率有時會出現(xiàn)相反的情況,為此,將 F 1 加入評判標(biāo)準(zhǔn),當(dāng) F 1 值更高說明實驗方法更為有效。 F 1 值定義如下:

        F 1= 2PR P+R """(26)

        3.3 參數(shù)設(shè)置

        雙語詞典翻譯選取開源LASER包[21]預(yù)訓(xùn)練大規(guī)模多語言句子嵌入,獲取中英文詞向量,設(shè)置詞向量維度為512維,其余方法的參數(shù)如表2所示。

        基于注意力遷移的關(guān)系提取模塊中,選擇BIOES的標(biāo)記規(guī)范,F(xiàn)FNN層的輸出和BERT模型的注意力層的嵌入維數(shù)為128,和的維數(shù)為512,NER模塊的FFNN層數(shù)為1層,關(guān)系提取模塊的FFNN層數(shù)為2層,優(yōu)化器選擇AdamW,設(shè)定梯度歸一化為1,衰減率為0.1。

        4 實驗結(jié)果與分析

        在實驗中,為了與當(dāng)前相關(guān)工作進行對比,選取四種深度學(xué)習(xí)方法進行比較,分別為BRCNN、PCNN、MNRE、TNMT+BERT。

        BRCNN[4]:基于最短依存路徑的深度學(xué)習(xí)關(guān)系分類模型,可以通過雙向結(jié)構(gòu)同時分別學(xué)習(xí)SDP的前向和后向的句子特征信息。

        PCNN[6]:將多實例學(xué)習(xí)合并到卷積神經(jīng)網(wǎng)絡(luò)進行自動學(xué)習(xí)特征的訓(xùn)練關(guān)系抽取模型。

        MNRE[22]:基于跨語言注意力機制使用多語言實例數(shù)據(jù)集進行關(guān)系抽取。

        TNMT+BERT:TNMT結(jié)合BERT預(yù)訓(xùn)練模型進行關(guān)系抽取,TNMT模型參考Artetxe等人[21]對于UNMT的超參數(shù)值。

        4.1 通過不同翻譯方法的中英語系實驗

        1)翻譯模型性能驗證

        為了驗證雙語詞典翻譯、種子詞典擴展翻譯和無詞典擴展法——基于神經(jīng)網(wǎng)絡(luò)的翻譯模型三種翻譯方法的性能,本文選取英文—中文平行語料庫進行測試,將中文翻譯為英文,并將獲得翻譯語句和英文語句進行比較,驗證實驗結(jié)果。

        雙語詞典為通過Google Translator將中文翻譯為英文;種子詞典擴展翻譯為通過英漢種子詞典Access數(shù)據(jù)庫進行翻譯學(xué)習(xí),然后對中文數(shù)據(jù)集進行翻譯;基于神經(jīng)網(wǎng)絡(luò)的翻譯模型在選取平行語料庫的部分?jǐn)?shù)據(jù)進行學(xué)習(xí),得到中英語的特征權(quán)重對應(yīng)矩陣后對其余數(shù)據(jù)進行翻譯實驗,訓(xùn)練實例數(shù)是翻譯模型訓(xùn)練實例數(shù)占全部翻譯庫總實例數(shù)的比例。

        圖4給出了三種翻譯方法在英文—中文平行數(shù)據(jù)庫上添加翻譯語料后的翻譯性能結(jié)果。從圖4可以看出:

        a) 隨著實訓(xùn)語料的增加,雙語詞典翻譯模型和種子詞典擴展翻譯模型雖然表現(xiàn)出一定的波動,但總體性能是穩(wěn)定的,雙語詞典翻譯模型是依賴訓(xùn)練好的雙語翻譯系統(tǒng)進行語言翻譯,并不涉及實訓(xùn)語料的影響,而種子詞典擴展翻譯模型也是通過單獨的翻譯詞典對雙語對應(yīng)矩陣進行學(xué)習(xí)訓(xùn)練,在進行翻譯任務(wù)前已經(jīng)訓(xùn)練完畢,實訓(xùn)語料的數(shù)量不能對它的性能產(chǎn)生反饋和影響。

        b) 基于神經(jīng)網(wǎng)絡(luò)的無詞典翻譯模型隨著實訓(xùn)語料的規(guī)模增加而獲得翻譯性能的增加,說明增大的雙語訓(xùn)練語料規(guī)模增加可以幫助翻譯模型獲得兩種語言間更多的對應(yīng)特征矩陣,同時,訓(xùn)練性能也可以對后續(xù)的翻譯任務(wù)產(chǎn)生反饋影響,幫助模型學(xué)習(xí)更多,甚至可以超越種子詞典擴展翻譯模型的性能,證明了本文提出的神經(jīng)網(wǎng)絡(luò)翻譯模型在缺少大規(guī)模詞典情況下的良好性能。

        2)結(jié)合翻譯模型的關(guān)系提取性能

        在結(jié)束上一部分的翻譯實驗后,將復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集作為關(guān)系提取驗證模型,設(shè)置關(guān)系抽取基準(zhǔn)模型為

        a)BDT+BERT(bilingual dictionary translation)。雙語詞典翻譯將中文文本翻譯為英文后,通過BERT關(guān)系抽取模型對翻譯英文文本進行關(guān)系提取。

        b)SDET+BERT(seed dictionary extended translation)。種子詞典擴展翻譯在通過英漢種子詞典Access數(shù)據(jù)庫進行翻譯學(xué)習(xí)訓(xùn)練后,對中文文本數(shù)據(jù)進行翻譯,同樣選取BERT關(guān)系抽取模型對翻譯文本進行關(guān)系抽取。

        c)TNMT+BERT。本文提出的基于注意力遷移的跨語言關(guān)系抽取方法通過雙語語料進行訓(xùn)練學(xué)習(xí)后,對中文文本進行翻譯和關(guān)系抽取。

        實驗結(jié)果如圖5所示。

        圖5給出了三種關(guān)系抽取方法在英文—中文平行數(shù)據(jù)庫上添加翻譯語料后的翻譯性能結(jié)果。從圖5可以看出:

        a)由于機器翻譯過程中會帶來一定的噪聲,所以盡管基于Google Translation翻譯系統(tǒng)的BDT翻譯模型表現(xiàn)出最好的翻譯性能,但在關(guān)系抽取中不斷的噪聲疊加導(dǎo)致最終的性能并不理想。

        b)基于種子詞典擴展翻譯的關(guān)系抽取模型由于在關(guān)系抽取模型中并沒有應(yīng)用上自身學(xué)習(xí)的特征矩陣等語言特征,最終的關(guān)系抽取成績最差。

        c)本文提出的跨語言關(guān)系抽取方法盡管在翻譯模型方面的性能并非最優(yōu)解,但由于上游和下游任務(wù)的良好銜接,將翻譯過程中學(xué)習(xí)到的潛在特征表示和語料關(guān)系表征的注意力權(quán)重對關(guān)系抽取進行增強,幫助關(guān)系抽取模型進行關(guān)系分類預(yù)測,最終獲得了最好的關(guān)系抽取成績。

        綜合圖4和5可以看出,本文所提翻譯模型可以很好地應(yīng)用在缺少大規(guī)模語料詞典的情況下,如不能連網(wǎng)的局域網(wǎng)內(nèi)平臺的多語言翻譯,是較好的工具。此外,結(jié)合翻譯模型的關(guān)系抽取方法也適用于多語言平臺對知識的獲取和文本處理,對于本文方法的具體性能將在下一節(jié)進行具體實驗討論。

        4.2 在中英語系上的實驗

        為了驗證本文提出關(guān)系抽取方法的有效性,對比單語系關(guān)系抽取的性能,第一組選擇以英文為源語言,中文為目標(biāo)語言。En和ZH分別代表英語和中文的單語料,MNRE與UNMT+BERT選取英語—中文雙語料作為平行語料庫進行訓(xùn)練,輸入的關(guān)系提取文本為2016年的WMT英文新聞數(shù)據(jù)集的句子。TMRA是transferred model reversed attention(遷移模型反向注意力),TMRA first、TMRA last和TMRA average分別表示反向注意力遷移模塊分別選擇翻譯模塊中第一層、最后一層以及關(guān)注層注意力權(quán)重的平均值 A 1、A L、 "進行遷移。實驗結(jié)果如表3所示。

        如表3所示,即使基準(zhǔn)模型中均未加入遷移信息,比起單一語言的關(guān)系抽取模型BRCNN和PCNN,采用多語言關(guān)系抽取的模型結(jié)果普遍得到了提升。基準(zhǔn)模型在加入注意力反向遷移模塊后,關(guān)系抽取結(jié)構(gòu)均得到了提升,TNMT+End2End BERT+ +En-Fr相比于基準(zhǔn)模型TNMT+End2End BERT+En-Fr,值提升了0.71%。此外,在基準(zhǔn)的基礎(chǔ)上選擇了和的方法分別提升了4.11%和2.72%,相比于目前最好的跨語言關(guān)系抽取模型MNRE,選取的方法提升了1.89%,說明本文方法在關(guān)系抽取方面取得了較好的效果。由此可以發(fā)現(xiàn),在WMT18的英語和法語數(shù)據(jù)集上,使用更高層級的關(guān)注層注意力權(quán)重,有助于提升模型效果,即在多語言翻譯模型內(nèi),多層編碼—解碼器網(wǎng)絡(luò)的結(jié)構(gòu)使得更高層的注意力矩陣可以獲得語言間更深意義的關(guān)聯(lián)關(guān)系。第二組選擇以中文為源語言,英文為目標(biāo)語言,實驗基準(zhǔn)模型與上個實驗保持一致,將聯(lián)合國平行語料庫英語—漢語的雙語平行語料輸入翻譯訓(xùn)練模型,將復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集作為關(guān)系抽取數(shù)據(jù)集進行抽取。

        表4展示了關(guān)系抽取方法在復(fù)旦大學(xué)中文文本上的結(jié)果,與表3比較,單語模型(BRCNN和PCNN)的 F 1 值差距不大。由于在跨語系關(guān)系抽取中,分屬于不同語系的遠(yuǎn)距離對并不存在大量的共享單詞,語句嵌入的對其效果較差,對關(guān)系抽取存在一定的影響,如MNRE模型,在跨語系中的表現(xiàn)( F 1 值)比同語系降低了2.28%,雖然本方法也出現(xiàn)了效果降低的問題,但相比于MNRE,采用神經(jīng)網(wǎng)絡(luò)翻譯模型的關(guān)系抽取方法(TNMT+End2End BERT)在 F 1 得分方面提升了0.69%,說明使用機器翻譯模型可以有效提升跨語系嵌入句子的關(guān)聯(lián)性。在加入反向注意力遷移后,結(jié)果得到進一步提升,在三種不同層級權(quán)重進行遷移的方法下,分別展現(xiàn)出0.37%、2.87%和1.41%的提升,其中TNMT+End3End BERT+TMRA last的關(guān)系抽取測試結(jié)果最好,分別是85.47%、84.92%和85.19%。

        4.3 模型結(jié)構(gòu)對實體關(guān)系抽取的影響

        4.3.1 不同attention層數(shù)對關(guān)系提取的影響

        從上面的實驗可以看出, 使用不同層級的注意力權(quán)重進行遷移會影響信息增強NER-RE模塊抽取信息的結(jié)果。本文實驗進一步分析不同關(guān)注層解碼器的注意力權(quán)重 A i 對結(jié)果的影響,選擇實驗1的語料數(shù)據(jù)(En-ZH),記錄不同層級的注意力權(quán)重 A 1,…,A 15 ,翻譯模型通過反向使用注意權(quán)重來獲取源單詞的傳遞信息 Fl=TkA i ,將語言A的語料序列 S 與遷移自語言B的轉(zhuǎn)移模型知識 Fl 組合作為模型輸入,得到實驗結(jié)果如圖6所示。

        圖6顯示了利用不同的關(guān)注層解碼器的注意力權(quán)重進行知識遷移,經(jīng)過信息增強NER-RE模塊獲得的不同 F 1 值,可以看到更高層數(shù)的注意力權(quán)重在信息傳遞中可以獲得語言之間更準(zhǔn)確的特征關(guān)系,得到更好的測試結(jié)果。在層級數(shù)量為10時,關(guān)系抽取性能達(dá)到最佳,在層數(shù)為更高層時,性能趨于穩(wěn)定,甚至隨著層數(shù)的增加,有小幅降低的趨勢??梢哉J(rèn)為,本文方法在較高的注意力層中可以從多語言學(xué)習(xí)中得到更深層次的上下文關(guān)聯(lián),獲得更精確的實體關(guān)系依賴分類,從而提升關(guān)系提取效果。

        4.3.2 訓(xùn)練集大小對關(guān)系抽取的影響

        本文實驗嘗試使用不同大小的雙語平行語料,探究平行語料訓(xùn)練集的數(shù)量對于關(guān)系提取的影響,設(shè)置訓(xùn)練語料為實驗1的不同占比(10%~100%),具體實驗結(jié)果如圖7所示。

        總體來看,隨著平行語料大小的增加, F 1 呈上升趨勢,模型在30%時(即源語言數(shù)量為127 668 872,目標(biāo)語言數(shù)量為114 411 474)獲得最好的關(guān)系提取效果。具體而言,在訓(xùn)練數(shù)據(jù)集逐漸從10%增長到30%時,模型表現(xiàn)顯著提升,但在數(shù)據(jù)集增大到40%時有一定下降,之后隨著數(shù)據(jù)集不斷增大, F 1 值增長緩慢。說明隨著雙語平行數(shù)據(jù)集的增長,盡管前期提升明顯,但一味擴充雙語語料對關(guān)系提取的性能增加意義不大。

        5 結(jié)束語

        本文旨在解決無對稱語料下的多語言關(guān)系抽取問題,通過利用神經(jīng)網(wǎng)絡(luò)翻譯模型獲得無監(jiān)督下的多語言對應(yīng)翻譯語料,BERT端對端的聯(lián)合抽取模型抽取訓(xùn)練數(shù)據(jù)實體關(guān)系特征,反向遷移語言間注意力權(quán)重關(guān)系,最后利用反向遷移的注意力進行增強的關(guān)系抽取。實驗表明,本文方法可以很好地提高無監(jiān)督情況下的關(guān)系識別能力,特別在跨語系語料中,表現(xiàn)出較強的魯棒性和關(guān)系提取能力。在英語→中文和中文→英語兩個關(guān)系抽取任務(wù)上的實驗結(jié)果表明,該模型在兩種跨語言關(guān)系抽取任務(wù)上的表現(xiàn)較好,兩個任務(wù)上MNRE模型的 F 1 值分別為84.78%和83.73%,這表明本文提出的跨語言實體關(guān)系抽取框架可以顯著提升低資源情境下的實體關(guān)系抽取。本文還研究了多層神經(jīng)網(wǎng)絡(luò)翻譯模型中注意力層數(shù)對關(guān)系抽取方法測試效果的影響,對于下一步改進實驗架構(gòu)有著很好的參考價值。研究結(jié)果對于改進跨語言情境下的關(guān)系抽取模型,促進實體關(guān)系抽取研究在情報學(xué)領(lǐng)域的應(yīng)用具有重要意義。

        在下一步工作中,希望可以考慮基于旋轉(zhuǎn)、多任務(wù)學(xué)習(xí)、持續(xù)培訓(xùn)、多語言模型或其他技術(shù)的方法,通過引入第三語言作為中轉(zhuǎn)語言來拉進遠(yuǎn)距離語言對的關(guān)系,同時研究跨語句關(guān)系抽取問題,將跨語言抽取問題從語句層面擴展到篇章層面。

        參考文獻(xiàn):

        [1] "Zeng Daojian,Liu Kang,Lai Siwei, et al .Relation classification via convolutional deep neural network[C]//Proc of the 25th International Conference on Computational Linguistics:Technical Papers.2014:2335-2344.

        [2] Nguyen T H,Grishman R.Relation extraction:perspective from convolutional neural networks[C]//Proc of the 1st Workshop on Vector Space Modeling for Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:39-48.

        [3] Miwa M,Bansal M.End-to-end relation extraction using LSTMS on sequences and tree structures[C]//Proc of the 54th Annual Meeting of the Association for Computational LinguisticsStroudsburg,PA:Association for Computational Linguistics,2016:1105-1116.

        [4] Cai Rui,Zhang Xiaodong,Wang Houfeng.Bidirectional recurrent convolutional neural network for relation classification[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2016:756-765.

        [5] Mintz M,Bills S,Snow R, et al .Distant supervision for relation extraction without labeled data[C]//Proc of Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP.2009:1003-1011.

        [6] Zeng Daojian,Liu Kang,Chen Yubo, et al .Distant supervision for relation extraction via piecewise convolutional neural networks[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:1753-1762.

        [7] Jiang Xiaotian,Wang Quan,Li Peng, et al .Relation extraction with multi-instance multi-label convolutional neural networks[C]//Proc of the 26th International Conference on Computational Linguistics:Technical Papers.2016:1471-1480.

        [8] Qin Pengda,Xu Weiran,Wang W Y, et al .DSGAN:generative adversarial training for distant supervision relation extraction[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:496-505.

        [9] Huang Lifu,Ji Heng,May J.Cross-lingual multi-level adversarial transfer to enhance low-resource name tagging[C]//Proc of Confe-rence of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:3823-3833.

        [10] 田明杰,崔榮一.面向跨語言文本分類與標(biāo)簽推薦的帶標(biāo)簽雙語主題模型的研究[J].計算機應(yīng)用研究,2019, 36 (10):2911-2915. (Tian Mingjie,Cui Rongyi.Research on tagged bilingual topic model for cross language text classification and label recommendation[J]. Application Research of Computers ,2019, 36 (10):2911-2915.)

        [11] 楊威亞,余正濤,高盛祥,等.基于跨語言神經(jīng)主題模型的漢越新聞話題發(fā)現(xiàn)方法[J].計算機應(yīng)用,2021, 41 (10):2879-2884. (Yang Weiya,Yu Zhengtao,Gao Shengxiang, et al .Chinese Vietna-mese news topic discovery method based on cross language neural topic model[J]. Journal of Computer Applications ,2021, 41 (10):2879-2884.)

        [12] 張磊,高盛祥,余正濤,等.類型感知的漢越跨語言事件檢測方法[J/OL].重慶郵電大學(xué)學(xué)報:自然科學(xué)版.[2021-07-20].http://kns.cnki.net/kcms/detail/50.1181.n.20210824.0913.002.html. (Zhang Lei,Gao Shengxiang,Yu Zhengtao, et al .Chinese Vietnamese cross language event detection method based on type perception[J/OL]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition .[2021-07-20].http://kns.cnki.net/kcms/detail/50.1181.n.20210824.0913.002.html.)

        [13] Kudo Ta.Subword regularization:improving neural network translation models with multiple subword candidates[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:66-75.

        [14] Irvine A,Callison-Burch C.A comprehensive analysis of bilingual lexicon induction[J]. Computational Linguistics ,2017, 43 (2):273-310.

        [15] Vincent P,Larochelle H,Lajoie I, et al .Stacked denoising autoenco-ders:learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research ,2010, 11 (12):3371-3408.

        [16] Feng Fangxiaoyu,Yang Yinfei,Cer D, et al .Language-agnostic BERT sentence embedding[EB/OL].(2020).https://arxiv.org/abs/2007.01852.

        [17] Dozat T,Manning C D.Deep biaffine attention for neural dependency parsing[EB/OL].(2016).https://arxiv.org/abs/1611.01734.

        [18] Sun Linghao,Yi Huixiong,Liu Huanhuan, et al .Back attention know-ledge transfer for low-resource named entity recognition[EB/OL].(2019).https://arxiv.org/abs/1906.01183.

        [19] Bojar O,Chatterjee R,F(xiàn)edermann R A, et al .Findings of the 2016 conference on machine translation[C]//Proc of the 1st Conference on Machine Translation.Stroudsburg,PA:Association for Computational Linguistics,2016:131-198.

        [20] "復(fù)旦大學(xué)計算機信息與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組.復(fù)旦大學(xué)中文文本分類語料庫[EB/OL].(2019).https://www.heywhale.com/mw/dataset/5d3a9c86cf76a600360edd04.(Natural language processing group of international database center,Department of computer information and technology,F(xiàn)udan University.Chinese text classification corpus of Fudan University[EB/OL].(2019). https://www.heywhale.com/mw/dataset/5d3a9c86cf76a600360edd04.)

        [21] Artetxe M,Schwenk H.Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond[J]. Trans of the Association for Computational Linguistics ,2019, 7 :597-610.

        [22] Lin Yankai,Liu Zhiyuan,Sun Maosong.Neural relation extraction with multi-lingual attention[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2017:34-43.

        [23] Gupta R,Besacier L,Dymetman M, et al .Character-based NMT with transformer[EB/OL].(2019).https://arxiv.org/abs/1911.04997.

        色青青女同性恋视频日本熟女| 国产我不卡在线观看免费| 日本高清在线一区二区三区 | 国产亚洲熟妇在线视频| 国产日产亚洲系列最新| 国产熟女内射oooo| a级大胆欧美人体大胆666| 亚洲国产成人va在线观看天堂 | 亚洲中字幕日产av片在线| 亚洲精品国产精品国自产| 亚洲国产av无码专区亚洲av| 亚洲色丰满少妇高潮18p| 国产激情з∠视频一区二区| 亚洲 国产 哟| 大陆啪啪福利视频| 亚洲国产国语对白在线观看| 久久伊人少妇熟女大香线蕉| 天天影视性色香欲综合网| 国产精品免费久久久免费| 少妇激情一区二区三区久久大香香| 自拍偷区亚洲综合第一页| 国产一区国产二区亚洲精品| 国模冰莲自慰肥美胞极品人体图| 亚洲国产精品综合久久网各| 熟妇人妻中文av无码| 精品国产av无码一道| 亚洲av午夜福利一区二区国产| 免费av片在线观看网址| 使劲快高潮了国语对白在线| 伊人网视频在线观看| 最新国产av网址大全| 亚洲精品中文字幕免费专区| 国产在线精品成人一区二区三区| 亚洲AV无码专区国产H小说| 日本熟妇精品一区二区三区| 一区二区三区日韩毛片| 上海熟女av黑人在线播放| 日本高清视频www| 91国在线啪精品一区| 国产人妖伦理视频在线观看| 高清偷自拍亚洲精品三区|