亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種針對(duì)維漢的跨語言遠(yuǎn)程監(jiān)督方法

        2023-02-20 09:39:30楊振宇王磊馬博楊雅婷董瑞艾孜麥提艾瓦尼爾王震
        計(jì)算機(jī)工程 2023年2期
        關(guān)鍵詞:維語三元組語料

        楊振宇,王磊,馬博,楊雅婷,董瑞,艾孜麥提·艾瓦尼爾,王震

        (1.中國(guó)科學(xué)院新疆理化技術(shù)研究所,烏魯木齊 830011;2.中國(guó)科學(xué)院大學(xué),北京 100049;3.新疆民族語音語言信息處理實(shí)驗(yàn)室,烏魯木齊 830011)

        0 概述

        關(guān)系抽取是自然語言處理領(lǐng)域的重要任務(wù),主要是以深度學(xué)習(xí)模型為主。但是基于深度學(xué)習(xí)模型的性能通常受到訓(xùn)練語料規(guī)模的限制,并且人工構(gòu)造語料的過程成本過高。語料匱乏是低資源語言在關(guān)系抽取領(lǐng)域沒有得到有效發(fā)展的重要原因。遠(yuǎn)程監(jiān)督方法正是為了解決語料稀缺問題而提出的。

        2009年,MINTZ等[1]將弱監(jiān)督方法引入到語料構(gòu)造中并提出了遠(yuǎn)程監(jiān)督方法,主要思想在于通過文字查找的方式將大量的無標(biāo)注語料與現(xiàn)有少量的已標(biāo)注語料進(jìn)行實(shí)體對(duì)齊并向無標(biāo)注語料遷移標(biāo)記,以達(dá)到快速擴(kuò)充語料的目的。遠(yuǎn)程監(jiān)督可以分為2 個(gè)步驟:通過實(shí)體文字查找的方式對(duì)齊語料并構(gòu)造偽標(biāo)注語料,以及利用有噪聲偽標(biāo)注語料訓(xùn)練性能較好的關(guān)系抽取模型。后續(xù)也有許多學(xué)者在這一領(lǐng)域做出了優(yōu)秀的工作。例如:ZENG等[2]將多示例學(xué)習(xí)引入到遠(yuǎn)程監(jiān)督方法中,把偽標(biāo)注語料分為幾個(gè)句包并讓句包作為新的數(shù)據(jù)單元,以減少偽標(biāo)注語料中的噪聲對(duì)模型訓(xùn)練的影響;LIN等[3]通過提出軟注意力機(jī)制有效提升了模型的性能?,F(xiàn)有絕大部份工作都是圍繞著如何利用有噪聲的偽標(biāo)注語料提升模型的性能。但是遠(yuǎn)程監(jiān)督的第一步仍有2 個(gè)缺陷:要求該語言已有部分標(biāo)注語料,以及實(shí)體查找的對(duì)齊方式只能在單語種的問題中實(shí)現(xiàn)。這導(dǎo)致像維吾爾語這樣缺乏標(biāo)注語料的語言無法使用該方法構(gòu)建語料。

        針對(duì)上述問題,本文提出一種針對(duì)維漢的跨語言遠(yuǎn)程監(jiān)督方法,在維語零語料的條件下利用已有的漢語標(biāo)注語料實(shí)現(xiàn)自動(dòng)擴(kuò)充。在關(guān)系抽取任務(wù)中,帶有同一實(shí)體對(duì)并且為同一關(guān)系的2 個(gè)句子在語義表示層面要比其他的句子更加相似。因此,本文提出使用語義相似度計(jì)算替換傳統(tǒng)遠(yuǎn)程監(jiān)督方法中的實(shí)體查找,使遠(yuǎn)程監(jiān)督可以脫離語種的限制實(shí)現(xiàn)跨語言本文對(duì)齊。首先借助維漢已有的平行語料構(gòu)造維漢相似度語料,用于訓(xùn)練維漢相似度模型;然后向模型分別輸入維漢句子對(duì),其中漢語是帶標(biāo)注的句子而維語是無標(biāo)注的句子。模型將2 個(gè)句子映射到同一語義向量空間,從句子語義和實(shí)體語義2 個(gè)層面綜合衡量雙語句子對(duì)是否包含同一三元組。當(dāng)結(jié)果的概率超出閾值時(shí),模型就認(rèn)為漢維2 個(gè)句子包含同一關(guān)系,將漢語句子的關(guān)系標(biāo)簽轉(zhuǎn)移到維語句子上以實(shí)現(xiàn)維語偽標(biāo)注語料的構(gòu)建。為了更有效地捕捉實(shí)體的上下文和隱藏語義信息,本文提出一種帶有門控單元的交互式語義匹配方法。在此方法中,融合層將編碼層和注意力層進(jìn)行拼接融合以最大限度地獲取句子中間信息。此過程中添加的遺忘門和輸入門這2 個(gè)門控單元用于保留最有用的信息使模型更好地判斷語料是否對(duì)齊。

        1 相關(guān)工作

        本文將文本相似度計(jì)算方法與遠(yuǎn)程監(jiān)督的思想相結(jié)合,使遠(yuǎn)程監(jiān)督可以跨語言地構(gòu)建偽標(biāo)注語料。

        1.1 遠(yuǎn)程監(jiān)督

        遠(yuǎn)程監(jiān)督一直受到自然語言處理領(lǐng)域?qū)W者的廣泛關(guān)注。多示例學(xué)習(xí)是遠(yuǎn)程監(jiān)督的一個(gè)主流方法,其基本思想在于將同一關(guān)系的所有句子放在一個(gè)句包中,并以句包作為數(shù)據(jù)單位進(jìn)行預(yù)測(cè)。HOFFMANN等[4]提出的多示例學(xué)習(xí)方法將每個(gè)句子分配關(guān)系數(shù)量的隱變量用于進(jìn)行錯(cuò)誤標(biāo)簽的預(yù)測(cè)。SURDEANU等[5]在HOFFMANN 方法的基礎(chǔ)上進(jìn)行了改進(jìn),通過計(jì)算句包與各個(gè)關(guān)系之間的相似度代替關(guān)系預(yù)測(cè),并使用貝葉斯模型對(duì)參數(shù)進(jìn)行學(xué)習(xí)。JAT等[6]在傳統(tǒng)的多實(shí)例學(xué)習(xí)基礎(chǔ)上添加了單詞級(jí)別的注意力,對(duì)句子中每個(gè)單詞分配權(quán)值,使模型可以利用更加細(xì)粒度的信息完成關(guān)系預(yù)測(cè)。YANG等[7]認(rèn)為實(shí)體和關(guān)系信息可以互相幫助,并提出了使用矩陣整合實(shí)體和關(guān)系信息的方法以提升模型的性能。YE等[8]改進(jìn)了JAT 的注意力方法,在單詞注意力的基礎(chǔ)上添加了句包之間的注意力機(jī)制,進(jìn)一步提升了模型的性能。除多示例學(xué)習(xí)外,對(duì)抗學(xué)習(xí)也是遠(yuǎn)程監(jiān)督的重要方法,其可將訓(xùn)練集中存在錯(cuò)誤標(biāo)記的句子進(jìn)行排除以提升模型的訓(xùn)練效果。WU等[9]將正確的數(shù)據(jù)樣本與對(duì)抗樣本同時(shí)輸入到模型進(jìn)行對(duì)抗訓(xùn)練,使模型可以辨別出正確樣本以減少語料的噪聲。LI等[10]在WU 等思想的基礎(chǔ)上通過實(shí)體鏈接技術(shù)引入外部知識(shí)幫助模型確定是否為正確的樣本。HAN等[11]則通過后處理的方式改善WU 等的方法,其將偽標(biāo)注語料分成了置信集和非置信集并將模型判斷置信度高的數(shù)據(jù)不斷補(bǔ)充到置信集中,直到2 個(gè)數(shù)據(jù)集都不發(fā)生變化為止。

        1.2 文本相似度計(jì)算

        文本相似度計(jì)算旨在脫離文本的表示形式并根據(jù)文本的語義特征來確定句子之間是否具有某種關(guān)系,是語言處理領(lǐng)域重要的基礎(chǔ)任務(wù)。有許多研究人員在這一領(lǐng)域取得了優(yōu)秀的成果。HUANG等[12]提出了深層結(jié)構(gòu)的潛在語義模型,將文本對(duì)投影到一個(gè)公共的低維空間中以計(jì)算它們之間的距離。SEVERYN等[13]將傳統(tǒng)相似度方法與深度學(xué)習(xí)模型相結(jié)合,把卷機(jī)神經(jīng)網(wǎng)絡(luò)引入到相似度計(jì)算中使模型可以更加準(zhǔn)確地獲得文本特征并對(duì)所有候選的文本對(duì)重新排序。YIN等[14]在SEVERYN 卷積網(wǎng)絡(luò)的基礎(chǔ)上添加了注意力機(jī)制,提出了將3 種注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行融合的方法,使注意力機(jī)制可以在不同的層面帶來不同的作用以提升模型的性能。WANG等[15]改變了之前大多數(shù)模型從單一的角度去匹配文本的方法,采用4 個(gè)角度進(jìn)行雙向匹配,并采用了matching-aggregation 的結(jié)構(gòu)對(duì)2 個(gè)句子之間的單元做相似度計(jì)算。CHEN等[16]基于鏈?zhǔn)絃STM 的推理模型改善了之前工作復(fù)雜的模型結(jié)構(gòu),利用遞歸架構(gòu)設(shè)計(jì)模型的邏輯順序以在局部推理建模和組合推理方面優(yōu)化模型。GONG等[17]對(duì)CHEN 等的工作進(jìn)行了改進(jìn),在模型的輸入層添加了字向量、詞向量以及多種額外特征以提升模型性能。KIM等[18]受到DenseNet網(wǎng)絡(luò)[19]的啟發(fā),在GONG 等工作的基礎(chǔ)上提出了一種密集連接的共同注意力遞歸網(wǎng)絡(luò),將每一層的注意力信息都進(jìn)行串聯(lián),使當(dāng)前注意力層都能遞歸地得到先前層的隱藏信息,并使用自編碼器緩解串聯(lián)過多導(dǎo)致的數(shù)據(jù)維度過大的問題。

        2 維漢跨語言遠(yuǎn)程監(jiān)督

        本文跨語言遠(yuǎn)程監(jiān)督方法的基本思想是從句子語義和實(shí)體語義2 個(gè)層面來衡量維漢句子對(duì)是否包含同一三元組,可以使維語語料在零資源情況下借助已標(biāo)注的漢語語料進(jìn)行自動(dòng)擴(kuò)充。句子語義層面的方法使用具有豐富知識(shí)的多語言預(yù)訓(xùn)練模型獲取句子的語義信息。在實(shí)體語義層面,本文提出了帶有門控機(jī)制的交互式匹配方法,可以控制迭代過程中信息的保留,并且更有效地獲取實(shí)體之間的隱藏信息。

        2.1 問題表述和模型概述

        下面給出遠(yuǎn)程監(jiān)督問題的形式化描述。給定一個(gè)已標(biāo)的語料庫(kù):G=(T1,R,T2),其中,T1表示語料中的頭實(shí)體集合,R表示實(shí)體之間的關(guān)系集合,T2表示語料中的尾實(shí)體集合。現(xiàn)有一個(gè)無標(biāo)記文本S和文本中的實(shí)體對(duì)h1、h2。若同時(shí)滿足h1∈T1、h2∈T2、(h1,r,h2)∈G,則認(rèn)為語料庫(kù)中的三元組(h1,r,h2)與無標(biāo)記文本S對(duì)齊,其中r∈R。

        在傳統(tǒng)的遠(yuǎn)程監(jiān)督方法中,主要是用實(shí)體文字查找的方式判斷條件h1∈T1和h2∈T2是否成立。這種判斷方法也導(dǎo)致遠(yuǎn)程監(jiān)督只能應(yīng)用于同一語種,而本文的方法使用文本相似度計(jì)算代替文字查找。圖1 顯示了本文跨語言遠(yuǎn)程監(jiān)督方法的整體框架。模型包括3個(gè)關(guān)鍵部分:1)帶有實(shí)體信息的維漢相似度語料構(gòu)建;2)句子層次語義相似度計(jì)算;3)實(shí)體層次語義相似度計(jì)算。

        2.2 帶實(shí)體信息的維漢相似度語料構(gòu)建

        語料對(duì)基于深度學(xué)習(xí)的方法來說十分重要,但是維漢句子相似度語料十分稀少,特別是模型所需要的語料是帶有實(shí)體信息的句子相似度語料。然而維漢有比較成熟的維漢平行語料,這也是本文工作為何針對(duì)維漢的重要原因。AZMAT等[20]發(fā)現(xiàn),使用“《》”框住漢語句子中的實(shí)體并翻譯成維語,翻譯后的維語依然保留實(shí)體周圍的“<>”符號(hào)。這一方法可以將漢語的實(shí)體識(shí)別結(jié)果遷移到維語平行句子中。受到這一工作的啟發(fā),本文方法使用機(jī)器翻譯領(lǐng)域已有的維漢平行句子進(jìn)行相似度語料的自動(dòng)構(gòu)建,步驟如下:

        1)使用已有的維漢平行語料訓(xùn)練出一個(gè)機(jī)器翻譯模型。

        2)使用漢語命名實(shí)體識(shí)別工具將用于訓(xùn)練的維漢平行語料中漢語句子所包含的實(shí)體識(shí)別出來,并用“《》”進(jìn)行包裹。

        3)為了保證機(jī)器翻譯的準(zhǔn)確性,步驟1)中的機(jī)器翻譯模型對(duì)帶有“《》”符號(hào)的漢語句子進(jìn)行翻譯,得到使用“<>”包裹實(shí)體的維語句子。因?yàn)槭欠g已經(jīng)訓(xùn)練過的漢語句子,所以結(jié)果的準(zhǔn)確度會(huì)很高。

        4)為了保證實(shí)體翻譯的準(zhǔn)確性,翻譯后的實(shí)體在已準(zhǔn)備好的維語的字典中進(jìn)行查找,若找到則認(rèn)為翻譯正確。

        2.3 句子層面的語義相似度計(jì)算

        句子編碼器的目標(biāo)是從句子對(duì)的信息中提取特征并輸出每一個(gè)單詞的特征編碼以對(duì)結(jié)果進(jìn)行預(yù)測(cè)。為了將維漢2 個(gè)句子特征映射到同一個(gè)空間中,本文方法使用了多語言預(yù)訓(xùn)練模型作為句子層面語義編碼器以提取句子對(duì)的特征。向編碼器輸入的文本為:C=ScSu,其中,Sc表示漢語句子,Su表示維語句子。在訓(xùn)練過程中,預(yù)訓(xùn)練模型隨機(jī)掩蔽或替換一些單詞,并通過上下文預(yù)測(cè)來學(xué)習(xí)單詞的深層表征。本文將預(yù)訓(xùn)練語言模型表示為R(x)并將模型的每一層表示為T(x),具體操作過程可以表示為:

        模型的每一層操作可以表示為:

        其中:Et是單詞編碼;Ep是位置編碼;Es是分句編碼;Ot是輸入詞的一個(gè)one-hot 編碼;Wpre是預(yù)訓(xùn)練模型的編碼的權(quán)重。

        2.4 實(shí)體層面的語義相似度計(jì)算

        與普通的句子相似度計(jì)算不同,遠(yuǎn)程監(jiān)督不僅要考慮句子的關(guān)系信息,而且也要確定三元組中的頭實(shí)體和尾實(shí)體是否對(duì)齊。為了更好地獲取實(shí)體的上下文信息和隱藏信息,本文提出了帶有門控機(jī)制的交互式匹配方法,分為4 個(gè)重要的部分:1)帶有相對(duì)位置信息的注意力層;2)共同注意力層;3)帶有門控機(jī)制的信息融合層;4)池化層。下面將詳細(xì)介紹每一層的操作。

        2.4.1 維語實(shí)體標(biāo)記

        由于是在無標(biāo)簽的維語句子中構(gòu)造偽標(biāo)注語料,因此需要將維語句子中的實(shí)體標(biāo)記出來。在實(shí)體標(biāo)記過程中,模型采用二進(jìn)制分類器,對(duì)每一個(gè)維語單詞分配一個(gè)二進(jìn)制標(biāo)記(0/1)來分別檢測(cè)實(shí)體的開始和結(jié)束位置,該標(biāo)記指示當(dāng)前標(biāo)記是否對(duì)應(yīng)于實(shí)體的開始或結(jié)束位置,并且為了防止句子存在復(fù)雜三元組使模型的性能下降,模型在標(biāo)記實(shí)體的過程中保留了可能性最大的2 個(gè)頭實(shí)體和2 個(gè)可能性最大的與頭實(shí)體相對(duì)應(yīng)的尾實(shí)體。換言之,標(biāo)記結(jié)果保留了4 個(gè)候選三元組以提高模型的召回率。頭實(shí)體標(biāo)記器的具體操作如下:

        其中:Ph_start和Ph_end分別表示維語句子中單詞為頭實(shí)體的開始和頭實(shí)體的結(jié)尾的概率,當(dāng)預(yù)測(cè)的結(jié)果超出規(guī)定的閾值,此位置的值為1,否則值為0;Wh_s和Wh_e代表標(biāo)記器的權(quán)重;bs和be代表偏移量。同理,模型在頭實(shí)體標(biāo)記的基礎(chǔ)上對(duì)尾實(shí)體進(jìn)行標(biāo)記,具體操作如下:

        其中:Pt_start和Pt_end分別表示維語句子中單詞為與式(4)、式(5)得到的頭實(shí)體對(duì)應(yīng)的尾實(shí)體的開頭和頭實(shí)體的結(jié)尾的概率;eh_s和eh_e分別表示頭實(shí)體開頭和結(jié)尾的單詞特征向量;Wt_s和Wt_e代表標(biāo)記器的權(quán)重;bt_s和bt_e代表偏移量。

        2.4.2 帶有相對(duì)位置信息的注意力層

        在維語和漢語的句子中,單詞語序是一致的,只不過漢語是從左到右書寫而維語則相反。因此,實(shí)體的相對(duì)位置信息對(duì)于模型判斷實(shí)體對(duì)是否匹配至關(guān)重要。受機(jī)器翻譯中相對(duì)位置表示[21]的啟發(fā),本文方法在漢語和維語句子編碼器的輸出層中添加了一個(gè)帶有可學(xué)習(xí)相對(duì)位置信息的注意層。

        在注意機(jī)制的基礎(chǔ)上,雙語句子對(duì)增加了頭實(shí)體與尾實(shí)體的相對(duì)位置信息。具體來說,為了獲得更全面的位置信息,模型通過2 個(gè)向量來表示每個(gè)單詞之間的相對(duì)位置編碼,并在計(jì)算實(shí)體單詞的注意編碼時(shí)學(xué)習(xí)字符級(jí)別的相對(duì)位置信息。為了描述簡(jiǎn)練,本文使用漢語句子中的實(shí)體作為例子進(jìn)行描述,維語實(shí)體采用完全相同的操作。本文使用向量和來表示頭實(shí)體H和其他單詞之間的相對(duì)位置信息,同理,使用和表示尾實(shí)體的信息。相對(duì)位置向量<,>和<,>分別添加到注意力中的鍵和值的計(jì)算過程中。頭實(shí)體具體操作如下,尾實(shí)體采用相同的操作:

        其中:Wq、Wk、Wv分別表示注意機(jī)制中查詢、鍵和值的權(quán)重矩陣;ah是頭實(shí)體的單詞編碼;是帶有相對(duì)位置信息的尾實(shí)體特征表示。相對(duì)位置有一個(gè)限制,即當(dāng)單詞的相對(duì)距離超過設(shè)置的最大長(zhǎng)度時(shí)將其視為最大距離。本文方法設(shè)定的最大距離是50,具體操作如下:

        其中:Lmax代表最大距離;h代表頭實(shí)體的位置;o代表其他實(shí)體的位置。

        2.4.3 實(shí)體對(duì)共同注意力(Co-Attention)層

        如果文本對(duì)中出現(xiàn)語義高度相似的實(shí)體,計(jì)算注意力權(quán)重時(shí)這個(gè)實(shí)體會(huì)獲得比其他普通單詞更大的權(quán)重。受到LU等[22]圖片-文本匹配工作的啟發(fā),模型利用共同注意力機(jī)制計(jì)算漢語與維語實(shí)體對(duì)中單詞的注意力權(quán)重。首先將同一語言的頭實(shí)體和尾實(shí)體進(jìn)行拼接以得到漢語的實(shí)體對(duì)表示矩陣V和維語的實(shí)體對(duì)表示矩陣U;然后計(jì)算漢維實(shí)體對(duì)的親和矩陣C;最后使用softmax 函數(shù)進(jìn)行歸一化得到注意力權(quán)重。但是不同于LU 等對(duì)圖像-句子對(duì)分別加權(quán)求和,本文通過注意力權(quán)重使2 種語言的實(shí)體對(duì)相互表示,具體操作如下:

        其中:Wv和Wu分別表示計(jì)算相似度時(shí)的權(quán)重;cv和cu分別為注意力操作之后的漢語和維語實(shí)體特征向量。

        2.4.4 帶有門控機(jī)制的信息融合層

        為充分利用模型信息傳遞隱藏信息,本文在模型中設(shè)置了一個(gè)帶有門控機(jī)制的信息融合層。融合層分別將帶有相對(duì)位置信息的實(shí)體特征和共同注意力層輸出的實(shí)體特征進(jìn)行融合。具體來說,融合層計(jì)算bv和cv的差值和點(diǎn)乘結(jié)果以幫助增強(qiáng)實(shí)體中元素之間的隱藏信息。

        為更準(zhǔn)確地挑選出有用的信息,本文方法在信息融合后添加了2 個(gè)門控單元對(duì)信息進(jìn)行處理。具體來說,本文在信息融合層中設(shè)置了一個(gè)輸入門和一個(gè)遺忘門,其中輸入門用于決定什么值將要更新;遺忘門用于決定什么值將要遺忘,并使用一個(gè)tanh函數(shù)創(chuàng)建新的候選向量。門控單元的結(jié)構(gòu)在圖2 中展示,具體操作如下:

        圖2 門控單元結(jié)構(gòu)Fig.2 Structure of the gate unit

        其中:fv和iv分別表示遺忘門和輸入門的結(jié)果;Wf和Wi分別輸入門和遺忘門的權(quán)重。使用同樣的方法得到維語實(shí)體特征向量進(jìn)行融合后的結(jié)果。

        2.5 池化層

        為全面地提取實(shí)體的特征,模型通過平均池化和最大池化來提取維語和漢語每個(gè)實(shí)體對(duì)的特征。為使實(shí)體特征融合句子的全局特征而不是周圍單詞的特征,模型將多語言預(yù)訓(xùn)練模型中的句子特征作為維漢句子對(duì)的特征連接到實(shí)體向量中再進(jìn)行分類。模型通過句子對(duì)相似的概率來表示分類結(jié)果,具體操作如下:

        其中:MaxP 表示最大池化;AvgP 表示平均池化;Vh和Vt分別表示漢語句子中的頭實(shí)體和尾實(shí)體特征向量;Uh和Ut分別表示維語句子中的頭實(shí)體和尾實(shí)體特征向量;E<s>表示預(yù)訓(xùn)練模型輸出的句子對(duì)特征向量。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)準(zhǔn)備

        通過實(shí)驗(yàn)驗(yàn)證本文方法的有效性。實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備如下:

        1)維漢平行語料數(shù)據(jù)集:為獲得高質(zhì)量的維漢雙語語料來訓(xùn)練語義相似度計(jì)算模型,本文工作所用到的維漢平行語料數(shù)據(jù)集分別來自于CWMT2013官方語料,其中包含109 000 個(gè)平行句子,在此基礎(chǔ)上,使用2.2 節(jié)中介紹的方法構(gòu)造67 000 條帶有實(shí)體信息的維漢相似度正樣本語料,并且為了更好地訓(xùn)練模型,本文從正樣本語料中隨機(jī)挑選出包含不同三元組的句子對(duì)構(gòu)造70 000 條負(fù)樣本語料。

        2)詞典:本文使用漢維雙語詞典翻譯實(shí)體,該詞典包含32.8 萬個(gè)獨(dú)特的中文術(shù)語和53.1 萬個(gè)獨(dú)特的維吾爾術(shù)語。

        3)維語無標(biāo)注語料:為了獲得規(guī)范的維語單語語料,本文從天山網(wǎng)站(http://uy.ts.cn/)抓取30 萬條維語句子作為構(gòu)造偽標(biāo)注語料的基礎(chǔ)。

        3.2 實(shí)驗(yàn)結(jié)果

        本文研究的目的是在沒有維語關(guān)系抽取語料的條件下,利用漢語已有的標(biāo)注語料實(shí)現(xiàn)維語語料的自動(dòng)填充。為了證明本文方法的有效性,選取15 種關(guān)系的三元組并且人工標(biāo)記3 500 條維語句子和600 條漢語句子。每個(gè)關(guān)系的三元組分別分配帶有此關(guān)系三元組的200 條維語句子和40 條漢語句子,另外500 條沒有包含范圍內(nèi)的三元組,將其作為負(fù)樣本。在測(cè)試中,將漢語句子和維語句子兩兩組合計(jì)算相似度并將模型結(jié)果對(duì)比人工標(biāo)記以判斷模型結(jié)果是否正確。實(shí)驗(yàn)使用精確率(Precision,Prec)、召回率(Recall-weighted,Rec)、F1 值(F1-weighted,F(xiàn)1)3 個(gè)指標(biāo)綜合評(píng)價(jià)模型性能。

        3.2.1 多語言預(yù)訓(xùn)練模型對(duì)比結(jié)果

        為獲知哪種多語言預(yù)訓(xùn)練模型更加適合本文的方法,分別挑選3 種同時(shí)帶有漢語和維語信息的多語言預(yù)訓(xùn)練模型作為句子編碼器:LASER,XLM,XLMRoberta。

        1)LASER[23]是ARTETXE 等為了使低資源語言有效利用其他語言的資源所提出的多語言模型。模型中使用BiLSTM[24]作為編碼器與輔助解碼器相結(jié)合并讓所有語言共享一個(gè)BPE 詞匯表。LASER 包含93 種低資源語言并使這些語言的模型在豐富資源語言的基礎(chǔ)上達(dá)到更好的效果。

        2)XLM[25]是由LAMPLE 等在BERT[26]模型的基礎(chǔ)上針對(duì)多語言進(jìn)行優(yōu)化的編碼器。XLM 可以使各個(gè)語言的詞匯共享同一特征空間。XLM 在訓(xùn)練過程中輸入2 種語言的句子并用一個(gè)語言的上下文信息去預(yù)測(cè)另一個(gè)語言被遮住的token。

        3)XLM-Roberta[27]是由CONNEAU 等提出的大體量多語言預(yù)訓(xùn)練模型,其使用2.5 TB 的文本數(shù)據(jù)進(jìn)行訓(xùn)練包含了100 種語言,其中維語文本為0.4 GB。這一模型繼承了XLM 的訓(xùn)練方法,也借鑒了Roberta[28]的思想,將掩碼單詞的學(xué)習(xí)作為唯一目標(biāo)而舍棄了對(duì)下一句的預(yù)測(cè)。

        計(jì)算結(jié)果在表1 中展示,加粗表示最優(yōu)值,從表1 的結(jié)果中可以看出,使用XLM-Roberta-large 預(yù)訓(xùn)練模型得到了更好的效果,但是由于XLMRoberta-large 模型的參數(shù)體量比較大,訓(xùn)練過程需要花費(fèi)更多的時(shí)間和更好的設(shè)備。反觀XLM-Robertabase 訓(xùn)練代價(jià)較低也可以取得較好的成果。而XLM 和LASER 的結(jié)果并不理想。

        表1 主流多語言預(yù)訓(xùn)練模型相似度計(jì)算結(jié)果 Table 1 Similarity calculation results of mainstream multi-lingual pre-training models %

        3.2.2 與傳統(tǒng)遠(yuǎn)程監(jiān)督對(duì)比結(jié)果

        為使本文方法可以與傳統(tǒng)的遠(yuǎn)程監(jiān)督方法在跨語言情況下進(jìn)行對(duì)比,以證明其有效性,設(shè)計(jì)了2 種可以跨語言的傳統(tǒng)遠(yuǎn)程監(jiān)督方法:

        1)將已標(biāo)注漢語語料中的實(shí)體通過谷歌翻譯系統(tǒng)(translate.google.cn/)得到維語的實(shí)體表示,然后再用傳統(tǒng)遠(yuǎn)程監(jiān)督方法在3 500 條維語測(cè)試集中進(jìn)行實(shí)體查找。若查找成功則將結(jié)果與人工標(biāo)簽對(duì)比以驗(yàn)證結(jié)果是否正確。

        2)使用2.2 節(jié)構(gòu)建的維漢平行語料訓(xùn)練GIZA++實(shí)體對(duì)齊工具[29]。GIZA++可以得到雙語句子對(duì)中單詞的對(duì)應(yīng)關(guān)系以實(shí)現(xiàn)實(shí)體對(duì)的查找。同樣將對(duì)齊結(jié)果與人工標(biāo)記相對(duì)比驗(yàn)證是否正確。

        表2 給出了以上2 種基線方法與本文跨語言遠(yuǎn)程監(jiān)督方法的對(duì)比結(jié)果,加粗表示最優(yōu)值。

        表2 遠(yuǎn)程監(jiān)督方法對(duì)比結(jié)果 Table 2 Comparison results of distant supervision methods

        從表2 的結(jié)果中可以看出,實(shí)體翻譯的遠(yuǎn)程監(jiān)督和詞對(duì)齊的遠(yuǎn)程監(jiān)督方法都有著明顯的缺陷。實(shí)體翻譯的遠(yuǎn)程監(jiān)督結(jié)果的錯(cuò)誤主要因?yàn)椋簼h語實(shí)體在翻譯過程中對(duì)應(yīng)多種維語的表現(xiàn)形式,很難準(zhǔn)確翻譯到維語句子中的實(shí)體;維語是黏著語導(dǎo)致維語實(shí)體單獨(dú)的拼寫和句子中的拼寫是不一致的,這也增加了單詞查找的困難。詞對(duì)齊的遠(yuǎn)程監(jiān)督結(jié)果的錯(cuò)誤主要因?yàn)橛?xùn)練對(duì)齊工具的語料無法覆蓋所有的測(cè)試集,當(dāng)出現(xiàn)未知實(shí)體時(shí)對(duì)齊結(jié)果往往是錯(cuò)誤的。以上的分析說明了本文的跨語言遠(yuǎn)程監(jiān)督方法在維漢三元組匹配場(chǎng)景下有明顯的優(yōu)勢(shì)。

        3.2.3 單一關(guān)系匹配結(jié)果

        為了更加全面地檢測(cè)模型的性能,將包含15 種關(guān)系的三元組的語料分別作為測(cè)試集,以測(cè)試模型對(duì)單一關(guān)系的三元組的識(shí)別性能,具體結(jié)果在圖3中進(jìn)行展示。圖3 的結(jié)果表明,本文所提出的跨語言遠(yuǎn)程監(jiān)督模型在漢語和維語句子對(duì)匹配方法上也取得了較好的結(jié)果。從具體的關(guān)系種類的角度可以看出,當(dāng)關(guān)系為“國(guó)籍”、“首都”、“面積”等時(shí),模型會(huì)得到較好的效果。筆者認(rèn)為是因?yàn)樵谏鲜鲫P(guān)系的三元組中存在明顯的實(shí)體,比如“國(guó)籍”關(guān)系中一定會(huì)有一個(gè)國(guó)家在三元組中出現(xiàn),“面積”關(guān)系中也一定會(huì)有一個(gè)數(shù)字與之對(duì)應(yīng)。但是反觀模型在“導(dǎo)致”、“創(chuàng)始人”、“組成”等關(guān)系的三元組識(shí)別上取得了較低的效果,這也是因?yàn)檫@些關(guān)系的三元組中并沒有一個(gè)明確的實(shí)體出現(xiàn),也增加了模型中匹配時(shí)的難度。因此,識(shí)別這一類三元組也是今后工作的一個(gè)重點(diǎn)。

        圖3 使用XLM-Roberta-large 語言模型的跨語言遠(yuǎn)程監(jiān)督精確率Fig.3 Cross-lingual distantly supervised precision using the XLM-Roberta-large language model

        3.2.4 消融實(shí)驗(yàn)

        為了評(píng)估模型各部分對(duì)結(jié)果的貢獻(xiàn),本文在測(cè)試集上進(jìn)行了消融實(shí)驗(yàn)。從完整的模型開始,每次移除模型的部分結(jié)構(gòu)并觀察該結(jié)構(gòu)對(duì)結(jié)果的影響:1)去除帶有相對(duì)位置信息的注意力層,只保留從多語言與訓(xùn)練模型獲取詞向量信息;2)去除共同注意力層并直接將維漢2種語言的實(shí)體向量進(jìn)行拼接;3)去除門控單元對(duì)數(shù)據(jù)的過濾,并改為拼接后的實(shí)體信息直接輸出;4)將原來的Maxpooling和Averagepooling替換為直接拼接實(shí)體中的單詞嵌入。消融實(shí)驗(yàn)的結(jié)果如表3所示。

        表3 針對(duì)維漢的跨語言遠(yuǎn)程監(jiān)督模型消融實(shí)驗(yàn)結(jié)果 Table 3 Ablation experiment result of cross-lingual distant supervision model for Uyghur and Chinese %

        3.2.5 維語偽標(biāo)注語料構(gòu)建結(jié)果

        本文所提出的跨語言遠(yuǎn)程監(jiān)督方法的目的是在維語沒有關(guān)系抽取語料的情況下,利用漢語已有的標(biāo)注語料自動(dòng)構(gòu)建維語偽標(biāo)注數(shù)據(jù)。所構(gòu)建的偽標(biāo)注語料會(huì)對(duì)維語關(guān)系抽取技術(shù)的發(fā)展起到一定的推動(dòng)作用。

        為了展示本文工作中語料構(gòu)建的最終結(jié)果,實(shí)驗(yàn)以之前獲取的30 萬條維語無標(biāo)注語料為目標(biāo),通過本文提出的跨語言遠(yuǎn)程監(jiān)督方法識(shí)別維漢對(duì)齊語料并將已有的漢語語料的標(biāo)簽遷移到維語無標(biāo)注語料中,以實(shí)現(xiàn)維語偽標(biāo)注語料的自動(dòng)構(gòu)建。在構(gòu)建過程中,本文針對(duì)15 種關(guān)系進(jìn)行漢語與維語的語料對(duì)齊。最終的實(shí)驗(yàn)結(jié)果是構(gòu)建了由97 949 條維語句子組成的偽標(biāo)注語料。維語偽標(biāo)注語料的結(jié)果在圖4 中進(jìn)行展示。

        圖4 維語偽標(biāo)注語料構(gòu)建結(jié)果Fig.4 Results of Uyghur Pseudo-labeled corpus construction

        4 結(jié)束語

        本文提出了針對(duì)維漢的跨語言遠(yuǎn)程監(jiān)督方法用于緩解維語缺少關(guān)系抽取語料的問題,主要難點(diǎn)是如何利用語義相似度來實(shí)現(xiàn)遠(yuǎn)程監(jiān)督任務(wù)中三元組對(duì)齊的功能。為了得到準(zhǔn)確的維語偽標(biāo)注語料,本文利用維漢平行語料構(gòu)建帶有實(shí)體信息的相似度語料,并且在句子相似度和實(shí)體對(duì)相似度2 個(gè)層面對(duì)雙語句子對(duì)的三元組是否對(duì)齊進(jìn)行打分。在實(shí)體對(duì)相似度計(jì)算中,提出使用門控機(jī)制保留最有用的特征信息。實(shí)驗(yàn)結(jié)果表明,本文方法可以較好地完成維漢三元組對(duì)齊工作。模型成功通過該方法在15種關(guān)系上構(gòu)建了97 949條維語關(guān)系抽取偽標(biāo)注語料。由于相似度語料的限制,本文只在維漢跨語言領(lǐng)域進(jìn)行實(shí)驗(yàn)。后續(xù)的工作是將本文方法應(yīng)用于更多的語言以證明其有效性,并且考慮到語義相似度計(jì)算會(huì)引入更多的噪聲,因此也會(huì)將降噪的思想加入到模型中。

        猜你喜歡
        維語三元組語料
        基于語義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        對(duì)比語言學(xué)視野下的維吾爾語與朝鮮語音義相近詞比較初探
        淺析維語口語技能的影響因素和提升路徑
        關(guān)于余撓三元組的periodic-模
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        試析否定詞綴在漢維語中的不同表現(xiàn)
        語言與翻譯(2014年3期)2014-07-12 10:31:56
        國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        男人靠女人免费视频网站| 国产免费网站在线观看不卡| 日本免费在线不卡一区二区 | 国产真实乱对白精彩久久老熟妇女| 免费一区二区三区久久| 97久久成人国产精品免费| 成人久久精品人妻一区二区三区| 俺去啦最新地址| 国产午夜视频在线观看| 日韩毛片久久91| 深夜黄色刺激影片在线免费观看| 亚洲熟妇丰满多毛xxxx| 免费人成视频在线观看视频| 日韩av无码午夜福利电影| 国产丝袜爆操在线观看| 日韩aⅴ人妻无码一区二区| 亚洲V日韩V精品v无码专区小说| 亚洲中文字幕人妻诱惑| 中文字日产幕码三区的做法步| 亚洲国产精品va在线看黑人| 精品国产一级毛片大全| 最新日韩精品视频免费在线观看| 午夜免费观看日韩一级视频| 欧美金发尤物大战黑人| 啪啪视频一区二区三区入囗| 久久午夜一区二区三区| 四虎国产成人永久精品免费| 内射后入在线观看一区| 白白色发布永久免费观看视频| av男人的天堂亚洲综合网| 樱桃视频影视在线观看免费| 欧美 亚洲 国产 日韩 综AⅤ | 国产精品国三级国产av| 可以免费观看的毛片| 视频一区二区不中文字幕| 欧美亅性猛交内射| 在线观看国产成人av片| 久久无码中文字幕东京热| 成人一区二区人妻少妇| 国产在线精品一区二区在线看| 亚洲VA欧美VA国产VA综合|