亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中英文單語術語庫的雙語術語對齊方法

        2022-01-12 02:35:01向露,周玉,宗成慶
        中國科技術語 2022年1期

        向露,周玉,宗成慶

        摘 要:雙語術語對齊庫是自然語言處理領域的重要資源,對于跨語言信息檢索、機器翻譯等多語言應用具有重要意義。雙語術語對通常是通過人工翻譯或從雙語平行語料中自動提取獲得的。然而,人工翻譯需要一定的專業(yè)知識且耗時耗力,而特定領域的雙語平行語料也很難具有較大規(guī)模。但是同一領域中各種語言的單語術語庫卻較易獲得。為此,提出一種基于兩種不同語言的單語術語庫自動實現(xiàn)術語對齊,以構建雙語術語對照表的方法。該方法首先利用多個在線機器翻譯引擎通過投票機制生成目標端“偽”術語,然后利用目標端“偽”術語從目標端術語庫中檢索得到目標端術語候選集合,最后采用基于mBERT的語義匹配算法對目標端候選集合進行重排序,從而獲得最終的雙語術語對。計算機科學、土木工程和醫(yī)學三個領域的中英文雙語術語對齊實驗結果表明,該方法能夠提高雙語術語抽取的準確率。

        關鍵詞:雙語術語;單語術語庫;術語對齊;語義匹配

        中圖分類號:TP391;H083? 文獻標識碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.002

        Bilingual Terminology Alignment Based on Chinese-English Monolingual Terminological Bank//XIANG Lu, ZHOU Yu, ZONG Chengqing

        Abstract: Bilingual terminologies are essential resources in natural language processing, which are of great significance for many multilingual applications such as cross-lingual information retrieval and machine translation. Bilingual terminology pairs are usually obtained by either human translation or automatic extraction from a bilingual parallel corpus. However, human translation requires professional knowledge and is time-consuming and labor-intensive. Besides, it is not easy to have a large bilingual parallel corpus in a specific domain. But the monolingual terminology banks of various languages in the same domain are relatively easy to obtain. Therefore, this paper proposes a novel method to extract bilingual terminology pairs by automatically aligning terms from monolingual terminology banks of two languages. Firstly, multiple online machine translation engines are adopted to generate the target pseudo terminology through a voting mechanism. Secondly, the target pseudo terminology is used to retrieve from the target terminology bank to obtain the candidate set of target terminologies. Finally, a mBERT-based semantic matching model is used to re-rank the candidate set and obtain the final bilingual terminology pair. Experimental results of Chinese-English bilingual terminology alignment on three domains, including computer science, civil engineering, and medicine, show that our proposed method can effectively improve the accuracy of bilingual terminology extraction.

        Keywords: bilingual terminology; monolingual terminological bank; terminology alignment; semantic matching

        引言

        術語是專業(yè)領域中概念的語言指稱(GB/T 10112—959),也可定義為“通過語言或文字來表達或限定專業(yè)概念的約定性語言符號”[1-2]。術語通常由一個或多個詞匯單元組成,包含了一個領域的基本知識。隨著全球化進程的快速發(fā)展,不同語言間的知識、技術交流的需求愈加迫切和頻繁。而術語作為知識的核心載體,其相互翻譯卻成為各國間知識、技術交流的最大障礙之一[3]。因此,研究雙語術語自動抽取方法對于雙語術語詞典構建、跨語言信息檢索和機器翻譯等應用都具有十分重要的實用價值。

        人工翻譯構建是獲得高質量雙語術語的一種可靠方式,但是人工翻譯需要一定的專業(yè)知識且耗時耗力。為此,許多研究者提出了從不同資源中抽取雙語術語的方法,包括基于平行語料庫的雙語術語抽取[4-8]和基于可比語料庫的雙語術語抽取[9-10]?;谄叫校杀龋┱Z料庫的雙語術語自動抽取通常分為兩個步驟,首先通過單語術語抽取分別得到兩個語言的單語術語候選表,而后通過計算候選術語在平行(可比)語料中的共現(xiàn)概率或基于雙語詞典計算術語對的翻譯概率,其中概率高于預設閾值的候選結果將抽取作為雙語術語。由于平行語料的文本是互為譯文的關系,基于平行語料庫的雙語術語抽取能夠獲得較高的準確率。但是對于眾多語言對,尤其是低資源語言,特定領域的雙語平行數(shù)據(jù)非常稀缺且難以獲取。此外,受限于可比語料庫的規(guī)模和質量,從其中抽取雙語術語對的準確率往往較低。

        相比于雙語平行(可比)語料庫,同一領域中不同語言的單語術語庫更容易獲得??梢允且呀?jīng)構建好的單語術語庫,也可以利用現(xiàn)有的單語術語抽取方法[11-14]對單語語料庫進行自動抽取獲得。

        基于此,本文提出一種從兩種不同語種的單語術語庫中自動進行術語對齊以抽取雙語術語對的方法。該方法僅利用單語術語本身的信息,而不依賴于上下文信息,在獲取不同語言同一領域的單語術語庫后,能夠迅速抽取雙語術語對。具體地,對于一個源端術語,該方法首先利用多個在線機器翻譯引擎通過投票機制生成目標端“偽”術語,然后通過目標端“偽”術語與目標端術語庫中的術語之間的文本相似度篩選出目標端術語候選集合,最后通過基于mBERT(multilingual bidirectional encoder representation from transformers)[15] 的語義匹配模型對源端術語和目標端術語候選集的語義相似度重排序,從而獲得最終的雙語術語對。本文提出的方法在計算機科學、土木工程和醫(yī)學三個領域的中英單語術語庫上進行了實驗,實驗結果表明本文所提方法能夠顯著地提高雙語術語抽取的準確率。

        本文的組織結構如下:第1部分介紹雙語術語抽取的相關工作,第2部分對本文的任務進行形式化描述,第3部分對本文所提出的面向單語術語庫的雙語術語對齊方法進行詳細介紹,第4部分介紹本文所使用的數(shù)據(jù)集和實驗設置,并給出詳細的實驗結果和分析,最后進行總結和展望。

        1 相關工作

        1.1 單語術語抽取

        自動術語抽取是從文本集合中自動抽取領域相關的詞或短語,是本體構建、文本摘要和知識圖譜等領域的關鍵基礎問題和研究熱點[11]。根據(jù)單語術語抽取的原理,可以將方法分為三類:基于規(guī)則的方法[12, 16-21],基于統(tǒng)計的方法[22-27] 和基于機器學習的方法[14, 28-31]。其中,基于機器學習的方法又可以細分為使用傳統(tǒng)機器學習的方法和使用神經(jīng)網(wǎng)絡的方法。不同的術語抽取方法可以相互融合集成,使用多種策略以提升性能。

        1.2 雙語術語抽取

        根據(jù)所使用語料的不同,雙語術語抽取可以分為基于平行語料庫的雙語術語抽取[3-8, 32-33]和基于可比語料庫的雙語術語抽取[9-10, 34-35]。其中,雙語平行語料由互為翻譯的源語言文本和目標語言文本組成,而可比語料則是由不同語言同一主題的非互譯單語文本組成。雙語術語對齊的基本思路是術語及其翻譯往往出現(xiàn)在相似的上下文中[36]。

        從抽取方法上,雙語術語抽取以單語術語抽取為基礎,也可以劃分為兩種方法:對稱策略抽取法,即先分別對兩種單語語料進行單語術語抽取,然后對單語術語抽取的結果進行雙語術語對齊;非對稱策略抽取法,即使用一種語言單語術語抽取的結果在另外一種語言單語語料上查找對應的術語翻譯。

        在基于平行語料庫的雙語術語抽取上,孫樂等[4]根據(jù)詞性規(guī)則進行單語術語抽取,然后融合句子字符長度信息計算翻譯概率,從而抽取雙語術語對。孫茂松等[3]使用短語對齊、組塊分析相結合的方法在雙語語料上進行候選術語的抽取。張莉等[37]在孫樂等[4]的研究基礎上將術語語序位置信息引入術語對齊。劉勝奇等[38]提出使用多策略融合Giza++術語對齊方法,使用多種關聯(lián)和相似度提升術語對齊的對準率。在基于可比語料的雙語術語抽取上,Rapp等[39]和Tanaka等[40]通過建立源語言文本與目標語言文本的共現(xiàn)矩陣并進行矩陣相似度計算來抽取翻譯等價對。Yu等[41]通過句法分析獲得細粒度的上下文信息,從而抽取中英雙語詞語對。Lee等[42]使用一種基于EM框架結合統(tǒng)計學、詞法、語言學、上下文和時空特征的無監(jiān)督混合模型來從可比語料中抽取雙語術語。

        不同于前述工作,本文主要關注的是從兩種語言的單語術語庫中自動進行術語對齊,從而抽取雙語術語對。單語術語庫可以是已經(jīng)構建好的單語術語庫,也可以利用現(xiàn)有的單語術語抽取方法進行構建。該方法僅利用單語術語本身的信息,而不依賴于上下文信息,在獲取不同語言同一領域的單語術語庫后,能夠迅速抽取雙語術語對。

        1.3 預訓練模型詞向量

        深度學習給自然語言處理領域帶來了突破性的變革,其中一個關鍵的概念就是詞嵌入。作為最常見的文本特征表示方法之一,詞嵌入已被廣泛應用于各種自然語言處理任務。分布式詞向量是利用神經(jīng)網(wǎng)絡模型來學習單詞的共現(xiàn)性,通過無監(jiān)督學習得到能夠表達詞語語義信息的低維度向量。

        最近,許多預訓練模型通過不同的策略提升了語言表征能力。其中,Devlin等[15]提出了BERT模型。BERT模型的基礎是自注意力(self-attention)機制,利用自注意力機制可以獲取雙向的上下文信息,通過在海量的無監(jiān)督語料庫上訓練獲得句子中每個單詞的上下文表示信息。BERT在多種自然語言處理任務上取得了最優(yōu)的研究成果[15, 43]。

        2 任務定義

        給定源端術語,雙語術語對齊任務旨在從目標端術語集合中找到其對應的翻譯,其形式化定義如下:

        給定源語言S中的一組術語集合QS,和目標語言T中一組術語集合QT,QS和QT是同一領域(如醫(yī)學領域)不同語言的術語集合,本文的目標是為每個源端術語wS∈QS,從目標端術語集合QT中找到對應的翻譯wT,從而獲得雙語術語對wS,wT。此處將雙語術語對wS,wT抽取的問題轉換為跨語言文本相似度度量任務。為了減小目標端術語比對范圍,對于源端術語wS,首先利用多個在線機器翻譯引擎通過投票機制生成目標端“偽”術語w'T,然后利用w'T和文本相似度算法對目標端術語集合QT進行篩選,獲得目標端術語候選集合QcandT,最后對wS與候選集QcandT中的候選術語進行語義相似度重排序,選取相似度最高的作為最終術語翻譯對。

        3 本文方法

        本文提出一種從兩種不同語種的單語術語庫中自動進行術語對齊以抽取雙語術語對的方法。如圖1所示,該方法采用“生成—篩選—比較”的方式,共分為三個步驟:(1) 目標語言偽術語生成,即利用多個在線翻譯引擎通過投票機制生成目標語言偽術語;(2) 目標語言術語候選集生成,通過最長公共子串(longest common sub-sequence, LCS)算法[43]對目標語言術語庫進行篩選,生成目標語言術語候選集;(3) 基于語義相似度的重排序,通過預訓練語言模型BERT對目標語言術語候選集進行基于跨語言語義相似度的排序,得到得分最高的目標端術語,生成最終的雙語術語對。

        3.1 目標端偽術語生成

        機器翻譯就是實現(xiàn)從源語言到目標語言轉換的過程[44]。隨著深度學習和人工智能技術的快速發(fā)展,機器翻譯技術得到了快速發(fā)展,包括谷歌、百度、有道、搜狗等在內(nèi)的許多互聯(lián)網(wǎng)公司都已經(jīng)部署了各自的在線機器翻譯引擎。因此,本文借助已有的機器翻譯引擎作為不同語言之間的橋梁,將源語言術語轉換為目標語言表述。由于術語翻譯的準確性和專業(yè)性要求較高,通過機器翻譯引擎生成的目標語言表述雖然一定程度上能夠表達源語言術語的含義,但是不能確保是完全正確的目標語言術語,本文將其定義為“目標端偽術語”。這些源語言術語對應的目標端偽術語需要和目標端術語庫進行進一步的相似度計算才能最終確定其對應的目標端術語。表1給出了中文術語(源語言)、機器翻譯引擎翻譯結果以及標準的英語術語(目標語言)的示例。

        利用多個在線翻譯引擎對源語言術語進行翻譯,生成多個目標端表述后,須從中選擇一個合適的表述作為源語言術語對應的目標端偽術語。本文采用多數(shù)投票法選擇最終目標端偽術語。多數(shù)投票法以單個模型的預測結果為基礎,采用少數(shù)服從多數(shù)的原則確定模型預測的結果。

        假設對于一個源語言術語wS,采用N個在線翻譯引擎對其進行翻譯,得到目標端偽術語集合Q'T=w'T1,w'T2,…,w'TN,統(tǒng)計w'Ti∈Q'T在目標端偽術語集合中出現(xiàn)的次數(shù)countw'Ti,則目標端偽術語w'T定義為:

        w'T=argw'Timaxcountw'Ti,w'Ti∈Q'T? ?(1)

        即w'T為得票數(shù)最多的翻譯結果,若同時有多個翻譯結果獲得最高票數(shù),則從中隨機選取一個作為最終目標端偽術語。

        3.2 目標端候選集生成

        在獲得目標端偽術語的基礎上,若直接利用目標端偽術語與目標端術語集合中的每個目標端標準術語進行比對,則會存在噪聲多、時間成本高的問題。因此,本節(jié)將利用目標端偽術語對目標端術語集合進行篩選,生成目標端候選集,從而縮小標準術語的搜索空間。具體而言,通過目標端偽術語和目標端術語集合中的每個術語進行相似度計算,這里采用LCS算法,保留相似度得分最高的K個術語形成候選集。

        如算法1所示,遍歷目標端術語集合QT,計算由上一步獲得的目標端偽術語w'T與目標端術語集合中的術語wTi的相似度simscore(第4行),當候選集中目標端術語的個數(shù)小于K時,直接將wTi加入到候選集U中,并更新候選集中相似度得分最小值LCSscore_L(第5—第11行)。當候選集中目標端術語個數(shù)等于K且simscore大于候選集中相似度得分最小值,則將得分最小的術語從候選集U中剔除,并從相似度得分集合scoreset刪除一個數(shù)值為LCSscore_L的元素,然后將wTi加入到候選集U中,同時更新候選集中相似度得分最小值LCSscore_L(第12—第20行)。當遍歷完QT后,即可獲得目標端候選集U。

        3.3 基于語義相似度的重排序

        由于LCS算法只考慮了詞形上的相似關系,而忽視了語義層面的相似關系,因此即便LCS相似度得分最高,在很多情況下依然無法獲取正確的目標端術語。同時,使用機器翻譯系統(tǒng)生成目標端偽術語的過程也存在一定程度上的語義失真,因此,本文提出同時利用源語言術語和目標端偽術語對目標端候選集進行語義層面的相似度計算,利用源語言術語信息進一步增強目標端術語選擇的性能。

        本文采用多語言預訓練的BERT(mBERT)模型對源語言術語、目標端偽術語和目標候選集中的術語進行語義表示。如圖2所示,輸入為“[SEP]”分隔的字符串,取第一位隱層源語言術語、目標端偽術語和候選詞并按標識符單元“[CLS]”的輸出,其中中文以字符為單位,英文以詞為單位,經(jīng)過非線性變化映射到一個固定維度的向量v作為“源語言術語—候選詞”的語義表示,并和可訓練權重矩陣W∈

        Euclid Math TwoRA@

        n×k進行相乘,如式(2)所示。

        score=softmax(vW)? ? ?(2)

        其中,n是輸出的固定維度,k是標簽的數(shù)量,這里令k=2,標簽分為兩種,即“語義相關”和“語義無關”。本文采用交叉熵損失對模型進行優(yōu)化學習。

        使用mBERT語義相似度模型對候選集中所有術語進行語義相似度打分后,按照得分從高到低依次進行排序,得分最高的目標端術語即為源語言術語對應的目標端術語(如圖1所示)。

        4 實驗與結果

        本文在計算機科學、土木工程和醫(yī)學三個領域進行了中英雙語術語對齊的實驗。

        4.1 數(shù)據(jù)集構造

        為了進行雙語術語對齊的實驗,本文利用維基百科構造了三個領域的中文術語庫和英文術語庫,包括計算機科學、土木工程和醫(yī)學。本文利用PetScan工具從維基百科上獲取符合特定條件的標題列表,例如,使用“Language = en & Depth = 4 & Categories = Computer science”獲取計算機科學領域下的英文條目。在獲取對應語言和領域下的標題條目后,經(jīng)過簡單的規(guī)則處理,比如去掉純數(shù)字的條目、語言不正確的條目等,將過濾之后的標題條目作為對應領域的單語術語庫。在獲取單語術語庫后,由于在維基百科上,中文的頁面數(shù)遠小于英文的頁面數(shù),因此,本文遍歷中文單語術語庫,利用維基百科的跨wiki鏈接(Interwiki links)來獲取對應的英文術語,從而獲得雙語術語庫。利用上述方法獲取的術語庫的統(tǒng)計信息如表2所示。

        為了訓練3.3節(jié)中的語義相似度模型,本文將中英雙語術語庫劃分成了訓練集、驗證集和測試集,具體數(shù)據(jù)規(guī)模如表3所示。在訓練過程中,雙語術語是“語義相關”樣本,需要構造“語義無關”樣本,對于訓練集和驗證集中的每一個中文術語,通過其對應的英文端術語,采用LCS算法與英語單語術語庫中的其他術語進行相似度計算,取相似度前5的英語端術語作為“語義無關”訓練樣本,使訓練語義相似度模型時的正負樣本比例為1∶5。

        在測試階段,源語言術語庫為測試集中的中文術語,目標語言術語庫為英語單語術語庫,目標是為中文術語找到其對應的英語術語。

        4.2 實驗設置

        在線翻譯引擎:在實驗過程中,本文采用了5個在線翻譯引擎將中文單語術語庫中的術語翻譯成英文“偽”術語:谷歌翻譯、百度翻譯、有道翻譯、搜狗翻譯以及Bing翻譯。

        mBERT:在谷歌發(fā)布的多語言預訓練模型BERT-Base、Multilingual Cased基礎上進行微調,數(shù)據(jù)采用4.1節(jié)所述方式進行構建,batch大小設為32,訓練輪數(shù)設為30,輸入序列最大值為100,初始學習率為0.00005,其余保持默認參數(shù)。

        評價指標:本文采用正確率(Accuracy)作為評價指標:

        Acc=|predict∩reference|reference? ? (3)

        其中,predict為模型獲得的雙語術語對集合,reference為標準的雙語術語對集合。|predict∩reference|代表模型預測正確的雙語術語對的個數(shù),reference代表標準雙語術語對的個數(shù)。

        基準模型:為了對比所提“生成—篩選—比較”方法的有效性,本文將與以下基線模型進行比較:

        (1)多翻譯引擎投票方法(基線系統(tǒng)1):使用4.2節(jié)所述的5種翻譯引擎對測試集中的中文術語進行翻譯,然后采用多數(shù)投票法獲得對應的英語術語。

        (2)跨語言相似度方法(基線系統(tǒng)2):直接使用預訓練語言模型BERT-Base、Multilingual Cased對測試集中的中文術語和英語單語術語庫進行編碼,得到對應的句向量表示,然后計算一個中文術語和任意一個英文術語的句向量的余弦相似度,得分最高的為中文術語所對應的英文術語。

        (3)多翻譯引擎投票+余弦相似度方法(基線系統(tǒng)3):該方法與基線系統(tǒng)2類似,都是通過BERT-Base、Multilingual Cased獲取句向量表示,然后計算余弦相似度。所不同的是,這里計算的是通過多翻譯引擎投票產(chǎn)生的英語表述與英語術語的相似度,得分最高的為中文術語所對應的英文術語。

        4.3 實驗結果

        在計算機科學、土木工程和醫(yī)學三個領域上進行了中英雙語術語對齊的實驗,實驗結果見表4。

        通過該實驗結果,可以看出以下信息。

        (1)當前機器翻譯引擎對于術語的翻譯性能還有待提升。利用5個在線翻譯引擎通過投票機制生成的英語術語在計算機科學、土木工程和醫(yī)學領域上僅有43.34%/39.48%/46.23%的正確率。這也說明了自動構建雙語術語庫對于提升翻譯系統(tǒng)的性能有著重要意義。

        (2)多語言BERT在中英語義相似度計算上表現(xiàn)很差(基線系統(tǒng)2:6.09%/3.68%/2.87%),其性能遠低于基線系統(tǒng)1,這可能是由于多語言BERT沒有在任務對應的雙語術語數(shù)據(jù)上微調,中英文的語義空間對齊較差。而多語言BERT直接對英語偽術語和英文術語進行語義相似度計算(基線系統(tǒng)3),其性能顯著優(yōu)于基線系統(tǒng)2,這表明多語言BERT在單一語言上能較好地表征語義相似度。

        (3) 本文所提方法在三個領域的雙語術語對齊上均顯著優(yōu)于基線系統(tǒng),該方法以基線系統(tǒng)1生成的結果作為輸入,使用LCS算法與英語標準術語庫比對,返回得分最高的10個英語術語組成候選集,最后利用mBERT進行語義相似度重排序,實驗結果表明所提方法能夠顯著提升雙語術語對齊的性能,從而得到更好的雙語術語庫。

        4.4 消融分析

        基本模塊分析:本文所提方法包含三個步驟:(1) 目標語言偽術語生成,即利用多個在線翻譯引擎通過投票機制生成目標語言偽術語;(2) 目標語言術語候選集生成,通過文本相似度算法LCS對目標語言術語庫進行篩選,生成目標語言術語候選集;(3) 基于語義相似度的重排序,通過預訓練語言模型mBERT對目標語言術語候選集進行語義相似度重排序,得到得分最高的目標端術語,生成最終的雙語術語對。表5展示了所提方法中不同模塊對最終結果的影響。

        其中,步驟(1)表示利用多個在線翻譯引擎通過投票機制生成目標語言偽術語,+LCS表示使用目標語言偽術語與目標術語庫進行LCS相似度計算,將得分最高的術語作為對應的目標端術語,+mBERT則是利用mBERT對LCS返回的得分最高的10個候選集進行語義相似度重排序,取相似度得分最高的為目標端術語。

        通過表5可以看出,相比于步驟(1),+LCS的性能有大幅提升,這說明對于部分術語,機器翻譯雖然不能將其完全翻譯正確,但部分能夠翻譯正確,LCS相似度計算能夠對這種類型的術語進行校正。表6展示了兩個示例,其中英文術語表示術語庫中正確的術語,英文偽術語表示步驟(1)產(chǎn)生的術語,LCS(Top5)表示LCS得分前5的術語,標紅的術語為得分最高的術語。當術語部分翻譯錯誤時,通過LCS可以從標準術語庫中找到對應的正確術語。使用LCS產(chǎn)生候選集后,交由mBERT進行語義相似度重排序,能夠進一步提升雙語術語對齊的性能。表7展示了經(jīng)過步驟(1) → +LCS → +mBERT 三個步驟后,生成正確英語術語的例子。

        候選集規(guī)模的影響:步驟 (2)通過LCS相似度生成候選集。這里分析了生成候選集的質量和候選集規(guī)模對最終雙語術語對齊的影響。圖3給出了LCS相似度前1—前200(Top 1—Top 200)的召回率。

        隨著候選集數(shù)目的增加,召回率也在增加。取LCS相似度前200的候選術語組成候選集后,計算機科學領域的召回率達到95.65%,土木工程領域的召回率達到92.19%,醫(yī)學領域的召回率達到91.99%。在獲得候選集之后,通過mBERT模型進行語義相似度重排序選出最終術語。本文探討了候選術語數(shù)目對于最終雙語術語對齊的影響,將生成的不同規(guī)模的候選集交由mBERT模型進行語義相似度重排序,最終正確率結果如圖4所示。

        可以看出,隨著候選集的增加,通過mBERT語義相似度重排序獲取雙語術語對的性能也會有一定的提升。當候選集規(guī)模從5增加到60,雙語術語對齊的正確率提升較為明顯。當候選集規(guī)模繼續(xù)增加,從60增加到200時,雖然目標端標準術語的召回率提升明顯,但是通過mBERT進行語義相似度重排序后得到的結果并沒有明顯提升,在醫(yī)學領域和計算機領域上還出現(xiàn)了下降趨勢,經(jīng)過分析發(fā)現(xiàn)是由于過大的候選集會不可避免地帶來更多的噪聲,從而對語義相似度模型的排序造成一定干擾。此外,本文在構造訓練集的時候,正例和負例的比例是1∶5,這也會對語義相似度重排序的準確率產(chǎn)生一定的影響。

        mBERT微調的影響:所提方法最后一步是利用mBERT對候選集進行重排序得到最終結果。本文提出同時利用源語言術語和目標端偽術語對目標端候選集進行語義層面的相似度計算。為了驗證源端術語和目標端術語對于mBERT模型性能的影響,本文在計算機科學和土木工程領域上對比了兩種微調方式:

        方式1:僅利用源語言術語和目標端候選集對mBERT進行微調,以圖2中的例子為例,模型輸入為“[CLS] 邏輯卷軸管理[SEP] Logical volume management”。

        方式2:僅利用目標端偽術語和目標端候選集對mBERT進行微調,以圖2中的例子為例,模型輸入為“[CLS] Logical scroll management[SEP] Logical volume management”。

        模型訓練過程中的參數(shù)與4.2節(jié)所述參數(shù)一致,訓練數(shù)據(jù)中正負樣本比例為1∶5。模型訓練完成后,對LCS算法返回的得分最高的10個英語術語組成的候選集進行重排序,得分最高的術語為源端術語對應的目標端術語。實驗結果如表8所示。其中,第1行到第3行顯示的是在計算機科學領域上的實驗結果,第4到第6行顯示的是在土木工程領域上的實驗結果。實驗結果表明,相比于單一使用源語言術語或者目標端偽術語,聯(lián)合使用這兩者的信息能夠增強語義相似度重排序的性能(第3行和第6行),提高模型抽取雙語術語對的能力。

        5 結語

        本文提出了一種面向兩種語言單語術語庫的雙語術語對齊方法,該方法由“生成—篩選—比較”三步組成,首先利用多個在線機器翻譯引擎通過投票機制生成目標端“偽”術語,然后利用目標端“偽”術語從目標術語庫中檢索得到目標端術語候選集合,最后采用基于mBERT的語義匹配算法對目標端候選集合進行重排序,從而獲得最終的雙語術語對。該方法可以僅僅利用單語術語庫本身的信息抽取雙語術語對。在計算機科學、土木工程和醫(yī)學三個領域上的中英雙語術語對齊實驗結果表明,與基線系統(tǒng)相比,所提方法能夠有效地提高雙語術語抽取的性能。

        在未來的研究中,需要進一步探索如何利用術語庫之外的信息提升雙語術語對齊的質量,如利用互聯(lián)網(wǎng)大規(guī)模文本信息,學習更加準確的融合上下文信息的術語表示。

        注釋

        ① PetScan工具:https://petscan.wmflabs.org。

        ② 跨wiki鏈接(Interwiki links):https://www.mediawiki.org/wiki/Manual:Interwiki。

        ③ 多語言預訓練模型BERT-Base, Multilingual Cased:https://huggingface.co/bert-base-multilingual-cased。

        參考文獻

        [1] 馮志偉.現(xiàn)代術語學引論[M].北京:語文出版社,1997.

        [2] 杜波,田懷鳳,王立,等.基于多策略的專業(yè)領域術語抽取器的設計[J].計算機工程, 2005(14):159-160.

        [3] 孫茂松,李莉,劉知遠.面向中英平行專利的雙語術語自動抽取[J].清華大學學報(自然科學版), 2014,54(10):1339-1343.

        [4] 孫樂,金友兵,杜林,等.平行語料庫中雙語術語詞典的自動抽取[J].中文信息學報, 2000(6):33-39.

        [5] HUANG G P, ZHANG J J, ZHOU Y, et al. A simple, straightforward and effective model for joint bilingual terms detection and word alignment in smt[C]//Proceedings of the Fifth Conference on Natural Language Processing and Chinese Computing & The Twenty Fourth International Conference on Computer Processing of Oriental Languages. Kunming, China, 2016:103-115.

        [6] LEFEVER E, MACKEN L, HOSTE V. Language-independent bilingual terminology extraction from a multilingual parallel corpus:A simple, straightforward and effective model for joint bilingual terms detection and word alignment in smt[C]//Proceedings of the 12th Conference of the European Chapter of the ACL (EACL 2009). 2009: 496-504.

        [7] FAN X, SHIMIZU N, NAKAGAWA H. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus[C]//Proceedings of the 3rd International Universal Communication Symposium. 2009: 41-45.

        [8] 蔣俊梅.基于平行語料庫的雙語術語抽取系統(tǒng)研究[J].現(xiàn)代電子技術, 2016, 39(15):108-111.

        [9] 康小麗,章成志,王惠臨.基于可比語料庫的雙語術語抽取研究述評[J].現(xiàn)代圖書情報技術, 2009(10):7-13.

        [10] AKER A, PARAMITA M L, GAIZAUSKAS R. Extracting bilingual terminologies from comparable corpora[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Sofia, Bulgaria: Association for Computational Linguistics, 2013:402-411.

        [11] 張雪,孫宏宇,辛東興,等.自動術語抽取研究綜述[J].軟件學報, 2020,31(7):2062-2094.

        [12] 李思良,許斌,楊玉基. DRTE:面向基礎教育的術語抽取方法[J].中文信息學報,2018,32(3):101-109.

        [13] CRAM D, DAILLE B. Termsuit: Terminology extraction with term variant detection[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016:13-18.

        [14] ZHANG Z, GAO J, CIRAVEGNA F. Semre-rank: Improving automatic term extraction by incorporating semantic relatedness with personalised pagerank[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2018, 12(5): 1-41.

        [15] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics, 2019:4171-4186.

        [16]? BOURIGAULT D, GONZALEZ-MULLIER I, GROS C. Lexter, a natural language processing tool for terminology extraction[C]//Proceedings of the 7th EURALEX International Congress. Gteborg, Sweden: Novum Grafiska AB, 1996: 771-779.

        [17] JUSTESON J S, KATZ S M. Technical terminology: some linguistic properties and an algorithm for identification in text[J]. Natural language engineering, 1995, 1(1): 9-27.

        [18] 化柏林. 針對中文學術文獻的情報方法術語抽取[J]. 現(xiàn)代圖書情報技術, 2013 (6): 68-75.

        [19] 祝清松, 冷伏海. 自動術語識別存在的問題及發(fā)展趨勢綜述[J]. 圖書情報工作, 2012, 56(18): 104-109.

        [20] 向音, 李蘇鳴. 領域術語特征分析:以軍語為例[J]. 中國科技術語, 2012, 14(5): 5-9.

        [21] 張樂,唐亮,易綿竹.融合多策略的軍事領域中文術語抽取研究[J].現(xiàn)代計算機, 2020(26):9-16,20.

        [22] 屈鵬,王惠臨.面向信息分析的專利術語抽取研究[J].圖書情報工作, 2013,57(1):130-135.

        [23] 曾文,徐碩,張運良,等.科技文獻術語的自動抽取技術研究與分析[J].現(xiàn)代圖書情報技術, 2014(1):51-55.

        [24] 胡阿沛,張靜,劉俊麗.基于改進C-value方法的中文術語抽取[J].現(xiàn)代圖書情報技術, 2013(2):24-29.

        [25] JONES K S. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of documentation, 2004.

        [26] CAMPOS R, MANGARAVITE V, PASQUALI A, et al. A text feature based automatic keyword extraction method for single documents[C]//European conference on information retrieval. Grenoble, France: Springer International Publishing, 2018:684-691.

        [27] VU T, AW A, ZHANG M. Term extraction through unithood and termhood unification[C]//Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-II. 2008:631-636.

        [28] 賈美英,楊炳儒,鄭德權,等.采用CRF技術的軍事情報術語自動抽取研究[J].計算機工程與應用,2009,45(32):126-129.

        [29] 劉輝,劉耀.基于條件隨機場的專利術語抽取[J].數(shù)字圖書館論壇, 2014(12):46-49.

        [30] KUCZA M, NIEHUES J, ZENKEL T, et al. Term extraction via neural sequence labeling a comparative evaluation of strategies using recurrent neural networks[C]//19th Annual Conference of the International Speech Communication Association. Hyderabad, India: ISCA, 2018: 2072-2076.

        [31] HAZEM A, BOUHANDI M, BOUDIN F, et al. Termeval 2020: Taln-ls2n system for automatic term extraction[C]//Proceedings of the 6th International Workshop on Computational Terminology. Marseille, France: European Language Resources Association, 2020:95-100.

        [32] SEMMAR N. A hybrid approach for automatic extraction of bilingual multiword expressions from parallel corpora[C]//Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, Japan: European Language Resources Association (ELRA), 2018: 311-318.

        [33] REPAR A, PODPEAN V, VAVPETI A, et al. Termensembler: An ensemble learning approach to bilingual term extraction and alignment[J]. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, 2019, 25(1): 93-120.

        [34] HAZEM A, MORIN E. Efficient data selection for bilingual terminology extraction from comparable corpora[C]//Proceedings of 26th International Conference on Computational Linguistics: Technical Papers (COLING).Osaka, Japan: The COLING 2016 Organizing Committee, 2016: 3401-3411.

        [35] KONTONATSIOS G, KORKONTZELOS I, TSUJII J, et al. Combining string and context similarity for bilingual term alignment from comparable corpora[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha, Qatar: Association for Computational Linguistics, 2014: 1701-1712.

        [36] DAILLE B, MORIN E. French-English terminology extraction from comparable corpora[C]//Second International Joint Conference on Natural Language Processing: Full Papers. Berlin, Heidelberg: Springer, 2005: 707-718.

        [37] 張莉,劉昱顯.基于語序位置特征的漢英術語對自動抽取研究[J].南京大學學報(自然科學), 2015,51(4):707-713.

        [38] 劉勝奇,朱東華.基于多策略融合Giza++的術語對齊法[J].軟件學報, 2015,26(7):1650-1661.

        [39] RAPP R. Identifying word translations in non-parallel texts[C]//Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, Massachusetts, USA: Association for Computational Linguistics, 1995:320-322.

        [40] TANAKA K, IWASAKI H. Extraction of lexical translations from non-aligned corpora[C]//Proceedings of the 16th International Conference on Computational Linguistics. Copenhagen, Denmark. 1996:580-585.

        [41] YU K, TSUJII J. Extracting bilingual dictionary from comparable corpora with dependency heterogeneity[C]//Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics, Companion Volume: Short Papers. Boulder, Colorado: Association for Computational Linguistics, 2009: 121-124.

        [42] LEE L, AW A, ZHANG M, et al. Em-based hybrid model for bilingual terminology extraction from comparable corpora[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, China:Coling 2010 Organizing Committee, 2010: 639-646.

        [43] LIU Y, OTT M, GOYAL N, et al. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.

        [44] BAKKELUND D. An lcs-based string metric[J]. Olso, Norway: University of Oslo, 2009.

        [45] 宗成慶. 統(tǒng)計自然語言處理[M]. 北京: 清華大學出版社, 2013.

        作者簡介:向露(1988—),女,中國科學院自動化研究所模式識別國家重點實驗室博士研究生, 主要研究方向為人機對話系統(tǒng)、文本生成和自然語言處理。通信方式:lu.xiang@nlpr.ia.ac.cn。

        通訊作者:周玉(1976—),女,博士,中國科學院自動化研究所研究員,主要研究方向為自動摘要、機器翻譯和自然語言處理。通信方式:yzhou@nlpr.ia.ac.cn。

        宗成慶(1963—),男,博士,中國科學院自動化所研究員,中國科學院大學崗位教授,中國計算機學會會士,中國人工智能學會會士,主要從事自然語言處理和機器翻譯研究,出版專著《統(tǒng)計自然語言處理》和《文本數(shù)據(jù)挖掘》(中、英文版),發(fā)表論文200余篇。通信方式:cqzong@nlpr.ia.ac.cn。

        国产无套内射久久久国产| 中文字幕乱码一区在线观看| 无码啪啪熟妇人妻区| 国产一区二区三区四区色| 国产精品亚洲一区二区三区在线 | 97色伦综合在线欧美视频| 免费a级毛片无码无遮挡| 国产精品熟妇视频国产偷人| 日韩精人妻无码一区二区三区| 精品精品国产一区二区性色av | 国产精品午夜夜伦鲁鲁| 国产真实乱对白精彩| 少妇人妻真实偷人精品视频| 98bb国产精品视频| 亚洲精品中文字幕不卡在线| 亚洲伊人久久综合精品| 国产亚洲av一线观看| 日韩 无码 偷拍 中文字幕| 日本高清视频xxxxx| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 免费一区二区三区在线视频| 亚洲av色香蕉一区二区三区蜜桃 | 国产日产欧产精品精品| 欧美午夜a级精美理论片| 中文字幕天天躁日日躁狠狠| 免费啪啪av人妻一区二区| 男人天堂亚洲一区二区| 国产高清一区二区三区四区色| 欧美成人国产精品高潮| 又色又污又爽又黄的网站| 免费视频成人 国产精品网站| 伊人久久大香线蕉av不变影院| 九九久久99综合一区二区| 三级网址在线| 丰满人妻被猛烈进入中文字幕护士| 日本精品一区二区三区试看| 亚洲av日韩综合一区久热| 国产av人人夜夜澡人人爽麻豆| 中文字幕巨乱亚洲| 日本黄网色三级三级三级| 久久天天躁狠狠躁夜夜不卡|