亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融入雙語詞向量的韓漢名詞短語對齊方法研究

        2021-11-12 02:31:02劉晨陽趙天銳
        智能計算機與應用 2021年9期
        關(guān)鍵詞:語詞韓語語料

        劉晨陽,趙天銳

        (信息工程大學洛陽校區(qū),河南 洛陽 471000)

        0 引 言

        隨著國際互聯(lián)網(wǎng)的迅速發(fā)展,信息資源愈發(fā)呈現(xiàn)大規(guī)模、多語言的特征。在自然語言處理領(lǐng)域,以雙語(或多語)平行語料庫為基礎(chǔ)的應用日益增多。如,機器翻譯、詞典編撰、語義消歧、跨語言信息檢索等。其中,平行語料庫對應單位的抽取對齊,是實現(xiàn)這些應用的關(guān)鍵技術(shù)之一。對應單位是對應源文本和目的文本中可識別的對應文本塊或片段,是意義對應完整并具有清晰邊界的任何片段或序列[1]。其中短語便是客觀存在于平行句對之中的一種對應單位,主要表現(xiàn)形式為互譯的多詞組合。本文針對韓漢平行句對中的對齊名詞短語進行抽取,構(gòu)建了基于短語構(gòu)成規(guī)律的短語抽取與融入雙語詞向量、短語長度和詞性相似度的短語對齊模型,并在政治外交領(lǐng)域的韓漢平行語料上進行相關(guān)實驗測評。其成果能廣泛應用于翻譯研究、語言教學、術(shù)語詞典編纂和政治外交話語研究等領(lǐng)域,其采用的方法也可為相關(guān)研究提供參考和思路。

        1 研究現(xiàn)狀

        雙語短語對齊研究的基礎(chǔ)是雙語詞對齊[2-3],其原理是詞語相似度的計算。詞組由詞構(gòu)成,詞對齊的部分技術(shù)方法也可遷移至短語對齊上,其關(guān)鍵點在于如何將詞的相似度轉(zhuǎn)換為短語的相似度。關(guān)于短語對齊現(xiàn)有研究的主流方法是先進行單語短語抽取,再進行對齊。對齊的方法有基于詞典的、基于統(tǒng)計或二者結(jié)合的方法。

        文獻[4]提出了基于規(guī)則和基于統(tǒng)計相結(jié)合的方法,對中英文句對分類,進行句法分析后提取短語,再利用最大熵排序模型,從候選對齊句對中選取最佳結(jié)果;文獻[5]基于中英平行專利語料庫,使用短語對齊和組塊分析技術(shù),并借助專利語料的領(lǐng)域主題信息,實現(xiàn)了中英專利術(shù)語的高效自動抽?。晃墨I[6]基于俄漢政治外交平行語料庫,按照俄漢短語詞性構(gòu)成模式,使用規(guī)則獲得短語,并構(gòu)建了短語長度、詞典、機器翻譯三維評估模型,實現(xiàn)了俄漢短語單位的自動對齊。文獻[7]先采用基于統(tǒng)計與詞典融合的詞對齊方法獲得了韓國語-漢語的詞對齊文件,再跟據(jù)韓國語名詞短語結(jié)構(gòu)特點抽取短語,獲取詞對齊文件中每個韓國語詞語對應的漢語位置,最終根據(jù)卡方過濾得出匹配的名詞短語對。

        綜上所述,短語對齊的技術(shù)多為傳統(tǒng)方法。此類方法忽略了平行語料的內(nèi)在語義特征,且依靠大量的語言學先驗知識,面對低資源、小語種語言時效果欠佳。隨著深度學習、神經(jīng)網(wǎng)絡(luò)的發(fā)展,詞向量作為詞的一種分布式表示,開始在自然語言處理領(lǐng)域嶄露頭角。詞向量以原始語料作為訓練集,無需外部資源便能高效地表征句法語義關(guān)系,為對應單位的相似度計算與對齊提供了新思路。

        文獻[8]基于英漢平行語料庫,利用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)提取詞向量,結(jié)合依存關(guān)系得到詞對齊特征,并在此基礎(chǔ)上實現(xiàn)了基于短語的統(tǒng)計機器翻譯系統(tǒng)。文獻[9]基于漢維醫(yī)療平行語料庫,運用自訓練的漢維雙語詞向量,深入詞的語義一級進行雙語醫(yī)學術(shù)語抽取,取得了不錯的效果。文獻[10-11]將英語作為中間語言,通過建立對應單字的上下文向量,實現(xiàn)了韓法雙語間的名詞短語對齊,并對實驗結(jié)果進行了誤差分析。

        由此可見,此前對短語抽取與對齊的研究中,多使用傳統(tǒng)的方法且對詞典等外部資源的依賴較多,運用神經(jīng)網(wǎng)絡(luò)語言模型且面向韓漢雙語領(lǐng)域的研究較少。因此,將雙語詞向量應用于韓漢雙語短語對齊相關(guān)技術(shù),有很強的研究意義和應用價值。

        2 韓語、漢語名詞短語結(jié)構(gòu)特點

        進行短語對齊首先要進行短語的抽取,短語的構(gòu)成規(guī)則與語言本身的特性息息相關(guān)。韓語屬于黏著語,通過助詞和詞尾變化實現(xiàn)語法功能;漢語屬于孤立語,不依賴內(nèi)、外部屈折的形態(tài)變化。本文通過總結(jié)歸納韓語、漢語名詞短語的結(jié)構(gòu)特點,基于詞性標注結(jié)果抽取相應短語。

        針對韓語,采用文獻[12]中基于左右邊界規(guī)則獲取韓國語名詞短語方法總結(jié)歸納出的名詞短語類型進行短語抽??;在標注工具上,使用韓國蔚山大學開發(fā)的形態(tài)素分析器UTagger[13]進行詞性標注;UTagger的訓練基于“韓國21世紀世宗計劃語料庫”,并沿用其標注體系,支持增量訓練從而不斷提升分析能力。針對漢語,采用百度自然語言處理部研發(fā)的中文聯(lián)合詞法分析工具LAC[14](Lexical Analysis of Chinese)進行詞性標注并沿用其標注體系。LAC通過深度學習模型,聯(lián)合學習分詞、詞性標注、專名識別任務以及詞語重要性,整體效果F1值超過0.91,詞性標注F1值超過0.94,專名識別F1值超過0.85。為了明晰名詞短語結(jié)構(gòu)從而進行短語抽取,將韓漢兩種標注體系中的部分標簽按規(guī)則進行統(tǒng)一。其規(guī)則,見表1。

        表1 韓語、漢語詞性標簽對應

        為了進一步挖掘政治外交領(lǐng)域名詞短語結(jié)構(gòu)特點,從中國外文局、中國翻譯研究院主持建設(shè)的“中國特色話語對外翻譯標準化術(shù)語庫” 中獲取了3 000對中韓互譯術(shù)語,對其進行分詞與詞性標注后進行相關(guān)統(tǒng)計,結(jié)合韓語漢語各自語法特點,歸納總結(jié)出了12種韓語名詞短語和10種漢語名詞短語結(jié)構(gòu),并給出了部分示例,見表2、表3。

        表2 韓語名詞短語構(gòu)成模式及部分示例

        表3 漢語名詞構(gòu)成模式及部分示例

        3 融入雙語詞向量的韓漢名詞短語對齊方法

        3.1 韓漢雙語詞向量

        詞向量(Word Embedding),又稱詞嵌入,是一種詞的分布式表示。通過將詞映射至低維空間上,來表征詞的句法和語義關(guān)系。文獻[16]于2013年提出了由NNLM[15](神經(jīng)網(wǎng)絡(luò)語言模型)改進而來的Word2Vec算法。其中包含了連續(xù)詞袋模型(Continuous bag-of-words, CBOW)和跳字模型(Skip-Gram)。CBOW模型的原理是根據(jù)上下文預測當前詞;Skip-Gram模型則是根據(jù)中心詞預測周圍的詞,并使用梯度下降算法不斷調(diào)整中心詞的詞向量。Skip-Gram的訓練特點使其在規(guī)模較小的數(shù)據(jù)集上有更好的表現(xiàn)。因此,選取Skip-Gram模型用以訓練詞向量。

        目前,詞向量的訓練多針對單一語言,即單語詞向量,用以表示該語言中詞匯之間的句法語義關(guān)系??缯Z言詞向量(Cross-lingual word embedding)[17]是單語詞向量的一種自然擴展,面向雙語時也稱為雙語詞向量(Bilingual word embedding)。其認為在不同語言中具有相似概念的詞,在向量空間中的詞向量十分接近[18]。文獻[19-20]發(fā)現(xiàn)兩種語言的單語詞向量在向量空間中存在近似同態(tài)性,因此可以對多(雙)語的單語詞向量映射到一個共享的低維空間,在不同語言間進行知識轉(zhuǎn)移,從而在多語言環(huán)境下對詞義進行準確捕捉。如圖1所示,韓漢相關(guān)詞語在進行降維并映射至同一向量空間后,互譯的雙語詞語呈現(xiàn)出相似的分布。因此,使用韓漢平行語料訓練單語詞向量,能夠獲取互譯詞語間的內(nèi)在語義特征用于短語的對齊。

        圖1 雙語詞向量降維、映射至同一向量空間

        本文采用文獻[19]提出的跨語言映射方法,該方法通過無監(jiān)督初始化與自學習的方式,無需借助種子詞典即可將單語種語料通過線性變換映射到共享空間中,實現(xiàn)該方法的主要步驟如下:

        3.1.1 完全無監(jiān)督初始化

        設(shè):X、Z分別為韓漢單語詞向量矩陣,Mx=XXT、Mz=ZZT分別為韓漢相似度矩陣。通過對Mx、Mz每行的值進行排序,通過最鄰近匹配找到互譯詞,從而生成初始詞典D。

        3.1.2 魯棒自學習

        首先通過計算最佳正交映射以最大化當前詞典D的相似性,如式(1)所示。

        (1)

        其中,Wx、Wz為線性變換矩陣;Wi*、Wj*分別表示第i、j個單詞各自的詞向量;Dij為初始詞典編碼而成的稀疏矩陣,當Dij=1時表示韓語中第i個單詞與漢語中第j個單詞互譯。

        即j=argmaxk(Xi*WX)(Zk,WZ)時,Dij=1否則Dij=0。

        3.1.3 對稱重加權(quán)

        對兩種語言對稱地應用重加權(quán),可以使映射方向中立,從而獲得更好的效果。給定X的奇異值分解USVT=XTDZ, 使WX=US1/2、Wz=VS1/2,即獲得兩種語言的映射矩陣。

        韓漢單語詞向量進行映射嵌入的訓練過程如圖2所示。

        圖2 韓漢雙語詞向量訓練過程

        3.2 韓漢雙語短語長度、詞性相似度

        基于長度的方法最初應用在句對齊領(lǐng)域,最初由文獻[21]提出。其依據(jù)是源語言與譯文文本長度具有關(guān)聯(lián)性,并多以字節(jié)、字符或詞數(shù)作為長度計量單位。之后的研究者又將句子所含的詞性等元素加入,用以計算句子長度。如文獻[22]中將句子所含的動詞、名詞、形容詞等詞語作為句長計量單位,在英漢句對齊任務上取得了良好的效果。同樣互譯的短語在長度和詞性構(gòu)成上也具有一定的關(guān)聯(lián)性。

        本文以構(gòu)成短語的字符作為短語長度計量單位,以構(gòu)成短語詞的詞性匹配數(shù)量,用以計算短語相似度,對先期獲得的3 000對互譯短語隨機打亂順序,進行定量統(tǒng)計,見表4。

        表4 對齊與非對齊短語相關(guān)特征

        由此可以看出,兩種特征在一定程度上對于短語是否對齊有一定的區(qū)分度。但由于短語的自身特性,當抽取出的候選短語過多時,短語長度相似度和詞性相似度就難以對其進行區(qū)分,此時就要從深層語義出發(fā)獲取短語的內(nèi)在特征。

        3.3 融入雙語詞向量的韓漢名詞短語對齊模型

        融入雙語詞向量的韓漢名詞短語對齊模型如圖3所示。主要由短語抽取、短語對齊、相似度排序評估3部分組成。

        圖3 融入雙語詞向量的韓漢短語對齊模型

        (1)短語抽?。簩﹄p語平行語料進行分詞和詞性標注。分詞結(jié)果用于訓練單語詞向量并進行跨語言映射,詞性標注結(jié)果基于韓漢短語構(gòu)成規(guī)律進行短語抽取,形成短語集。

        (2)短語對齊:將韓漢名詞短語的詞向量相似度、短語長度相似度與短語詞性相似度進行加權(quán)求和,形成短語相似度。

        (3)對候選韓漢名詞進行相似度排序評估,根據(jù)匹配結(jié)果得到韓漢名詞短語對齊集。

        定義漢語短語Pzh,由m個詞組成。每個詞為Xi(i=1,2,…,m),則有Pzh=(x1,x2,…,xm);韓語短語Pkr由n個詞組成,每個詞為Yj(j=1,2,…,n),則有Pkr=(y1,y2,…,yn)。定義短語詞向量相似度SE、短語長度相似度SL和短語詞性相似度SP,如式(2)~(4)所示:

        (2)

        式中,Wi、Wj分別為對應詞的詞向量權(quán)重。

        (3)

        式中,Lzh、Lkr分別為漢語、韓語短語字長度。

        (4)

        式中,N為韓漢對應短語中詞性相同詞的個數(shù)。

        最終得到韓漢短語相似度,如式(5)所示。

        Similarity

        (5)

        其中,W1、W2、W3分別為SE、SL和SP的權(quán)重,默認權(quán)重值為1/3。

        4 實驗與分析

        4.1 語料介紹與數(shù)據(jù)預處理

        本文以中國政府工作報告(中韓對照版)、當代中國與世界研究院、中國翻譯研究院和中國外文局聯(lián)合編譯的《中國關(guān)鍵詞》(中韓對照版),以及通過網(wǎng)絡(luò)爬蟲獲取的政治外交領(lǐng)域的雙語文章作為原始語料。在此基礎(chǔ)上,使用自動對齊于人工校對的方式進行句對齊,最終得到韓漢雙語平行句對11 672對。

        對于漢語句子,使用LAC工具進行分詞、去停用詞并進行詞性標注;對于韓語句子,使用UTagger工具進行分詞、去停用詞并進行詞性標注。之后采用Word2Vec中的Skip-Gram模型,分別訓練處理過的韓漢句子集合。訓練參數(shù)分別為:Size(詞向量維度)=100,Window(窗口大小)=3,Iter(迭代次數(shù))=10,其它均為默認參數(shù),分別得到韓語和漢語單語詞向量,并使用Vecmap2 工具將其映射至同一向量空間,得到韓漢雙語詞向量。

        4.2 實驗設(shè)計與測評指標

        對于每組平行句對,基于規(guī)則抽取出短語后形成短語集。對于短語集中的每個短語,計算與對應短語集中每個短語的相似度后,選取相似度最大的作為對齊短語。此外,設(shè)定了兩種對齊情況:完全對齊(對齊結(jié)果與正確結(jié)果完全一致)與未對齊(對齊結(jié)果與正確結(jié)果完全不一致)。見表5。

        表5 短語“中國經(jīng)濟”匹配配對示例

        為有效評測融入雙語詞向量的短語自動對齊方法的性能,從平行語料中隨機抽取出2 000對句對,采用專家人工審校方式進行短語對齊,將結(jié)果作為標準測試語料。

        本文設(shè)計了3組對比實驗:第一組實驗,通過對比融入單語與雙語詞向量后的對齊效果,用以驗證雙語詞向量的有效性;第二組實驗,將訓練詞向量時的迭代次數(shù)和特征權(quán)重作為自變量進行實驗,用以探究最佳的權(quán)重參數(shù)設(shè)置;第三組實驗,通過對比訓練詞向量不同迭代次數(shù)后的對齊效果,探究迭代次數(shù)對結(jié)果的影響。

        本文采用準確率P、召回率R和F1值指標作為衡量模型對齊短語的性能指標。其具體表達如式(6)~(8)所示。

        (6)

        (7)

        (8)

        其中,TP為短語對齊結(jié)果與測試集完全匹配的數(shù)量;TP為測試集中未與短語對齊結(jié)果匹配的數(shù)量;FN為短語對齊結(jié)果中未與測試集匹配的數(shù)量。

        4.3 實驗結(jié)果與分析

        第一組實驗結(jié)果見表6。

        表6 融入詞向量對比實驗研究

        從中可以看出:融入未經(jīng)映射的單語詞向量相比于未融入詞向量略有提升。準確率P、召回率R和F1值分別提升了1.80%、2.40%和2.06%;而融入雙語詞向量后,相比于單語詞向量有較大提升,準確率P、召回率R和F1值分別提升了6.93%、9.15%和7.88%。由此可知雙語詞向量對短語對齊的提升作用比較明顯。

        第二組實驗結(jié)果見表7。

        表7 權(quán)重組合對比實驗結(jié)果

        從結(jié)果看出:經(jīng)過多組權(quán)重對比實驗,詞向量相似度、長度相似度與詞性相似度的權(quán)重均對結(jié)果有一定影響。詞向量特征具有較強的正向作用,長度特征和詞性特征具有一定的正向作用。在三者權(quán)重相當時,模型整體性能最好。

        第三組實驗結(jié)果見表8。

        表8 詞向量訓練迭代次數(shù)對比實驗結(jié)果

        可以看出:詞向量訓練時的迭代次數(shù)會對模型性能產(chǎn)生較大影響。隨著迭代次數(shù)的增加,各項指標呈現(xiàn)先上升后下降的趨勢。迭代次數(shù)為25時效果最好,相比于默認的10次迭代,準確率P、召回率R和F1值分別提升了16.86%、22.33%和19.21%。說明適當增加訓練迭代次數(shù),對模型的性能有很大提升。

        5 結(jié)束語

        本文提出了融入雙語詞向量的韓漢名詞短語對齊方法,并構(gòu)建了基于短語構(gòu)成規(guī)律的短語抽取和融入雙語詞向量、短語長度和詞性相似度的短語對齊模型。在政治外交領(lǐng)域的韓漢平行語料上進行實驗分析,得到以下結(jié)論:

        (1)雙語詞向量無需借助外部資源(如雙語詞典、術(shù)語庫等)就能夠高效地表示平行句對中對應單位的深層語義特征,從而提升對應單位對齊的準確率。

        (2)語言學知識對于短語抽取與對齊和類似自然語言處理任務仍起著重要作用。部分情況下,短語長度和詞性相似度仍能進行有效短語對齊,對于對齊結(jié)果有正向提升。

        由于時間及水平所限,本文尚存在許多不足。一是韓漢名詞短語的種類有待進一步擴充?;诙陶Z結(jié)構(gòu)使用詞性抽取的方法需要依靠語言學知識制定大量規(guī)則,且只能覆蓋部分類別的短語,后續(xù)將嘗試使用統(tǒng)計的方法進行短語抽取,擴充短語的種類。二是語料的規(guī)模有待進一步增加。詞向量的訓練基于大規(guī)模語料,而目前高質(zhì)量的平行語料仍屬稀缺資源,因此如何自動高效地獲取句對齊平行語料仍是研究的方向。三是面向韓漢自然語言處理領(lǐng)域的語言學知識有待進一步歸納。本文短語對齊的相關(guān)指標仍不能令人滿意,其主要原因是韓漢雙語間的語言差異導致短語抽取、特征提取效果不佳。因此進一步挖掘深層的句法語義知識有助于自然語言處理領(lǐng)域相關(guān)任務的實現(xiàn)。

        猜你喜歡
        語詞韓語語料
        你是那樣美 唐心語詞
        歌海(2021年3期)2021-07-25 02:30:48
        中級韓語課混合式教學模式探究
        韓語固有慣用語的認知機制
        《老子》“自”類語詞哲學范疇釋要
        哲學評論(2018年2期)2019-01-08 02:12:02
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        從文化理據(jù)看英漢語詞翻譯
        華語電影作為真實語料在翻譯教學中的應用
        關(guān)于韓語單詞“漂亮”的對比
        西江文藝(2015年6期)2015-05-30 23:51:45
        《苗防備覽》中的湘西語料
        韓語專業(yè)教學中的文化教育探討
        精品久久久久久无码人妻蜜桃| 久久精品一区二区三区不卡牛牛| 国产人妻久久精品二区三区老狼 | 中文字幕乱码免费视频| 91精品国产91| 国产自拍三级黄片视频| 日本真人边吃奶边做爽电影| 无码av免费一区二区三区| 国产v综合v亚洲欧美大天堂| 亚洲一区二区三区av天堂| 国产免费牲交视频| 欧美日韩中文国产一区发布 | 国产一区av男人天堂| 成人午夜性a级毛片免费| 四虎精品免费永久在线| 粉嫩的18在线观看极品精品| 国产亚洲成人av一区| 亚洲人成电影在线观看天堂色| 国内精品一区二区2021在线 | 亚洲高清三区二区一区 | 日日骚一区二区三区中文字幕| 一区二区三区四区在线观看日本| 亚洲av日韩精品久久久久久久 | 亚洲av高清一区二区三区| 人妻色综合网站| 日韩中文无线码在线视频观看| 蜜桃色av一区二区三区麻豆| 国产丝袜美腿精品91在线看| 久久中文字幕无码专区| 99久久这里只精品国产免费| 日本午夜艺术一区二区| 国产肉体xxxx裸体137大胆| 97成人精品| 成年女人18毛片观看| 日本真人边吃奶边做爽动态图| 无码人妻精品一区二区三区免费| 日韩精品精品一区二区三区| 白白发在线视频免费观看2| 男同gay毛片免费可播放| 国产在线视频h| 国产一区二区三区在线男友 |