亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

BERT蒙古文詞向量學習

2023-01-29 13:16:26王玉榮李艷玲

計算機工程與應用 2023年2期

王玉榮，林民，李艷玲

內蒙古師范大學計算機科學技術學院，呼和浩特010022

詞向量（word embedding）是一種詞的特征表示，能表達文本的語法、語義信息，是很多自然語言處理任務的基礎步驟[1]，如命名實體識別、機器翻譯、信息檢索等。以Word2Vec[2]為代表的蒙古文詞向量技術是一直以來最常用的文本表示方法，它能捕獲隱藏在單詞上下文的語法、語義信息。但它只考慮固定大小窗口內的單詞并且獲得的詞向量具有聚義現(xiàn)象，這種上下文無關的靜態(tài)表示方法僅學習了文本的淺層表征，不能表達一詞多義，并給其后的自然語言處理任務帶來的提升非常有限。2018年底BERT（bidirectional encoder representations from transformers，BERT）[3]預訓練模型的出現(xiàn)，解決了一詞多義的問題。BERT模型的突出優(yōu)勢是通過海量語料的訓練，得到了一組適用性十分廣泛的詞向量，同時還能在具體任務中進一步動態(tài)優(yōu)化，生成上下文語境敏感的動態(tài)詞向量，解決了以往Word2Vec、Glove等模型的聚義問題，在并行處理能力方面也優(yōu)于之前的ELMo（embedings from language models）[4]等預訓練模型。但是，BERT預訓練模型的詞表中沒有傳統(tǒng)蒙古文的單詞，須通過有效的方法學習蒙古文詞向量。本文將傳統(tǒng)蒙古文轉換為拉丁蒙古文輸入到多語言BERT預訓練模型中，將其精調（fine-tuning）過程與條件隨機場（conditional random fields，CRF）[5]相結合，通過有效的方法融合在下游任務中訓練的子詞級向量，實現(xiàn)動態(tài)的蒙古文詞向量表示。通過計算同一上下文中語義相近詞向量之間的距離，表明了詞向量對聚義詞具有良好的區(qū)分性，采用K-means聚類算法對蒙古文詞語進行聚類分析，表明學出的詞向量更接近詞義的真實分布，最后在嵌入式主題詞挖掘任務中進行了驗證。

1 相關工作

Bengio等[6]在2003年提出了神經網(wǎng)絡語言模型（neural network language model，NNLM），NNLM在學習語言模型的同時可以得到詞向量，此后越來越多的學者開始研究預訓練模型，以提高詞向量的語義表達能力。曹宜超[7]采用Word2Vec模型訓練蒙古文詞向量，利用跨語言詞向量對齊的方法實現(xiàn)蒙漢神經機器翻譯系統(tǒng)。但該方法中的蒙古文詞向量是靜態(tài)的，故很難解決詞匯的聚義現(xiàn)象。樊文婷等[8]將詞性特征融入到詞向量表示中，來豐富詞向量的語義特征。王煒華[9]利用循環(huán)神經網(wǎng)絡（recurrent neural network，RNN）學習蒙古文詞向量，應用于蒙古文命名實體識別，并得到了不錯的效果。但RNN語言模型也沒能兼顧語言的兩個主要特性：第一，語句內局部語法正確性和語句間長距離的語義連貫性；第二，獲得的詞向量具有聚義現(xiàn)象，將處于不同語境的詞匯多種語義綜合表示成一個向量，不能表達一詞多義。針對雙向長短時記憶網(wǎng)絡（bidirectional long short-term memory，BiLSTM）模型的輸入層中蒙古文詞素向量和字符級向量間存在信息表達能力不均衡的現(xiàn)象，熊玉竹[10]使用注意力機制動態(tài)組合兩種特征向量，增強模型輸入層的信息表達能力。朝汗[11]為了在BERT上學習到動態(tài)蒙古文詞向量，將傳統(tǒng)蒙古文轉換為西里爾文蒙古文作為模型輸入，但兩種語言的機器翻譯過程不能完全保留蒙古文語法結構，人工翻譯又需要消耗大量時間和精力。

通過對蒙古文詞向量訓練任務的相關工作進行分析，可以發(fā)現(xiàn)，近年來學出的蒙古文詞向量大都僅學出詞的表層特征，是一種靜態(tài)的表示方法，或沒有使用預訓練模型每次重新訓練詞向量以及通過翻譯語料實現(xiàn)動態(tài)的蒙古文詞向量。因此本文提出，利用少量的語料精調多語言BERT預訓練模型獲得動態(tài)的蒙古文詞向量表示，解決詞匯聚義問題。

2 基于BERT-CRF的蒙古文詞向量學習算法

BERT模型分詞器將不在詞匯表中的單詞分解為詞匯表中包含的盡可能大的子詞。例如，“embeddings”雖然不在詞匯表中，但沒有將它標記為未知詞匯，而是分解為四個子詞['em'、'##bed'、'##ding'、'##s']，這些子詞將保留原單詞的上下文含義。傳統(tǒng)蒙古文所有單詞都不在BERT的詞匯表中，需要將其轉換成拉丁蒙古文并重新融合這些子詞。為了使融合后的單詞更具有真實的語法、語義信息，并解決蒙古文沒有大量人工標注的數(shù)據(jù)問題，以標記子詞在單詞中的位置（詞首、詞中、詞尾、單個詞）作為下游任務訓練蒙古文詞向量。

2.1 模型

模型的整體結構如圖1所示。首先將BERT分詞器分解的子詞輸入到BERT模型中，經過深層次的上下文語義編碼，詞向量被映射成詞向量矩陣，然后利用CRF維特比算法解碼輸出標簽序列的概率，概率最大的標簽作為子詞的分類結果（子詞分為詞首、詞中、詞尾、獨立單詞）。模型的輸入如圖2所示，是由詞向量、句向量、位置向量3部分組成。

圖1 模型整體結構Fig.1 Overall structure of model

圖2 模型的輸入Fig.2 Input of model

2.1.1 BERT模型

BERT模型由12個雙向Transformer[12]編碼器組成，有768個隱藏層，其目的是融合詞向量兩側上下文的信息。為了感知模型在不同位置的注意力能力，采用多頭注意力模式[13]，如公式（1）所示：

其中Q、K、V是輸入的子詞向量矩陣，將子詞向量矩陣輸入到注意力機制中得到不同位置的信息[13]。

由于Transformer編碼器舍棄了循環(huán)神經網(wǎng)絡的循環(huán)式網(wǎng)絡結構，所以無法捕捉序列信息，而序列信息又代表了全局的結構，因此采用序列信息的相對或絕對位置信息來計算序列信息[14]，位置信息計算公式如下：

其中，p表示單詞在句子中的位置，取值從0到句子的最大長度，i表示詞向量的某一維度，dmodel表示每個子詞的位置維度，dmodel=512。每個單詞的位置信息僅和詞向量維度和位置有關。

2.1.2 CRF序列標注模塊

CRF常被用于詞性標注、分詞、命名實體識別等自然語言處理領域中[15]，CRF層通過對預測標簽添加約束，利用已知標簽信息判斷當前的標簽，如子詞標簽“B”的下一個子詞對應的標簽應該是“M”或“E”。CRF還能在訓練過程中從數(shù)據(jù)集中學習到某些約束，比如子詞中第一個子詞的標簽應該是“B”或“S”。

CRF的輸入特征序列X=(x1,x2,…,xn)，經過特征提取得到輸出矩陣Pn×k=(p1,p2,…,pn)，其中n為詞的個數(shù)，k為標簽的個數(shù)，Pij表示第i個詞的第j個標簽的分數(shù)，對應的預測序列Y=(y1,y2,…,yn)，定義它的評估函數(shù)公式如公式（4）所示[15]：

其中，Aij是i標簽轉移到j標簽的得分，整個序列的分值是各位置分值之和，每個位置的分值由兩部分組成，一部分是CRF的轉移分數(shù)矩陣A，另一部分是特征提取模塊的輸出矩陣P[15]。

CRF模型在做預測時，利用動態(tài)規(guī)劃算法中的維特比算法解碼輸出標簽序列概率，得到子詞的分類標簽結果，如公式（5）所示：

其中，Yr為真實標注數(shù)據(jù)序列，Y*是預測標簽，取所有預測標簽結果中的最大值。

2.2 融合方法

蒙古文單詞向量是通過融合子詞向量得到的，本文提出全子詞平均和取最后一子詞向量兩種融合方法。設蒙古文單詞向量為W=(w1,w2,…,wn)，其中wi表示某個單詞的第i個子詞的向量。全子詞向量平均是，BERT分詞器進行單詞切分后，在學習蒙古文單詞時，求BERT同一編碼層一個單詞的所有子詞向量平均值作為整個單詞的詞向量值，如公式（6）所示。同樣，取最后子詞向量是求BERT分詞器切分單詞的同一編碼層中該單詞的所有子詞的最后一子詞向量作為整個單詞的向量值，如公式（7）所示。

3 實驗

實驗使用的操作系統(tǒng)是Centos7.5，預訓練模型是區(qū)分大小寫的多語言BERT（multilingual BERT，Multi-BERT），編程語言是python 3.6，實驗硬件環(huán)境配置如表1所示。

表1 硬件配置表Table 1 Hardware configuration table

3.1 實驗數(shù)據(jù)和數(shù)據(jù)標注

實驗使用的語料庫來自于內蒙古師范大學的蒙古文碩博論文的15萬句子，覆蓋的蒙古文單詞有14萬。蒙古文語料做了Unicode編碼，轉換成內蒙古大學拉丁轉寫形式。文學領域的句子有10萬，教育學領域的句子有5萬，按照8∶1∶1的比例劃分訓練集、驗證集和測試集，如表2所示。

表2 訓練語料Table 2 Training corpus

數(shù)據(jù)標注方式如表3所示，有機器輔助完成，以字母開頭的都是B或S，以#開頭且后一子詞以字母開頭都是E，其他都是M。但蒙古文進行分解后的子詞有“_”“-”“--”“$”等符號會干擾機器的判斷，如“VR_A”的子詞是['$'，'ATV'，'##N']，機器給的標注是['S'，'B'，'E']。

表3 數(shù)據(jù)標注Table 3 Data annotations

3.2 模型評價指標和詞向量質量度量指標

因模型的任務和命名實體識別任務較相似，故采用精確率(P)、召回率(R)、F值做評判指標，其中P、R和F值的計算如公式（8）、（9）、（10）：

考慮到詞向量模型分布的差異性，采用比較嚴謹?shù)姆椒ê饬客x詞對(A-B)詞義相似度，設A和B的距離為s1、A和其他所有詞的平均距離為s2、B和其他詞的平均距離為s3，同義詞詞義計算公式如公式（11）所示，兩詞的距離用向量余弦相似度表示，如公式（12）所示。

此外，利用K-means聚類算法分析蒙古文詞向量分布情況。聚類是一個將某方面相似的數(shù)據(jù)進行分類組織的過程，能夠較好地表達內在結構。K-means是基于歐式距離的聚類算法，其認為兩個點的距離越近，相似度越大。

3.3 實驗結果與對比分析

3.3.1 模型

實驗采用的BERT-CRF模型對蒙古文子詞的標注準確率較高，F(xiàn)值為97.6%，說明該模型可以實現(xiàn)融合蒙古文子詞的任務。經過分析，標注錯誤的主要原因是：一是模型看到的樣本數(shù)據(jù)較少，對少量的獨立詞不敏感，如“$”詞有兩種標注情況“S”和“B”，標注為S時是一個獨立的符號，標注為B的時候是蒙古文字母“??”的拉丁轉寫，而訓練集中常用作是蒙古文字母；另一個是蒙古文連接符“--”和控制符“_”在同一個單詞中出現(xiàn)時偶爾不敏感，所以建議應用時做基于詞素的切分，即附加成分的切分。

3.3.2 蒙古文同義詞詞向量相似度對比

BERT模型對于每個子詞都有12層長度為768的向量，經過實驗發(fā)現(xiàn)倒數(shù)第一層和倒數(shù)第二層的詞向量具有競爭力。為體現(xiàn)提出融合方法的有效性，以最大子詞向量和首尾子詞向量平均作為對比實驗。比較蒙古文同義詞“?????????”（中文：競賽）和“?????????”（中文：比賽）的詞向量相似度，如表4所示，兩詞所在的語境為：?? ??????????? ?????????? ???????????? ??????????????????????????????????????????（中文：搏克競賽規(guī)則是搏克比賽中所必須遵循的規(guī)定和法則）。第二、第三例子的語境為：美術（?????????）教育和身心健康（?????????）教育對于學生的創(chuàng)造能力培養(yǎng)和心理培養(yǎng)有多方面的關聯(lián)。

表4的結果表明，無論是哪種融合方法，BERT模型倒數(shù)第一層學到的蒙古文同義詞的相似度都高于倒數(shù)第二層，并且倒數(shù)第一層的全子詞向量平均和取最后子詞向量兩種融合方法得到的同義詞詞向量相似度也高于取最大子詞向量和首尾子詞向量平均兩種融合方法。

表4 BERT模型不同層不同融合方法得到的同義詞詞向量相似度比較Table 4 Similarity comparison of synonym word embedding obtained by different fusion methods at different layers in BERT model

為了驗證本文學出的詞向量對詞義的有效解釋性和動態(tài)性，與Word2Vec模型學出的蒙古文詞向量作了對比實驗，如表5所示。

表5的結果顯示，通過BERT模型學出的同義詞相似度平均比Word2Vec模型高，尤其在詞根詞綴都不同但詞義相同的詞對上有較大的提升，如“????”和“???”。烏云塔那[16]等通過語義、語法檢測蒙古文詞向量的質量，他們提出動詞“????????”和“????????”有相同的詞根“???”，都表示“走”的不同形態(tài)，故有相似的概念，從表5的結果可以看出，本文方法學出的蒙古文詞向量符合這個邏輯。比較同義詞“?????”和“????”時，BERT學出的蒙古文詞向量質量和Word2Vec模型的不分上下，而比較同義詞“?????”和“?????”時，BERT模型學出的詞向量相似度比Word2Vec提升1.89%?！?????”是一個多義詞，Word2Vec將多種語義綜合表示成一種靜態(tài)的詞向量，沒有將每種語義都表示到極致，而BERT模型根據(jù)不同的上下文學出了動態(tài)的詞向量，根據(jù)不同的語義學出了不同的詞向量。此外，還能解決蒙古文因一些多音詞，一種形式對應多種拼寫、發(fā)音等錯寫造成的問題。如“????”的拼寫是“OLAN”，但往往輸入者會寫成“VLAN”，而BERT模型學出的兩種拼寫的距離非常接近。

表5 不同模型學出的同義詞詞向量相似度對比Table 5 Comparison of embedding similarity of synonyms learned from different models

3.3.3 詞向量K-means聚類分析

通過詞頻統(tǒng)計選top100內的詞進行K-means聚類分析，如圖3、圖4所示，圖4中關鍵詞匯的對應中文如表6、表7所示?？梢钥闯觯珺ERT模型學出的詞向量相比Word2Vec有明顯的聚類效果，特別是在同領域的關鍵詞上如教育學領域詞“???? ???”“????????”“?????????”和文學領域詞“?????”“??????”“??? ?”等。圖4左側偏教育學領域詞、右側偏文學領域詞。

圖3 Word2Vec詞向量K-means聚類Fig.3 Word2Vec word embedding K-means clustering

圖4 BERT詞向量K-means聚類Fig.4 BERT word embedding K-means clustering

表6 圖4左側聚類對應文字翻譯Table 6 Fig.4 text translation corresponding to left clustering

表7 圖4右側聚類對應文字翻譯Table 7 Fig.4 text translation corresponding to right clustering

3.3.4 嵌入式主題詞挖掘

將訓練出的蒙古文詞向量應用到嵌入式主題模型中，在嵌入式主題模型的超參數(shù)設置中根據(jù)以往的經驗以及語料的規(guī)模大小，主題個數(shù)K取10、20、30、50、80，當K取50時困惑度為最低。如表8所示，主體個數(shù)K為50時，選取的部分主題，并列出每個主題高相似度的八個主題詞。從表中可以看出，每個主題下的主題詞有著語義上的密切聯(lián)系。

表8 主題-主題詞Table 8 Topic-topic words

4 結束語

本文針對現(xiàn)有的蒙古文詞向量學習模型是靜態(tài)的、無法解決詞匯聚義等問題，提出利用BERT-CRF模型學習上下文敏感的動態(tài)詞向量。首先，將拉丁蒙古文輸入到BERT模型得到子詞級的向量，然后通過CRF解碼得到最優(yōu)序列標記，最后通過子詞融合的方式得到蒙古文單詞向量。實驗證明，僅用15萬蒙古文句子二次訓練BERT模型得到的蒙古文單詞，在向量空間中同義詞、多義詞的距離相比Word2Vec模型學出的詞向量更加接近。通過K-means聚類發(fā)現(xiàn)學出的蒙古文單詞有明顯的詞義聚類效果，在主題詞挖掘任務中獲取的主題詞有密切的關聯(lián)。在下一步的工作中繼續(xù)擴大語料規(guī)模學出更高質量的蒙古文詞向量，并從單語的自然語言處理任務遷移到跨語言的自然語言處理任務中，如在跨語言主題詞抽取、跨語言信息檢索等。

計算機工程與應用2023年2期

計算機工程與應用的其它文章: 《計算機科學與探索》投稿須知; 融合傳遞熵的圖神經網(wǎng)絡農產品期貨預測模型; 面向招標物料的命名實體識別研究及應用; 基于改進MFCC融合特征及FA-PNN的駕駛員路怒情緒識別; 奶牛產奶量性狀相關基因知識圖譜的研究與構建; 卡車-無人機協(xié)同救災物資避障配送問題研究