亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合詞語多特征的漢老短文本相似度計算

2023-04-19 05:12:16周蘭江周蕾越

小型微型計算機系統(tǒng) 2023年4期

郭雷,周蘭江,周蕾越

1(昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650550)2(昆明理工大學(xué) 津橋?qū)W院,昆明 650160) E-mail：2432948148@qq.com

1 引言

中老兩國雙邊經(jīng)貿(mào)關(guān)系密切,兩國政府和民間交往日益密切,老撾和中國都是社會主義國家,在彼此的發(fā)展道路上相互幫助和學(xué)習(xí),這種兄弟般的關(guān)系給中老關(guān)系注入了親情色彩.而語言是中老兩國交流的重要工具,因此對老撾語的研究有著重大的意義.文本相似度計算是文本匹配任務(wù)的一個特殊形式,返回文本之間相似程度的具體數(shù)值.跨語言文本相似度計算更是具有廣泛的應(yīng)用前景,例如跨語言的信息檢索系統(tǒng),跨語言的文本改寫剽竊檢測系統(tǒng),機器翻譯等等.跨語言文本相似度計算目前主要有基于機器翻譯的方法、基于LDA主題模型的方法、基于神經(jīng)網(wǎng)絡(luò)的方法等.

由于本文研究研究的對象老撾語屬于低資源語言,缺乏大規(guī)模語義詞典,現(xiàn)有的機器翻譯系統(tǒng)還不足以生成高質(zhì)量的譯文,不適合利用機器翻譯的方法在目標(biāo)語言層或中間語言層進(jìn)行文本相似度計算.而LDA模型是一種詞袋模型,忽略了文本中詞語的位置信息,對文本具體語義性表征不足,實驗效果一般.隨著神經(jīng)網(wǎng)絡(luò)不斷發(fā)展,目前采用神經(jīng)網(wǎng)絡(luò)計算文本相似度得到許多學(xué)者的廣泛應(yīng)用.

本文從最具有語義表達(dá)的單位詞語出發(fā),從詞語形態(tài)學(xué)、詞性、詞性權(quán)重的角度出發(fā),首先將漢語詞語拆分成筆畫的形式,老撾語詞語拆分成音符的形式,利用BiLSTM和3種不同尺度的CNN提取詞語的形態(tài)學(xué)特征、漢字內(nèi)部結(jié)構(gòu)特征,如偏旁部首等,并拼接上詞性特征向量,詞性權(quán)重向量,接著利用BiLSTM和CNN對嵌入層編碼的詞語特征向量進(jìn)一步提取漢老短文本語義特征,采用ESIM交互注意力機制讓漢老短文本的語義信息進(jìn)行交互,最后計算漢老短文本的相似度分?jǐn)?shù).本文提出的方法在語料稀缺的情況下取得了更好的效果,F1值達(dá)到了78.67%.

本文的主要貢獻(xiàn)如下：

1)根據(jù)漢語和老撾語的語言特點,通過對其詞的研究,在漢老短文本分布式表示上融入了漢老詞語的形態(tài)學(xué)特征、詞性特征、詞性權(quán)重,使得漢老短文本的分布式表示含有更多的語義信息,提高了模型的效果.

2)利用弱監(jiān)督跨語言詞向量模型,對齊漢老雙語詞向量,在同一語義空間里面表征漢老短文本.并利用ESIM交互型注意力機制對漢老短文本的語義信息進(jìn)行交互,提高模型效果.

2 相關(guān)工作

文本相似度計算是通過一定方法計算兩個文本(句子、短文本、文檔),得到具體的數(shù)值.相比于單語言文本相似度計算,跨語言文本相似度計算在語序等方面存在較大的差異,使得跨語言文本相似度計算更具有挑戰(zhàn)性.目前跨語言文本相似度計算主要有以下幾種：

1)基于機器翻譯的方法,石杰[1]等人利用早期的機器翻譯方法,即通過語義詞典Wordnet將中文和泰文翻譯為中間層語言,再在中間層語言的平臺上進(jìn)行文本相似度計算模型的構(gòu)建.Erdmann[2]等人將維基百科上的文本翻譯成另一篇文章的語言,再使用機器翻譯的評估指標(biāo)計算文本的相似度;Wu[3]和Tian[4]等人通過機器翻譯系統(tǒng)將不同語言轉(zhuǎn)換為英語,在目標(biāo)語言英語上進(jìn)行語義相似度衡量.此方法針對老撾語來說并不是最優(yōu)的選擇,老撾語屬于資源貧乏型語言,種子詞典的規(guī)模較小,數(shù)量較少并不足以覆蓋所要測試的中文文本,此方法正確率較低.

2)基于LDA主題模型的方法,利用LDA主題模型訓(xùn)練文檔語料,得到文檔在各個主題空間上的概率分布情況.程蔚[5]等人利用雙語平行語料訓(xùn)練出雙語LDA模型,然后利用該模型預(yù)測新語料的主題分布,結(jié)合主題分布概率,利用余弦相似度計算新的雙語文檔的相似度;李訓(xùn)宇[6]等人利用單語LDA模型分別抽取漢語和緬甸語的主題,并將主題下的主題詞通過雙語詞典映射到同一空間進(jìn)行表征,得到漢緬雙語主題詞向量.最后結(jié)合主題詞向量和主題分布概率,利用余弦相似度計算雙語文檔的相似度,然后獲取漢緬雙語可比文檔.Ni[7]等人提出ML-LDA(Multilingual Topics-Latent Dirichlet Allocation)模型來提取維基百科平行語料中的“通用”主題,該“通用”主題能被多種語言表示,使得不同語言的文檔的主題能在一個空間表示.

3)基于神經(jīng)網(wǎng)絡(luò)的方法,通過神經(jīng)網(wǎng)絡(luò)建模,提取文本語義特征來計算文本相似度是目前比較主流的方法.對于單語言文本相似度計算,郭浩[8]等人利用BiLSTM和CNN相結(jié)合的孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)計算短文本相似度分?jǐn)?shù).對于跨語言文本相似度計算,由于不同語言文本之間帶來的差異性,很多學(xué)者將其翻譯成中間語言來進(jìn)行文本相似度計算,如李霞[9]等人采用谷歌翻譯將不同語言的文本翻譯成英語,并提出將門控卷積神經(jīng)網(wǎng)絡(luò)結(jié)合自注意力機制實現(xiàn)了對多種語言句子級別的相似度計算.這種方法并不適用于老撾語等低資源語言,因為目前翻譯系統(tǒng)還不足以生成高質(zhì)量的譯文,翻譯不準(zhǔn)確會形成累積誤差,影響模型效果.針對低資源語言,趙小兵[10]等人用不同規(guī)模的藏漢文本語料訓(xùn)練了siames LSTM藏漢跨語言文本相似度計算模型,實驗表明語料規(guī)模對模型效果影響較大.

由于機器翻譯的方法需要大規(guī)模的語義詞典或者效果較好的翻譯系統(tǒng),但對于目前研究基礎(chǔ)較為薄弱的老撾語來說此方法還不可行,而LDA模型是詞袋模型,缺乏具體語義的表征,模型效果較差.目前多數(shù)學(xué)者采用神經(jīng)網(wǎng)絡(luò)提取跨語言文本特征的方法來計算文本相似度.

3 漢語-老撾語詞語形態(tài)學(xué)

表1 漢-老詞語形態(tài)學(xué)特征對應(yīng)表(部分)Table 1 Correspondence table of morphologicalcharacteristics of Chinese-Lao words (part)

4 融合詞特征的漢老雙語短文本計算模型

4.1 模型結(jié)構(gòu)

本文利用jieba工具對漢語短文本語料進(jìn)行分詞和詞性標(biāo)注,利用昆明理工大學(xué)實驗室開發(fā)的老撾語分詞[13]和詞性標(biāo)注[14]工具對老撾語短文本語料進(jìn)行處理,并去除停用詞.考慮到詞或字本身的形態(tài)或內(nèi)部結(jié)構(gòu)可以幫助人們直觀地獲取部分語義信息,本文采用BiLSTM和CNN提取漢老詞語的形態(tài)學(xué)特征或漢字的內(nèi)部結(jié)構(gòu)特征,并將此特征向量拼接到原有的詞向量上.其次由于每個詞的詞性不同,導(dǎo)致該詞對短文本語義信息貢獻(xiàn)程度的差異,本文將詞語的詞性向量拼接到該詞的詞向量上,并將每個詞的詞性權(quán)重也融入到短文本分布式表示里,使得漢老短文本的分布式表示含有更豐富的語義信息,模型效果更佳.

嵌入層編碼完成后,本文采用BiLSTM和CNN共同對漢老雙語短文本提取特征,然后采用ESIM模型的交互注意力機制,讓漢老短文本的語義信息進(jìn)行交互,最后通過全連接層計算漢老短文本相似度分?jǐn)?shù).其結(jié)構(gòu)如圖1所示.

圖1 融合詞語多特征的漢老短文本相似度計算模型圖Fig.1 Similarity calculation model of Chinese and Laotexts fused with multi-features of words

4.2 嵌入層

4.2.1 漢老詞向量對齊

詞向量是文本語義表征的基礎(chǔ),其質(zhì)量對實驗效果有較大的影響.針對跨語言文本相似度計算的任務(wù),如果能使得漢語語詞語和老撾語詞語能映射在同一空間下,將大大提高漢老跨語言短文本相似度計算的準(zhǔn)確率.

Artetxe[15]等人提出僅使用25對單詞或簡單的數(shù)字作為種子詞典,將種子詞典表示為二進(jìn)制矩陣D,假設(shè)字典中第i個源語言單詞與第j個目標(biāo)語言單詞對齊,則Dij=1,通過公式(1)利用SVD方法求解得到最優(yōu)映射矩陣W*,使得目標(biāo)語言詞嵌入矩陣Xi*和源語言單詞詞嵌入矩陣Zj*之間的平方歐幾里得距離之和最小.然后再利用求解出來的最優(yōu)線性變換矩陣W*對源語言詞嵌入矩陣X進(jìn)行線性變換、即X′=XW*,實現(xiàn)源語言到目標(biāo)語言的語義空間映射,其實驗結(jié)果證明半監(jiān)督的跨語言詞向量模型也可以得到高質(zhì)量的跨語言詞向量.

(1)

由于有監(jiān)督跨語言詞向量模型對種子詞典的數(shù)量和質(zhì)量都有較高的要求,老撾語屬于低資源語言,比較適用于使用半監(jiān)督方法.效仿Artetxe等人的實驗,使用半監(jiān)督跨語言詞向量模型得到了漢老跨語言詞向量.

4.2.2 漢-老詞語形態(tài)學(xué)特征提取

詞或字本身的形態(tài)或內(nèi)部結(jié)構(gòu)可以幫助人們直觀地獲取部分語義信息,Cao[16]等人提出利用筆畫的n-gram特征提取中文詞語內(nèi)部語義信息,并取得了較好地實驗效果.Wieting[17]等人提出使用字符級的n-gram向量來表示英語中的單詞,以捕獲包括前綴、后綴、詞根等語義特征.這對本文開展?jié)h語形態(tài)學(xué)研究和老撾語形態(tài)學(xué)研究有著重要的指導(dǎo)意義.考慮到漢語詞語最小組成單位為筆畫、老撾語詞語的最小組成單位為音符,本文采用BiLSTM提取筆畫(音符)順序特征,然后利用不同卷積核大小的CNN,卷積核尺度為6、7、8,提取漢、老詞語筆畫(音符)的詞根、詞綴或偏旁部首特征,其結(jié)構(gòu)如圖2所示.該方法也從詞語形態(tài)學(xué)特征的角度解決了未登錄詞無法用詞向量表征的問題,使得未登錄詞能在其形態(tài)學(xué)上得到表達(dá),增強了文本語義信息.

圖2 提取詞語形態(tài)學(xué)特征結(jié)構(gòu)圖Fig.2 Extracted word morphological feature structure diagram

4.2.3 漢-老詞語詞性和權(quán)重特征

詞性分為名詞、動詞、形容詞、數(shù)詞等等,不同詞性對文本語義構(gòu)成有著不同程度的貢獻(xiàn),利用分詞和詞性標(biāo)注工具對漢老雙語語短文本進(jìn)行分詞和詞性標(biāo)注.然后參照Petrov[18]等人開發(fā)的谷歌通用詞性標(biāo)簽(Universal POS tags)對詞性標(biāo)注進(jìn)行統(tǒng)一化,并統(tǒng)計語料中對短文本表達(dá)貢獻(xiàn)較大的詞性(名詞(NOUN)、動詞(VERB)、形容詞(ADJ))在所有詞性中所占比重來確定其詞性權(quán)重,把每個詞的詞性特征和其權(quán)重特征融入到漢老短文本語義表征里面,提升模型效果.其權(quán)重如表2所示.

表2 詞性權(quán)重表Table 2 Part of speech weight table

4.3 編碼層

本文采用BiLSTM和CNN神經(jīng)網(wǎng)絡(luò)在嵌入層的基礎(chǔ)上進(jìn)一步對漢老短文本進(jìn)行編碼,使用BiLSTM提取短文本上下文語義特征,考慮到漢語和老撾語在表達(dá)上的語序差異,通過CNN提取短文本的局部語義信息特征,以此減小不同語言語序帶來的差異.最后將兩個網(wǎng)絡(luò)提取到的特征進(jìn)行拼接,提高模型效果.

4.3.1 BiLSTM提取特征

4.3.2 CNN提取特征

由于漢老短文本語序存在差異性,本文利用CNN提取漢老短文本的局部語義特征.假設(shè)某個文本有n個單詞,詞向量維度為k,每個單詞的詞向量為xi∈Rk.卷積核窗口大小為h,通過公式(2)計算卷積核窗口每一次滑動的輸出值ci,最后卷積輸出向量為：

c=[c1,c2,…,cn-h+1]ci=f(WTxi：i+h-1+b)(i≤n-h+1)

(2)

式中,f為非線性激活函數(shù),本文使用的是“relu”函數(shù);W為卷積核輸入節(jié)點的權(quán)重矩陣;b為偏置項.將卷積后的向量c再通過一個最大池化層,其中pool_size為4的時候,實驗效果最好.并使用Padding對其進(jìn)行補齊,其公式如(3)所示.

(3)

4.4 ESIM交互注意力層

當(dāng)漢語短文本和老撾語短文本通過CNN和BiLSTM特征提取后后,得到了文本單詞之間的上下文語義信息和文本局部語義信息,為了更加充分的利用好語義信息,本文采用Chen Q[19]等人中提出的ESIM交互注意力層,盡早的讓漢語短文本和老撾語短文本進(jìn)行語義信息的交互、對比,以此得到各文本強化后的向量表征.本文首先將CNN和BiLSTM提取到的漢老短文本特征特征進(jìn)行拼接：

(4)

(5)

參照ESIM模型的工作,根據(jù)(6)式按位計算漢語短文本中的每個向量與老撾語短文本中的每個向量的數(shù)值關(guān)系eij,將計算得到的所有數(shù)值關(guān)系進(jìn)行求和,然后將每個數(shù)值關(guān)系在求和后的數(shù)值關(guān)系中所占的比重作為權(quán)重.

(6)

(7)

(8)

(9)

(10)

4.5 相似度分?jǐn)?shù)計算層

拼接所有信息得到最后的漢老短文本的分布式表示ma、mb后,類似于shao[20]的工作,對其進(jìn)行按位減(取絕對值)和按位乘的操作,并將兩個結(jié)果進(jìn)行拼接.

P1=(|ma○-mb|)⊕(ma?mb)

(11)

式中,○-表示漢老元素對應(yīng)相減,?表示漢老元素對應(yīng)相乘,⊕表示將結(jié)果進(jìn)行拼接.

最后將漢老短文本的語義相似度表示輸入全連接層進(jìn)行計算,使用更具有魯棒性的“elu”作為激活函數(shù),最后得到漢老短文本的相似度分?jǐn)?shù).其計算公式如下：

P2=elu(W1P1+b)

(12)

p=sigmoid(W2P2+c)∈(0～1)

(13)

式中,W1、W2和b、c均為模型參數(shù),p為模型最后輸出的相似度分?jǐn)?shù),其輸出值在0至1之間.本文采用交叉熵?fù)p失函數(shù)評估模型的魯棒性,其公式如下：

(14)

式中pi為樣本i被模型預(yù)測為正樣本的分值,yi為人工評定的分值,N為每一批次樣本的個數(shù).

5 實驗分析

5.1 實驗數(shù)據(jù)

本文使用的數(shù)據(jù)集分為3部分,第1部分是用來預(yù)訓(xùn)練詞向量的數(shù)據(jù)集：漢語從漢語維基百科上獲得了1.27G的單語語料,并利用開源工具進(jìn)行數(shù)據(jù)清洗、繁簡轉(zhuǎn)換,借助jieba分詞工具對語料進(jìn)行分詞處理并去除停用詞.然后利用斯坦福開發(fā)的Glove詞向量訓(xùn)練工具得到約55.2萬個漢語單詞詞向量(約1.54G),詞向量維度為300維.老撾語從老撾語維基百科得到265M的單語語料,對數(shù)據(jù)進(jìn)行清洗后,利用昆明理工大學(xué)實驗室開發(fā)的分詞工具對其進(jìn)行分詞處理.同樣利用斯坦福開發(fā)的Glove詞向量訓(xùn)練工具得到約7.3萬詞語詞向量(約0.27G),詞向量維度為300維.

第2部分?jǐn)?shù)據(jù)集為漢老雙語平行短文本：來源于漢語維基百科和老撾語維基百科,以及以中國國際廣播電臺老撾語部為依托的CRI悅生活公眾號.經(jīng)過老撾留學(xué)生校對后,共得到5798篇漢老平行短文本,本文以1∶7的比例構(gòu)造了40586篇漢老非平行短文本.如表3所示.

將數(shù)據(jù)集按照9∶1進(jìn)行訓(xùn)練集和測試集的劃分.本文實驗在固定隨機種子數(shù)下使用10折交叉驗證,輪流將訓(xùn)練集中9份作為訓(xùn)練數(shù)據(jù),1份作為驗證數(shù)據(jù)進(jìn)行實驗,每一次訓(xùn)練好的模型在測試集上進(jìn)行驗證,取10次實驗結(jié)果的均值.每次訓(xùn)練使用的數(shù)據(jù)集劃分如表4所示.

表3 漢老雙語短文本數(shù)據(jù)集Table 3 Chinese-Lao bilingual short text data set

表4 訓(xùn)練模型數(shù)據(jù)集劃分結(jié)果Table 4 Data set division results of the training model

第3部分?jǐn)?shù)據(jù)集為漢語詞語的筆畫構(gòu)成和老撾語詞語的音符構(gòu)成：本文從漢典字詞查詢網(wǎng)站獲得了28503個簡體字的筆畫構(gòu)成,筆畫種類有25種.第2部分語料中漢語實驗語料分詞后,將每個詞語拆分成字,將字拆分成分成筆畫,然后組合成詞的筆畫.第2部分語料中的老撾語語料分詞后,將其按照老撾語的音符匹配規(guī)則對老撾語詞語進(jìn)行音符拆分,音符種類有69種.

5.2 實驗參數(shù)設(shè)置

本文實驗環(huán)境為Windows10操作系統(tǒng),顯卡使用NVIDIA公司生產(chǎn)的GeForce RTX 2060S,使用python3.6作為開發(fā)語言,開發(fā)平臺為PyCharm,以TensorFlow_gpu-1.13.1作為后端運行,使用Keras框架實現(xiàn)本文相似度計算方法.

在提取筆畫(音符)特征的神經(jīng)網(wǎng)絡(luò)中,組成漢語單詞的筆畫數(shù)和老撾語單詞的音符數(shù)不同,本文將漢語單詞的筆畫數(shù)和老撾語單詞音符數(shù)設(shè)置為25,維度設(shè)置為50,并對其進(jìn)行隨機初始化,LSTM的隱節(jié)點數(shù)為25,老撾語音符CNN中設(shè)置4、5、6共3種不同尺度的卷積核,漢語筆畫CNN中設(shè)置6、7、8共3種不同尺度的卷積核,卷積核數(shù)量各50個,步長設(shè)置為1,提取漢、老詞語的形態(tài)學(xué)特征.

在提取漢老短文本詞語間特征的神經(jīng)網(wǎng)絡(luò)中,本文將漢、老短文本的長度均設(shè)置為150個詞語,詞向量維度為300,詞性向量維度為50,并對其進(jìn)行隨機初始化.LSTM的隱節(jié)點數(shù)量為50,CNN中的卷積核尺度為3,卷積核數(shù)量為50,步長為1.采用 Adam算法對模型進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)為0.01.Batch size 的大小設(shè)置為 64,Epoch為60.

5.3 評價指標(biāo)

本文采用常用的評測指標(biāo)：準(zhǔn)確率、召回率和F1值.將漢老對齊短文本的標(biāo)簽設(shè)置為1,將漢老非對齊短文本的標(biāo)簽設(shè)置為0.采用0.5作為相似度閾值,當(dāng)模型預(yù)測的漢老短文本相似度分?jǐn)?shù)大于0.5時,判斷為該漢老短文本為平行文本對.召回率、準(zhǔn)確率、F1值計算方式如下所示.

(15)

(16)

(17)

5.4 模型對比實驗

本文利用BiLSTM和CNN分別提取漢語詞語筆畫特征與老撾語詞語音符特征,還將詞語的詞性向量和詞性權(quán)重向量與原有的詞向量進(jìn)行拼接.為了能充分利用這些語義信息向量,本文使用BiLSTM和CNN提取漢老短文本上下文語義信息和局部語義信息,然后將提取到的語義特征向量進(jìn)行拼接,利用ESIM交互注意力機制將漢老短文本的語義信息進(jìn)行交互,并分析新舊序列的差異性,最后將所有的信息拼接到一個新的序列中.為了探索本文方法的有效性,設(shè)置了以下幾個對比實驗：

1)將雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)作為本文的基準(zhǔn)模型(Base Model).

2)在基準(zhǔn)模型上加入CNN,驗證實驗效果.

3) 在2)實驗基礎(chǔ)上加入ESIM交互注意力機制,驗證實驗效果.

4)在3)實驗基礎(chǔ)上加入Word-feature(Our),驗證實驗效果.

本文除了探索利用不同方法計算漢老短文本相似度的實驗效果,還與其他學(xué)者在文本(句子)相似度的工作做了對比：分別為郭浩[8]等人利用BiLSTM和CNN提取文本特征并與注意力機制相結(jié)合的孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);李霞[9]等人提出的將門控卷積神經(jīng)網(wǎng)絡(luò)結(jié)合自注意力機制,實現(xiàn)句子級別的相似度計算;趙小兵[10]等人的基于注意力機制的siames LSTM相似度計算模型.以上7個模型均在相同實驗環(huán)境下采用10折交叉驗證法進(jìn)行實驗.最終實驗結(jié)果如表5所示.

表5 不同模型實驗結(jié)果Table 5 Experimental results of different models

模型(2)對比模型(1)的實驗結(jié)果其F1值提高了0.51%,表明在漢老短文本特征提取的模型中加入CNN,確實能減小漢老語序差異,提升模型效果.模型(3)、模型(5)與模型(2)的實驗結(jié)果對比其F1值分別提高了0.63%和0.43%,表明加入交互注意力機制或自注意力機制能使模型學(xué)到更多的語義信息.模型(3)對比模型(5)的實驗結(jié)果其F1值提高了0.20%,說明交互注意力機制比注意力機制的效果更好,這是因為交互注意力機制對比自注意力機制的孿生網(wǎng)絡(luò)模型,其能讓漢老短文本進(jìn)行更多的信息交互,提升模型的效果.模型(4)的結(jié)果與模型(3)的實驗結(jié)果其F1值提高了0.62%,表明添加詞語的形態(tài)學(xué)特征、詞性特征、權(quán)重特征能提升模型的學(xué)習(xí)效果.

5.5 特征對比實驗

本文采用BiLSTM和CNN提取漢老詞語的形態(tài)學(xué)特征,并加入了詞語的詞性特征、詞性權(quán)重特征.為了驗證不同特征對實驗效果的影響,設(shè)置了以下6個特征對比實驗.特征對比實驗均在相同實驗環(huán)境下采用10折交叉驗證法進(jìn)行.最終實驗結(jié)果如表6所示.

表6 特征對比實驗Table 6 Feature comparison experiment

對表6中的實驗結(jié)果分析,模型(2)對比模型(1)的實驗結(jié)果其F1值提高了0.25%,表明CNN能較好地提取到詞語的形態(tài)學(xué)特征,且該特征有利于模型效果的提升.模型(3)對比模型(1)的實驗結(jié)果其F1值降低了0.37%,可能是單獨利用BiLSTM對字符形態(tài)提取特征效果不佳,給模型帶來了噪聲數(shù)據(jù).模型(4)對比模型(1)、模型(2)的實驗結(jié)果其F1值分別提高了0.36%、0.11%,表明在CNN提取詞語形態(tài)學(xué)特征之前,如果能結(jié)合BiLSTM網(wǎng)絡(luò)提取的漢語詞語中漢字筆畫順序的語義信息和老撾語詞語音符順序的語義信息,模型效果會更佳.模型(5)對比模型(4)的實驗結(jié)果其F1值提升了0.14%,表明詞性向量在文本語義的表征上也有貢獻(xiàn).模型(6)對比模型(5)的實驗結(jié)果其F1值提高了0.12%,表明不同詞性在文本語義貢獻(xiàn)上不同,形容詞、名詞、動詞對語義貢獻(xiàn)較大.

5.6 不同卷積核尺度提取漢老字符形態(tài)學(xué)特征

考慮到漢語詞根、詞綴或字的偏旁部首的筆畫組成與老撾語詞根、詞綴等形態(tài)學(xué)特征的音符組成數(shù)量不同,利用含有相同尺寸卷積核的CNN提取漢語詞語和老撾語詞語的形態(tài)學(xué)特征有限.本文分別設(shè)置4種不同尺寸的卷積核(漢語卷積核尺寸(6、7、8、9),老撾語卷積核尺寸(4、5、6、7))對漢語和老撾語提取形態(tài)學(xué)特征提取,其卷積核尺度對比實驗均在相同實驗環(huán)境下采用10折交叉驗證法進(jìn)行.最終實驗結(jié)果如表7所示.

表7 不同卷積核尺度對比Table 7 Comparison of different convolution kernel scales

通過對表中的實驗數(shù)據(jù)分析可知,利用不同卷積核尺度的CNN提取漢老詞語的形態(tài)學(xué)特征對實驗?zāi)Ｐ托Ч杏绊?模型(6)對比模型(4)、模型(5)的實驗結(jié)果其F1值分別提高了0.09%、0.16%,而模型(4)、模型(5)對比單個CNN模型(1)、模型(2)、模型(3)的實驗效果也都有提高,說明不同卷積核尺度的CNN能提取到更多漢老詞語的形態(tài)學(xué)特征.但是模型(7)對比模型(6)的實驗結(jié)果其F1值降低了1.93%,可能是實驗數(shù)據(jù)較少,參數(shù)過多,使得模型較早過擬合化.通過實驗對比,本文選擇模型(6)中老撾語和漢語的卷積核尺寸作為本模型的設(shè)置.

6 結(jié) 論

本文針對漢老短文本跨語言相似度計算,提出利用BiLSTM和CNN共同提取漢老詞語的形態(tài)學(xué)特征,并利用漢老詞語詞性和詞性權(quán)重的語義信息,進(jìn)行聯(lián)合嵌入,然后將聯(lián)合嵌入層作為BiLSTM和CNN的輸入,進(jìn)一步對語義信息編碼,提取文本的上下文語義信息和局部語義信息,以此作為交互層的輸入,利用ESIM交互注意力機制對編碼層提取到的漢老短文本語義信息進(jìn)行交互,最后利用相似度計算層計算漢老短文本的相似度分?jǐn)?shù).與目前主流方法相比較,本文提出的方法實驗效果更佳,其F1值達(dá)到了78.67%.下一步考慮利用該方法做漢老雙語問答系統(tǒng)的研究.