薛振宇,余正濤,高盛祥
(1.昆明理工大學 信息工程與自動化學院,昆明 650500;2.昆明理工大學 云南省人工智能重點實驗室,昆明 650500)
漢越跨語言新聞事件檢索任務是指用戶將包含事件信息的漢語查詢句輸入檢索系統(tǒng)后,檢索系統(tǒng)為用戶返回一系列與查詢句中事件信息相關的越南語新聞文檔。目前主流的跨語言信息檢索系統(tǒng)采用查詢翻譯方法[1]、文檔翻譯方法[2]或中間語言翻譯方法[3]。其中,查詢翻譯方法首先將查詢句翻譯成候選文檔所使用語言下的查詢句,然后使用翻譯后的查詢句對候選文檔進行檢索排序。因為該方法只翻譯查詢句,翻譯難度較低且正確率高,所以在跨語言信息檢索任務中最常使用。
目前主流的檢索模型有基于特征的檢索模型[4]和基于神經(jīng)網(wǎng)絡的檢索模型[5]。
基于特征的檢索模型由于依賴于人工尋找特征且找到的特征數(shù)量有限,導致模型參數(shù)量較少,使得模型泛化能力降低,因此,其相較于基于神經(jīng)網(wǎng)絡的檢索模型在完成檢索任務時表現(xiàn)較差。但是,有一些基于特征的檢索模型在融合實體語義信息后性能會得到較大提升,包括利用實體標注進行文本表示的檢索模型[6]、多排序特征的檢索模型[7]、基于查詢句與文檔間實體連接的檢索模型[8]以及基于知識圖譜實現(xiàn)查詢句和文檔軟匹配的檢索模型[9],這些模型均是通過融合實體語義信息來提高檢索性能。
基于神經(jīng)網(wǎng)絡的檢索模型又可分為基于表示的檢索模型和基于交互的檢索模型。基于表示的檢索模型[10]在初始階段對查詢句和文檔單獨進行處理,然后使用神經(jīng)網(wǎng)絡分別編碼,得到各自的文本表征并進行相似度計算,最后將文本表征的相似度作為查詢和文檔的相似度得分,根據(jù)相似度得分對文檔進行排序。這種基于表示的檢索模型在最后階段才會利用文本表征計算查詢與文檔間的相似度,模型的效果過于依賴文本表征的質(zhì)量,并且會丟失對模型效果有正向作用的句法和詞法等基礎的文本特征?;诮换サ臋z索模型[11]在開始階段就計算查詢句與文檔之間的詞級別的語義相似度作為基礎的交互特征,并在交互特征的基礎上進一步抽取層次交互特征,得到查詢句與文檔交互固定維度的表示,最后通過計算相似度對文檔進行打分排序。由于基于交互的檢索模型盡可能早地將查詢句和文檔進行了交互,捕獲到了查詢句與文檔之間相對更基礎的特征,因此檢索效果相較于基于表示的檢索模型提升顯著。
基于交互的檢索模型利用神經(jīng)網(wǎng)絡和詞級交互信息學習相對復雜的排序模型,其在開放域的檢索任務上性能優(yōu)于基于特征的檢索模型和基于表示的檢索模型。然而,在漢越跨語言新聞事件檢索任務中包含事件描述的候選文檔中含有大量新聞事件領域內(nèi)特有的事件實體[12],如人名、地名、組織機構名、特定政治概念名等事件實體。目前,事件實體的語義信息能否融入基于交互的檢索模型中來提高漢越跨語言新聞事件檢索模型排序的性能尚不明確,并且在事件檢索任務中,一篇候選文檔中可能包含多個事件,這會干擾事件查詢句和包含該事件信息的候選文檔匹配的性能。以越南語候選文檔中的事件描 述“為例,該描述中包含3 種不同的事件,分別為:,中文解釋為“Tedros 發(fā)表新 年演講”;“”,中文解釋為“政府必須增加公共衛(wèi)生預算”;“COVID-19”,中文解釋為“資助所有人獲得COVID-19疫苗”。假定用戶對“Tedros 發(fā)表新年演講”這一事件感興趣,用戶輸入的查詢句可能是“”,在查詢句與候選文檔進行排序匹配時,其余2 種事件會增加噪聲,擴大匹配的事件范圍,降低查詢句與候選文檔匹配的準確度,影響檢索模型的性能。
一篇候選文檔中可能包含多個事件,為了能在候選文檔中準確地找到與查詢句中提及的事件相關的事件范圍,每個事件均有相應的事件觸發(fā)詞,在事件查詢句中也有事件觸發(fā)詞的情況下,可以將事件觸發(fā)詞作為分類不同事件的依據(jù)。例如“Tedros 發(fā)表新年演講”事件中的觸發(fā)詞為“”。本文提出一個融入事件實體知識的基于交互的漢越跨語言新聞事件檢索模型。對漢語查詢句進行翻譯后,利用無監(jiān)督標注方法PredPatt[13]識別查詢句與候選文檔中的事件觸發(fā)詞劃分候選文檔事件范圍,利用事件實體、事件觸發(fā)詞和多語言知識圖譜獲得查詢句與事件范圍中事件實體的語義知識表示。在此基礎上,使用基于交互的檢索排序模型并融入事件實體的語義知識表示,對查詢句和文檔進行匹配排序,從而提升模型檢索性能。
本文構建一個融入事件實體知識的漢越跨語言新聞事件檢索模型,模型結構如圖1 所示。其中,查詢句為漢語事件查詢句,候選文檔為越南語新聞文檔。首先將漢語查詢句翻譯為越南語查詢句;然后識別出翻譯后的查詢句與越南語文檔中的事件觸發(fā)詞,并基于文檔中的事件觸發(fā)詞對文檔劃分事件范圍;之后使用越南語事件實體識別方法[12]識別出查詢句與文檔事件范圍中的事件實體,進而基于多語言知識圖譜和事件觸發(fā)詞對事件實體的語義進行擴充;最后使用基于交互的檢索模型框架分別提取查詢句中的詞和文檔事件范圍中的詞、查詢句中的詞和文檔事件范圍中擴充后的事件實體、查詢句中擴充后的事件實體和文檔事件范圍中的詞以及查詢句中擴充后的事件實體和文檔事件范圍中擴充后的事件實體交互所產(chǎn)生的排序特征,根據(jù)排序特征計算查詢句與文檔最終的排序得分。
圖1 融入事件實體知識的漢越跨語言新聞事件檢索模型結構Fig.1 Structure of Chinese-Vietnamese cross-language news event retrieval model incorporating event entity knowledge
漢越跨語言新聞事件檢索首先面臨的問題是漢越之間存在的語言隔閡對檢索造成的阻礙。目前,跨語言新聞事件檢索研究中最常用的方法是查詢翻譯方法,即先使用現(xiàn)有的翻譯工具將事件查詢句的語言翻譯為候選新聞文檔所用語言,再利用翻譯后的事件查詢句進行事件檢索。因此,本文通過現(xiàn)有的翻譯工具將漢語事件查詢句Q 翻譯為越南語事件查詢句q。
單個候選新聞文檔中包含多個事件,若對整個文檔與事件查詢句進行匹配,會產(chǎn)生較大的匹配誤差。因此,對于每個文檔d,本文使用PredPatt 方法識別d 中所有的事件觸發(fā)詞假定其中一個觸發(fā)詞的位置為l,窗口大小為p,則取l-p至l+p范圍內(nèi)的詞作為該觸發(fā)詞在文檔中的事件范圍Di。計算出所有觸發(fā)詞對應的事件范圍之后,可以將文檔d 看作f個事件范圍的集合,即d={D1,D2,…,Df}。
本文利用越南語事件實體識別方法識別出查詢句q 與文檔事件范圍D 中的事件實體,并在多語言知識圖譜ConceptNet[14]中找到其對應的實體類型和實體描述,融入本文模型。事件觸發(fā)詞位于2 個實體之間并連接2 個事件實體,可以表征事件實體之間的關系。本文使用PredPatt 識別出查詢句與文檔事件范圍中的事件觸發(fā)詞,并融入事件觸發(fā)詞本身的語義信息。最終,事件實體的語義表示包含以下4 種大小為L維的詞嵌入:
1)實體詞嵌入
將實體詞e 通過詞嵌入層Embe得到大小為L維的實體詞詞向量計算公式如式(1)所示:
2)實體描述詞嵌入
通過ConceptNet 找到實體詞e 對應的包含m個詞的實體描述。首先將描述中的每一個詞w 通過詞嵌入層Embw得到大小為L維的詞向量vw,將m個詞向量視作一個整體向量矩陣Vw。然后將Vw通過卷積操作得到代表長度為h的n-gram 向量計算公式如式(2)所示:
其中:WCNN與bCNN是 卷積核的2 個參數(shù)。
3)實體類型詞嵌入
通過ConceptNet 發(fā)現(xiàn)實體詞e 隸屬于n種實體類型,表示為Fe={f1,f2,…,fj,…,fn}。首先將實體詞e通過實體類型嵌入層Embu得到fj的向量表示
然后使用注意力機制將n種實體類型融合為一個實體類型詞向量
其中:aj為注意力分數(shù);Pj是查詢或文檔事件范圍向量表示與fj實體類型向量表示的點積;利用詞袋模型[15]對查詢句或文檔事件范圍進行編碼,Wbow是一個參數(shù)矩陣。
4)觸發(fā)詞嵌入
通過PredPatt 方法識別出查詢句或文檔事件范圍中的事件觸發(fā)詞ttrg,并通過詞嵌入層Embtrg得到大小為L維的觸發(fā)詞詞向量計算公式如式(7)所示:
通過線性層對上述4 種詞嵌入進行融合,得到事件實體最終的語義表示,計算公式如式(8)所示:
其中:We是維度大小為L×3L的矩陣;be是維度大小為L的向量。
本文使用基于交互的檢索模型作為融合越南語事件實體知識的模型框架,對于單個查詢句q 和單個文檔事件范圍D,基于交互的檢索模型通過建立兩者之間的詞級交互矩陣[16],使用q 與D 之間的詞向量相似度來衡量q 與D 之間的相似度。
基于交互的排序模型首先將q 與D 中的每個詞t通過詞嵌入層Embw得到大小為L維的詞向量vt:
然后基于得到的查詢詞向量和文檔詞向量生成交互矩陣M,其中每一個元素Mij表示q 中第i個詞向量與D 中第j個詞向量之間余弦相似度的值,計算公式如下:
本文借鑒XIONG 等[17]提出的基于詞與實體交互的匹配模型。該模型首先利用詞袋模型處理查詢句與文檔中的詞與標注好的實體,然后使用已有的不同排序模型(如BM25[18]、TF-IDF[19]等)分別計算查詢詞與文檔詞的排序得分、查詢詞與文檔實體的排序得分、查詢實體與文檔詞的排序得分和查詢實體與文檔實體的排序得分,最后將這4 種排序得分作為特征融入模型,計算最終的查詢句與文檔的排序得分。然而,該模型的特征提取效果過度依賴于已有的檢索排序模型且提取過程繁瑣??紤]到這一點,本文在漢越跨語言新聞事件檢索這一特定任務中,使用交互矩陣M={Mww,Mwe,Mew,Mee}來衡量查詢詞或查詢實體與文檔詞或文檔實體之間的相似程度,其中:Mww、Mwe、Mew、Mee分別表征查詢句中詞與事件范圍中詞的交互(qw-Dw)、查詢句中詞與事件范圍中事件實體的交互(qw-De)、查詢句中事件實體與事件范圍中詞的交互(qe-Dw)和查詢句中事件實體與事件范圍中事件實體的交互(qe-De)。
其中:WCNN與bCNN是卷積 核的2 個參數(shù)。
同理,得到代表長度為hD的n-gram 事件范圍向量
因此,Mww、Mwe、Mew、Mee中各元素的計算方式如下:
交互矩陣M={Mww,Mwe,Mew,Mee}可以插入到任何基于交互的檢索模型中,本文使用Conv-KNRM[21]這一基于交互的檢索模型作為結合M的模型框架。以Mww為例,Conv-KNRM 使用K個高斯分布從Mww中提取排序特征?(Mww),將每一個高斯分布Kk特征計算的結果為一個soft-TF 值[22],因此,K個高斯分布對Mww處理之后生成了一個K維特征向量?(Mww)={K1(Mww),K2(Mww),…,KK(Mww)},計算公式如式(13)所示:
其中:μk和δk分別表示第k個高斯分布的均值和方差。同理,得到?(Mwe)、?(Mew)和?(Mee)。
將?(Mww)、?(Mwe)、?(Mew)和?(Mee)拼接成最終的排序特征Φ(M):
本文在得到最終排序特征Φ(M)的基礎上,利用排序?qū)W習[23]得到查詢句與事件范圍最終的排序得分,計算公式如式(16)所示:
其中:ωr和br是排序?qū)W習的參數(shù);tanh 為激活函數(shù)。
由于一個文檔d 中含有f個事件范圍,即d={D1,D2,…,Df},因此對于查詢句q 和文檔d,取q 與D1,D2,…,Df中最大的排序得分作為q 與d 最終的排序得分:
其中,Φ(M)x表示查詢句q 與事件范圍Dx計算所得的排序特征。
最后,通過優(yōu)化如下所示的合頁損失函數(shù)[24]對模型進行訓練:
本文通過反向傳播優(yōu)化模型參數(shù),在此過程中,對實體詞詞嵌入、實體描述詞嵌入、實體類型詞嵌入、觸發(fā)詞詞嵌入、詞級交互和特征提取進行聯(lián)合學習。
本文實驗使用的漢越雙語新聞數(shù)據(jù)集包含漢語數(shù)據(jù)集和越南語數(shù)據(jù)集,其中,漢語數(shù)據(jù)集用于構建漢語事件查詢句,越南語數(shù)據(jù)集用于構建越南語候選文檔。為了對比本文模型在越南語單語新聞事件檢索任務和漢越跨語言新聞事件檢索任務中的性能差異,利用越南語數(shù)據(jù)集人工構建與漢語事件查詢句數(shù)量相同的越南語事件查詢句。查詢句與文檔的相關性標簽由人工標注,1 表示相關,0 表示不相關。實驗中用到的漢語和越南語數(shù)據(jù)集中查詢句子數(shù)與候選文檔數(shù)的詳細統(tǒng)計信息如表1 所示。
表1 數(shù)據(jù)集中查詢句與候選文檔數(shù)量Table 1 Number of query sentences and candidate documents in the data set
在本文實驗中:窗口大小p的值設定為5;實體詞嵌入、實體描述詞嵌入、實體類型詞嵌入和觸發(fā)詞嵌入的維度L設定為300;CNN 中濾波器個數(shù)為128;使用Adam 優(yōu)化器優(yōu)化模型參數(shù),初始學習率設置為0.001,訓練輪次為100 輪。針對越南語事件查詢句和越南語候選新聞文檔所使用的事件實體識別模型為融合詞典與對抗遷移的越南語事件實體識別模型[12],該模型經(jīng)過訓練之后,在越南語新聞數(shù)據(jù)集上識別效果較好,越南語事件實體識別的F1 值達到90.05%。實驗中使用的翻譯工具為目前漢越翻譯性能較好的Google 在線翻譯軟件。漢語事件查詢句、越南語事件查詢句和使用翻譯工具翻譯后的越南語事件查詢句均是只包含一種新聞事件的單一事件查詢句。本文使用的所有檢索模型均在Nvidia Tesla P100 GPU 上進行訓練和測試,在漢越雙語新聞數(shù)據(jù)集上,本文提出的融入事件實體知識的漢越跨語言新聞事件檢索模型每一輪數(shù)據(jù)訓練時間約為0.8 h。
在實驗中使用NDCG[25](Normalized Discounted Cumulative Gain)和MAP[26](Mean Average Precision)作為評價指標。
其中:k表示k個文檔的集合;ri表示排序列表中第i個文檔與查詢句的相關度。將DCG@k按照相關度從大到小對文檔進行排序后即得到idealDCG@k;R表示與查詢句相關的文檔總個數(shù);position(I)表示在檢索結果列表中從前往后第I個相關文檔在列表中的位置;MAP 是對多個查詢語句的AP 求均值。
將本文模型與基線模型進行比較,驗證本文方法的有效性?;€模型分為基于特征和基于神經(jīng)網(wǎng)絡2 類?;谔卣鞯臋z索模型包括RankSVM[27]和Coor-Ascent[28]2 種排序?qū)W習模型以及基于詞的無監(jiān)督檢索模型BM25;基于神經(jīng)網(wǎng)絡的檢索模型包括ARC-I[29]、ARC-II[29]、CDSSM[10]、MatchPyramid[30]、DRMM[31]、K-NRM[32]、Conv-KNRM、BERT-ATT-DBSCAN[33]、ATER[34]和BERT-MaxS[34],其中,ARC-I、CDSSM、BERT-ATTDBSCAN和ATER 是基于表示的檢索模型,ARC-II、MatchPyramid、DRMM、K-NRM、Conv-KNRM和BERTMaxS 模型是基于交互的檢索模型。
1)RankSVM 模型將文檔檢索排序問題轉化為文檔對的分類問題,然后針對此分類問題利用SVM模型[35]進行求解。
2)Coor-Ascent 是一種用于無約束優(yōu)化問題的常見優(yōu)化方法。該模型在檢索過程中通過一系列的一維搜索來求解最終的多元目標函數(shù)。
3)BM25 模型是在融合TF-IDF 特征的基礎上計算查詢句與文檔相關性的模型,其先計算每個查詢詞與文檔的相關度,再將得到的所有的詞與文檔的相關度進行加權求和,最后計算出最終的查詢句與文檔之間的相關度值。
4)ARC-I 模型使用CNN 來進行文本匹配,其先將查詢句和文檔表示成2 個定長的向量,再將2 個向量拼接成一個向量整體,最后把向量整體輸入多層感知器中,多層感知器的輸出結果即為查詢句與文檔的匹配得分。
5)ARC-II 模型是ARC-I 模型的擴展,其先將查詢句與文檔表示成向量,利用滑動窗口來選取詞向量組,將詞向量組作為一個固定單元進行卷積,將卷積后的結果作為查詢句與文檔相互作用的初步向量表示,再對其進行多次卷積和池化操作,最后將結果送入多層感知器中得到查詢句與文檔之間的匹配得分。
6)CDSSM 模型先將查詢句與文檔中的每一個詞表征為詞向量的形式,對設定的滑動窗口內(nèi)的詞向量進行卷積進而生成一個短語向量表示,再對短語向量表示進行池化操作。因為滑動窗口可以動態(tài)選取不同詞向量,獲取到句子中單詞順序信息,所以該模型能夠?qū)Σ樵兙渑c文檔間的匹配關系進行更完整的描述。
7)MatchPyramid 模型構建查詢句與文檔間的匹配矩陣,使用卷積操作提取匹配矩陣中的特征,進而利用這些特征計算查詢句與文檔間的相似度。
8)DRMM 模型選取查詢句中的一個詞,將該詞與文檔中所有的詞分別構成詞組對,對于每一個詞組對,使用余弦距離計算其相似度。該模型利用計算出的不同相似度構建直方圖,因而可以有效區(qū)分查詢句與文檔之間相似的程度。
9)K-NRM 模型先將查詢句和文檔轉化為向量形式,利用查詢句向量和文檔向量構建交互矩陣M,再引入K個核函數(shù),通過核函數(shù)池化的方式計算查詢句與文檔的相似程度。
10)Conv-KNRM 模型相較于K-NRM 模型,在進行核函數(shù)池化之前,分別利用滑動窗口對查詢句向量和文檔向量進行卷積操作,得到新的特征向量。在此基礎上,對于查詢句和文檔的新特征向量,兩兩進行余弦相似度計算形成交互矩陣M。最后,使用K個核函數(shù)池化的方式計算出查詢句與文檔的相似程度。
11)BERT-ATT-DBSCAN 模型先將查詢句和文檔分別利用加入注意力機制的BERT[36]模型轉換為向量形式,再利用DBSCAN 聚類算法對查詢句向量與文檔向量進行聚類得到向量簇,通過計算查詢句向量簇與文檔向量簇的余弦相似度找到與查詢句相關聯(lián)的文檔集合。
12)ATER 模型使用BM25 算法計算出查詢句與文檔的相關度值,并使用BERT 模型將查詢句和文檔分別轉換為向量形式,利用編碼器-解碼器架構計算出查詢句與文檔之間的相關度值。在此基礎上,將2 種相關度值進行加權求和,得到查詢句與文檔最終的相關度得分。
13)BERT-MaxS 模型使用BM25 模型計算查詢句與文檔的相關度值,并將文檔切分為句子集合并分別與查詢句進行拼接,使用基于BERT 的排序模型計算查詢句與每個文檔句的相關度值。在此基礎上,取最高相關度值與BM25 算法計算得出的相關度值進行加權求和,得到查詢句與文檔最終的相關度得分。
在查詢句為越南語事件查詢句的情況下,對越南語候選文檔進行檢索排序。比較本文模型與基線模型在越南語數(shù)據(jù)集上檢索性能的差異,實驗結果如表2所示。
表2 在越南語數(shù)據(jù)集上的越南語單語新聞事件檢索性能Table 2 Retrieval performance of Vietnamese monolingual news events on Vietnamese data set
從表2 的對比結果可以看出,本文模型檢索性能優(yōu)于其他檢索模型。其中,基于神經(jīng)網(wǎng)絡的檢索模型性能均優(yōu)于基于特征的檢索模型,相較于傳統(tǒng)的BM25 檢索模型獲得大幅度提升,在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 評價指標上分別提升0.540 6、0.565 6、0.489 6、0.588 3 和0.531 2。與Conv-KNRM 模型相比,本文模型在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 評價指標上分別提升98.82%、76.46%、57.61%、50.93%、98.77%,原因是本文在將Conv-KNRM 作為檢索模型框架的基礎上,把事件實體的分布式表示作為外部知識融入排序過程中,不僅進行查詢句與文檔間詞與詞之間的匹配,而且增加了查詢句與文檔之間的詞與事件實體的匹配、事件實體與事件實體的匹配,同時利用事件觸發(fā)詞劃定文檔中的事件范圍,縮小了查詢句與文檔匹配的空間,提升了匹配效率。與基線模型中性能最佳的BERT-MaxS 相比,雖然BERT-MaxS 在NDCG@1 和NDCG@5 指標上 均略高于本文模型,但該檢索模型是基于BERT 模型構建的,模型訓練所需數(shù)據(jù)量較大,模型參數(shù)較多,完成一次檢索過程的時間復雜度較高。
為探究事件實體知識的不同部分對模型檢索性能的影響,進行越南語單語新聞事件檢索的消融實驗,在以下4 種情況下對比檢索性能:1)檢索模型Conv-KNRM;2)在Conv-KNRM 基礎上分別加入4 種詞嵌入(實體詞嵌入、實體描述詞嵌入、實體類型詞嵌入和觸發(fā)詞嵌入);3)在Conv-KNRM基礎上劃分文檔事件范圍;4)在Conv-KNRM 基礎上兩兩加入4 種詞嵌入。消融實驗結果如表3所示。
表3 在越南語數(shù)據(jù)集上的消融實驗結果Table 3 Ablation experiment result on Vietnamese data set
從表3 中可以看出:
1)在4 種詞嵌入類型中,實體描述詞嵌入對于模型檢索性能的提升最大,在融入實體描述詞嵌入后,模型相較于Conv-KNRM 在MAP 評價指標上提升了0.157 2。
2)在只融入實體類型詞嵌入的情況下,模型相較于Conv-KNRM 在MAP評價指標上只提升0.015 6;但是在同時融入實體詞嵌入和實體類型詞嵌入的情況下,模型相較于Conv-KNRM 在MAP 評價指標上提升了0.107 5。由此可見,相較于只融入實體類型詞嵌入的情況,只有把實體類型詞嵌入和其他詞嵌入一同融入時,模型性能才得到較大提升。
3)融入4種詞嵌入(實體詞嵌入、實體類型詞嵌入、實體描述詞嵌入和觸發(fā)詞嵌入)后模型的MAP 評價指標相較于Conv-KNRM 提升0.207 7,充分證明了通過知識圖譜和事件觸發(fā)詞找到并融合成的事件實體語義表示可以有效提升查詢句與文檔的匹配性能。
4)在只對文檔劃分事件范圍后,模型的MAP 評價指標相較于Conv-KNRM 提升0.125 8。
5)相較于同時融入4 種詞嵌入后的模型,本文模型在NDCG@1、NDCG@3、NDCG@5、NDCG@10和MAP 評價指標上均提升較高。由此可見,對文檔劃分事件范圍后,可以縮小模型匹配的空間,大幅提升模型性能。
在查詢句為漢語事件查詢句的情況下,對越南語候選文檔進行檢索排序。比較本文模型與基線模型在漢越雙語新聞數(shù)據(jù)集上的檢索性能,實驗結果如表4 所示。
表4 在漢越雙語新聞數(shù)據(jù)集上的漢越跨語言新聞事件檢索性能Table 4 Retrieval performance of Chinese-Vietnamese cross-language news events on Chinese-Vietnamese bilingual news data set
從表4 中可以看出:各模型檢索性能相較于越南語單語新聞事件檢索性能均有所降低。這是因為模型性能受所使用的翻譯工具影響,翻譯工具的翻譯質(zhì)量不高,會導致翻譯生成的越南語事件查詢句并不完全符合越南語正常的語法和句式表達。對于所有對比基線模型,翻譯生成的越南語事件查詢句質(zhì)量低的情況嚴重影響了模型的檢索性能。相較于只在越南語數(shù)據(jù)集上的NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 評價指標:RankSVM分別降低0.067 0、0.059 9、0.135 1、0.152 3 和0.074 5;Conv-KNRM 分別降 低0.135 6、0.174 8、0.202 1、0.228 9和0.130 2;而本文模型性能降低相對較少,分別僅降低0.009 9、0.006 8、0.015 1、0.003 3 和0.000 8。這是因為本文模型依賴于使用多語言知識圖譜和事件觸發(fā)詞生成事件實體的語義知識表示,進而進行查詢句與文檔的詞與詞之間、詞與事件實體之間和事件實體與事件實體之間的匹配排序。而事件實體往往可以被翻譯工具翻譯正確,從而降低了詞與事件實體之間和事件實體與事件實體之間的匹配排序誤差,因此,本文模型受翻譯工具翻譯質(zhì)量的影響較小,能夠較好地進行漢越跨語言新聞事件檢索排序。
為探索查詢句的翻譯操作是否會影響事件實體知識的不同部分對模型檢索性能所產(chǎn)生的促進作用,在漢越跨語言新聞事件檢索時,對本文模型進行消融實驗。實驗設置與越南語單語新聞事件檢索的消融實驗設置相同,實驗結果如表5所示。
表5 在漢越雙語新聞數(shù)據(jù)集上的消融實驗結果Table 5 Ablation experiment result on Chinese-Vietnamese bilingual news data set
從表5 中可以看出:經(jīng)過查詢句翻譯之后,事件實體知識的各部分依然可以對模型的檢索性能產(chǎn)生促進作用;在4 種詞嵌入類型中,實體描述詞嵌入對于模型檢索性能的提升最大,在融入實體描述詞嵌入后,本文模型相較于Conv-KNRM 在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 評價指標上分別提升0.293 3、0.268 6、0.250 9、0.277 0 和0.286 7。
本文通過融入事件實體知識,提出一種新的漢越跨語言新聞事件檢索模型。將漢語查詢句翻譯為越南語查詢句并識別出候選文檔中的事件觸發(fā)詞,基于觸發(fā)詞對文檔劃分事件范圍,同時識別查詢句中的事件觸發(fā)詞并使用事件實體識別方法識別出事件范圍和查詢句中的事件實體,基于知識圖譜和觸發(fā)詞得到事件實體的知識表示,將事件實體知識融入基于交互的排序?qū)W習算法中對候選文檔進行排序。實驗結果表明,本文模型在漢越雙語新聞數(shù)據(jù)集上相較于對比的基線模型取得了最佳的跨語言新聞事件檢索效果。但是本文模型在漢越雙語新聞數(shù)據(jù)集上的檢索性能相較于其在越南語數(shù)據(jù)集上的檢索性能有所降低,原因在于模型檢索的性能受到所使用翻譯工具的翻譯性能的限制。同時,其在查詢句與文檔匹配排序的過程中未考慮查詢句中的事件觸發(fā)詞與文檔中的事件觸發(fā)詞的歧義對查詢句和文檔匹配過程所造成的影響。后續(xù)將通過融入雙語詞典或引入雙語詞向量空間來輔助提升翻譯工具的翻譯效果,并且探索如何在查詢句和文檔匹配階段進行事件觸發(fā)詞消歧,從而進一步提升模型匹配的性能。