黃武鋒,何冬蕾,黃名選
(廣西財(cái)經(jīng)學(xué)院 信息與統(tǒng)計(jì)學(xué)院,廣西 南寧 530003)
跨語(yǔ)言信息檢索(cross-language information retrieval,CLIR)指的是以一種語(yǔ)言的查詢?nèi)z索其他語(yǔ)言信息資源的技術(shù),其中表達(dá)查詢的語(yǔ)言稱為源語(yǔ)言,所檢索文檔的語(yǔ)言稱為目標(biāo)語(yǔ)言。長(zhǎng)期以來,跨語(yǔ)言信息檢索存在嚴(yán)重的查詢主題嚴(yán)重漂移、詞不匹配以及查詢項(xiàng)翻譯歧義和多義性等問題,這些問題一直是制約跨語(yǔ)言信息檢索技術(shù)發(fā)展的瓶頸。近年來,跨語(yǔ)言信息檢索模型研究取得了豐富的研究成果,主要集中在基于查詢翻譯優(yōu)化的和基于查詢擴(kuò)展的跨語(yǔ)言信息檢索等方面。
基于查詢翻譯優(yōu)化的跨語(yǔ)言信息檢索針對(duì)源語(yǔ)言查詢翻譯過程中如何得到最優(yōu)的、最準(zhǔn)確的目標(biāo)語(yǔ)言查詢項(xiàng)開展研究。其典型的工作有:Geraldo等[1]提出了基于關(guān)聯(lián)規(guī)則挖掘的西班牙語(yǔ)-英語(yǔ)跨語(yǔ)言信息檢索方法;姚寒冰等[2]針對(duì)跨境電商涉及不同語(yǔ)言的供需雙方信息的跨語(yǔ)言檢索需求,提出了基于自然語(yǔ)言的跨語(yǔ)言協(xié)同機(jī)器翻譯的信息檢索算法;吳丹等[3]提出基于相關(guān)反饋的跨語(yǔ)言信息檢索查詢翻譯優(yōu)化技術(shù);Giang等[4]提出基于詞典翻譯的越英跨語(yǔ)言信息檢索方法,在此基礎(chǔ)上提出了基于偽相關(guān)反饋的越英跨語(yǔ)言檢索模型[5],有效提升了檢索性能;Debasis等[6]分別為源語(yǔ)言文檔和目標(biāo)語(yǔ)言文檔估計(jì)一個(gè)基于主題的相關(guān)性模型,在此基礎(chǔ)上,Wang等[7]提出了基于主題模型和偽相關(guān)反饋的跨語(yǔ)言信息檢索系統(tǒng),取得了良好的實(shí)驗(yàn)結(jié)果;劉偉成等[8]提出基于核典型相關(guān)分析算法的中英跨語(yǔ)言信息檢索方法,實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
基于查詢擴(kuò)展的跨語(yǔ)言信息檢索研究的核心問題是如何得到原查詢相關(guān)的擴(kuò)展詞實(shí)現(xiàn)跨語(yǔ)言查詢擴(kuò)展,以改善和提高跨語(yǔ)言信息檢索性能。其典型的工作有微軟亞洲研究院Gao等[9]提出的兩步偽相關(guān)反饋法,在此基礎(chǔ)上,吳丹等[10]通過計(jì)算前列n篇初檢文檔的語(yǔ)詞權(quán)重并降序排列,抽取權(quán)重比較高的前列m個(gè)語(yǔ)詞作為擴(kuò)展詞實(shí)現(xiàn)跨語(yǔ)言查詢擴(kuò)展,同時(shí)深入研究跨語(yǔ)言查詢翻譯前擴(kuò)展、翻譯后擴(kuò)展以及兩者結(jié)合的擴(kuò)展效果。Lam等[11]結(jié)合詞分布表示方法和查詢?cè)~與擴(kuò)展詞間的互信息計(jì)算擴(kuò)展詞權(quán)值實(shí)現(xiàn)跨語(yǔ)言信息檢索,黃名選[12]提出一種基于矩陣加權(quán)關(guān)聯(lián)模式的印尼-中跨語(yǔ)言信息檢索模型,均取得了良好的實(shí)驗(yàn)效果。
當(dāng)前,針對(duì)東盟小語(yǔ)種越南語(yǔ)言的跨語(yǔ)言信息檢索研究報(bào)道不是很多,而中國(guó)與越南的政治、經(jīng)濟(jì)、文化等往來更加頻繁和密切,面向越南語(yǔ)言的跨語(yǔ)言信息檢索研究顯得更加迫切和重要。為此,在原有的研究基礎(chǔ)上,文中開展面向東盟國(guó)家語(yǔ)言的跨語(yǔ)言信息檢索研究,提出一種基于完全加權(quán)關(guān)聯(lián)規(guī)則后件擴(kuò)展的越英跨語(yǔ)言信息檢索模型。
檢索模型將越南語(yǔ)查詢式通過機(jī)器翻譯系統(tǒng)翻譯為英文查詢式,在原始英文文檔集中檢索英文文檔,提取前列n篇初檢英文文檔提交給用戶,通過用戶的相關(guān)性判斷得到用戶相關(guān)反饋初檢文檔,采用基于支持度-條件概率增量比-興趣度評(píng)價(jià)框架的完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘技術(shù)對(duì)該文檔進(jìn)行挖掘,得到與原查詢相關(guān)的關(guān)聯(lián)規(guī)則模式,從規(guī)則模式中提取擴(kuò)展詞,和原查詢組合成新查詢?cè)俅螜z索原始英文文檔集,得到最終檢索結(jié)果,即英文文檔結(jié)果集,再通過機(jī)器翻譯系統(tǒng)將結(jié)果文檔翻譯為越南語(yǔ)文檔,返回給用戶。
根據(jù)上述檢索模型的基本思想,給出了融合完全加權(quán)模式挖掘與查詢擴(kuò)展的越英跨語(yǔ)言信息檢索模型結(jié)構(gòu),如圖1所示。該檢索模型結(jié)構(gòu)由6個(gè)模塊和2個(gè)數(shù)據(jù)庫(kù)組成,即文本翻譯模塊、文本檢索模塊、初檢結(jié)果用戶相關(guān)反饋模塊、面向越英跨語(yǔ)言檢索的完全加權(quán)關(guān)聯(lián)模式挖掘模塊、越英跨語(yǔ)言查詢擴(kuò)展詞生成模塊和越英跨語(yǔ)言查詢擴(kuò)展實(shí)現(xiàn)模塊,以及完全加權(quán)關(guān)聯(lián)規(guī)則庫(kù)和英文擴(kuò)展詞庫(kù)等。各個(gè)模塊的功能簡(jiǎn)述如下:
圖1 融合完全加權(quán)模式挖掘與查詢擴(kuò)展的 越英跨語(yǔ)言信息檢索模型結(jié)構(gòu)
文本翻譯模塊:該模塊的功能是將越南語(yǔ)用戶查詢式翻譯為英文查詢式,將最終檢索結(jié)果英文文檔翻譯為越南語(yǔ)文檔。文本采用現(xiàn)有的機(jī)器翻譯系統(tǒng)作為文本翻譯模塊,即微軟的必應(yīng)機(jī)器翻譯接口(Microsoft translator API)。
文本檢索模塊:該模塊負(fù)責(zé)將翻譯后的查詢和原始文檔集合中的文檔進(jìn)行相似度計(jì)算,并降序排列相似度,將排在前列的相似文檔返回給用戶。文中采用經(jīng)典的、傳統(tǒng)的向量空間模型方法計(jì)算查詢與文檔的相似度,即計(jì)算查詢向量和文檔向量之間夾角的余弦值作為其相似度值。
初檢結(jié)果用戶相關(guān)反饋模塊:該模塊負(fù)責(zé)收集用戶對(duì)初檢英文前列文檔的相關(guān)性判斷結(jié)果,提取被判斷為相關(guān)的初檢文檔構(gòu)建用戶相關(guān)反饋文檔集,同時(shí),對(duì)該文檔集進(jìn)行英文詞干提取、去除停用詞和提取特征詞等預(yù)處理。
面向越英跨語(yǔ)言檢索的完全加權(quán)關(guān)聯(lián)模式挖掘模塊:該模塊的功能是運(yùn)用基于支持度-條件概率增量比-興趣度評(píng)價(jià)框架的完全加權(quán)詞間關(guān)聯(lián)規(guī)則挖掘技術(shù)對(duì)用戶相關(guān)反饋文檔集進(jìn)行挖掘,得到包含有原查詢?cè)~項(xiàng)的完全加權(quán)頻繁項(xiàng)集和詞間關(guān)聯(lián)規(guī)則模式,構(gòu)建完全加權(quán)關(guān)聯(lián)規(guī)則庫(kù)。
越英跨語(yǔ)言查詢擴(kuò)展詞生成模塊:該模塊負(fù)責(zé)從完全加權(quán)關(guān)聯(lián)規(guī)則庫(kù)中提取擴(kuò)展詞,計(jì)算其權(quán)值,構(gòu)建英文擴(kuò)展詞庫(kù)。
越英跨語(yǔ)言查詢擴(kuò)展實(shí)現(xiàn)模塊:該模塊負(fù)責(zé)從英文擴(kuò)展詞庫(kù)提取擴(kuò)展詞,將擴(kuò)展詞和原查詢?cè)~組合為新查詢提交到文本檢索模塊對(duì)原始文檔集再次進(jìn)行檢索,得到最終檢索的英文文檔集,并將其送到文本翻譯模塊翻譯為越南語(yǔ)文檔集,最后將最終檢索結(jié)果的越南語(yǔ)文檔及其對(duì)應(yīng)的英文文檔返回給用戶界面。
2.3.1 面向越英跨語(yǔ)言檢索的完全加權(quán)詞間關(guān)聯(lián)模式挖掘
面向越英跨語(yǔ)言檢索的完全加權(quán)詞間關(guān)聯(lián)模式挖掘基本思想是:采用基于支持度-條件概率增量比CPIR-興趣度評(píng)價(jià)框架的完全加權(quán)關(guān)聯(lián)模式挖掘技術(shù),結(jié)合用戶原查詢信息,對(duì)越英跨語(yǔ)言檢索初檢結(jié)果用戶相關(guān)反饋文檔集挖掘與原查詢相關(guān)的完全加權(quán)頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則模式。其中采用文獻(xiàn)[13]的支持度計(jì)算公式計(jì)算關(guān)聯(lián)模式的支持度,將條件概率增量比CPIR作為關(guān)聯(lián)模型的置信度,其計(jì)算公式詳見文獻(xiàn)[14],對(duì)關(guān)聯(lián)模式進(jìn)行興趣度評(píng)估,其評(píng)估公式采用文獻(xiàn)[15]的關(guān)聯(lián)模式興趣度計(jì)算公式。在挖掘過程中,采取如下剪枝策略:剪除項(xiàng)集頻次或者權(quán)值為0的候選項(xiàng)集;當(dāng)挖掘到2_項(xiàng)集時(shí),只保留含有原查詢?cè)~的候選2_項(xiàng)集,其他的剪除;從候選2_項(xiàng)集以后,對(duì)應(yīng)每個(gè)候選項(xiàng)集,如果包含該項(xiàng)集的后續(xù)(k+1)_項(xiàng)集權(quán)值閾值KIWT(k,k+1)[16]大于該項(xiàng)集權(quán)值W(k),根據(jù)文獻(xiàn)[16]的定理,可以剪除該候選項(xiàng)集。
上述挖掘思想可以形式化為算法AWAPM_CLIR(all-weighted association patterns mining for cross language information retrieval):
算法1:AWAPM_CLIR。
輸入:QV(越南語(yǔ)用戶查詢),DocCLIR(跨語(yǔ)言初檢英文相關(guān)反饋文檔集),ms(最小支持度閾值),mc(最小置信度閾值)和mi(最小興趣度閾值);
輸出:awARq(含有譯后英文原查詢?cè)~項(xiàng)的完全加權(quán)關(guān)聯(lián)規(guī)則模式集合)。
Begin
1.Let awFIq←?;awARq←?;
//清空完全加權(quán)頻繁項(xiàng)集模式集合awFIq及其關(guān)聯(lián)規(guī)則模式集合awARq
2.Preproc(DocCLIR);
//對(duì)初檢英文相關(guān)文檔進(jìn)行詞干提取、去除停用詞和提取英文特征詞等預(yù)處理工作。模型中所用的英文詞干提取程序是Porter程序(見http://tartarus.org/~martin/PorterStemmer)
3.MiningawL1(DocCLIR);
//挖掘完全加權(quán)頻繁1_項(xiàng)集awL1
3.1 掃描文檔集DocCLIR,計(jì)算完全加權(quán)候選1_項(xiàng)集C1的權(quán)值w(C1)
3.2 計(jì)算文檔集DocCLIR中所有項(xiàng)目權(quán)值的總和W
3.3 if(w(C1)/W≥ms) thenL1←C1,awFIq←aw FIq∪L1
3.4 計(jì)算KIWT(1,2)的值。KIWT(1,2)[16]的計(jì)算公式見文獻(xiàn)[16]
4.for(k=2;Ck≠?;k++)
//挖掘含有原查詢項(xiàng)的完全加權(quán)頻繁k_項(xiàng)集Lk
{
4.1 if(W(Ck-1) 4.2Ck←CreateCk(Ck-1);//通過Aproiri連接[17]產(chǎn)生候選項(xiàng)集Ck 4.3 if (k=2) then {剪除不含英文查詢項(xiàng)的候選2_項(xiàng)集C2} 4.4 計(jì)算Ck權(quán)值w(Ck)和KIWT(k,k+1)的值。KIWT(k,k+1)[16]的計(jì)算公式見文獻(xiàn)[16] 4.5 if(w(Ck)=0) then {剪除該候選項(xiàng)集Ck} 4.6 if(w(Ck)/W≥ms)thenLk←Ck,awFIq←aw FIq∪Lk 4.7 if(k大于給定的所挖掘的候選項(xiàng)集長(zhǎng)度閾值)then break; } 5.對(duì)于完全加權(quán)頻繁項(xiàng)集模式集合awFIq中的每個(gè)頻繁項(xiàng)集Lk,挖掘中所有含原查詢項(xiàng)的完全加權(quán)關(guān)聯(lián)規(guī)則(q→Et),其中,q為L(zhǎng)k中的原查詢項(xiàng)項(xiàng)目,Et為L(zhǎng)k中除了原查詢項(xiàng)項(xiàng)目以外的項(xiàng)目 { 5.1 計(jì)算規(guī)則q→Et的條件概率增量比CPIR的值及其興趣度的值。CPIR值的計(jì)算公式見文獻(xiàn)[14],規(guī)則興趣度的計(jì)算公式見文獻(xiàn)[15] 5.2 if(CPIR的值≥mc and興趣度≥mi) then awARq←awARq∪{q→Et}; } 6.output(awARq); //輸出含有查詢項(xiàng)的完全加權(quán)關(guān)聯(lián)規(guī)則 End 2.3.2 越英跨語(yǔ)言擴(kuò)展詞生成 文中跨語(yǔ)言擴(kuò)展詞來源于關(guān)聯(lián)規(guī)則q→Et中的后件Et詞項(xiàng),并將其條件概率增量比CPIR和興趣度作為擴(kuò)展詞權(quán)值的計(jì)算依據(jù)。因此,給出如下擴(kuò)展詞權(quán)值WEt的計(jì)算公式: WEt=max(CPIR值+規(guī)則興趣度值) (1) 此外,對(duì)于原查詢項(xiàng)的權(quán)值Wq的計(jì)算詳見文獻(xiàn)[18]。 根據(jù)上述的越英跨語(yǔ)言擴(kuò)展詞產(chǎn)生的基本思想,給出生成算法GetCLawET。 算法2:GetCLawET。 輸入:awARq(完全加權(quán)關(guān)聯(lián)規(guī)則模式集合); 輸出:En_ExpTerm(英文擴(kuò)展詞)。 Begin 1.for 對(duì)于awARq集合中的每個(gè)規(guī)則q→Et do { 提取規(guī)則q→Et的后件Et; 根據(jù)式1計(jì)算擴(kuò)展詞的權(quán)值; En_ExpTerm←En_ExpTerm∪Et,并將擴(kuò)展詞及其權(quán)值存入英文擴(kuò)展詞庫(kù); } 2.ETOutput(En_ExpTerm); //輸出英文擴(kuò)展詞 End; 2.3.3 融合完全加權(quán)模式挖掘與查詢擴(kuò)展的越英跨語(yǔ)言檢索算法 根據(jù)上述給出的基本思想,文中提出的越英跨語(yǔ)言檢索算法(Vietnamese-English cross language information retrieval based on all-weighted patterns mining and query expansion,VECLIR_AWAM&QE)具體的描述如下: 算法3:VECLIR_AWAM&QE。 輸入:QV(越南語(yǔ)用戶查詢),ms,mc,mi,n(跨語(yǔ)言初檢前列文檔數(shù)); 輸出:越英跨語(yǔ)言檢索結(jié)果(即越南語(yǔ)文檔和英文文檔)。 Begin 1.QE←QVMachineTranQE(QV); //接受越南語(yǔ)用戶查詢式,將其翻譯為英文查詢式QE 2.DocCLIR←QEText Retrieval_First(QE,n); //初檢英文文檔,構(gòu)建用戶相關(guān)反饋文檔集DocCLIR for原始英文文檔集中的每一篇文檔Docido { 計(jì)算查詢QE與文檔Doci的相似度并降序排列; 提取前列n篇初檢文檔提交給用戶進(jìn)行相關(guān)性判斷; 根據(jù)用戶的相關(guān)性判斷結(jié)果,構(gòu)建初檢用戶相關(guān)反饋文檔集DocCLIR } 3.a(chǎn)wARq←AWAPM_CLIR(QV,ms,mc,mi); //調(diào)用上述挖掘算法AWAPM_CLIR,運(yùn)行后得到含有原查詢?cè)~項(xiàng)的完全加權(quán)關(guān)聯(lián)規(guī)則模式集合awARq 4.En_ExpTerm←GetCLawET(awARq); //調(diào)用算法GetCLawET,得到英文擴(kuò)展詞及其權(quán)值 5.NewQE←QE∪En_ExpTerm; //將原查詢和擴(kuò)展詞組合為新查詢 6.En_Doc←NewQEText Retrieval (NewQE); //擴(kuò)展后的新查詢?cè)俅螜z索得到最終英文文檔En _Doc 6.1 for 原始英文文檔集中的每一篇文檔Docido 計(jì)算新查詢NewQE與文檔Doci的相似度并降序排列; 6.2 提取前列文檔作為最終檢索結(jié)果英文文檔En_Doc; 7.Viet_Doc←DVMachineTranDE(En_Doc); //通過機(jī)器翻譯系統(tǒng)將最終檢索結(jié)果英文文檔翻譯為越南語(yǔ)文檔Viet_Doc 8.VEDocOutput(Viet _Doc,En_Doc); //輸出擴(kuò)展后的檢索結(jié)果:英文文檔和越南語(yǔ)文檔 End 實(shí)驗(yàn)數(shù)據(jù)是NTCIR-5 CLIR提供的英文語(yǔ)料,即Korea Times的2001年新聞文本(簡(jiǎn)稱為ktn01),共25.3 MB,以及Mainichi Daily News的2000年和2001年新聞文本(簡(jiǎn)稱為mdn00和mdn01),共9.9 MB,共計(jì)26 224篇,其中ktn01為14 069篇,mdn00為6 608,mdn01為5 547。采用TITLE查詢和DESC查詢進(jìn)行實(shí)驗(yàn)。NTCIR-5 CLIR語(yǔ)料沒有越南語(yǔ)版本的查詢集,邀請(qǐng)專門翻譯機(jī)構(gòu)將NTCIR-5 CLIR中文版50個(gè)查詢主題人工翻譯為越南語(yǔ)查詢,作為實(shí)驗(yàn)過程中用到的越南語(yǔ)用戶查詢。 文中實(shí)驗(yàn)對(duì)比算法是單語(yǔ)言檢索算法(monolingual retrieval baseline,MRB)、越英跨語(yǔ)言檢索算法(cross-language retrieval baseline,CLRB)和傳統(tǒng)的基于偽相關(guān)反饋擴(kuò)展的越英跨語(yǔ)言檢索算法(Vietnamese-English cross-language retrieval based on pseudo relevance feedback,VECLR_PRF),即MRB指用英文查詢直接檢索英文文檔得到的檢索結(jié)果,CLRB指將越南語(yǔ)查詢經(jīng)機(jī)器翻譯為英文后檢索英文文檔得到的檢索結(jié)果,VECLR_PRF指按照文獻(xiàn)[10]的跨語(yǔ)言擴(kuò)展方法來實(shí)現(xiàn)越英跨語(yǔ)言信息檢索。具體實(shí)驗(yàn)參數(shù)是:跨語(yǔ)言初檢前列偽相關(guān)文檔數(shù)是20篇,跨語(yǔ)言擴(kuò)展詞數(shù)是其權(quán)值較高的前列20個(gè)特征詞。使用R-查準(zhǔn)率(R-prec)作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo)。 為了便于實(shí)驗(yàn)的開展,將跨語(yǔ)言初檢前列n篇文檔中包含的已知結(jié)果集中的相關(guān)文檔當(dāng)作用戶進(jìn)行的相關(guān)反饋信息結(jié)果,構(gòu)建用戶相關(guān)反饋文檔集。運(yùn)行MRB、CLRB、VECLR_PRF和VECLIR_AWAM&QE等源程序,提交50個(gè)越南語(yǔ)的TITLE和DESC查詢進(jìn)行基準(zhǔn)檢索實(shí)驗(yàn),得到各個(gè)算法的實(shí)驗(yàn)結(jié)果R_prec值如表1和表2所示。實(shí)驗(yàn)參數(shù)設(shè)置如下:n=50,挖掘的項(xiàng)集長(zhǎng)度為2,支持度ms變化時(shí):ms∈[0.001,0.002,0.003,0.004,0.005],mc=0.01,mi=0.000 1,置信度mc變化:mc∈[0.01,0.04,0.06,0.08,0.1],ms=0.001,mi=0.000 1,興趣度mi變化:mc=0.01,ms=0.005,mi∈[0.001,0.003,0.005,0.007,0.009]。 表1 文中算法與基準(zhǔn)對(duì)比算法的檢索性能(R_prec)比較(Title查詢) 表2 文中算法與基準(zhǔn)對(duì)比算法的檢索性能(R_prec)比較(Desc查詢) 由表1和表2可以看出,在TITLE和DESC查詢實(shí)驗(yàn)中,在支持度閾值ms、置信度閾值mc和興趣度閾值mi等參數(shù)分別變化的情況下,算法VECLIR_AWAM&QE的檢索結(jié)果的R_prec值均比MRB、CLRB和VECLR_PRF的高,效果比較顯著。結(jié)果表明提出的越英跨語(yǔ)言信息檢索模型是有效的,能有效地減少查詢主題漂移,改善和提高跨語(yǔ)言檢索性能。 將完全加權(quán)關(guān)聯(lián)模式挖掘技術(shù)引入越英跨語(yǔ)言信息檢索模型,結(jié)合用戶相關(guān)反饋,提出一種基于完全加權(quán)關(guān)聯(lián)規(guī)則后件擴(kuò)展的越英跨語(yǔ)言信息檢索模型,闡述了檢索模型結(jié)構(gòu)及其各個(gè)功能模塊,以及實(shí)現(xiàn)的關(guān)鍵技術(shù),進(jìn)行了深入的實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果證明了該模型的有效性。下一步是將該越英跨語(yǔ)言檢索模型實(shí)用化,以便應(yīng)用到實(shí)際的檢索系統(tǒng)中。3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)硬件環(huán)境
3.2 基準(zhǔn)實(shí)驗(yàn)及評(píng)價(jià)指標(biāo)說明
3.3 實(shí)驗(yàn)結(jié)果及其分析
4 結(jié)束語(yǔ)