亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

跨語言信息檢索及其相關(guān)問題

2014-02-28 01:59:53張彥文

教育教學(xué)論壇 2014年1期

關(guān)鍵詞：信息檢索語言信息

張彥文

（桂林電子科技大學(xué) 圖書館，廣西桂林 541004）

跨語言信息檢索及其相關(guān)問題

張彥文

（桂林電子科技大學(xué) 圖書館，廣西桂林 541004）

網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展產(chǎn)生了豐富的海量信息資源。信息資源所采用語言的多樣性和用戶所掌握語言的差異性，帶來了信息檢索的多語言或跨語言困難?？缯Z言信息檢索是為了適應(yīng)這一發(fā)展要求而誕生的信息檢索檢索方法和技術(shù)。本文對(duì)跨語言信息檢索的淵源、跨語言信息檢索方法以及跨語言信息檢索模型等進(jìn)行了討論。

信息檢索；跨語言檢索；檢索模型；多語言信息資源

信息技術(shù)的發(fā)展產(chǎn)生了大量的數(shù)字信息，人們進(jìn)入了海量信息資源和大數(shù)據(jù)時(shí)代。特別是互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，因特網(wǎng)上的信息資源類型和數(shù)量愈來愈豐富，所使用的語言愈來愈具有多樣性。網(wǎng)絡(luò)資源語言的多樣性和網(wǎng)絡(luò)用戶所掌握語言的差異性不可避免地給人們利用網(wǎng)絡(luò)檢索信息帶來了語言障礙。這種語言障礙極大地限制了人們對(duì)信息資源的有效獲取，跨語言信息檢索由此應(yīng)運(yùn)而生。跨語言信息檢索由康奈爾大學(xué)的Salton于20世紀(jì)70年代初首先提出。他利用手工編制的英語—德語雙語種詞表，進(jìn)行了跨語言信息檢索的嘗試；1973年，他又編制了英語—法語詞表，并對(duì)跨語言信息檢索的效率進(jìn)行了評(píng)價(jià)。1964年，法國(guó)道路研究實(shí)驗(yàn)室開發(fā)了“國(guó)際道路研究文獻(xiàn)系統(tǒng)”，該系統(tǒng)通過英、法、德三種語言索引詞構(gòu)成的多語言受控詞表來實(shí)現(xiàn)跨語言信息檢索?？缯Z言信息檢索是指用戶以自己熟悉的一種語言來構(gòu)建和提交查詢提問式，從多語言信息資源系統(tǒng)中檢索出符合用戶需求的另一種或多種語言描述的相關(guān)信息資源。例如，輸入中文的提問式，從多語言信息資源系統(tǒng)檢索出英文、法文或中文及其他語言描述的相關(guān)信息資源。用戶查詢提問時(shí)所使用的語言稱之為源語言，而系統(tǒng)檢索出的信息資源所包含的語言稱之為目標(biāo)語言?？缯Z言信息檢索，可分為雙語言信息檢索和多語言信息檢索。雙語言信息檢索是指用戶以自己熟悉的語言提交查詢請(qǐng)求，除源語言之外，系統(tǒng)可檢索到另外一種語言表達(dá)的文獻(xiàn)信息，即目標(biāo)語言為另一種語言。多語言信息檢索是指用戶以自己熟悉的語言提交查詢請(qǐng)求，除源語言之外，系統(tǒng)可檢索到另外多種語言表達(dá)的文獻(xiàn)信息，即目標(biāo)語言為多種語言。相對(duì)于雙語言信息檢索，多語言信息檢索往往更符合網(wǎng)絡(luò)用戶的查詢需求。與跨語言信息檢索相對(duì)應(yīng)，查詢提問式語言和檢索出信息資源表述語言相同的信息檢索稱為單語言信息檢索?？缯Z言信息檢索是傳統(tǒng)計(jì)算機(jī)信息檢索技術(shù)和語言自動(dòng)處理技術(shù)的有機(jī)結(jié)合，涉及語言學(xué)、情報(bào)學(xué)、計(jì)算機(jī)科學(xué)等多門學(xué)科知識(shí)，是一個(gè)綜合性強(qiáng)、富有挑戰(zhàn)性的研究領(lǐng)域。源語言和目標(biāo)語言的統(tǒng)一是跨語言信息檢索的關(guān)鍵技術(shù)，信息檢索模型則是實(shí)現(xiàn)查詢和信息資源匹配的重要理論基礎(chǔ)。本文對(duì)此都進(jìn)行了討論，以利于圖書館員們更好地了解和掌握跨語言信息檢索相關(guān)技術(shù)。

一、跨語言信息檢索方法

跨語言信息檢索一般可以分為如下三個(gè)過程：①多語言信息資源的搜集以及多語言信息索引的建立；②應(yīng)用語言自動(dòng)處理技術(shù)實(shí)現(xiàn)提問語言（源語言）和信息資源表述語言（目標(biāo)語言）的統(tǒng)一；③應(yīng)用單語言信息檢索技術(shù)實(shí)現(xiàn)查詢提問式與索引信息的匹配，得到檢索結(jié)果。其中源語言和目標(biāo)語言的統(tǒng)一是實(shí)現(xiàn)跨語言信息檢索的關(guān)鍵技術(shù)，主要通過提問式翻譯、文獻(xiàn)翻譯、中間語種轉(zhuǎn)換及非翻譯方法等四種方式來實(shí)現(xiàn)。提問式翻譯是指將用戶提交的查詢請(qǐng)求翻譯成系統(tǒng)支持的多種語言，然后對(duì)不同語言的信息集進(jìn)行查詢。提問式翻譯主要有字典和語料庫(kù)兩種方法。其核心思想在于通過語料庫(kù)中不同語種同一信息的對(duì)應(yīng)關(guān)系對(duì)提問式進(jìn)行翻譯并且過濾提問式翻譯后產(chǎn)生的非正常翻譯結(jié)果。提問式翻譯是實(shí)現(xiàn)跨語言信息檢索較為經(jīng)濟(jì)的方法。其缺陷在于，系統(tǒng)返回的信息仍然用目標(biāo)語言表達(dá)，只能算一種不完全的跨語言信息檢索。文獻(xiàn)翻譯是指在信息檢索之前，將文獻(xiàn)信息資源表述的目標(biāo)語言轉(zhuǎn)化為查詢提問式的源語言。目前實(shí)現(xiàn)文獻(xiàn)翻譯的方法主要有機(jī)器翻譯和基于字典翻譯文獻(xiàn)索引詞方法。文獻(xiàn)翻譯的優(yōu)點(diǎn)是檢索結(jié)果用提問語言描述，用戶能夠方便地選擇利用。同時(shí)，文獻(xiàn)層次的翻譯與提問層次的翻譯相比，其語境更加寬泛，比較容易消除歧義。不足之處在于要求所有被檢索信息改變語言表述，而現(xiàn)有機(jī)器翻譯系統(tǒng)的正確率還難以達(dá)到令人滿意的程度，無法達(dá)到實(shí)用水平；此外，將數(shù)據(jù)庫(kù)中全部文獻(xiàn)從目標(biāo)語種翻譯到提問語言工作量大，代價(jià)昂貴。中間語言轉(zhuǎn)換是將提問的源語言轉(zhuǎn)換成中間語言，再把中間語言轉(zhuǎn)換為信息資源的目標(biāo)語言，或者是把提問的源語言和信息資源的目標(biāo)語言都轉(zhuǎn)換為中間語言。中間語言通常是計(jì)算機(jī)容易自動(dòng)處理的語言。這種方法常用于多于兩個(gè)語種的跨語言信息檢索或者兩種語言之間不存在直接對(duì)應(yīng)轉(zhuǎn)換的跨語言信息檢索。非翻譯方法是指不對(duì)提問語種或者信息語種進(jìn)行翻譯而實(shí)現(xiàn)跨語言信息檢索的方法，即潛語義索引。這種方法的實(shí)現(xiàn)方式是，首先將原始文檔與相對(duì)應(yīng)的翻譯文檔建立聯(lián)系，構(gòu)建訓(xùn)練文檔集，然后利用奇異值分解技術(shù)對(duì)其進(jìn)行分析，獲得雙語文檔集的特征信息和檢索詞的映射關(guān)系，最后以平行文檔中的語詞檢索出另一語言的相關(guān)信息。這種方法的優(yōu)點(diǎn)是，不需要字典、詞表和機(jī)器翻譯系統(tǒng)，也不存在翻譯過程中消除歧義的問題，具有很高的靈活性和適應(yīng)性；不足之處在于對(duì)具體問題構(gòu)造優(yōu)化的向量空間模型是一種經(jīng)驗(yàn)型的工作，且向量空間模型的奇異值分解計(jì)算需要時(shí)間，訓(xùn)練文檔不容易獲取。

二、跨語言信息檢索模型

信息檢索模型是信息檢索中的一個(gè)重要理論問題。已有的單語言信息檢索模型包括布爾模型、向量空間模型、概率模型、統(tǒng)計(jì)語言模型和語義處理模型等。這些信息檢索模型在跨語言信息檢索中有著重要的作用。布爾模型是一種基于集合論的檢索模型。在該模型中，一篇文檔通過稱之為標(biāo)引詞的關(guān)鍵詞來表示，文檔語義內(nèi)容中標(biāo)引詞的重要性用一個(gè)二值權(quán)值來表示，一個(gè)查詢表示為多個(gè)標(biāo)引詞通過邏輯聯(lián)結(jié)詞連接的表達(dá)式。布爾模型結(jié)構(gòu)簡(jiǎn)單、容易實(shí)現(xiàn)，但只能判斷文檔相關(guān)或不相關(guān)，無法描述與查詢條件的匹配程度情況。模糊集合模型和擴(kuò)展布爾模型在此方面進(jìn)行了改進(jìn)。在模糊集合模型中，將文檔看成與查詢?cè)谝欢ǔ潭壬舷嚓P(guān)，每一標(biāo)引詞都存在一個(gè)模糊的文獻(xiàn)集合與之相關(guān)。擴(kuò)展布爾模型吸取了模糊集合模型和向量空間模型的長(zhǎng)處。在該模型中，一篇文檔對(duì)應(yīng)的標(biāo)引詞被賦予了一個(gè)0～1之間數(shù)值的權(quán)值，文檔與查詢的相似度通過公式來計(jì)算。布爾模型及其擴(kuò)展模型在跨語言信息檢索的查詢翻譯消歧中得到成功應(yīng)用。向量空間模型是將文檔和查詢表示為向量的檢索模型。在該模型中，標(biāo)引詞在一篇文檔中的權(quán)值是一個(gè)0～1之間的實(shí)數(shù)。查詢中的標(biāo)引詞也有一個(gè)正的加權(quán)值。文檔向量與查詢向量夾角的余弦用來計(jì)算它們之間相似度。向量空間模型能根據(jù)相似度對(duì)檢索結(jié)果進(jìn)行排序，有效地提高了檢索效率。其不足之處在于標(biāo)引詞被假定為相互獨(dú)立，這樣會(huì)丟掉大量的文本結(jié)構(gòu)信息，且相似度計(jì)算量大。為此，人們對(duì)向量空間模型進(jìn)行了改進(jìn)，提出了廣義向量空間模型。廣義向量空間模型已應(yīng)用于跨語言信息檢索，其基本思想在于根據(jù)雙語言訓(xùn)練文檔集分別建立源語言與目標(biāo)語言的檢索詞——文檔關(guān)聯(lián)矩陣。在源語言與目標(biāo)語言之間建立映射關(guān)系，在不需要翻譯的條件下實(shí)現(xiàn)跨語言信息檢索。概率模型是基于概率和隨機(jī)過程理論的檢索模型。在該模型中，一個(gè)用戶查詢對(duì)應(yīng)一個(gè)由相關(guān)文檔構(gòu)成的集合，稱之為理想集合。如果知道理想集合的特征，就可以找到所有的相關(guān)文檔，剔除所有的無關(guān)文檔。概率模型具有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)，采用相關(guān)反饋原理克服了不確定性推理的缺點(diǎn)。但其參數(shù)估計(jì)難度較大，缺乏理論知識(shí)。于是人們將統(tǒng)計(jì)學(xué)引入到概率模型中，形成了各種基于貝葉斯網(wǎng)絡(luò)的檢索模型。推理網(wǎng)絡(luò)模型是概率模型的一種擴(kuò)展形式，它模擬人腦的推理思維模式，將文檔與用戶查詢匹配的過程轉(zhuǎn)化為一個(gè)從文檔到查詢的推理過程?？缯Z言信息檢索系統(tǒng)InQuery是基于貝葉斯推理網(wǎng)絡(luò)模型的信息檢索系統(tǒng)，InQuery允許使用查詢算符，這在跨語言信息檢索中是非常有用的。統(tǒng)計(jì)語言模型是關(guān)于某種語言所有語句或者其他語言單位的分布概率，也可以將統(tǒng)計(jì)語言模型看作是生成某種語言文本的統(tǒng)計(jì)模型。根據(jù)馬爾可夫鏈的階數(shù)，統(tǒng)計(jì)語言模型分為一元語言模型和多元語言模型。一元語言模型假設(shè)詞與詞之間是相互獨(dú)立的，一個(gè)詞出現(xiàn)的概率與這個(gè)詞前面的詞沒有必然聯(lián)系。多元語言模型假設(shè)詞與詞之間是相互關(guān)聯(lián)的，一個(gè)詞出現(xiàn)的概率與這個(gè)詞前面的詞存在一定的關(guān)聯(lián)。根據(jù)目標(biāo)詞前面其他詞個(gè)數(shù)的多少，多元語言模型可被劃分為二元語言模型、三元語言模型等。統(tǒng)計(jì)語言模型檢索方法能夠利用統(tǒng)計(jì)語言模型來估計(jì)與檢索有關(guān)的參數(shù)，在如何改善檢索系統(tǒng)性能方面有更加明確的指導(dǎo)方向。但該方法隱含著詞匯相互獨(dú)立關(guān)系，沒有考慮詞匯間的相互影響。統(tǒng)計(jì)語言模型已經(jīng)應(yīng)用于跨語言信息檢索，并在解決查詢翻譯的語言歧義性中發(fā)揮重要作用。概率模型和統(tǒng)計(jì)語言模型可以看作在同一概率框架下不同的推導(dǎo)結(jié)果，然而統(tǒng)計(jì)語言模型卻克服了傳統(tǒng)概率模型在概率估計(jì)上的不足。如果不進(jìn)行查詢擴(kuò)展，概率模型的效果要稍好于統(tǒng)計(jì)語言模型。如果進(jìn)行查詢擴(kuò)展，那么統(tǒng)計(jì)語言模型進(jìn)行跨語言信息檢索的效率更高。語義處理模型能夠探究詞語背后所指代的本質(zhì)概念，明確詞語的主題范疇，識(shí)別同一概念的各種表示形式。在該模型中，詞語的含義、詞語和文檔之間的語義關(guān)聯(lián)、文檔的相似度分析，采取了從文檔結(jié)構(gòu)入手的潛在語義分析方法，以及從內(nèi)容入手的利用知識(shí)組織體系的本體方法。潛語義標(biāo)引模型將標(biāo)引詞之間、文檔之間的相關(guān)關(guān)系以及標(biāo)引詞與文檔之間的語義關(guān)聯(lián)都考慮在內(nèi)，將文檔向量和查詢向量映射到與語義概念相關(guān)聯(lián)的較低維度空間中，從而將標(biāo)引詞向量空間轉(zhuǎn)化為語義概念空間，并在降維后的語義概念空間中，計(jì)算文檔向量和查詢向量的相似度。潛語義標(biāo)引模型克服了同義詞和多義詞對(duì)檢索結(jié)果的影響。本體模型將用戶的信息需求通過共享本體轉(zhuǎn)化為計(jì)算機(jī)可理解的查詢表達(dá)。為了提高查全率，再通過共享本體中概念與概念之間的關(guān)系擴(kuò)展查詢表達(dá)。在跨語言信息檢索中，潛語義標(biāo)引模型將有代表性的文檔與其對(duì)應(yīng)的翻譯文檔聯(lián)系起來形成訓(xùn)練文檔集，利用奇異值分解技術(shù)對(duì)雙語檢索詞——文檔關(guān)聯(lián)矩陣進(jìn)行奇異值分解，獲得雙語文檔集的特征信息以及檢索詞用法上的映射關(guān)系，最后根據(jù)平行文檔中語詞的用法特征檢索出另一種語言的相關(guān)信息?；诒倔w的跨語言信息檢索比常規(guī)的單一語言信息檢索在查全率和查準(zhǔn)率方面有明顯的優(yōu)勢(shì)。

傳統(tǒng)的信息檢索技術(shù)，往往只能幫助用戶使用自己熟知的一種語言提出查詢?；ヂ?lián)網(wǎng)技術(shù)與數(shù)字圖書館技術(shù)的發(fā)展產(chǎn)生了大量的多語言信息資源。這樣，不同的用戶可能會(huì)使用不同的語言提出查詢，同一個(gè)用戶也可能采用同一種語言來查詢不同語言表述的信息資源。由此，表述信息資源的語言的多樣性以及用戶使用語言的差異性，帶來了信息檢索的語言障礙?？缯Z言信息檢索是為滿足此要求應(yīng)運(yùn)而生的新方法和技術(shù)。數(shù)字圖書館以及網(wǎng)絡(luò)信息資源服務(wù)是圖書館業(yè)務(wù)拓展的新平臺(tái)，跨語言信息檢索是這些資源服務(wù)中必須采用的技術(shù)手段，了解和掌握跨語言信息檢索相關(guān)技術(shù)對(duì)于圖書館員有著重要的意義。

[1]Witten Ian H.et.al.Greenstone：Open-Source digital Library Software[J].D-Lib Magazine，2001，7（10）：288-298.

[2]Wiederhold Gio.Digital Libraries：Value and Productivity[J]. Communication of the ACM，1995，38（4）：85-96.

[3]Douglas W Oard，Anne R Diekema.Cross-language Information Retrieval[J].Annual Review of Information Science and Technology，1998，（6）：223-256.

[4]駱衛(wèi)華.跨語言信息檢索方法概述[J].數(shù)字圖書館論壇，2006，（9）：1-7.

[5]Kazuaki Kishida.Technical issues of cross-language information retrieval：a review[J].Information Processing&Management，2005，（41）：433-455.

[6]吳丹，齊和慶.信息檢索模型及其在跨語言信息檢索中的應(yīng)用進(jìn)展[J].現(xiàn)代情報(bào)，2009，29（7）：215-221.

1674-9324（2014）01-0132-03

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

跨語言信息檢索及其相關(guān)問題

一、跨語言信息檢索方法

二、跨語言信息檢索模型

一、跨語言信息檢索方法

二、跨語言信息檢索模型