亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

查詢擴展技術(shù)在跨語言信息檢索中的應(yīng)用

2015-05-15 10:13:40楊亮

現(xiàn)代計算機 2015年2期

關(guān)鍵詞：信息檢索用戶語言

楊亮

（廣東技術(shù)師范學(xué)院圖書館，廣州 510400）

查詢擴展技術(shù)在跨語言信息檢索中的應(yīng)用

楊亮

（廣東技術(shù)師范學(xué)院圖書館，廣州 510400）

互聯(lián)網(wǎng)的快速發(fā)展使得網(wǎng)絡(luò)資源的表現(xiàn)形式日益多樣化，其中信息資源的多語種問題，成為人們獲取信息的主要障礙。當用戶檢索的信息是自己不熟悉的語言時，往往難以獲得準確的檢索結(jié)果?；贚ucene平臺設(shè)計并實現(xiàn)跨語言信息檢索系統(tǒng)，系統(tǒng)在提問式翻譯的基礎(chǔ)上應(yīng)用查詢擴展技術(shù)。實驗結(jié)果表明，查詢擴展技術(shù)可有效提高跨語言信息檢索的查全率。

跨語言信息檢索；查詢擴展；Lucene

0 引言

隨著互聯(lián)網(wǎng)的不斷發(fā)展，使用不同語言的互聯(lián)網(wǎng)用戶也在不斷增加，網(wǎng)絡(luò)上的海量信息資源由很多不同的語言所組成，當用戶需要檢索的信息是自己不熟悉的語言時往往會面臨一定的障礙，這使得很多用戶不能自由地獲取信息。為了解決多語種問題帶來的語言障礙，讓用戶可以更加便捷地檢索信息，學(xué)者們開始對跨語言信息檢索進行探索。

傳統(tǒng)的信息檢索研究的是單一語種的檢索問題，即檢索提問式和被檢索文檔集采用的是同一種語言表述。而跨語言信息檢索（Cross-Language Information Retrieval，簡稱CLIR）是指用戶通過一種語言（通常是自己的母語）進行檢索，獲取以另一種或幾種語言表述的信息或文檔的信息檢索技術(shù)和方法[1]。在跨語言信息檢索中，用戶構(gòu)造檢索提問式所使用的語言通常稱為源語言（Source Language），一般是用戶的母語或用戶所熟悉的語言；而被檢索的文檔集所使用的語言通常稱為目標語言（Target Language），目標語言一般是用戶不熟悉甚至完全陌生的語言[2]?？缯Z言檢索重點研究的是源語言與目標語言之間翻譯匹配的問題。

1 翻譯方法

目前，實現(xiàn)源語言與目標語言的翻譯匹配主要有四種方法：提問式翻譯、文獻翻譯、中間語種轉(zhuǎn)換和非翻譯[3～6]。

提問式翻譯（Query Translation Approach）。這種方法將用戶輸入的檢索提問式翻譯為系統(tǒng)支持的語言，然后進行檢索。提問式翻譯是目前最為常用的方法，它可以很容易地與傳統(tǒng)的單語種信息檢索相結(jié)合，特點是對系統(tǒng)要求不高，執(zhí)行速度快。但由于提問式比較短，通常都是一個或幾個詞，缺乏一定的上下文語境，對于一詞多義、一義多詞等翻譯歧義問題不能很好地解決。實現(xiàn)提問式翻譯主要有基于詞典（Dictionary-Based）和基于雙語語料庫（Bilingual Corpus-Based）兩種模式。

文獻翻譯（Document Translation Approach）。文獻翻譯在信息檢索之前，將被檢索的文檔集轉(zhuǎn)化為與檢索提問式相同的語種，通過該方法返回給用戶的結(jié)果是用源語言所描述的，且上下文語境信息比較寬泛，用戶選擇利用起來也就更加便利。不過由于目前機器翻譯的效果并不理想，而將系統(tǒng)中的所有文獻都從目標語種翻譯為源語種的工作量十分龐大，完全由人工來翻譯又不現(xiàn)實，因此，文獻翻譯的實用性較差。

中間語種轉(zhuǎn)換（Interlingual Representation Approach）。提問式翻譯將源語種轉(zhuǎn)化為目標語種，而文獻翻譯將目標語種轉(zhuǎn)化為源語種，中間語種轉(zhuǎn)換方法則是將源語種和目標語種同時轉(zhuǎn)換為第三方的中間語種。這種方法多用于源語種和目標語種不能直接翻譯或雙語詞典不存在時，如德語和意大利語。

非翻譯（No Translation Approach）。該方法不對源語種或者目標語種進行翻譯就可以實現(xiàn)跨語言信息檢索，即潛語義索引。這種方法不需要詞典、機器翻譯系統(tǒng)，但是如何針對具體問題構(gòu)造優(yōu)化的向量空間模型是一項經(jīng)驗性的工作，且訓(xùn)練文檔不容易獲取。

2 查詢擴展技術(shù)

信息需求是用戶想要查找的信息主題，信息檢索就是從大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的集合中找出滿足用戶信息需求的資料的過程。在檢索時用戶使用檢索提問式來代表其信息需求，將檢索提問式提交給系統(tǒng)，系統(tǒng)從文檔集中返回與之相關(guān)的文檔[7]。然而，用戶提交的檢索提問式通常是一個很短的句子或者是少量的關(guān)鍵詞，簡短的檢索提問式不能很好地代表用戶的信息需求，從而造成檢索出的文檔對用戶的需求價值不高。為此，有學(xué)者提出了查詢擴展技術(shù)。

查詢擴展（Query Expansion）指的是利用計算機語言學(xué)、信息學(xué)等多種技術(shù)，把與原查詢相關(guān)的詞語或者與原查詢語義相關(guān)聯(lián)的概念添加到原查詢，得到比原查詢更長的新查詢，然后檢索文檔，以改善信息檢索的性能，解決信息檢索領(lǐng)域長期困擾的詞不匹配問題，彌補用戶查詢信息不足的缺陷[8]。查詢擴展技術(shù)主要分為全局分析和局部分析兩大類。全局分析是對整個文檔集的語詞進行相關(guān)分析，計算每對語詞間的關(guān)聯(lián)程度，在檢索時選取與檢索提問式關(guān)聯(lián)程度高的語詞對檢索提問式進行擴充。全局分析需要對整個文檔集進行相關(guān)處理，系統(tǒng)計算量大，只適合小范圍內(nèi)的信息檢索，不適用于大規(guī)模的海量檢索。局部分析利用初始檢索得到的最相關(guān)的N篇文檔作為擴展用詞的來源，不需要對全部語詞進行相關(guān)計算[9]。

在跨語言信息檢索領(lǐng)域，以往的研究多集中在理論和模型方面，實踐研究較少，本文基于Lucene平臺設(shè)計并實現(xiàn)了一個漢英跨語言信息檢索系統(tǒng)，使用局部分析中的相關(guān)性反饋技術(shù)對翻譯后的檢索提問式進行查詢擴展[10]，通過實驗研究應(yīng)用查詢擴展前后系統(tǒng)的檢索性能。

3 系統(tǒng)設(shè)計與實現(xiàn)

本文基于Lucene平臺實現(xiàn)了一個跨語言信息檢索系統(tǒng)，結(jié)構(gòu)如圖1。系統(tǒng)應(yīng)用了查詢擴展技術(shù)檢索系統(tǒng)，采用了B/S架構(gòu)，使用Eclipse開發(fā)平臺和Tomcat服務(wù)器搭建開發(fā)環(huán)境，采用Java語言進行編程，并使用MySQL數(shù)據(jù)庫管理機讀詞典。

圖1 跨語言信息檢索系統(tǒng)結(jié)構(gòu)圖

3.1 Lucene檢索引擎

Lucene是一款高性能的、可擴展的信息檢索（IR）工具庫，是一款以Java實現(xiàn)的成熟、自由、開源的軟件，為開發(fā)者提供了完整的檢索引擎和索引引擎，可以方便地在系統(tǒng)中實現(xiàn)全文檢索的功能。同時，Lucene是Apache軟件基金會（Apache Software Foundation）中的一個項目，基于Apache軟件許可協(xié)議授權(quán)，在近年來已經(jīng)成為最受歡迎的開源信息檢索工具庫。

本文基于Lucene平臺實現(xiàn)系統(tǒng)的檢索功能，Lucene的核心API主要可分為兩類。第一類是索引過程的核心類，包括IndexWriter、Directory、Analyzer、Document等。其中IndexWriter（寫索引）是索引過程的核心組件，主要負責創(chuàng)建新索引和對索引的維護。Directory類指明了Lucene索引的位置所在。Analyzer和Document則表示在建立索引前，文本文件需要經(jīng)過分析器和文檔化的處理。第二類是搜索過程的核心類，包括IndexSearcher、QueryParser、Query、TopDocs等。其中IndexSearcher用于搜索由IndexWriter類創(chuàng)建的索引，所有的檢索操作都是通過IndexSearcher實例使用一個重載的search方法來實現(xiàn)。QueryParser類將用戶輸入的檢索提問式處理為一個具體的Query對象；大多數(shù)IndexSearcher的search方法都會以返回TopDocs對象的形式來返回搜索結(jié)果。

3.2 分詞

在英語環(huán)境中，英文單詞之間用空格來進行間隔，單詞就是自然的索引單元，而在中文環(huán)境中，中文文本是以字為基本單元的，字和字之間沒有明顯的間隔，這就需要中文分詞技術(shù)來解決這個問題，運用中文分詞技術(shù)可以將連續(xù)的文本序列按照一定的規(guī)則切分成具有獨立語義的詞組[11]。中文分詞是中文信息處理的基礎(chǔ)與關(guān)鍵，本文使用ICTCLAS（Institute of Computing Technology,Chinese Lexical Analysis System）來對中文檢索提問式進行分詞。ICTCLAS是由中國科學(xué)院計算技術(shù)研究所研制出的漢語詞法分析系統(tǒng)，主要功能包括中文分詞、詞性標注、命名實體識別、新詞識別等。ICTCLAS是目前比較好的漢語詞法分析器，提供了一套完整的動態(tài)鏈接庫供開發(fā)者直接在自己的系統(tǒng)中調(diào)用來實現(xiàn)漢語詞法分析，支持C/C++/C#/Delphi/Java等主流開發(fā)語言。

3.3 詞典翻譯

本文使用基于詞典的提問式翻譯方法對中文檢索提問式進行翻譯處理，詞典選用了MDBG漢英詞典，該詞典屬于1997年P(guān)aul Denisowski創(chuàng)辦的CEDICT項目，支持簡體中文、繁體中文以及拼音與英語的對照翻譯。詞典可以在MDBG網(wǎng)站上免費獲取，內(nèi)容涵蓋了單字、詞組、短語、地名、專業(yè)術(shù)語等110284個詞條。

詞條示例：

世界觀世界觀[shi4 jie4 guan1]/worldview/world outlook/Weltanschauung/

3.4 建立索引

在進行檢索前，首先要對檢索文檔建立索引，以便進行快速檢索。索引操作把數(shù)據(jù)處理成一種高效的、可交叉引用的數(shù)據(jù)結(jié)構(gòu)，這種結(jié)構(gòu)允許對存儲在其中的單詞進行快速隨機存取。本文基于Lucene平臺建立索引，Lucene的索引結(jié)構(gòu)分為索引（Index）、索引段（Segment）、索引文檔（Document）、索引域（Field）和索引項（Term）五個層次。Lucene的每個索引結(jié)構(gòu)由若干個段組成，每個段包含若干個文檔，每個文檔管理若干個域，每個域中有若干個項，項就是索引中最基本的語匯單元[12]。

本文對數(shù)據(jù)建立索引的過程分為三個部分：

（1）預(yù)處理：將所有檢索文檔都轉(zhuǎn)換成Lucene能夠處理的格式——純文本數(shù)據(jù)流，以.txt的格式保存在磁盤中。

（2）分析：通過Lucene索引管理器對文檔進行分析，將文本轉(zhuǎn)換為最基本的索引項，并且過濾掉一些頻繁出現(xiàn)卻沒有實際意義的詞，如英文中的a、an、the、in、on等停用詞，去除標點符號。

（3）寫入索引：將分析處理后的結(jié)果寫入到索引文件，以倒排索引的結(jié)構(gòu)存儲在磁盤中。從文檔中抽取出的語匯單元被看作是查找關(guān)鍵詞，可以快速地執(zhí)行檢索操作。

3.5 查詢擴展

本文使用局部分析中的相關(guān)性反饋技術(shù)對翻譯后的檢索提問式進行查詢擴展，根據(jù)初始檢索的結(jié)果，利用Lucene的評分機制對返回結(jié)果中的文檔進行排序，將排名前3的文檔取出，并對這3篇文檔進行詞匯統(tǒng)計，用出現(xiàn)頻率最高的詞匯w_1去擴展翻譯后的檢索式。如果w_1已經(jīng)出現(xiàn)在翻譯后的檢索式中，則使用出現(xiàn)頻率第二高的詞匯w_2進行擴展，以此類推。

3.6 實驗過程

實驗?zāi)康氖菧y試應(yīng)用查詢擴展技術(shù)前后跨語言信息檢索系統(tǒng)的檢索性能，使用查準率和查全率兩個指標來衡量。查準率是指檢出的相關(guān)文檔與檢出文檔總數(shù)的比值，查全率是指檢出的相關(guān)文檔與相關(guān)文檔總數(shù)的比值[13]。查準率用來衡量系統(tǒng)的檢索精度，查全率用來衡量系統(tǒng)檢出相關(guān)文檔的能力。

實驗運行環(huán)境如下：CPU：Intel Pentium Dual-Core E5200、內(nèi)存：4GB、硬盤：希捷250GB、操作系統(tǒng)：Windows 7 Ultimate。實驗所用的檢索文檔全部來源于新華網(wǎng)，共計300篇英文文檔，內(nèi)容涵蓋科技、健康、體育、經(jīng)濟等多個類別。針對實驗設(shè)計了10個檢索式，先進行一次初始檢索，然后再進行兩次查詢擴展，對比系統(tǒng)的查準率和查全率。

具體的實驗步驟如下：

①輸入中文檢索式，標記為zws；

②對zws進行分詞和去除中文停用詞的處理；

③通過機讀詞典對zws進行翻譯，得到相應(yīng)的英文檢索式ews0；

④使用ews0進行初始檢索，根據(jù)檢索結(jié)果計算相應(yīng)的查準率和查全率；

⑤進行第一次查詢擴展，將擴展結(jié)果加入到ews0中得到檢索式ews1；

⑥使用ews1進行檢索，根據(jù)檢索結(jié)果計算相應(yīng)的查準率和查全率；

⑦進行第二次查詢擴展，將擴展結(jié)果加入到ews1中得到檢索式ews2；

⑧使用ews2進行檢索，根據(jù)檢索結(jié)果計算相應(yīng)的查準率和查全率。

3.7 實驗結(jié)果

例如，用戶的信息需求是查找手機系統(tǒng)方面的信息，輸入中文檢索式“手機系統(tǒng)”，經(jīng)分詞處理后系統(tǒng)翻譯得到英文檢索式“cell phone mobile phone system”，進行初始檢索后根據(jù)檢索結(jié)果計算出查準率為0.5588，查全率為0.95。之后進行第一次查詢擴展，得到檢索式“cell phone mobile phone system android”，再次進行檢索，根據(jù)檢索結(jié)果計算出查準率為0.5405，查全率為1.0。然后進行第二次查詢擴展，得到檢索式“cell phone mobile phone system android smart”，根據(jù)檢索結(jié)果計算出查準率為0.5333，查全率為1.0。

對10個檢索式初始檢索結(jié)果的查準率和查全率、兩次查詢擴展后檢索結(jié)果的查準率和查全率進行對比，如圖2、圖3。

通過檢索結(jié)果可以看出，在應(yīng)用了查詢擴展技術(shù)后，系統(tǒng)的查全率得到了提升，同時因為獲取了較多的檢中結(jié)果，系統(tǒng)的查準率有所下降，這也是系統(tǒng)表現(xiàn)良好的一個證明?！皺z索式10”的查準率在第二次查詢擴展后有明顯的下降，其查全率在第一次查詢擴展后有明顯的上升，這是因為詞典對一些新詞匯沒有完全收錄而產(chǎn)生的噪點數(shù)據(jù)。另外，當初始查詢得到的文檔在經(jīng)過排序后，如果排名靠前的文檔與原信息需求相關(guān)性不大，在查詢擴展時就會把一些無關(guān)的詞加入到新查詢中，也會影響檢索效果。從總體上看，查詢擴展技術(shù)在跨語言信息檢索系統(tǒng)中表現(xiàn)出了良好的性能。

4 結(jié)語

本文基于Lucene平臺實現(xiàn)了一個跨語言信息檢索系統(tǒng)，通過實驗對初始查詢、一次查詢擴展、二次查詢擴展進行了比較研究，實驗結(jié)果表明查詢擴展技術(shù)可有效提升跨語言信息檢索的查全率。在一個好的系統(tǒng)中，查準率往往會隨著返回文檔數(shù)目的增加而降低[7]，怎樣在滿足用戶信息需求的同時控制查準率和查全率之間的平衡是今后需要研究的方向。另外，本文對跨語言信息檢索由中文到英文的翻譯進行了研究，中英文雙向互譯也將作為今后進一步的研究工作。

圖2 應(yīng)用查詢擴展前后系統(tǒng)的查準率

圖3 應(yīng)用查詢擴展前后系統(tǒng)的查全率

參考文獻：

[1] 朱培焱,夏棟梁.漢英跨語言信息檢索研究[J].計算機與現(xiàn)代化，2011，08:13～16

[2] 張會平，周寧，陳立孚.跨語言信息檢索可視化研究[J].情報科學(xué)，2007，01:134～138

[3] 任成梅.跨語言信息檢索的發(fā)展與展望[J].圖書館學(xué)研究,2006,04:79～82

[4] 賴茂生，侯艷飛.跨語言檢索技術(shù):策略與方法[J].鄭州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版)，2005,04:11～14

[5] 王昊.跨語言信息檢索實現(xiàn)方法與關(guān)鍵技術(shù)探討[J].情報雜志,2005,07：46～49

[6] 劉偉成，孫吉紅.跨語言信息檢索進展研究[J].中國圖書館學(xué)報,2008,01:88～92

[7] Manning C D,Raghavan P,Schütze H.Introduction to Information Retrieval［M］.Beijing：Posts&Telecom Press，2010

[8] 陳燕紅，黃名選.基于Apriori改進算法的局部反饋查詢擴展[J].現(xiàn)代圖書情報技術(shù)，2007，09:84-87

[9] 黃名選，嚴小衛(wèi)，張師超.查詢擴展技術(shù)進展與展望[J].計算機應(yīng)用與軟件，2007，11:1～4+8

[10] 鄭敏.跨語言信息檢索的理論與實踐[J].情報理論與實踐,2003,03:223～225+212

[11] 于雪麗.Lucene中文分詞在科研文檔全文檢索系統(tǒng)的應(yīng)用研究[D].青島大學(xué)，2011

[12] 鄭榕增，林世平.基于Lucene的中文倒排索引技術(shù)的研究[J].計算機技術(shù)與發(fā)展，2010,03:80～83

[13] Ricardo Baeza-Yates,Berthier Ribeiro-Neto等.王知津，賈福新，鄭紅軍等譯.現(xiàn)代信息檢索[M].北京:機械工業(yè)出版社,2005

Applications of Query Expansion in Cross-Language Information Retrieval

YANG Liang
(Department of Library,Guangdong Polytechnic Normal University,Guangzhou 510400)

With the rapid development of the Internet,the network resources have too many forms.Meanwhile,most of them are described in different languages,which has become a mainly obstacle when people get information.People can't get precise results if the information resource uses a language that is unfamiliar to them.Designs and implements a cross-language information retrieval system which uses query translation approach and query expansion technology based on Lucene.The experimental results show that the recall of cross-language information retrieval is improved when query expansion is applied.

Cross-Language Information Retrieval;Query Expansion;Lucene

1007-1423（2015）02-0026-05

10.3969/j.issn.1007-1423.2015.02.007

楊亮（1982-），男，江蘇豐縣人，碩士研究生，館員，研究方向為信息管理、信息檢索

2014-12-02

2014-12-16

廣東技術(shù)師范學(xué)院2013年校級科研項目（No.13KJY18）