【摘 要】當(dāng)前,隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,信息檢索系統(tǒng)及其核心技術(shù)搜檢索擎的性能和效率問題已成為人們研究和關(guān)注的焦點(diǎn)。影響一個搜檢索擎系統(tǒng)的性能有很多因素,但最主要的是信息檢索模型,通過對信息檢索模型研究的主要內(nèi)容和構(gòu)建策略進(jìn)行了描述,就相關(guān)的問題進(jìn)行了探討,總結(jié)了信息檢索模型的研究。
【關(guān)鍵詞】信息檢索模型;相關(guān)性;查詢;搜檢索擎
隨著網(wǎng)絡(luò)應(yīng)用的不斷普及,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要場所。在對新的檢索工具和檢索技術(shù)進(jìn)行探索和研究的過程中,應(yīng)克服當(dāng)下網(wǎng)絡(luò)信息檢索給我們帶來的困難,加強(qiáng)對不同需求進(jìn)行信息搜集和發(fā)送的智能化服務(wù)功能。
一、網(wǎng)絡(luò)環(huán)境下信息檢索的含義及特點(diǎn)
智能化信息檢索是在信息檢索的基礎(chǔ)上提出來的,它是以用戶為中心的信息檢索技術(shù),為不同用戶提供不同的服務(wù),并滿足同一用戶在不同時期的需求,通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,并綜合利用這些用戶信息,提高信息檢索系統(tǒng)的性能,滿足用戶的個體信息需求。在具體實(shí)現(xiàn)過程中主要是通過觀察和分析用戶的搜索行為,從中識別出用戶對信息需求的偏好,并且能夠根據(jù)用戶對搜索結(jié)果的評價(jià),自覺地調(diào)整搜索策略,使得對于不同的檢索請求,不同用戶都能夠得到最貼近自己需要的信息服務(wù)。
數(shù)據(jù)量巨大。在網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)量大的驚人。大數(shù)據(jù)量會導(dǎo)致一些難以預(yù)料的軟件異常,流量也會難以控制,對各個環(huán)節(jié)的策略和算法選擇將會更加復(fù)雜。
多用戶服務(wù)。多用戶模式的信息檢索服務(wù)必須注重快速反應(yīng),注重對并發(fā)訪問的支持,對公共數(shù)據(jù)的共享,對臨時工作數(shù)據(jù)的清理等。如果要針對不同用戶開展不同服務(wù),就要獲取并管理不同用戶的個性化需求,使大量的信息通過不同的渠道,主動送到用戶的手上。
用戶層次復(fù)雜。網(wǎng)絡(luò)環(huán)境下信息檢索服務(wù)的用戶中,大多數(shù)都不是專業(yè)用戶,他們的層次區(qū)別較難,擁有不同的操作技能和操作知識,面對這些非專業(yè)的用戶,將更加需要人性化的引導(dǎo)式信息服務(wù)。
二、網(wǎng)絡(luò)信息檢索的原理
隨著信息技術(shù)的飛速發(fā)展,信息已成為全社會的重要資源,對信息的占有程度及信息處理水平的先進(jìn)程度已成為衡量一個國家或地區(qū)現(xiàn)代化程度的重要標(biāo)志,而網(wǎng)絡(luò)上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當(dāng)今世界上規(guī)模最大、覆蓋面最廣、信息資源最豐富、發(fā)展最為迅速的信息網(wǎng)絡(luò),基于Internet的網(wǎng)絡(luò)信息檢索的研究,無論對研究人員還是一般用戶來說,都有著很強(qiáng)的現(xiàn)實(shí)性和實(shí)用性。
網(wǎng)絡(luò)信息檢索工具是網(wǎng)絡(luò)信息檢索技術(shù)的實(shí)物體現(xiàn)。目前,常用的網(wǎng)絡(luò)信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式:
1.布爾邏輯模型
這是一種簡單而常用的嚴(yán)格匹配模型。用戶可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系提交查詢,搜索工具根據(jù)事先建立的倒排文檔結(jié)構(gòu)確定查詢結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關(guān),要么與查詢無關(guān)。利用這種模型進(jìn)行查詢,其查詢結(jié)果一般沒有按照內(nèi)容的相關(guān)特性排序。
2.模糊邏輯模型
它在查詢結(jié)果處理中引進(jìn)了模糊邏輯比較,并且按照相關(guān)的優(yōu)先次序排列查詢結(jié)果,這樣就可以克服布爾邏輯模型信息查詢結(jié)果的無序性。
3.概率模型
它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內(nèi)在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來進(jìn)行信息檢索。
三、網(wǎng)絡(luò)信息檢索系統(tǒng)主要功能模塊
(一)Oracle數(shù)據(jù)集成工具(ODI)
ODI(Oracle Data Integrator)是Oracle公司采用ELT理念進(jìn)行數(shù)據(jù)抽取、加載、轉(zhuǎn)換的數(shù)據(jù)集成中間件工具,其最大特點(diǎn)是提出了知識模塊的概念。ODI將一些場景(如文件加載到數(shù)據(jù)庫,從MySQL數(shù)據(jù)庫抓取數(shù)據(jù)到Oracle數(shù)據(jù)庫等)的詳細(xì)實(shí)現(xiàn)步驟使用Jvthon腳本語言結(jié)合數(shù)據(jù)庫SQL語句錄制成詳細(xì)的步驟記錄下來,形成知識模塊,ODI中共有超過100種主流數(shù)據(jù)庫引擎和應(yīng)用系統(tǒng)的知識模塊,基本上包含了普通應(yīng)用所涉及的所有場景,因此ODI可以實(shí)現(xiàn)對校園網(wǎng)內(nèi)多種異構(gòu)數(shù)據(jù)庫的支持。在一個數(shù)據(jù)集成任務(wù)中,ODI通過聲明設(shè)計(jì)運(yùn)用接口和關(guān)系圖等概念聲明數(shù)據(jù)集成規(guī)則,使集成的邏輯和技術(shù)層面分離,底層的技術(shù)方面由知識模塊描述和定義,系統(tǒng)只需要把重點(diǎn)放在集成任務(wù)規(guī)則的制定上面,再將制定好的集成規(guī)則封裝為一個服務(wù)模型。發(fā)布和訂閱該模型便可實(shí)現(xiàn)類似于數(shù)據(jù)增量定時更新的功能,系統(tǒng)以全局?jǐn)?shù)據(jù)庫為核心通過ODI工具對校園網(wǎng)內(nèi)異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和加載,集成后的數(shù)據(jù)質(zhì)量得到了提高,對異構(gòu)數(shù)據(jù)源的處理也得到了加強(qiáng)。在對數(shù)據(jù)處理的過程中提取了信息的標(biāo)題、作者、正文、發(fā)布時間、URL地址等字段,可定時對各異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行增量更新操作,從而替代利用網(wǎng)絡(luò)爬蟲獲取信息數(shù)據(jù)。Oracle全局?jǐn)?shù)據(jù)庫可以集成校園網(wǎng)內(nèi)大部分信息發(fā)布系統(tǒng)的數(shù)據(jù)并提供給信息檢索和檢索模塊。
(二)Lucene與Nutch
Lucelle不是一個完整的搜檢索擎,而是一個用于實(shí)現(xiàn)全文檢索的軟件庫,采用Java語言開發(fā),提供了檢索內(nèi)核,其設(shè)計(jì)原理是檢索檢索,任何信息資源只要被轉(zhuǎn)換成文本格式都可以被檢索。Nutch是Lucene得到廣泛應(yīng)用和認(rèn)可后出現(xiàn)的搜檢索擎系統(tǒng),內(nèi)部使用了Lucene的檢索檢索技術(shù),并進(jìn)一步封裝了網(wǎng)絡(luò)爬蟲和分布式處理等模塊從而成為一個完整的應(yīng)用系統(tǒng)。本系統(tǒng)以Nutch為基礎(chǔ),既應(yīng)用了Nuteh系統(tǒng)的完整性,減少了不必要的開發(fā),又可靈活使用Lucene接口,豐富系統(tǒng)功能。
對于非結(jié)構(gòu)化文本信息,系統(tǒng)對Office文檔采用了POI插件方式,用PDFBox插件來實(shí)現(xiàn)對PDF文檔的讀取,并將上述插件集成到Nutch當(dāng)中。信息檢索的基礎(chǔ)是文本分析,而文本分析在很大程度上依賴于分詞模塊對語言的處理。Nutch自帶的CJK分詞模塊對中文分詞的效率和準(zhǔn)確度上不能滿足實(shí)際需要。為此。在對比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后,Paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用,并通過Nuteh的插件機(jī)制集成到系統(tǒng)當(dāng)中。
(三)信息檢索與檢索
為滿足用戶全網(wǎng)檢索和分類分部門檢索信息的需要,并提高檢索效率,信息檢索模塊首先對每個數(shù)據(jù)源建立檢索文件提供給分類檢索用戶,然后通過優(yōu)化檢索提供給全網(wǎng)檢索用戶。優(yōu)化檢索就是將多個檢索文件合并成單個文件的過程,目的是為了減少檢索文件的數(shù)量,并且能在搜索時減少讀取檢索文件的時間。Nutch中的IndexWrite類提供了optimize方法實(shí)現(xiàn)該優(yōu)化操作。利用Nutch中的MultiSearcher類可實(shí)現(xiàn)對優(yōu)化后檢索的全網(wǎng)檢索功能,檢索結(jié)果會以一種指定的順序合并起來。
針對校園網(wǎng)用戶信息檢索的特點(diǎn)。綜合考慮信息相關(guān)度、時效性和訪問量等因素后,系統(tǒng)采用了自定義的排序機(jī)制,文檔文本相關(guān)度作為信息檢索的主要排序依據(jù),信息發(fā)布時間和訪問次數(shù)作為重要的排序因子,系統(tǒng)通過Lucene的激勵因子boost值來改變文檔得分,從而調(diào)整文檔的出現(xiàn)順序。系統(tǒng)為校園網(wǎng)用戶提供了通用檢索和高級檢索功能,通用檢索在用戶輸入檢索信息的關(guān)鍵字后可檢索出所需信息:高級檢索功能為用戶提供了更為詳細(xì)的檢索條件,用戶可根據(jù)需要對信息進(jìn)行更加精細(xì)的檢索。系統(tǒng)管理功能除對用戶權(quán)限進(jìn)行管理外還對信息檢索結(jié)果進(jìn)行屏蔽和進(jìn)一步處理。
四、網(wǎng)絡(luò)信息檢索的主體技術(shù)和相關(guān)技術(shù)
(一)信息檢索服務(wù)的主體技術(shù)
網(wǎng)絡(luò)信息檢索通常采用搜索引擎技術(shù),該技術(shù)是為了解決“信息迷航”問題而提出的。它通過相應(yīng)的算法在互聯(lián)網(wǎng)上搜索相關(guān)信息,并對信息進(jìn)行組織和處理,從而為用戶提供信息導(dǎo)航。
現(xiàn)階段,網(wǎng)絡(luò)搜索引擎有很多,用戶比較常用的有Google、有道、百度等等,這些搜索引擎能進(jìn)行網(wǎng)絡(luò)信息檢索、信息過濾、個性化信息服務(wù)定制等比較有特色的服務(wù),但是并沒有實(shí)現(xiàn)真正意義上的智能化檢索。在實(shí)際使用過程中,用戶想要的不僅僅是有用的信息,他們更希望做信息消費(fèi)的主人,使信息的搜索可以在一個相對主動的環(huán)境中進(jìn)行。
(二)智能信息索引的相關(guān)技術(shù)
1.智能代理技術(shù)
智能代理又可以稱之為智能體,它是在用戶沒有明確具體要求的情況下,根據(jù)用戶需要,代替用戶進(jìn)行各種復(fù)雜的工作,如信息檢索、篩選及整理,并能推測用戶的意圖,自動制定、調(diào)整和執(zhí)行工作計(jì)劃。智能代理首先要建立個性化的數(shù)據(jù)庫,在數(shù)據(jù)庫中建立用戶基本信息表(包括用戶編號、用戶名、姓名、年齡、性別等字段)、用戶職業(yè)信息表(包括職業(yè)編號、職業(yè)類型、等級、職稱等字段)和用戶興趣信息表(包括興趣編號、興趣類別、程度等字段),用來詳細(xì)描述用戶的個人情況,其中第一個字段可以設(shè)置成關(guān)鍵字。然后建立用戶檢索策略表(包括策略編號、策略控制、檢索詞控制、檢索時間控制、檢索范圍控制等字段)和用戶檢索評價(jià)表(包括檢索編號、檢索時間、檢索詞、檢索結(jié)果數(shù)量、查全率、查準(zhǔn)率等字段),同樣的,第一個字段設(shè)置成關(guān)鍵字。檢索策略表主要是給用戶模型的檢索定義一個比較完整的檢索策略,檢索評價(jià)表主要是對用戶檢索的滿意度作一個簡單的評價(jià)描述。
有了用戶個性化數(shù)據(jù)庫,一方面,在服務(wù)器端吸收智能代理技術(shù)的思想,引入個性化服務(wù)的理念,引入用戶反饋機(jī)制來完善檢索機(jī)制、提高檢索命中率,同時也可提供面向個人的特殊檢索服務(wù)。另一方面,信息檢索用到智能代理主要集成在客戶端,配合用戶興趣完成搜索,它會對用戶信息需求、偏好進(jìn)行區(qū)別、歸納、總結(jié),分析用戶的興趣愛好,并借助學(xué)習(xí)的規(guī)則,自動、獨(dú)立地代理用戶查找用戶感興趣的信息。
2.用戶興趣挖掘技術(shù)
實(shí)現(xiàn)信息檢索服務(wù)最重要的就是對用戶的喜好和習(xí)慣進(jìn)行分析,日前,通常使用兩種方法:其一是通過用戶主動提供自己的興趣來得到用戶的個性化向量;其二是在用戶沒有明確參與的情況下,系統(tǒng)通過觀察用戶行為來得到用戶的興趣,從而得到用戶的個性化向量。使用第一種方法,可以選擇下面兩種方式:一是用戶將自己感興趣的信息類或在線文檔分類后提供給系統(tǒng),系統(tǒng)從這些文檔或信息類中發(fā)現(xiàn)用戶的興趣;二是用戶提供自己的研究方向和其它閱讀愛好等信息,系統(tǒng)從這些信息中發(fā)現(xiàn)用戶的興趣。但是,由于用戶的興趣并不是一成不變的,而用戶一般不可能提供所有的興趣以及感興趣的程度,因此還需要使用第一種方式進(jìn)行補(bǔ)充。使用第二種方法是根據(jù)用戶對推送頁面的評價(jià)信息來更新用戶的個性化向量。
隨著信息技術(shù)的進(jìn)一步發(fā)展,信息檢索技術(shù)必將更加完善,它將在人類與信息之間建起一座方便的橋梁。我們雖取得一些成績,但是道路還很漫長,真正實(shí)現(xiàn)信息搜索的智能化服務(wù),還有待代理技術(shù)的智能性、主動性、自主性等得到進(jìn)一步的提高。
參考文獻(xiàn):
[1]趙剛.網(wǎng)絡(luò)環(huán)境下信息檢索研究[J].內(nèi)蒙古科技與經(jīng)濟(jì),2010,12.
[2]黃少林,王華,張玉紅,蔣一峰.基于Lucene的檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代情報(bào),2009,29.
[3]陳維,阮海紅.網(wǎng)絡(luò)環(huán)境下的信息檢索與數(shù)據(jù)挖掘技術(shù)[J].現(xiàn)代情報(bào),2009,5.
[4]邱哲,符滔滔,王雪松.開發(fā)自己的搜檢索擎Lucellc+Heritrix[M].北京:人民郵電出版社,2010.