亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

網(wǎng)絡(luò)信息檢索系統(tǒng)的設(shè)計(jì)與技術(shù)分析

2012-04-29 00:00:00王菊

網(wǎng)友世界 2012年4期

【摘要】當(dāng)前，隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長，信息檢索系統(tǒng)及其核心技術(shù)搜檢索擎的性能和效率問題已成為人們研究和關(guān)注的焦點(diǎn)。影響一個搜檢索擎系統(tǒng)的性能有很多因素，但最主要的是信息檢索模型，通過對信息檢索模型研究的主要內(nèi)容和構(gòu)建策略進(jìn)行了描述，就相關(guān)的問題進(jìn)行了探討，總結(jié)了信息檢索模型的研究。

【關(guān)鍵詞】信息檢索模型；相關(guān)性；查詢；搜檢索擎

隨著網(wǎng)絡(luò)應(yīng)用的不斷普及，網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要場所。在對新的檢索工具和檢索技術(shù)進(jìn)行探索和研究的過程中，應(yīng)克服當(dāng)下網(wǎng)絡(luò)信息檢索給我們帶來的困難，加強(qiáng)對不同需求進(jìn)行信息搜集和發(fā)送的智能化服務(wù)功能。

一、網(wǎng)絡(luò)環(huán)境下信息檢索的含義及特點(diǎn)

智能化信息檢索是在信息檢索的基礎(chǔ)上提出來的，它是以用戶為中心的信息檢索技術(shù)，為不同用戶提供不同的服務(wù)，并滿足同一用戶在不同時期的需求，通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為，并綜合利用這些用戶信息，提高信息檢索系統(tǒng)的性能，滿足用戶的個體信息需求。在具體實(shí)現(xiàn)過程中主要是通過觀察和分析用戶的搜索行為，從中識別出用戶對信息需求的偏好，并且能夠根據(jù)用戶對搜索結(jié)果的評價(jià)，自覺地調(diào)整搜索策略，使得對于不同的檢索請求，不同用戶都能夠得到最貼近自己需要的信息服務(wù)。

數(shù)據(jù)量巨大。在網(wǎng)絡(luò)環(huán)境下，數(shù)據(jù)量大的驚人。大數(shù)據(jù)量會導(dǎo)致一些難以預(yù)料的軟件異常，流量也會難以控制，對各個環(huán)節(jié)的策略和算法選擇將會更加復(fù)雜。

多用戶服務(wù)。多用戶模式的信息檢索服務(wù)必須注重快速反應(yīng)，注重對并發(fā)訪問的支持，對公共數(shù)據(jù)的共享，對臨時工作數(shù)據(jù)的清理等。如果要針對不同用戶開展不同服務(wù)，就要獲取并管理不同用戶的個性化需求，使大量的信息通過不同的渠道，主動送到用戶的手上。

用戶層次復(fù)雜。網(wǎng)絡(luò)環(huán)境下信息檢索服務(wù)的用戶中，大多數(shù)都不是專業(yè)用戶，他們的層次區(qū)別較難，擁有不同的操作技能和操作知識，面對這些非專業(yè)的用戶，將更加需要人性化的引導(dǎo)式信息服務(wù)。

二、網(wǎng)絡(luò)信息檢索的原理

隨著信息技術(shù)的飛速發(fā)展，信息已成為全社會的重要資源，對信息的占有程度及信息處理水平的先進(jìn)程度已成為衡量一個國家或地區(qū)現(xiàn)代化程度的重要標(biāo)志，而網(wǎng)絡(luò)上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當(dāng)今世界上規(guī)模最大、覆蓋面最廣、信息資源最豐富、發(fā)展最為迅速的信息網(wǎng)絡(luò)，基于Internet的網(wǎng)絡(luò)信息檢索的研究，無論對研究人員還是一般用戶來說，都有著很強(qiáng)的現(xiàn)實(shí)性和實(shí)用性。

網(wǎng)絡(luò)信息檢索工具是網(wǎng)絡(luò)信息檢索技術(shù)的實(shí)物體現(xiàn)。目前，常用的網(wǎng)絡(luò)信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式：

1.布爾邏輯模型

這是一種簡單而常用的嚴(yán)格匹配模型。用戶可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系提交查詢，搜索工具根據(jù)事先建立的倒排文檔結(jié)構(gòu)確定查詢結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯，所搜索的文檔要么與查詢相關(guān)，要么與查詢無關(guān)。利用這種模型進(jìn)行查詢，其查詢結(jié)果一般沒有按照內(nèi)容的相關(guān)特性排序。

2.模糊邏輯模型

它在查詢結(jié)果處理中引進(jìn)了模糊邏輯比較，并且按照相關(guān)的優(yōu)先次序排列查詢結(jié)果，這樣就可以克服布爾邏輯模型信息查詢結(jié)果的無序性。

3.概率模型

它是基于貝葉斯概率原理而提出的，根據(jù)詞條、文檔間的內(nèi)在聯(lián)系，利用詞條間和詞條與文檔間的概率相依性來進(jìn)行信息檢索。

三、網(wǎng)絡(luò)信息檢索系統(tǒng)主要功能模塊

(一)Oracle數(shù)據(jù)集成工具(ODI)

ODI(Oracle Data Integrator)是Oracle公司采用ELT理念進(jìn)行數(shù)據(jù)抽取、加載、轉(zhuǎn)換的數(shù)據(jù)集成中間件工具，其最大特點(diǎn)是提出了知識模塊的概念。ODI將一些場景(如文件加載到數(shù)據(jù)庫，從MySQL數(shù)據(jù)庫抓取數(shù)據(jù)到Oracle數(shù)據(jù)庫等)的詳細(xì)實(shí)現(xiàn)步驟使用Jvthon腳本語言結(jié)合數(shù)據(jù)庫SQL語句錄制成詳細(xì)的步驟記錄下來，形成知識模塊，ODI中共有超過100種主流數(shù)據(jù)庫引擎和應(yīng)用系統(tǒng)的知識模塊，基本上包含了普通應(yīng)用所涉及的所有場景，因此ODI可以實(shí)現(xiàn)對校園網(wǎng)內(nèi)多種異構(gòu)數(shù)據(jù)庫的支持。在一個數(shù)據(jù)集成任務(wù)中，ODI通過聲明設(shè)計(jì)運(yùn)用接口和關(guān)系圖等概念聲明數(shù)據(jù)集成規(guī)則，使集成的邏輯和技術(shù)層面分離，底層的技術(shù)方面由知識模塊描述和定義，系統(tǒng)只需要把重點(diǎn)放在集成任務(wù)規(guī)則的制定上面，再將制定好的集成規(guī)則封裝為一個服務(wù)模型。發(fā)布和訂閱該模型便可實(shí)現(xiàn)類似于數(shù)據(jù)增量定時更新的功能，系統(tǒng)以全局?jǐn)?shù)據(jù)庫為核心通過ODI工具對校園網(wǎng)內(nèi)異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和加載，集成后的數(shù)據(jù)質(zhì)量得到了提高，對異構(gòu)數(shù)據(jù)源的處理也得到了加強(qiáng)。在對數(shù)據(jù)處理的過程中提取了信息的標(biāo)題、作者、正文、發(fā)布時間、URL地址等字段，可定時對各異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行增量更新操作，從而替代利用網(wǎng)絡(luò)爬蟲獲取信息數(shù)據(jù)。Oracle全局?jǐn)?shù)據(jù)庫可以集成校園網(wǎng)內(nèi)大部分信息發(fā)布系統(tǒng)的數(shù)據(jù)并提供給信息檢索和檢索模塊。

(二)Lucene與Nutch

Lucelle不是一個完整的搜檢索擎，而是一個用于實(shí)現(xiàn)全文檢索的軟件庫，采用Java語言開發(fā)，提供了檢索內(nèi)核，其設(shè)計(jì)原理是檢索檢索，任何信息資源只要被轉(zhuǎn)換成文本格式都可以被檢索。Nutch是Lucene得到廣泛應(yīng)用和認(rèn)可后出現(xiàn)的搜檢索擎系統(tǒng)，內(nèi)部使用了Lucene的檢索檢索技術(shù)，并進(jìn)一步封裝了網(wǎng)絡(luò)爬蟲和分布式處理等模塊從而成為一個完整的應(yīng)用系統(tǒng)。本系統(tǒng)以Nutch為基礎(chǔ)，既應(yīng)用了Nuteh系統(tǒng)的完整性，減少了不必要的開發(fā)，又可靈活使用Lucene接口，豐富系統(tǒng)功能。

對于非結(jié)構(gòu)化文本信息，系統(tǒng)對Office文檔采用了POI插件方式，用PDFBox插件來實(shí)現(xiàn)對PDF文檔的讀取，并將上述插件集成到Nutch當(dāng)中。信息檢索的基礎(chǔ)是文本分析，而文本分析在很大程度上依賴于分詞模塊對語言的處理。Nutch自帶的CJK分詞模塊對中文分詞的效率和準(zhǔn)確度上不能滿足實(shí)際需要。為此。在對比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后，Paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用，并通過Nuteh的插件機(jī)制集成到系統(tǒng)當(dāng)中。

(三)信息檢索與檢索

為滿足用戶全網(wǎng)檢索和分類分部門檢索信息的需要，并提高檢索效率，信息檢索模塊首先對每個數(shù)據(jù)源建立檢索文件提供給分類檢索用戶，然后通過優(yōu)化檢索提供給全網(wǎng)檢索用戶。優(yōu)化檢索就是將多個檢索文件合并成單個文件的過程，目的是為了減少檢索文件的數(shù)量，并且能在搜索時減少讀取檢索文件的時間。Nutch中的IndexWrite類提供了optimize方法實(shí)現(xiàn)該優(yōu)化操作。利用Nutch中的MultiSearcher類可實(shí)現(xiàn)對優(yōu)化后檢索的全網(wǎng)檢索功能，檢索結(jié)果會以一種指定的順序合并起來。

針對校園網(wǎng)用戶信息檢索的特點(diǎn)。綜合考慮信息相關(guān)度、時效性和訪問量等因素后，系統(tǒng)采用了自定義的排序機(jī)制，文檔文本相關(guān)度作為信息檢索的主要排序依據(jù)，信息發(fā)布時間和訪問次數(shù)作為重要的排序因子，系統(tǒng)通過Lucene的激勵因子boost值來改變文檔得分，從而調(diào)整文檔的出現(xiàn)順序。系統(tǒng)為校園網(wǎng)用戶提供了通用檢索和高級檢索功能，通用檢索在用戶輸入檢索信息的關(guān)鍵字后可檢索出所需信息：高級檢索功能為用戶提供了更為詳細(xì)的檢索條件，用戶可根據(jù)需要對信息進(jìn)行更加精細(xì)的檢索。系統(tǒng)管理功能除對用戶權(quán)限進(jìn)行管理外還對信息檢索結(jié)果進(jìn)行屏蔽和進(jìn)一步處理。

四、網(wǎng)絡(luò)信息檢索的主體技術(shù)和相關(guān)技術(shù)

(一)信息檢索服務(wù)的主體技術(shù)

網(wǎng)絡(luò)信息檢索通常采用搜索引擎技術(shù)，該技術(shù)是為了解決“信息迷航”問題而提出的。它通過相應(yīng)的算法在互聯(lián)網(wǎng)上搜索相關(guān)信息，并對信息進(jìn)行組織和處理，從而為用戶提供信息導(dǎo)航。

現(xiàn)階段，網(wǎng)絡(luò)搜索引擎有很多，用戶比較常用的有Google、有道、百度等等，這些搜索引擎能進(jìn)行網(wǎng)絡(luò)信息檢索、信息過濾、個性化信息服務(wù)定制等比較有特色的服務(wù)，但是并沒有實(shí)現(xiàn)真正意義上的智能化檢索。在實(shí)際使用過程中，用戶想要的不僅僅是有用的信息，他們更希望做信息消費(fèi)的主人，使信息的搜索可以在一個相對主動的環(huán)境中進(jìn)行。

(二)智能信息索引的相關(guān)技術(shù)

1.智能代理技術(shù)

智能代理又可以稱之為智能體，它是在用戶沒有明確具體要求的情況下，根據(jù)用戶需要，代替用戶進(jìn)行各種復(fù)雜的工作，如信息檢索、篩選及整理，并能推測用戶的意圖，自動制定、調(diào)整和執(zhí)行工作計(jì)劃。智能代理首先要建立個性化的數(shù)據(jù)庫，在數(shù)據(jù)庫中建立用戶基本信息表（包括用戶編號、用戶名、姓名、年齡、性別等字段）、用戶職業(yè)信息表（包括職業(yè)編號、職業(yè)類型、等級、職稱等字段）和用戶興趣信息表（包括興趣編號、興趣類別、程度等字段），用來詳細(xì)描述用戶的個人情況，其中第一個字段可以設(shè)置成關(guān)鍵字。然后建立用戶檢索策略表（包括策略編號、策略控制、檢索詞控制、檢索時間控制、檢索范圍控制等字段）和用戶檢索評價(jià)表（包括檢索編號、檢索時間、檢索詞、檢索結(jié)果數(shù)量、查全率、查準(zhǔn)率等字段），同樣的，第一個字段設(shè)置成關(guān)鍵字。檢索策略表主要是給用戶模型的檢索定義一個比較完整的檢索策略，檢索評價(jià)表主要是對用戶檢索的滿意度作一個簡單的評價(jià)描述。

有了用戶個性化數(shù)據(jù)庫，一方面，在服務(wù)器端吸收智能代理技術(shù)的思想，引入個性化服務(wù)的理念，引入用戶反饋機(jī)制來完善檢索機(jī)制、提高檢索命中率，同時也可提供面向個人的特殊檢索服務(wù)。另一方面，信息檢索用到智能代理主要集成在客戶端，配合用戶興趣完成搜索，它會對用戶信息需求、偏好進(jìn)行區(qū)別、歸納、總結(jié)，分析用戶的興趣愛好，并借助學(xué)習(xí)的規(guī)則，自動、獨(dú)立地代理用戶查找用戶感興趣的信息。

2.用戶興趣挖掘技術(shù)

實(shí)現(xiàn)信息檢索服務(wù)最重要的就是對用戶的喜好和習(xí)慣進(jìn)行分析，日前，通常使用兩種方法：其一是通過用戶主動提供自己的興趣來得到用戶的個性化向量；其二是在用戶沒有明確參與的情況下，系統(tǒng)通過觀察用戶行為來得到用戶的興趣，從而得到用戶的個性化向量。使用第一種方法，可以選擇下面兩種方式：一是用戶將自己感興趣的信息類或在線文檔分類后提供給系統(tǒng)，系統(tǒng)從這些文檔或信息類中發(fā)現(xiàn)用戶的興趣；二是用戶提供自己的研究方向和其它閱讀愛好等信息，系統(tǒng)從這些信息中發(fā)現(xiàn)用戶的興趣。但是，由于用戶的興趣并不是一成不變的，而用戶一般不可能提供所有的興趣以及感興趣的程度，因此還需要使用第一種方式進(jìn)行補(bǔ)充。使用第二種方法是根據(jù)用戶對推送頁面的評價(jià)信息來更新用戶的個性化向量。

隨著信息技術(shù)的進(jìn)一步發(fā)展，信息檢索技術(shù)必將更加完善，它將在人類與信息之間建起一座方便的橋梁。我們雖取得一些成績，但是道路還很漫長，真正實(shí)現(xiàn)信息搜索的智能化服務(wù)，還有待代理技術(shù)的智能性、主動性、自主性等得到進(jìn)一步的提高。

參考文獻(xiàn)：

[1]趙剛.網(wǎng)絡(luò)環(huán)境下信息檢索研究[J].內(nèi)蒙古科技與經(jīng)濟(jì)，2010，12.

[2]黃少林，王華，張玉紅，蔣一峰.基于Lucene的檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代情報(bào)，2009，29.

[3]陳維，阮海紅.網(wǎng)絡(luò)環(huán)境下的信息檢索與數(shù)據(jù)挖掘技術(shù)[J].現(xiàn)代情報(bào)，2009，5.

[4]邱哲，符滔滔，王雪松.開發(fā)自己的搜檢索擎Lucellc＋Heritrix[M].北京:人民郵電出版社，2010.

網(wǎng)友世界2012年4期

網(wǎng)友世界的其它文章: 運(yùn)用多媒體進(jìn)行閱讀教學(xué)的好處; 語文教學(xué)利用現(xiàn)代教育技術(shù)進(jìn)行自主學(xué)習(xí)的體會; 信息技術(shù)與語文學(xué)科教學(xué)的整合; 信息技術(shù)在語文情境教學(xué)中的作用; 運(yùn)用多媒體教學(xué)提高語文課堂教學(xué)質(zhì)量; 網(wǎng)絡(luò)環(huán)境下學(xué)生情感迷陷問題的探討