亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)信息檢索系統(tǒng)的設(shè)計(jì)與技術(shù)分析

        2012-04-29 00:00:00王菊
        網(wǎng)友世界 2012年4期

        【摘 要】當(dāng)前,隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,信息檢索系統(tǒng)及其核心技術(shù)搜檢索擎的性能和效率問題已成為人們研究和關(guān)注的焦點(diǎn)。影響一個搜檢索擎系統(tǒng)的性能有很多因素,但最主要的是信息檢索模型,通過對信息檢索模型研究的主要內(nèi)容和構(gòu)建策略進(jìn)行了描述,就相關(guān)的問題進(jìn)行了探討,總結(jié)了信息檢索模型的研究。

        【關(guān)鍵詞】信息檢索模型;相關(guān)性;查詢;搜檢索擎

        隨著網(wǎng)絡(luò)應(yīng)用的不斷普及,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要場所。在對新的檢索工具和檢索技術(shù)進(jìn)行探索和研究的過程中,應(yīng)克服當(dāng)下網(wǎng)絡(luò)信息檢索給我們帶來的困難,加強(qiáng)對不同需求進(jìn)行信息搜集和發(fā)送的智能化服務(wù)功能。

        一、網(wǎng)絡(luò)環(huán)境下信息檢索的含義及特點(diǎn)

        智能化信息檢索是在信息檢索的基礎(chǔ)上提出來的,它是以用戶為中心的信息檢索技術(shù),為不同用戶提供不同的服務(wù),并滿足同一用戶在不同時期的需求,通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,并綜合利用這些用戶信息,提高信息檢索系統(tǒng)的性能,滿足用戶的個體信息需求。在具體實(shí)現(xiàn)過程中主要是通過觀察和分析用戶的搜索行為,從中識別出用戶對信息需求的偏好,并且能夠根據(jù)用戶對搜索結(jié)果的評價(jià),自覺地調(diào)整搜索策略,使得對于不同的檢索請求,不同用戶都能夠得到最貼近自己需要的信息服務(wù)。

        數(shù)據(jù)量巨大。在網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)量大的驚人。大數(shù)據(jù)量會導(dǎo)致一些難以預(yù)料的軟件異常,流量也會難以控制,對各個環(huán)節(jié)的策略和算法選擇將會更加復(fù)雜。

        多用戶服務(wù)。多用戶模式的信息檢索服務(wù)必須注重快速反應(yīng),注重對并發(fā)訪問的支持,對公共數(shù)據(jù)的共享,對臨時工作數(shù)據(jù)的清理等。如果要針對不同用戶開展不同服務(wù),就要獲取并管理不同用戶的個性化需求,使大量的信息通過不同的渠道,主動送到用戶的手上。

        用戶層次復(fù)雜。網(wǎng)絡(luò)環(huán)境下信息檢索服務(wù)的用戶中,大多數(shù)都不是專業(yè)用戶,他們的層次區(qū)別較難,擁有不同的操作技能和操作知識,面對這些非專業(yè)的用戶,將更加需要人性化的引導(dǎo)式信息服務(wù)。

        二、網(wǎng)絡(luò)信息檢索的原理

        隨著信息技術(shù)的飛速發(fā)展,信息已成為全社會的重要資源,對信息的占有程度及信息處理水平的先進(jìn)程度已成為衡量一個國家或地區(qū)現(xiàn)代化程度的重要標(biāo)志,而網(wǎng)絡(luò)上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當(dāng)今世界上規(guī)模最大、覆蓋面最廣、信息資源最豐富、發(fā)展最為迅速的信息網(wǎng)絡(luò),基于Internet的網(wǎng)絡(luò)信息檢索的研究,無論對研究人員還是一般用戶來說,都有著很強(qiáng)的現(xiàn)實(shí)性和實(shí)用性。

        網(wǎng)絡(luò)信息檢索工具是網(wǎng)絡(luò)信息檢索技術(shù)的實(shí)物體現(xiàn)。目前,常用的網(wǎng)絡(luò)信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式:

        1.布爾邏輯模型

        這是一種簡單而常用的嚴(yán)格匹配模型。用戶可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系提交查詢,搜索工具根據(jù)事先建立的倒排文檔結(jié)構(gòu)確定查詢結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關(guān),要么與查詢無關(guān)。利用這種模型進(jìn)行查詢,其查詢結(jié)果一般沒有按照內(nèi)容的相關(guān)特性排序。

        2.模糊邏輯模型

        它在查詢結(jié)果處理中引進(jìn)了模糊邏輯比較,并且按照相關(guān)的優(yōu)先次序排列查詢結(jié)果,這樣就可以克服布爾邏輯模型信息查詢結(jié)果的無序性。

        3.概率模型

        它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內(nèi)在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來進(jìn)行信息檢索。

        三、網(wǎng)絡(luò)信息檢索系統(tǒng)主要功能模塊

        (一)Oracle數(shù)據(jù)集成工具(ODI)

        ODI(Oracle Data Integrator)是Oracle公司采用ELT理念進(jìn)行數(shù)據(jù)抽取、加載、轉(zhuǎn)換的數(shù)據(jù)集成中間件工具,其最大特點(diǎn)是提出了知識模塊的概念。ODI將一些場景(如文件加載到數(shù)據(jù)庫,從MySQL數(shù)據(jù)庫抓取數(shù)據(jù)到Oracle數(shù)據(jù)庫等)的詳細(xì)實(shí)現(xiàn)步驟使用Jvthon腳本語言結(jié)合數(shù)據(jù)庫SQL語句錄制成詳細(xì)的步驟記錄下來,形成知識模塊,ODI中共有超過100種主流數(shù)據(jù)庫引擎和應(yīng)用系統(tǒng)的知識模塊,基本上包含了普通應(yīng)用所涉及的所有場景,因此ODI可以實(shí)現(xiàn)對校園網(wǎng)內(nèi)多種異構(gòu)數(shù)據(jù)庫的支持。在一個數(shù)據(jù)集成任務(wù)中,ODI通過聲明設(shè)計(jì)運(yùn)用接口和關(guān)系圖等概念聲明數(shù)據(jù)集成規(guī)則,使集成的邏輯和技術(shù)層面分離,底層的技術(shù)方面由知識模塊描述和定義,系統(tǒng)只需要把重點(diǎn)放在集成任務(wù)規(guī)則的制定上面,再將制定好的集成規(guī)則封裝為一個服務(wù)模型。發(fā)布和訂閱該模型便可實(shí)現(xiàn)類似于數(shù)據(jù)增量定時更新的功能,系統(tǒng)以全局?jǐn)?shù)據(jù)庫為核心通過ODI工具對校園網(wǎng)內(nèi)異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗和加載,集成后的數(shù)據(jù)質(zhì)量得到了提高,對異構(gòu)數(shù)據(jù)源的處理也得到了加強(qiáng)。在對數(shù)據(jù)處理的過程中提取了信息的標(biāo)題、作者、正文、發(fā)布時間、URL地址等字段,可定時對各異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行增量更新操作,從而替代利用網(wǎng)絡(luò)爬蟲獲取信息數(shù)據(jù)。Oracle全局?jǐn)?shù)據(jù)庫可以集成校園網(wǎng)內(nèi)大部分信息發(fā)布系統(tǒng)的數(shù)據(jù)并提供給信息檢索和檢索模塊。

        (二)Lucene與Nutch

        Lucelle不是一個完整的搜檢索擎,而是一個用于實(shí)現(xiàn)全文檢索的軟件庫,采用Java語言開發(fā),提供了檢索內(nèi)核,其設(shè)計(jì)原理是檢索檢索,任何信息資源只要被轉(zhuǎn)換成文本格式都可以被檢索。Nutch是Lucene得到廣泛應(yīng)用和認(rèn)可后出現(xiàn)的搜檢索擎系統(tǒng),內(nèi)部使用了Lucene的檢索檢索技術(shù),并進(jìn)一步封裝了網(wǎng)絡(luò)爬蟲和分布式處理等模塊從而成為一個完整的應(yīng)用系統(tǒng)。本系統(tǒng)以Nutch為基礎(chǔ),既應(yīng)用了Nuteh系統(tǒng)的完整性,減少了不必要的開發(fā),又可靈活使用Lucene接口,豐富系統(tǒng)功能。

        對于非結(jié)構(gòu)化文本信息,系統(tǒng)對Office文檔采用了POI插件方式,用PDFBox插件來實(shí)現(xiàn)對PDF文檔的讀取,并將上述插件集成到Nutch當(dāng)中。信息檢索的基礎(chǔ)是文本分析,而文本分析在很大程度上依賴于分詞模塊對語言的處理。Nutch自帶的CJK分詞模塊對中文分詞的效率和準(zhǔn)確度上不能滿足實(shí)際需要。為此。在對比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后,Paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用,并通過Nuteh的插件機(jī)制集成到系統(tǒng)當(dāng)中。

        (三)信息檢索與檢索

        為滿足用戶全網(wǎng)檢索和分類分部門檢索信息的需要,并提高檢索效率,信息檢索模塊首先對每個數(shù)據(jù)源建立檢索文件提供給分類檢索用戶,然后通過優(yōu)化檢索提供給全網(wǎng)檢索用戶。優(yōu)化檢索就是將多個檢索文件合并成單個文件的過程,目的是為了減少檢索文件的數(shù)量,并且能在搜索時減少讀取檢索文件的時間。Nutch中的IndexWrite類提供了optimize方法實(shí)現(xiàn)該優(yōu)化操作。利用Nutch中的MultiSearcher類可實(shí)現(xiàn)對優(yōu)化后檢索的全網(wǎng)檢索功能,檢索結(jié)果會以一種指定的順序合并起來。

        針對校園網(wǎng)用戶信息檢索的特點(diǎn)。綜合考慮信息相關(guān)度、時效性和訪問量等因素后,系統(tǒng)采用了自定義的排序機(jī)制,文檔文本相關(guān)度作為信息檢索的主要排序依據(jù),信息發(fā)布時間和訪問次數(shù)作為重要的排序因子,系統(tǒng)通過Lucene的激勵因子boost值來改變文檔得分,從而調(diào)整文檔的出現(xiàn)順序。系統(tǒng)為校園網(wǎng)用戶提供了通用檢索和高級檢索功能,通用檢索在用戶輸入檢索信息的關(guān)鍵字后可檢索出所需信息:高級檢索功能為用戶提供了更為詳細(xì)的檢索條件,用戶可根據(jù)需要對信息進(jìn)行更加精細(xì)的檢索。系統(tǒng)管理功能除對用戶權(quán)限進(jìn)行管理外還對信息檢索結(jié)果進(jìn)行屏蔽和進(jìn)一步處理。

        四、網(wǎng)絡(luò)信息檢索的主體技術(shù)和相關(guān)技術(shù)

        (一)信息檢索服務(wù)的主體技術(shù)

        網(wǎng)絡(luò)信息檢索通常采用搜索引擎技術(shù),該技術(shù)是為了解決“信息迷航”問題而提出的。它通過相應(yīng)的算法在互聯(lián)網(wǎng)上搜索相關(guān)信息,并對信息進(jìn)行組織和處理,從而為用戶提供信息導(dǎo)航。

        現(xiàn)階段,網(wǎng)絡(luò)搜索引擎有很多,用戶比較常用的有Google、有道、百度等等,這些搜索引擎能進(jìn)行網(wǎng)絡(luò)信息檢索、信息過濾、個性化信息服務(wù)定制等比較有特色的服務(wù),但是并沒有實(shí)現(xiàn)真正意義上的智能化檢索。在實(shí)際使用過程中,用戶想要的不僅僅是有用的信息,他們更希望做信息消費(fèi)的主人,使信息的搜索可以在一個相對主動的環(huán)境中進(jìn)行。

        (二)智能信息索引的相關(guān)技術(shù)

        1.智能代理技術(shù)

        智能代理又可以稱之為智能體,它是在用戶沒有明確具體要求的情況下,根據(jù)用戶需要,代替用戶進(jìn)行各種復(fù)雜的工作,如信息檢索、篩選及整理,并能推測用戶的意圖,自動制定、調(diào)整和執(zhí)行工作計(jì)劃。智能代理首先要建立個性化的數(shù)據(jù)庫,在數(shù)據(jù)庫中建立用戶基本信息表(包括用戶編號、用戶名、姓名、年齡、性別等字段)、用戶職業(yè)信息表(包括職業(yè)編號、職業(yè)類型、等級、職稱等字段)和用戶興趣信息表(包括興趣編號、興趣類別、程度等字段),用來詳細(xì)描述用戶的個人情況,其中第一個字段可以設(shè)置成關(guān)鍵字。然后建立用戶檢索策略表(包括策略編號、策略控制、檢索詞控制、檢索時間控制、檢索范圍控制等字段)和用戶檢索評價(jià)表(包括檢索編號、檢索時間、檢索詞、檢索結(jié)果數(shù)量、查全率、查準(zhǔn)率等字段),同樣的,第一個字段設(shè)置成關(guān)鍵字。檢索策略表主要是給用戶模型的檢索定義一個比較完整的檢索策略,檢索評價(jià)表主要是對用戶檢索的滿意度作一個簡單的評價(jià)描述。

        有了用戶個性化數(shù)據(jù)庫,一方面,在服務(wù)器端吸收智能代理技術(shù)的思想,引入個性化服務(wù)的理念,引入用戶反饋機(jī)制來完善檢索機(jī)制、提高檢索命中率,同時也可提供面向個人的特殊檢索服務(wù)。另一方面,信息檢索用到智能代理主要集成在客戶端,配合用戶興趣完成搜索,它會對用戶信息需求、偏好進(jìn)行區(qū)別、歸納、總結(jié),分析用戶的興趣愛好,并借助學(xué)習(xí)的規(guī)則,自動、獨(dú)立地代理用戶查找用戶感興趣的信息。

        2.用戶興趣挖掘技術(shù)

        實(shí)現(xiàn)信息檢索服務(wù)最重要的就是對用戶的喜好和習(xí)慣進(jìn)行分析,日前,通常使用兩種方法:其一是通過用戶主動提供自己的興趣來得到用戶的個性化向量;其二是在用戶沒有明確參與的情況下,系統(tǒng)通過觀察用戶行為來得到用戶的興趣,從而得到用戶的個性化向量。使用第一種方法,可以選擇下面兩種方式:一是用戶將自己感興趣的信息類或在線文檔分類后提供給系統(tǒng),系統(tǒng)從這些文檔或信息類中發(fā)現(xiàn)用戶的興趣;二是用戶提供自己的研究方向和其它閱讀愛好等信息,系統(tǒng)從這些信息中發(fā)現(xiàn)用戶的興趣。但是,由于用戶的興趣并不是一成不變的,而用戶一般不可能提供所有的興趣以及感興趣的程度,因此還需要使用第一種方式進(jìn)行補(bǔ)充。使用第二種方法是根據(jù)用戶對推送頁面的評價(jià)信息來更新用戶的個性化向量。

        隨著信息技術(shù)的進(jìn)一步發(fā)展,信息檢索技術(shù)必將更加完善,它將在人類與信息之間建起一座方便的橋梁。我們雖取得一些成績,但是道路還很漫長,真正實(shí)現(xiàn)信息搜索的智能化服務(wù),還有待代理技術(shù)的智能性、主動性、自主性等得到進(jìn)一步的提高。

        參考文獻(xiàn):

        [1]趙剛.網(wǎng)絡(luò)環(huán)境下信息檢索研究[J].內(nèi)蒙古科技與經(jīng)濟(jì),2010,12.

        [2]黃少林,王華,張玉紅,蔣一峰.基于Lucene的檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代情報(bào),2009,29.

        [3]陳維,阮海紅.網(wǎng)絡(luò)環(huán)境下的信息檢索與數(shù)據(jù)挖掘技術(shù)[J].現(xiàn)代情報(bào),2009,5.

        [4]邱哲,符滔滔,王雪松.開發(fā)自己的搜檢索擎Lucellc+Heritrix[M].北京:人民郵電出版社,2010.

        亚洲处破女av日韩精品中出| 99精品久久99久久久久| 蜜桃传媒网站在线观看| 人妻熟女翘屁股中文字幕| 强d乱码中文字幕熟女免费| 欧美牲交a欧美牲交aⅴ免费下载 | 成人内射国产免费观看| 久久综合亚洲色一区二区三区| 成 人 免费 在线电影| 色噜噜av亚洲色一区二区| a级毛片成人网站免费看| 少妇人妻偷人精品视蜜桃| 日本污视频| 四虎精品国产一区二区三区 | 黑人大荫道bbwbbb高潮潮喷| 中文字幕av一区二区三区| 成人免费视频自偷自拍| 亚洲在线一区二区三区| 中文字幕高清不卡视频二区| 国产精品永久久久久久久久久 | 国产成人a在线观看视频免费 | 91成人自拍在线观看| 日本xxxx色视频在线观看| 和外国人做人爱视频| 亚洲色大成在线观看| 亚洲色图视频在线观看,| 青青草视频在线观看9| 精品人妻码一区二区三区红楼视频| 少妇一区二区三区久久| 夜夜高潮夜夜爽国产伦精品| 国产精品天天在线午夜更新| 亚洲 国产 哟| 亚洲av中文aⅴ无码av不卡| 久草久热这里只有精品| 久久av粉嫩一区二区| www国产亚洲精品久久麻豆| 国产精品99精品无码视亚 | 日本熟女精品一区二区三区| 国产熟女内射oooo| 亚洲av无码专区亚洲av桃| 人妻无码人妻有码不卡|