亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web挖掘的個性化信息檢索系統(tǒng)總體設(shè)計

        2013-10-17 06:09:12王水萍
        關(guān)鍵詞:信息檢索搜索引擎個性化

        王水萍

        (鄭州經(jīng)貿(mào)職業(yè)學院計算機系 河南 460005)

        1 搜索引擎的現(xiàn)狀研究

        隨著Web信息成指數(shù)級的增長,傳統(tǒng)搜索引擎能夠搜索出來的網(wǎng)頁越來越多,但這些搜索出來的網(wǎng)頁大多都與用戶請求無關(guān),并且網(wǎng)頁之間沒有任何關(guān)系,用戶需要從眾多的結(jié)果中過濾出自己所要的信息,大大加重了用戶的檢索負擔。傳統(tǒng)的搜索引擎是通用型的搜索引擎,一般來說,不同的用戶輸入相同的查詢請求總會返回相同的查詢結(jié)果,然而,對于每一個用戶來說,由于關(guān)注點不同,用戶更期望得到個性化的檢索結(jié)果。

        搜索引擎本就是為了方便用戶在網(wǎng)絡(luò)信息中搜索有用的信息。利用個性化技術(shù)來提高搜索引擎系統(tǒng)的性能,主要是為了給查詢用戶提供較為準確的個性化搜索結(jié)果。比如,當用戶用傳統(tǒng)的搜索引擎來查詢時,如果輸入“蘋果”,由于傳統(tǒng)搜索引擎采用普通的排序算法排序,不同的用戶輸入“蘋果”,搜索引擎返回的結(jié)果都是相同的。一般情況下,排在前面的網(wǎng)頁都是一些“平板電腦”、“手機”等電子產(chǎn)品的頁面,然而如果用戶的興趣不在于此,而是想查詢蘋果收購和銷售方面的信息,那么相關(guān)的搜索結(jié)果就不是他們想要的。但是,當傳統(tǒng)的搜索引擎使用了個性化檢索技術(shù)后,用戶的查詢結(jié)果就發(fā)生了改變,這時搜索引擎系統(tǒng)利用用戶興趣模型來對初始的搜索結(jié)果頁面集進行優(yōu)化過濾,從而為用戶返回個性化的查詢結(jié)果,這也就是用戶想要的結(jié)果。

        2 WEB挖掘在信息檢索領(lǐng)域的應(yīng)用

        個性化信息檢索系統(tǒng)主要是面向廣大的Internet用戶,因此本文設(shè)計的該系統(tǒng)考慮綜合了多種解決方法和個性化技術(shù)。

        Web挖掘是Web技術(shù)、數(shù)據(jù)挖掘、計算機技術(shù)、信息科學的一個交叉學科,是數(shù)據(jù)挖掘在網(wǎng)絡(luò)環(huán)境下的應(yīng)用。在Web信息檢索領(lǐng)域使用Wcb挖掘技術(shù),目的是提高信息檢索的準確率和效率,改善查詢結(jié)果。其幾點應(yīng)用如下:

        ①使用Web內(nèi)容挖掘中的聚類技術(shù)、文檔分類技術(shù)對Web文檔進行分析處理,對文檔進行摘要,以改善Web文檔索引的組織結(jié)構(gòu),提高檢索效率。

        ②Wcb結(jié)構(gòu)挖掘通常分析頁面間的鏈接結(jié)構(gòu)和組織結(jié)構(gòu)發(fā)現(xiàn)重要的信息,用以改進檢索的結(jié)果。

        ③Web使用挖掘常用的一個領(lǐng)域就是對服務(wù)器端用戶日志進行挖掘,通過用戶日志挖掘出用戶的興趣,從而獲取用戶的反饋信息,也可以通過對用戶日志里的訪問歷史進行分析來發(fā)現(xiàn)有用的用戶訪問模式,為構(gòu)建用戶的興趣模型提供有效的信息,利用用戶興趣模型對檢索結(jié)果的過濾可以提高信息檢索系統(tǒng)的查準率。因此,將Web挖掘技術(shù)運用到個性化信息檢索系統(tǒng)中,能夠提高信息檢索的效率及準確度。

        3 個性化信息檢索系統(tǒng)體系架構(gòu)設(shè)計

        基于Web挖掘的個性化信息檢索系統(tǒng)架構(gòu)如圖1所示。

        圖1 個性化信息檢索系統(tǒng)架構(gòu)

        個性化信息檢索系統(tǒng)的整個運行過程可以描述為:首先,我們利用信息搜集索引模塊中的Spiders來遍歷Internet自動獲取收集文檔信息,并通過過濾、轉(zhuǎn)換技術(shù)對文檔信息進行處理,提取索引項生成索引表,將索引處理過的數(shù)據(jù)放入索引數(shù)據(jù)庫;接著,在處理后的數(shù)據(jù)上利用個性化模型進行相關(guān)度檢測,并對搜索結(jié)果進行個性化過濾,最終用戶可以搜索到符合自己興趣的個性化結(jié)果。因為用戶隨著環(huán)境的變化和時間的推移會形成新的興趣,也同樣會對原來感興趣的東西失去興趣,用戶的興趣處于不斷變化之中,所以個性化興趣模型也需要不斷更新。由此可見,我們需要及時根據(jù)用戶的興趣變化來調(diào)整個性化興趣模型。因此,個性化興趣模型的功能非常重要。利用智能代理能夠?qū)崟r跟蹤監(jiān)視用戶行為,分析判斷用戶的瀏覽行為來及時發(fā)現(xiàn)用戶興趣的變化。因此,個性化興趣模型的主要工作就是用戶興趣模塊的構(gòu)建和及時更新。

        4 個性化信息檢索系統(tǒng)的組成

        該個性化信息檢索系統(tǒng)為了滿足不同用戶個性化檢索的需求,構(gòu)建用戶興趣模型,采用相關(guān)反饋技術(shù)過濾掉了大量不相關(guān)文檔,有效地提高了用戶進行信息檢索的效率。

        根據(jù)圖1,系統(tǒng)架構(gòu)主要包括下面幾個模塊組成:信息搜集索引模塊、用戶興趣建模模塊、用戶興趣自動更新模塊、結(jié)果過濾模塊。其中的用戶興趣建模和用戶興趣自動更新模塊構(gòu)成了個性化模型。本系統(tǒng)考慮了用戶個性化的需求和用戶個體的差異,所以能夠提供更準確更高質(zhì)量的檢索結(jié)果。

        ①信息搜集索引模塊

        利用Spiders來遍歷Internet自動獲取收集文檔信息,并通過過濾、轉(zhuǎn)換技術(shù)對文檔信息進行處理,提取索引項生成索引表,最后將處理過的數(shù)據(jù)放入索引數(shù)據(jù)庫。

        ②用戶興趣建模模塊

        本模塊采用一種不需要用戶干預(yù)的用戶動態(tài)興趣學習方法來生成初始的用戶興趣模型。該模塊通過分析用戶客戶端Wcb緩存中用戶瀏覽過的網(wǎng)頁以及用戶在網(wǎng)頁上的行為,來提煉出用戶的興趣,生成初始化的用戶興趣描述文件。

        ③用戶興趣自動更新模塊

        用戶興趣建模模塊得到的是一個初始化的用戶興趣模型,然而用戶的興趣是動態(tài)變化的,如果用戶模型在檢索過程中一直靜態(tài)不變,那么根據(jù)此用戶模型判斷而做出的輸出結(jié)果多半是不準確的。用戶興趣自動更新模塊主要根據(jù)用戶的瀏覽行為動態(tài)的更新用戶興趣模型。其中用戶在訪問過程中的行為包括了用戶從上網(wǎng)開始到結(jié)束的所有動作,比如:用戶對某個頁面的訪問次數(shù)、停留時間、是否保存、是否下載等,這些行為動作都能體現(xiàn)出用戶的興趣。本模塊采用智能Agent對用戶瀏覽網(wǎng)頁的所有行為動作進行跟蹤,深度挖掘出隱含在這些行為里的用戶興趣,并隨時對用戶興趣文件進行更新,從而使用戶興趣模型得以動態(tài)更新。

        用戶興趣建模模塊與用戶興趣自動更新模塊共同構(gòu)成了個性化模型,也是本系統(tǒng)的重點組成部分。

        ④結(jié)果過濾模塊

        本模塊主要利用文本相似度算法比較計算用戶興趣模型和每一個初始結(jié)果的相關(guān)度,然后依據(jù)用戶興趣的相關(guān)度按照由大到小的順序返回給用戶,從而使用戶得到個性化的檢索結(jié)果,在最大程度上滿足了用戶的個性化需求。

        5 個性化信息檢索系統(tǒng)的運行機制

        個性化信息檢索系統(tǒng)中各模塊都實現(xiàn)了不同的重要功能,是該系統(tǒng)的核心。這些模塊不但實現(xiàn)的功能各不相同,而且運行機制方式也不盡相同。信息搜集索引模塊和用戶興趣建模模塊是周期運行模塊,用戶興趣自動更新模塊是一個實時運行模塊,結(jié)果過濾模塊是按指令調(diào)用被動運行的模塊。信息搜集索引模塊周期運行Spiders收集網(wǎng)頁信息,網(wǎng)頁信息經(jīng)過索引處理后放入索引數(shù)據(jù)庫。用戶興趣建模模塊按指定的周期執(zhí)行,周期更新用戶興趣描述文件,實現(xiàn)用戶模型的更新。用戶興趣自動更新模塊實時跟 蹤監(jiān)視用戶的瀏覽行為,并隨時挖掘用戶的動作來更新用戶的興趣描述文件。結(jié)果過濾模塊是只有在查詢請求提交時,才會被調(diào)用并執(zhí)行,是一個不定期被動運行的模塊。

        6 小結(jié)

        本文主要研究了采用Web深度挖掘技術(shù)針對個性化信息檢索系統(tǒng)進行總體設(shè)計。本系統(tǒng)的設(shè)計目的是在為不同用戶提供不同的搜索結(jié)果的基礎(chǔ)上為用戶提供能夠滿足用戶興趣的搜索結(jié)果,它的前一個功能由個性化模塊實現(xiàn),后面的功能由結(jié)果過濾模塊完成,結(jié)果過濾模塊是對初始搜索的結(jié)果進行個性化過濾,并依據(jù)用戶興趣相關(guān)度進行排序,從而使用戶得到滿意的搜索結(jié)果。

        [1]周迎新,方暉,李欣蔚.基于Web的數(shù)據(jù)挖掘技術(shù)研究[J].科技創(chuàng)新導報.2008(3):25.

        [2]林培光.面向Web的個性化語義信息檢索技術(shù)[M].北京:中國財政經(jīng)濟出版社,2009.

        [3]張強.搜索引擎—網(wǎng)絡(luò)信息檢索方法[J].農(nóng)業(yè)網(wǎng)絡(luò)信息.2010(02) .

        猜你喜歡
        信息檢索搜索引擎個性化
        堅持個性化的寫作
        文苑(2020年4期)2020-05-30 12:35:12
        新聞的個性化寫作
        新聞傳播(2018年12期)2018-09-19 06:27:10
        上汽大通:C2B個性化定制未來
        醫(yī)學期刊編輯中文獻信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        基于神經(jīng)網(wǎng)絡(luò)的個性化信息檢索模型研究
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        滿足群眾的個性化需求
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        教學型大學《信息檢索》公選課的設(shè)計與實施
        河南科技(2014年11期)2014-02-27 14:10:19
        东北老女人高潮大喊舒服死了| 在线观看国产av一区二区| 日韩精品免费视频久久| av最新版天堂在资源在线| 一区二区在线观看日本免费 | 亚洲av综合av国产av中文| 99精品国产一区二区三区不卡 | 狠狠色噜噜狠狠狠狠米奇777| 真人无码作爱免费视频禁hnn| 9999毛片免费看| 天堂女人av一区二区| 日本刺激视频一区二区| 中国精品18videosex性中国| 亚洲国产精品特色大片观看完整版| 国产在线视欧美亚综合| 日韩激情av不卡在线| 又硬又粗进去好爽免费| 很黄很色很污18禁免费| 女性女同性aⅴ免费观女性恋| 亚洲av日韩aⅴ无码电影| 老熟妇高潮av一区二区三区啪啪| 久草久热这里只有精品| 日本一区二区在线免费看| 国产精品亚洲av三区亚洲| 亚洲国产天堂久久综合| japanesehd中国产在线看| 国产成人国产在线观看入口| 中国猛少妇色xxxxx| 国产一区二区三区爆白浆| 国产午夜精品久久久久| 99久久精品国产91| 九九久久自然熟的香蕉图片| 人妻无码中文字幕免费视频蜜桃| 粉嫩国产白浆在线播放| 日本系列有码字幕中文字幕| 亚欧中文字幕久久精品无码| 偷窥村妇洗澡毛毛多| 成人无码h真人在线网站| 亚洲人妻av在线播放| 亚洲中文字幕人成乱码在线| 亚洲熟妇自偷自拍另欧美|