亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        用戶信息檢索中的相關(guān)性反饋模型研究

        2012-12-31 00:00:00肖陽
        科技創(chuàng)新導(dǎo)報 2012年27期

        摘要:本文提出一種通過獲取用戶建立和更新信息相關(guān)反饋模型的思想。通過觀察用戶在瀏覽Web 頁面時所采取的動作來獲取反饋信息,利用檢索算法將用戶信息量化,并利用這些信息建立與更新用戶模型。一方面用戶對檢索結(jié)果的評價輸入到用戶模型上,另一方面,檢索系統(tǒng)通過學(xué)習(xí)跟蹤用戶信息并優(yōu)化用戶模型。

        關(guān)鍵詞:信息檢索 相關(guān)性反饋 用戶需求

        中圖分類號:G203 文獻標(biāo)識碼:A 文章編號:1674-098X(2012)09(c)-0050-02

        當(dāng)今進入了信息時代,隨著網(wǎng)絡(luò)技術(shù)與智能技術(shù)不斷創(chuàng)新計算機應(yīng)用環(huán)境,網(wǎng)上關(guān)鍵詞不能按需要進行擴檢、縮檢或作相關(guān)檢索,從而達不到理想的檢索效果,目錄型網(wǎng)絡(luò)信息檢索分類處理跟不上信息擴張的速度且類目難以統(tǒng)一組織。高質(zhì)量的信息檢索需要用戶提供準(zhǔn)確的興趣描述,然而面對今天浩如煙海的信息,信息技術(shù)領(lǐng)域的一個熱點問題就是如何幫助用戶高質(zhì)量地檢索,以獲取真正有用的信息,這樣可以節(jié)省科研時間,提高工作效率,同時避免重復(fù)研究,加快科技創(chuàng)新的速度,充分挖掘分析信息從而制定高明的市場謀略。近年來,各種學(xué)者研究出基于各種檢索模型下的反饋方法,均已成為當(dāng)前能夠產(chǎn)生實效的新研究課題。

        1 相關(guān)性反饋概念和原理

        信息檢索的種類有許多種,但對于任何一種方法,其根本內(nèi)容都是一樣的,即檢索項與標(biāo)引項的匹配問題。對事先組織好的文檔,可以按用戶提出的檢索條件去進行匹配運算,符合條件的即為命中,否則為不命中。檢索過程就是對記錄的內(nèi)容再細(xì)分的過程,而檢索條件就是細(xì)分的根據(jù)。對于同一個檢索題目,可以產(chǎn)生很多種方法,其反映了標(biāo)引的逆向過程。

        如圖1所示,用戶需要的內(nèi)容主要通過信息檢索來實現(xiàn),但在檢索的過程中存在一些不確定因素從而使該目標(biāo)無法實現(xiàn)。自然語言的復(fù)雜性和模糊性是影響檢索系統(tǒng)性能的根源,其中包括文檔和查詢的表達方式、文檔和查詢相關(guān)性的匹配能力、查詢結(jié)果的排序和用戶進行相關(guān)反饋的機制等。

        就這種檢索系統(tǒng)來說,當(dāng)前的信息檢索工具普遍存在這樣的一些問題。

        (1)檢索比較模糊,精準(zhǔn)性不強。用戶所需要的文獻可能由于計算機系統(tǒng)檢索精確性低而不能完全檢測到,而不相關(guān)和相關(guān)度較低的文檔則被頻繁的檢索出來。

        (2)檢索工具在編制技術(shù)上存在問題。比如,只反映參考文獻的第一作者,若從第二作者入手查,就無法使用檢索工具;同一來源在索引中反復(fù)著錄多次,浪費了許多篇幅,不經(jīng)濟;同名著者不能區(qū)分,同一作者的不同名字不易控制和合并,等等。

        (3)無法實現(xiàn)一次性復(fù)雜檢索。傳統(tǒng)的信息檢索系統(tǒng)允許多次簡單條件進行“二次檢索”,即在第一次檢索的基礎(chǔ)上,根據(jù)檢索要求,在二次檢索框中輸入相應(yīng)的檢索詞再次進行檢索,逐步縮小范圍。

        與傳統(tǒng)的檢索方式相比較,基于用戶的信息檢索具有以下優(yōu)勢:

        (1)利用反映用戶信息需求的特征來進行檢索。

        (2)相關(guān)反饋檢索,即根據(jù)檢索庫中各個被檢索單元與用戶檢索需求的相關(guān)程度而二次檢索。

        傳統(tǒng)的信息檢索通常是不區(qū)分用戶所處的社會環(huán)境、受教育的程度和個人的能力這些因素而進行檢索的,因而大多數(shù)用戶無法從檢索方法、檢索策略和檢索結(jié)果中獲取個人的需要。例如,輸入“番茄”關(guān)鍵詞查詢有關(guān)番茄的信息,得到的結(jié)果中一定含有“番茄”,而“西紅柿”、“圣女果”都可以表達相同的概念,卻由于詞形上的差異不能滿足關(guān)鍵詞匹配的要求。又比如“航天飛機”和“太空梭”雖然指的概念是一樣的,但在中文檢索工具上用“航天飛機”是查不到“太空梭”的主頁的。顯然,相關(guān)反饋檢索是相當(dāng)有用的。

        在改進的檢索系統(tǒng)中用戶可以評估文檔,并且把信息反饋到檢索系統(tǒng)中,另一方面系統(tǒng)通過獲取用戶感興趣的領(lǐng)域和用戶的檢索行為建立用戶模型庫,并執(zhí)行一次新的查詢。

        相關(guān)反饋技術(shù)能夠提供更為智能化、知識化的服務(wù)的技術(shù),它可以使檢索性能得到很大的提高,在檢索過程中,它提供了一個受控查詢改變的過程,在強調(diào)某些重要的檢索詞的同時,削弱了另外一些檢索詞。系統(tǒng)根據(jù)用戶的查詢要求返回檢索結(jié)果。用戶對檢索系統(tǒng)進行評價和標(biāo)記,并將這些信息反饋給系統(tǒng),將查詢操作劃分成一個個小的查詢過程,以逐漸接近用戶想要的目標(biāo)文檔。系統(tǒng)則根據(jù)這些信息進行學(xué)習(xí),并返回新的查詢結(jié)果,從而使檢索結(jié)果更加滿足用戶的要求。在此過程中系統(tǒng)需要為用戶建立模型以用來存儲用戶的興趣、檢索習(xí)慣、用戶背景等信息,用戶所要做的工作是處理文檔所包含的思想和概念。

        首先,用戶提出一個查詢請求,檢索系統(tǒng)開始進行原始的查找,檢索系統(tǒng)根據(jù)用戶文檔修改用戶查詢條件,并對用戶提問查詢進行重新查找;其次,用戶羅列出返回的那些內(nèi)容是關(guān)聯(lián)性大的,然后檢索系統(tǒng)會自動的使用其中檢索詞來進行擴檢查詢,基于用戶相關(guān)性來形成新的查詢。通過這種用戶與相關(guān)反饋系統(tǒng)的相互作用不斷完善和精確用戶的查詢請求。同時,相關(guān)反饋過程也是一個不斷重復(fù)的過程。我們要解決的重點是,怎樣收集并組織相關(guān)文獻,怎樣優(yōu)化查詢,怎樣選定新的檢索詞,而相關(guān)反饋模型檢索能比較完善的解決了這個問題。

        2 基于用戶的相關(guān)反饋模型機制

        檢索系統(tǒng)通過觀察用戶與系統(tǒng)之間的交互動作獲取用戶的個人興趣,從而利用相關(guān)反饋來擴展對用戶的查詢。因而基于用戶的相關(guān)反饋模型能夠根據(jù)用戶的使用情況,適時調(diào)整系統(tǒng)的主題和全局模式,以滿足用戶的需要,將使系統(tǒng)更加靈活。例如,當(dāng)全社會掀起創(chuàng)建和諧社會時,對于互幫互助、雷鋒精神相關(guān)的文獻需求量可能會增加;在進行高科技技術(shù)學(xué)習(xí)時,可能對航空航天相關(guān)文獻的需求又會增加。對于這種需要,雖然事先無法預(yù)料,但可以通過對用戶檢索內(nèi)容的分布情況的分析來對主題和全局模式進行調(diào)整。

        2.1 采集用戶查詢行為信息

        在進行采集用戶行為信息前要進行需求分析,即明確采集目標(biāo)。需求分析是整個信息采集的出發(fā)點,也是整個信息采集工作效率高低和成敗的關(guān)鍵。在采集過程中根據(jù)信息采集的需求不同,要采用不同的采集。不同類型、不同內(nèi)容的用戶信息,獲取的途徑和方法也不一樣。用戶查詢行為的采集應(yīng)采用調(diào)查問卷、啟發(fā)式采集、現(xiàn)場搜集等方式來獲取,例如用戶的移動手持設(shè)備,方便用戶,充分發(fā)揮手持設(shè)備的優(yōu)勢,利用拍照和錄音功能實現(xiàn)用戶查詢行為信息采集、信息采集的“移動化”、“零手寫”。利用河南移動公司的設(shè)備定位技術(shù),實現(xiàn)信息采集地點的自動定位,提高信息采集的效率。

        采用查全率和查準(zhǔn)率來對反饋技術(shù)在經(jīng)過前處理的檢索模型和沒有經(jīng)過前處理的模型上的有效進行分析。

        查全率=檢出相關(guān)信息量/系統(tǒng)中相關(guān)信息總量×100%

        查準(zhǔn)率=檢出相關(guān)信息量/檢出信息總量×100%

        根據(jù)實驗結(jié)果可以看出基于反饋技術(shù)在信息檢索模型上是有效的,但是實驗結(jié)果說明該種方法還需進一步的論證,從而提高查全率和查準(zhǔn)率。

        經(jīng)過比較可以得出結(jié)論:前處理技術(shù)一定程度上提高了相關(guān)反饋的查準(zhǔn)率,而查全率和未經(jīng)過處理前的模型差不多。

        2.2 用戶檢索結(jié)果的相關(guān)度研究

        在實際檢索中,假設(shè)用戶檢索最終結(jié)果的數(shù)量超過了一定的條數(shù),或者頁碼過多,那么用戶只能重點瀏覽前面的檢索結(jié)果,而對后面的內(nèi)容漠不關(guān)心。因此,就要對檢索結(jié)果進行相關(guān)度排序,把相關(guān)度高的結(jié)果排在前面,這就要對系統(tǒng)進行設(shè)計。其主要思想是對文獻的題目、關(guān)鍵詞、作者、內(nèi)容摘要四個位置進行相關(guān)度的計算,為每個地方設(shè)計一個不同的權(quán)重,相關(guān)度越高的則權(quán)重越高。

        相關(guān)度的計算方法如下:

        假設(shè)有檢索詞k,計算機檢索得到的結(jié)果集L={l0,l1, …,ln}(n∈N),L中的各個項進行相關(guān)度排序。設(shè)LKi為k的一個檢索結(jié)果li,則li∈L。LMi為li用戶使用過的次數(shù)。則L中的任意兩項li,lj存在以下關(guān)系:

        (1)當(dāng)僅當(dāng)LKi=LKj, LMi=LMj,那么li=lj;

        (2)如果LKi>LKj,那么li>lj;

        (3)如果LKi=LKj, LMi>LMj,那么li>lj。

        該算法表示如下:

        Void QueryResultCollection::

        RankSort()

        { if(—result.Size()<2)

        return;

        Icompare rankCompare=new RankCompare();

        —result.Sort(rankCompare);}

        Public class RankCompare:Icompare

        {int Icompare::Compare(Object x,Object y)

        {Return(QueryResult)x.CompareTo((QueryResult)y);}}

        2.3 用戶模型的設(shè)計

        用戶興趣模型的系統(tǒng)結(jié)構(gòu),以下給出用戶感興趣的主題模型:

        設(shè)xi為某個主題,集合F={x0,x1,…,xm}為某個主題領(lǐng)域所有主題,有xi∈{x0,x1,…,xm}.

        記L(xi)≡1代表一個用戶在一次檢索中對主題xi感興趣,∑L(xi)為在時間段t內(nèi)對主題xi感興趣的用戶的總和。

        那么存在集合M={∑L(x0),∑L(x1),…,∑L(xm)},表示在時間段t內(nèi),對主題域中的每個主題,對其感興趣的用戶總數(shù)的集合M。

        在M中可以找到一個集合P,使得P,且對于P中任一元素Pi,都有Pi>Mi,Mi∈(M-P)。

        這時,由P中元素對應(yīng)的主題組成的集合,就是要尋找的主題集合。

        對于集合F,如果選擇的主題太大,則在集合M中可能存在大量元素的值偏小,這時需要通過系統(tǒng)管理員的人工判斷來選擇。本系統(tǒng)主要是對一定時間內(nèi)用戶檢索內(nèi)容的分類情況和涉及的主題情況,進行統(tǒng)計來分析檢索內(nèi)容的分布情況。在每個用戶檢索時,一方面是對其感興趣的檢索結(jié)果進行記錄,一方面是對其使用的檢索詞進行匹配,從而得到單個用戶一次檢索時的興趣范圍,通過對一段時間內(nèi)所有用戶的興趣范圍的累計,得出一個用戶興趣范圍的分布情況表,即興趣模型。

        3 結(jié)語

        當(dāng)前對相關(guān)反饋模型的研究日益深入,它有助于實現(xiàn)個性化的智能檢索服務(wù),信息檢索是一個涉及自然語言處理各個方面的研究領(lǐng)域,用戶反饋模型的引入,可以挖掘用戶信息之間的內(nèi)在聯(lián)系,檢索的結(jié)果能準(zhǔn)確、系統(tǒng)的反映用戶的需求。通過研究新的相關(guān)反饋模型機制,拓展信息檢索領(lǐng)域的研究內(nèi)容,推進信息技術(shù)的利用水平,主要表現(xiàn)在挖掘用戶的潛在興趣、開辟新的興趣領(lǐng)域和進行專門的檢索服務(wù)。信息檢索中的相關(guān)反饋模型的研究已經(jīng)成為人們?nèi)找骊P(guān)注的一個熱點, 是未來檢索服務(wù)的一個研究方向,基于用戶個性化的檢索模式將會隨著不斷完善的功能、不斷提高的準(zhǔn)確性,為人們獲取信息提供更多的便利。但是在其實現(xiàn)過程中,仍舊存在不少困難,如用戶興趣的遺忘、用戶興趣的挖掘、反饋學(xué)習(xí)機制的優(yōu)化模型,以及多用戶興趣模型的設(shè)計和實現(xiàn), 這些都還有待進一步改進和解決。

        參考文獻

        [1] 李業(yè)麗,林鴻飛,姚天順.基于事例的用戶信息需求模型[J].用戶計算機工程與用,2000.

        [2] 李廣建,黃昆.用戶模型及其學(xué)習(xí)方法[J].現(xiàn)代圖書情報技術(shù),2002.

        [3] 王志軍,于超.基于隱式反饋的個人信息檢索技術(shù)及實現(xiàn)[J].工程應(yīng)用技術(shù)與實現(xiàn),2003.

        久久精品国产亚洲Av无码偷窍| 亚洲精品国产成人久久av| 在线视频播放观看免费| 91精品啪在线观看国产18| 69天堂国产在线精品观看| 黄片午夜免费观看视频国产| 五月婷婷开心五月激情| 色偷偷色噜噜狠狠网站30根| 精东天美麻豆果冻传媒mv| 精品久久久久久无码国产| 国产啪精品视频网站免| 粉色蜜桃视频完整版免费观看在线| 免费亚洲一区二区三区av| 欧美狠狠入鲁的视频777色 | 精品一精品国产一级毛片| 激情人妻中出中文字幕一区| 日韩av免费一区二区| 国产精品186在线观看在线播放 | 美女窝人体色www网站| 亚洲一区二区三区av天堂| 狠狠色狠狠色综合网老熟女| 欧美乱人伦中文字幕在线不卡| av男人的天堂手机免费网站 | 无码aⅴ免费中文字幕久久| 国产亚洲视频在线观看网址| 中国女人a毛片免费全部播放| 午夜一区二区三区免费观看| 色大全全免费网站久久| 国产成人亚洲综合色婷婷| 亚洲精品中国国产嫩草影院美女| 青青草视频在线你懂的| 日韩中文字幕一区二区二区| 四川丰满妇女毛片四川话| 亚洲综合无码一区二区三区 | 初尝黑人嗷嗷叫中文字幕| 久久国产亚洲中文字幕| 日韩av一区二区不卡在线| 日本在线 | 中文| 日日碰狠狠躁久久躁96avv | 亚洲精品人成无码中文毛片| 久久青青草视频免费观看|