亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于興趣模型的查詢擴(kuò)展

        2014-07-03 08:15:46田永昌
        關(guān)鍵詞:語(yǔ)義概念用戶

        田永昌,李 穎

        (1.裝甲兵工程學(xué)院信息系,北京 100072;2.裝甲兵工程學(xué)院科研部,北京 100072)

        0 引言

        當(dāng)前,絕大多數(shù)搜索引擎的搜索結(jié)果依據(jù)的是用戶輸入的關(guān)鍵詞和網(wǎng)頁(yè)的權(quán)值,并沒(méi)有考慮不同用戶的個(gè)性化差異。一種情況是不同用戶在輸入相同的查詢關(guān)鍵詞時(shí)得到的結(jié)果基本相同,沒(méi)有表現(xiàn)出用戶興趣的差異化;另一種情況是語(yǔ)言存在同義詞、近義詞以及其他一些復(fù)雜語(yǔ)義關(guān)系的現(xiàn)象[1],用戶提供的關(guān)鍵詞往往只是其查詢意圖的某一種表達(dá)形式,這就會(huì)導(dǎo)致與其他表達(dá)形式相關(guān)的網(wǎng)頁(yè)沒(méi)有被搜索到,從而降低搜索效率甚至導(dǎo)致搜索失敗。這2種情況都不可能令用戶滿意。所以,信息檢索領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題就是怎樣使用戶從海量的信息中獲取對(duì)自己有價(jià)值的內(nèi)容,從而提高檢索效率。

        查詢擴(kuò)展技術(shù)作為查詢處理和優(yōu)化的關(guān)鍵技術(shù)之一,能有效提高信息檢索的效率。查詢擴(kuò)展技術(shù)在上個(gè)世紀(jì)70年代就已經(jīng)被提出來(lái)了[2]。它在初始查詢的基礎(chǔ)上加入新的查詢?cè)~,從而能更加準(zhǔn)確地把握用戶的查詢意圖,減少查詢請(qǐng)求與相關(guān)文檔不能匹配的現(xiàn)象,提高搜索性能。目前查詢擴(kuò)展技術(shù)的方法很多,大致可以歸結(jié)為3類:基于詞典的查詢擴(kuò)展、自動(dòng)局部分析方法和自動(dòng)全局分析方法[3-5]?;谠~典的查詢擴(kuò)展一般采用WordNet、MindNet和HowNet等詞典[6-8],選擇與初始查詢存在同義、近義或者上下文關(guān)系的詞進(jìn)行擴(kuò)展,例如李力沛等人[9]采用個(gè)性化詞典,提出了一種改進(jìn)的基于二級(jí)向量的搜索引擎?zhèn)€性化服務(wù)模型并通過(guò)實(shí)驗(yàn)證明了其有效性;自動(dòng)局部分析是基于初始查詢所得到的結(jié)果集中的相關(guān)文檔,利用相關(guān)文檔的有關(guān)信息來(lái)擴(kuò)展查詢,例如王旭陽(yáng)等人[10]提出了一種基于本體和局部上下文分析的查詢擴(kuò)展方法,通過(guò)改進(jìn)篩選函數(shù)并結(jié)合局部上下文對(duì)候選擴(kuò)展概念集進(jìn)行2次篩選,在一定程度上提高了查詢性能;自動(dòng)全局分析是對(duì)全部文檔中的詞或詞組進(jìn)行相關(guān)分析,計(jì)算每對(duì)詞或詞組間的關(guān)聯(lián)程度,根據(jù)預(yù)先計(jì)算的詞間相關(guān)關(guān)系將與查詢用詞關(guān)聯(lián)程度最高的詞或詞組加入原查詢以生成新的查詢,例如王衛(wèi)國(guó)等人[11]提出了一種混合的個(gè)性化查詢擴(kuò)展模型,該模型通過(guò)潛在語(yǔ)義分析建立潛在語(yǔ)義空間,并在潛在語(yǔ)義空間中計(jì)算得到查詢的概念相關(guān)擴(kuò)展詞和興趣相關(guān)擴(kuò)展詞,較好地提高了檢索效率。通過(guò)分析這些方法可知:采用詞典的查詢擴(kuò)展方法,雖然在一定程度上提高了查全率,但同時(shí)也降低了查準(zhǔn)率,而且詞典大都是人工建立的,不可能包含所有的詞條,比較有局限性;自動(dòng)局部分析方法的一個(gè)重要前提是假設(shè)前N篇初始檢索文檔是相關(guān)的,但如果這個(gè)前提假設(shè)不成立,就會(huì)造成選取的擴(kuò)展詞與查詢意圖不相關(guān),從而導(dǎo)致查詢結(jié)果與主題不相符,降低檢索性能;自動(dòng)全局分析方法的擴(kuò)展詞來(lái)源于整個(gè)語(yǔ)料庫(kù),需要對(duì)總的文檔集進(jìn)行訓(xùn)練,而這必然會(huì)導(dǎo)致系統(tǒng)開銷過(guò)大,所以單純地將自動(dòng)全局分析方法應(yīng)用到互聯(lián)網(wǎng)的海量信息中進(jìn)行檢索的可行性不大。

        本文通過(guò)從用戶的興趣或者偏好中挖掘出來(lái)的興趣知識(shí)建立興趣知識(shí)庫(kù),并結(jié)合查詢擴(kuò)展策略實(shí)現(xiàn)個(gè)性化服務(wù),提出一種基于興趣模型的搜索引擎查詢擴(kuò)展方法。該方法能通過(guò)興趣模型優(yōu)化查詢擴(kuò)展詞,使得用戶的搜索更加快速、準(zhǔn)確,實(shí)現(xiàn)個(gè)性化查詢擴(kuò)展。

        1 相關(guān)工作

        1.1 興趣知識(shí)的獲取

        獲取用戶的興趣知識(shí)是實(shí)現(xiàn)查詢個(gè)性化的研究基礎(chǔ)。通過(guò)獲取的興趣知識(shí)能夠更準(zhǔn)確地把握用戶的查詢意圖。用戶的興趣知識(shí)來(lái)源主要包括以下4個(gè)方面[12]:1)用戶的瀏覽信息和查詢關(guān)鍵詞,這些信息都保存在搜索引擎的用戶日志里面;2)用戶保存在收藏夾中的網(wǎng)頁(yè)或者下載到本地的文檔信息;3)用戶在網(wǎng)頁(yè)停留的時(shí)間以及點(diǎn)擊次數(shù),時(shí)間越長(zhǎng),點(diǎn)擊次數(shù)越多,表明用戶對(duì)該網(wǎng)頁(yè)越感興趣;4)用戶在與系統(tǒng)進(jìn)行交互時(shí),提交的個(gè)人信息。Agent智能代理[13-14]作為一種軟件實(shí)體,封裝了很多Web挖掘算法。它能在復(fù)雜的計(jì)算環(huán)境中持續(xù)自主地挖掘用戶的興趣知識(shí),并對(duì)興趣知識(shí)進(jìn)行保存和更新。用戶可以根據(jù)實(shí)際需要定義Agent信息。本文采用基于A-gent智能代理的數(shù)據(jù)挖掘模式,實(shí)時(shí)獲取用戶興趣知識(shí),建立興趣知識(shí)庫(kù)。

        1.2 興趣知識(shí)的表示

        傳統(tǒng)上的查詢一般以關(guān)鍵詞作為查詢擴(kuò)展的中心,它只是一種符號(hào)層面上的機(jī)械式擴(kuò)展,割裂了詞語(yǔ)之間的語(yǔ)義關(guān)系,這會(huì)導(dǎo)致查詢擴(kuò)展詞與用戶的查詢意圖不匹配,出現(xiàn)查詢偏移的現(xiàn)象,最終降低查詢效率。而基于概念的查詢擴(kuò)展,能以初始查詢?yōu)橹行?,?duì)查詢關(guān)鍵詞進(jìn)行深層次的語(yǔ)義擴(kuò)展。因此,本文中的關(guān)鍵詞都采用HNC理論[15]中的概念符號(hào)體系表示。HNC理論是由黃曾陽(yáng)先生建立的一套相當(dāng)完備的關(guān)于語(yǔ)言概念空間的理論,它用基元化的符號(hào)表示自然語(yǔ)言的語(yǔ)義知識(shí),對(duì)語(yǔ)義的表達(dá)具有概念化、層次化和網(wǎng)絡(luò)化的特性。HNC概念表述體系簡(jiǎn)單概括起來(lái)就是把概念分為抽象概念和具體概念,對(duì)抽象概念用五元組和語(yǔ)義網(wǎng)絡(luò)來(lái)表達(dá),對(duì)具體概念采取掛靠展開近似表達(dá),因此概念越相近,其概念表示式就越相似。例如下面幾組HNC符號(hào):

        HNC概念符號(hào)雖然只是一種詞語(yǔ)語(yǔ)義的表達(dá)方式,但它可以將詞語(yǔ)的文字符號(hào)有效地映射到概念基元符號(hào)上。它蘊(yùn)含著概念聯(lián)想的豐富知識(shí),使得建立在概念基元上的相關(guān)運(yùn)算更加方便。

        1.3 興趣模型的建立

        在獲取用戶興趣知識(shí)和用HNC概念符號(hào)表示這些興趣知識(shí)后,就要對(duì)用戶的興趣建立一個(gè)模型。對(duì)于一個(gè)任意給定的文檔,都可以看作是由若干個(gè)特征項(xiàng)組成的一個(gè)集合,這些特征項(xiàng)包括字、詞以及短語(yǔ)等。所以,本文對(duì)用戶的興趣知識(shí)和歷史查詢都采用向量空間模型進(jìn)行表示。向量空間模型一般都會(huì)選擇文本的關(guān)鍵詞作為特征項(xiàng),但是本文采用關(guān)鍵詞對(duì)應(yīng)的HNC概念符號(hào)作為特征項(xiàng),這樣可以將文本從關(guān)鍵詞層面提升到語(yǔ)義空間層面,在一定程度上可以提高識(shí)別用戶查詢意圖的能力。

        假設(shè)用戶興趣知識(shí)向量有n個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞和其對(duì)應(yīng)的權(quán)重作為一個(gè)二元組,這n個(gè)二元組就構(gòu)成了用戶的興趣向量,所以用戶的興趣向量可以形式化表示為:

        其中,特征項(xiàng) ci(1≤i≤n)表示興趣知識(shí)關(guān)鍵詞,用HNC概念符號(hào)表示,wi為ci對(duì)應(yīng)的權(quán)重值。例如:

        一個(gè)用戶歷史查詢向量的表達(dá)式為:

        其中,特征項(xiàng)hj(1≤j≤m)為歷史查詢的關(guān)鍵詞,也用HNC概念符號(hào)表示,?wj是hj對(duì)應(yīng)的權(quán)重值。

        2 基于興趣模型的查詢擴(kuò)展

        一般情況下,用戶感興趣的信息都包含在用戶的歷史搜索信息中,這些歷史搜索信息包括用戶的興趣知識(shí)和歷史查詢。所以,本文的查詢擴(kuò)展的數(shù)據(jù)都來(lái)源于這些歷史搜索信息。系統(tǒng)根據(jù)需要,從用戶興趣模型庫(kù)中調(diào)用這些歷史搜索信息來(lái)指導(dǎo)用戶查詢,并重新調(diào)整用戶查詢的表達(dá)式,從而對(duì)用戶的查詢請(qǐng)求進(jìn)行優(yōu)化擴(kuò)展。

        假設(shè)用戶在系統(tǒng)中輸入了一個(gè)查詢,經(jīng)過(guò)預(yù)處理之后,得到初始查詢表達(dá)式Q,即一個(gè)關(guān)鍵詞序列q1,q2,...,qn(n為查詢概念的個(gè)數(shù))。則將一個(gè)關(guān)鍵詞qn'(1≤n'≤n)和興趣向量C的相關(guān)度作為該查詢關(guān)鍵詞的權(quán)重,表示如下:

        式(2)中,wi表示興趣向量中第i個(gè)興趣知識(shí)關(guān)鍵詞對(duì)應(yīng)的權(quán)重,sim(qn',Ci)表示當(dāng)前查詢關(guān)鍵詞qn'和興趣向量中第 i個(gè)關(guān)鍵詞Ci的概念相似度,HNC提供了概念相似度計(jì)算方法[16],這里不再贅述。

        初始查詢Q的向量表達(dá)式為:

        當(dāng)前查詢Q和一個(gè)歷史查詢H的相似度表示為:

        假設(shè),在歷史查詢的記錄中,與當(dāng)前查詢Q的關(guān)鍵詞有相同概念表達(dá)式的查詢記錄有n個(gè),其中,第k個(gè)查詢記錄對(duì)應(yīng)的瀏覽文檔有rk條,則可計(jì)算出用戶對(duì)第k個(gè)查詢記錄的關(guān)注度為:

        從式(5)不難看出,當(dāng)某一歷史查詢中包含瀏覽文檔的記錄數(shù)目越多,用戶對(duì)這個(gè)查詢記錄的關(guān)注度越高,也就是說(shuō)用戶對(duì)其更感興趣。

        假設(shè),在歷史查詢的記錄中,與當(dāng)前查詢Q的關(guān)鍵詞有相同概念表達(dá)式的歷史查詢記錄有n個(gè),第k個(gè)歷史查詢記錄H與當(dāng)前查詢Q的相似度為sim(Q,H)k,且用戶對(duì)第k個(gè)查詢記錄的關(guān)注度為Ak,那么第k個(gè)歷史查詢記錄的用戶興趣度可表示為:

        3 查詢擴(kuò)展工作流程

        根據(jù)用戶興趣模型來(lái)調(diào)整用戶查詢的表達(dá)式,實(shí)現(xiàn)查詢擴(kuò)展的工作流程如圖1所示。

        圖1 查詢擴(kuò)展的工作流程圖

        查詢擴(kuò)展的主要步驟如下:

        1)系統(tǒng)獲得用戶的查詢輸入以后,對(duì)其進(jìn)行預(yù)處理,主要是分詞和概念識(shí)別,得到初始查詢概念序列表達(dá)式;

        2)根據(jù)式(2)計(jì)算初始查詢概念序列的每個(gè)關(guān)鍵詞qi與興趣向量C的概念相關(guān)度˙w,作為關(guān)鍵詞qi的權(quán)重值,根據(jù)公式(3)得到初始化的查詢向量Q;

        3)根據(jù)式(4)計(jì)算當(dāng)前查詢Q與歷史查詢H的相似度sim(Q,H);

        4)根據(jù)式(5)計(jì)算與當(dāng)前查詢Q有相同概念表達(dá)式的歷史查詢記錄的關(guān)注度;

        5)在步驟3)和步驟4)的基礎(chǔ)上,根據(jù)式(6)計(jì)算用戶對(duì)相關(guān)歷史查詢記錄H的興趣度I;

        6)對(duì)用戶興趣度I進(jìn)行判斷,如果大于閾值,則從相關(guān)歷史查詢記錄Q'的關(guān)鍵詞中選出k個(gè)最大的作為查詢擴(kuò)展詞;如果小于閾值,說(shuō)明當(dāng)前查詢是一個(gè)新查詢,此時(shí)查詢不能實(shí)現(xiàn)擴(kuò)展。

        4 實(shí)驗(yàn)結(jié)果及分析

        為了衡量搜索引擎查詢性能,實(shí)驗(yàn)使用與原查詢最相關(guān)的前100篇文檔作為查詢擴(kuò)展的基礎(chǔ),并選擇前10個(gè)與原查詢興趣度最高的詞加入到原查詢中形成新的查詢,然后對(duì)前100篇返回文檔進(jìn)行人工分析,并以查全率和查準(zhǔn)率作為主要性能指標(biāo),在查全率為10%到100%這10個(gè)區(qū)間內(nèi)分別比較查準(zhǔn)率的變化情況,并將本文的查詢擴(kuò)展方法與基于關(guān)鍵詞的查詢擴(kuò)展方法相比較,統(tǒng)計(jì)結(jié)果如表1所示。

        表1 查詢性能比較

        通過(guò)表1可得到本文的查詢擴(kuò)展方法的平均查準(zhǔn)率為51.9%,查詢性能相對(duì)于基于關(guān)鍵詞的查詢擴(kuò)展的原查詢提升了29.1%,效果明顯。

        另外,實(shí)驗(yàn)中還發(fā)現(xiàn),并不是查詢擴(kuò)展詞越多,查詢性能就越好。不同擴(kuò)展詞個(gè)數(shù)對(duì)查準(zhǔn)率的影響如圖2所示。

        圖2 不同擴(kuò)展詞個(gè)數(shù)對(duì)查準(zhǔn)率的影響

        當(dāng)初始查詢加入6個(gè)擴(kuò)展詞時(shí)查詢的性能最好,超過(guò)6個(gè)擴(kuò)展詞后性能下降明顯,這是由于權(quán)重低的擴(kuò)展詞不但不能起到優(yōu)化查詢的作用,反而會(huì)加入噪聲從而產(chǎn)生查詢歧義,造成“查詢漂移”,所以查詢擴(kuò)展詞不是越多越好。

        5 結(jié)束語(yǔ)

        本文在用戶興趣知識(shí)庫(kù)的基礎(chǔ)上,提出了一種基于興趣模型的查詢擴(kuò)展方法,并對(duì)查詢擴(kuò)展的工作流程作了比較詳細(xì)的敘述。實(shí)驗(yàn)表明,這種基于興趣模型的查詢擴(kuò)展方法能夠有效地輔助用戶利用搜索引擎搜索到自己感興趣的信息,在一定程度上彌補(bǔ)了用戶查詢信息不足的缺陷。由于本文的方法依賴用戶瀏覽結(jié)果文檔的數(shù)目,所以并沒(méi)有考慮瀏覽記錄是否含有不符合用戶需求的噪聲結(jié)果數(shù)據(jù),考慮在下一步工作中加入權(quán)值的影響因素,從而進(jìn)一步改善整個(gè)搜索模型的性能。

        [1] 胡澤文,王效岳,白如江.基于SUMO和WordNet本體集成的文本分類模型研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011(1):31-38.

        [2] 馬云龍,林原,林鴻飛.基于權(quán)重標(biāo)準(zhǔn)化SimRank方法的查詢擴(kuò)展技術(shù)研究[J].中文信息學(xué)報(bào),2011,25(1):28-34.

        [3] 董守斌,袁華.網(wǎng)絡(luò)信息檢索[M].西安:西安電子科技大學(xué)出版社,2010:129-139.

        [4] 劉暢.基于用戶興趣及本體術(shù)語(yǔ)關(guān)系的查詢擴(kuò)展[D].保定:河北大學(xué),2013.

        [5] 黃名選,嚴(yán)小衛(wèi),張師超.查詢擴(kuò)展技術(shù)進(jìn)展與展望[J].計(jì)算機(jī)應(yīng)用與軟件,2007,24(11):1-4.

        [6] 李海芳,史俊冰,段利國(guó),等.一種基于含糊同義詞的查詢擴(kuò)展方法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(12):41-43.

        [7] 王磊.基于概念語(yǔ)義空間的語(yǔ)義查詢擴(kuò)展技術(shù)研究[D].洛陽(yáng):河南科技大學(xué),2012.

        [8] 王水利,黃廣君,霍亞格.基于語(yǔ)義分析的查詢擴(kuò)展方法[J].計(jì)算機(jī)工程,2011,37(16):77-79.

        [9] 李力沛,羅穎.基于個(gè)性化詞典的搜索引擎查詢擴(kuò)展模型[J].電腦知識(shí)與技術(shù),2012,8(28):6764-6770.

        [10] 王旭陽(yáng),蕭波.基于本體和局部上下文分析的查詢擴(kuò)展方法[J].計(jì)算機(jī)工程,2012,38(7):57-59.

        [11] 王衛(wèi)國(guó),徐煒民.基于潛在語(yǔ)義分析的個(gè)性化查詢擴(kuò)展模型[J].計(jì)算機(jī)工程,2010,36(21):43-45.

        [12] 張璇.油田信息搜索引擎?zhèn)€性化排序方法研究[D].大慶:東北石油大學(xué),2013.

        [13] 李春杰,崔紅霞.基于多Agent搜索行為分析的用戶興趣模型[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2010,28(2):182-185.

        [14] 梁美玉,杜軍平,高田.基于領(lǐng)域知識(shí)的個(gè)性化智能語(yǔ)義檢索系統(tǒng)[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,42(z1):865-869.

        [15] 黃曾陽(yáng).HNC(概念層次網(wǎng)絡(luò))理論[M].北京:清華大學(xué)出版社,1998.

        [16] 晉耀紅.HNC(概念層次網(wǎng)絡(luò))語(yǔ)言理解技術(shù)及其應(yīng)用[M].北京:科學(xué)出版社,2006.

        猜你喜歡
        語(yǔ)義概念用戶
        Birdie Cup Coffee豐盛里概念店
        語(yǔ)言與語(yǔ)義
        幾樣概念店
        學(xué)習(xí)集合概念『四步走』
        聚焦集合的概念及應(yīng)用
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        認(rèn)知范疇模糊與語(yǔ)義模糊
        大香伊蕉国产av| 国产三级黄色免费网站| 粉嫩av国产一区二区三区| 亚洲日韩欧洲无码av夜夜摸| 亚洲中文字幕在线一区二区三区| 少妇一区二区三区乱码| 与漂亮的女邻居少妇好爽| 国产成人精品久久一区二区三区 | 伊人久久大香线蕉综合av| 亚洲综合精品亚洲国产成人| 日韩国产成人无码av毛片蜜柚| 激情五月婷婷综合| 国产精品人成在线765| 丝袜美腿一区二区国产| 免费人成在线观看视频播放| 欧美日本免费一区二| 成人影院视频在线播放| 色欲人妻aaaaaaa无码| 国产白嫩美女在线观看| 亚洲成a人片77777kkkkk| 日本一区二区视频高清| 激情内射日本一区二区三区 | 亚洲欧美日韩高清中文在线| 日本一道本加勒比东京热| 国产免费久久精品99久久| 精品少妇ay一区二区三区| 熟女白浆精品一区二区| 漂亮丰满人妻被中出中文字幕| 777亚洲精品乱码久久久久久| 2021年国产精品每日更新| 中文字幕视频一区懂色| 成人中文乱幕日产无线码 | 国产女人的高潮国语对白| 欧美二区视频| 国产精品老女人亚洲av无| 久久久亚洲欧洲日产国码aⅴ | 蜜臀色欲av在线播放国产日韩| 中文毛片无遮挡高潮| 免费观看国产激情视频在线观看| 精品久久久bbbb人妻| 国产综合激情在线亚洲第一页|