亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于穩(wěn)定性語義聚類的相關(guān)模型估計(jì)

        2016-05-14 10:01:54孫芯宇吳江蒲強(qiáng)
        計(jì)算機(jī)應(yīng)用 2016年5期
        關(guān)鍵詞:信息檢索

        孫芯宇 吳江 蒲強(qiáng)

        摘要:針對(duì)由不穩(wěn)定聚類估計(jì)的相關(guān)模型影響檢索性能的問題,提出了基于穩(wěn)定性語義聚類的相關(guān)模型(SSRM)。首先利用初始查詢前N個(gè)結(jié)果文檔構(gòu)成反饋數(shù)據(jù)集;然后探測(cè)數(shù)據(jù)集中穩(wěn)定的語義類別數(shù)量;接著從穩(wěn)定性語義聚類中選擇與用戶查詢最相似的語義類別估計(jì)SSRM;最后通過實(shí)驗(yàn)對(duì)模型的檢索性能進(jìn)行了驗(yàn)證。對(duì)TREC數(shù)據(jù)集5個(gè)子集的實(shí)驗(yàn)結(jié)果顯示,SSRM相比相關(guān)模型(RM)、語義相關(guān)模型(SRM),平均準(zhǔn)確率(MAP)性能最少提高了32.11%和0.41%;相比基于聚類的文檔模型(CBDM)、基于LDA的文檔模型(LBDM)和Resampling等基于聚類的檢索方法,MAP性能最少提高了23.64%,19.59%和8.03%。實(shí)驗(yàn)結(jié)果表明,SSRM有利于改善檢索性能。

        關(guān)鍵詞:信息檢索;語義聚類;穩(wěn)定性驗(yàn)證;獨(dú)立分量分析;相關(guān)模型估計(jì)

        中圖分類號(hào):TP391.3 文獻(xiàn)標(biāo)志碼:A

        Abstract:To solve the problem of relevance model based on unstable clustering estination and its effect on retrieval performance, a new Stable Semantic Relevance Model (SSRM) was proposed. The feedback data set was first formed by using the top N documents from user initial query, after the stable number of semantic clusters had been detected, SSRM was estimated by those stable semantic clusters selected according to higher userquery similarity. Finally, the SSRM retrieval performance was verified by experiments. Compared with Relevance Model (RM), Semantic Relevance Model (SRM) and the clusteringbased retrieval methods including ClusterBased Document Model (CBDM), LDABased Document Model (LBDM) and Resampling, SSRM has improvement of MAP by at least 32.11%, 0.41%, 23.64%,19.59%, 8.03% respectively. The experimental results show that retrieval performance can benefit from SSRM.

        Key words:information retrieval; semantic clustering; stability validation; Independent Component Analysis (ICA); relevance model estimation

        0 引言

        信息檢索研究中常用偽相關(guān)反饋方法估計(jì)相關(guān)模型,改善用戶查詢,更準(zhǔn)確獲取用戶信息需求。相關(guān)模型的估計(jì)需要用到偽相關(guān)反饋技術(shù),通常假設(shè)用戶初始查詢的前N個(gè)結(jié)果文檔是查詢相關(guān)的,但大多數(shù)情況下這個(gè)假設(shè)并不成立。全部N個(gè)文檔參與反饋必將帶入不相關(guān)噪聲,使得相關(guān)模型估計(jì)偏離用戶查詢[1-2]。

        聚類技術(shù)可將N個(gè)查詢結(jié)果文檔形成的數(shù)據(jù)集劃分成若干類別,只選擇與用戶查詢最相似的聚類中的文檔估計(jì)語言模型,可以減少模型估計(jì)中不相關(guān)文檔帶來的噪聲。已有研究[3-4]表明,語義聚類技術(shù)相比傳統(tǒng)聚類技術(shù)在聚類效果上有顯著改善。語義聚類指在未知數(shù)據(jù)類別的潛在語義空間上的聚類操作,語義空間以多個(gè)數(shù)據(jù)主題為基張成。語義聚類通常借助本體[4]或利用統(tǒng)計(jì)[5-6]的方法進(jìn)行。本體WordNet可以判斷文檔間的關(guān)聯(lián),決定文檔是否劃分到相同的語義聚類。雖然借助本體的語義聚類效果有所改善,但是規(guī)則式的語義聚類方法不能靈活適應(yīng)各種數(shù)據(jù)。潛在語義索引(Latent Semantic Indexing,LSI)[5]、獨(dú)立分量分析(Independent Component Analysis,ICA)[6]采用統(tǒng)計(jì)方法分離語義主題,為典型的語義聚類技術(shù)。LSI技術(shù)將最大方差投影方向定義為語義類別,但最大方差投影方向并不總是表示數(shù)據(jù)的真實(shí)語義類別[6]。ICA技術(shù)具有在任意方向上分離出數(shù)據(jù)中獨(dú)立分量的能力,分量間不要求一定滿足正交關(guān)系。相比LSI定義的最大方差投影方向,ICA的任意方向上分離的獨(dú)立分量更能表示數(shù)據(jù)中真實(shí)存在的語義類別,因此本文采用ICA進(jìn)行語義聚類。ICA算法分離出的每一個(gè)獨(dú)立分量代表數(shù)據(jù)中的一個(gè)語義類別,以每個(gè)獨(dú)立分量為基可張成ICA語義空間。

        由于數(shù)據(jù)中未知的語義類別數(shù)量和ICA算法的隨機(jī)性,多次運(yùn)行ICA算法分離的獨(dú)立分量是不同的[7],因此得到的數(shù)據(jù)語義聚類也不一樣,也就是語義聚類是不穩(wěn)定的。數(shù)據(jù)本來具有隱含的固定數(shù)量的語義主題,在不穩(wěn)定的語義聚類上估計(jì)相關(guān)模型必定存在主題偏差。文獻(xiàn)[8-9]利用語義聚類估計(jì)了相關(guān)模型,并提升了檢索性能,但沒有考慮語義聚類的穩(wěn)定性。

        如果能夠預(yù)先探測(cè)數(shù)據(jù)中隱含語義類別的個(gè)數(shù),那么ICA算法根據(jù)此類別數(shù)量才能分離出接近真實(shí)可靠的語義聚類穩(wěn)定性語義聚類。探測(cè)數(shù)據(jù)集中的聚類個(gè)數(shù)通常使用多個(gè)k值重復(fù)運(yùn)行包含隨機(jī)性的聚類算法,并利用聚類穩(wěn)定性指標(biāo)計(jì)算不同k值下的聚類穩(wěn)定性,選擇聚類穩(wěn)定性最高的k值作為最合適的聚類個(gè)數(shù)[10]。

        針對(duì)基于穩(wěn)定聚類的語言模型估計(jì)對(duì)檢索性能的影響等研究工作較少,本文提出一種基于穩(wěn)定性語義聚類估計(jì)的相關(guān)模型(Stable Semantic Relevance Model, SSRM),通過探測(cè)前N個(gè)查詢結(jié)果文檔構(gòu)成的數(shù)據(jù)集中存在的穩(wěn)定語義類別數(shù)量來驗(yàn)證語義聚類的穩(wěn)定性。本文認(rèn)為在穩(wěn)定性驗(yàn)證后的語義聚類中,選擇與用戶查詢最相似的語義類別估計(jì)的相關(guān)模型,能夠獲取比現(xiàn)有方法更好的檢索性能。

        由于ICA算法的隨機(jī)性,在微小差別條件下多次運(yùn)行ICA算法可以解決單次運(yùn)行分離獨(dú)立分量的不可靠問題。假設(shè)數(shù)據(jù)集中存在從1到n的語義類別數(shù)量,通過如下方法保證穩(wěn)定性語義聚類:探測(cè)1到n的類別數(shù)量,在同一數(shù)據(jù)集上使用Bootstrapping方法微小改變運(yùn)行條件,多次運(yùn)行ICA算法,并聚類得到的一組獨(dú)立分量。將聚類質(zhì)量得分最高對(duì)應(yīng)的探測(cè)類別數(shù)量作為數(shù)據(jù)集中穩(wěn)定的語義聚類數(shù)量。

        本文研究工作將解決如下問題:如何驗(yàn)證語義聚類穩(wěn)定性;如何選擇參與相關(guān)模型估計(jì)的穩(wěn)定性語義聚類;如何估計(jì)基于穩(wěn)定性語義聚類的相關(guān)模型;如何利用穩(wěn)定性語義聚類估計(jì)的相關(guān)模型進(jìn)行檢索實(shí)驗(yàn),并將檢索結(jié)果在縱向和橫向上同已有典型算法詳細(xì)比較,以證明基于穩(wěn)定性語義聚類估計(jì)的相關(guān)模型能夠帶來檢索性能上的提升。

        1 相關(guān)模型和潛在語義聚類的關(guān)系

        信息檢索中,通過相關(guān)文檔的反饋可以改善用戶查詢,研究表明檢索性能改善效果明顯[11]。用戶查詢已知,相關(guān)文檔未知的情況下使得相關(guān)模型估計(jì)變得困難。文獻(xiàn)[11]提出一種在相關(guān)文檔未知情況下,利用用戶查詢和初始查詢結(jié)果前面若干文檔估計(jì)相關(guān)模型的理論方法。方法假設(shè)用戶查詢和文檔之間存在一個(gè)隱含的相關(guān)模型,因此可觀察的用戶查詢和文檔是由隱含的相關(guān)模型隨機(jī)采樣詞條生成的。這樣,用戶查詢和文檔通過相關(guān)模型聯(lián)系起來。

        利用查詢和初始查詢結(jié)果的前面若干文檔作為相關(guān)反饋文檔,可以近似估計(jì)相關(guān)模型。有兩種經(jīng)典的相關(guān)模型估計(jì)方法[11]:一種假設(shè)由反饋文檔估計(jì)的文檔模型獨(dú)立生成查詢?cè)~條和文檔詞條,查詢?cè)~條和文檔詞條間無關(guān)聯(lián)關(guān)系;另一種假設(shè)查詢?cè)~條由文檔模型獨(dú)立生成,但各查詢?cè)~條保持和文檔詞條關(guān)聯(lián),關(guān)聯(lián)度高的詞條在相關(guān)模型估計(jì)中擁有較高的權(quán)重。

        相關(guān)模型的估計(jì)通常采用基于聚類的方法[1-2,8-9,12],好處在于可以先對(duì)初始查詢結(jié)果文檔聚類,然后只選擇用戶查詢最相似的某個(gè)類別中的文檔參與估計(jì)相關(guān)模型?;诰垲惖姆椒ü烙?jì)相關(guān)模型的基本思想是:借助聚類選擇,過濾掉與用戶查詢相似度不高的文檔帶來的噪聲。

        ICA算法已被證明是一種有效的語義聚類方法[8-9],和文獻(xiàn)[8-9]不同的是,本文重點(diǎn)考慮了ICA算法的隨機(jī)性造成在同一數(shù)據(jù)集上多次運(yùn)行ICA算法分離的獨(dú)立分量結(jié)果不唯一性,也就是語義聚類數(shù)量的不唯一問題,因此有必要驗(yàn)證ICA算法在不同數(shù)據(jù)類別數(shù)量上分離獨(dú)立分量的穩(wěn)定性。本文認(rèn)為在穩(wěn)定的語義聚類中選擇和用戶查詢最相似的語義類別估計(jì)的相關(guān)模型能夠改善檢索性能。驗(yàn)證的基本思想是,假設(shè)數(shù)據(jù)集中存在L個(gè)語義類別,利用重采樣方法[7,13],在同一數(shù)據(jù)集上分別按1至L個(gè)類別,多次運(yùn)行ICA算法,并將每次得到的一組獨(dú)立分量進(jìn)行聚類。如果在某個(gè)數(shù)量m上的語義類別穩(wěn)定,那么獨(dú)立分量應(yīng)接近聚類中心而遠(yuǎn)離其他聚類,這時(shí)可將分離的獨(dú)立分量數(shù)量m作為數(shù)據(jù)集中的語義類別數(shù)量。

        2 ICA語義聚類及穩(wěn)定性驗(yàn)證

        2.1 ICA語義聚類

        如果將語義空間看成一組相互獨(dú)立的隱含主題為基構(gòu)成的空間,那么混合了隱含主題的一組文檔在語義空間上張成用戶可觀察的文檔集合[14]。已知混合主題的文檔集合,利用ICA技術(shù)可分離其中的隱含主題,即將文檔集表示為獨(dú)立分量的線性組合[6]。本文將獨(dú)立分量表示的相互獨(dú)立的隱含主題定義為文檔集中的語義類別。ICA模型如式(1):

        2.2 語義聚類的穩(wěn)定性驗(yàn)證

        多次利用隨機(jī)性和無監(jiān)督的ICA算法分離的語義類別是不同的。如果能事先驗(yàn)證數(shù)據(jù)中存在的穩(wěn)定類別數(shù)量,那么通過ICA算法得到的語義類別才可靠并接近數(shù)據(jù)類別的真實(shí)情況。在盡可能接近真實(shí)可靠的語義聚類上估計(jì)的相關(guān)模型應(yīng)該能夠提升檢索性能,本文實(shí)驗(yàn)部分將驗(yàn)證這一猜測(cè)。

        語義聚類的穩(wěn)定性驗(yàn)證的基本過程是:假設(shè)數(shù)據(jù)集中存在不同的獨(dú)立分量數(shù)量,即語義類別數(shù)量。遍歷每個(gè)類別數(shù)量,多次運(yùn)行ICA算法,將得到的獨(dú)立分量進(jìn)行聚類;然后考察聚類質(zhì)量,將聚類質(zhì)量最高情況下對(duì)應(yīng)的獨(dú)立分量個(gè)數(shù)作為數(shù)據(jù)集中穩(wěn)定的語義聚類數(shù)量。

        3 基于穩(wěn)定性語義聚類的相關(guān)模型估計(jì)

        已知用戶查詢的情況下,利用前N個(gè)初始查詢結(jié)果文檔作為偽相關(guān)反饋可以估計(jì)相關(guān)模型。例如,已知用戶查詢Q和前N個(gè)結(jié)果文檔構(gòu)成的文檔集D,相關(guān)模型R的估計(jì)為p(D|Q,R)=∏Ni=1p(di|Q,R)。p(di|Q,R)為假設(shè)已知相關(guān)模型R和用戶查詢Q的條件下,生成文檔di的條件概率。

        由于前N個(gè)查詢結(jié)果文檔并非都與用戶查詢相關(guān),將N個(gè)結(jié)果文檔全部參與反饋估計(jì)相關(guān)模型必定帶入不相關(guān)的噪聲,導(dǎo)致估計(jì)的相關(guān)模型偏離用戶查詢主題。這里提出利用基于穩(wěn)定性語義聚類估計(jì)相關(guān)模型(SSRM)的方法,期望估計(jì)的相關(guān)模型比已有方法更好地改善檢索性能。SSRM估計(jì)過程包括兩個(gè)階段:1)選擇參與相關(guān)模型估計(jì)的穩(wěn)定性語義聚類;2)基于穩(wěn)定性語義聚類估計(jì)相關(guān)模型。

        3.1 篩選穩(wěn)定性語義聚類

        語義聚類穩(wěn)定性驗(yàn)證后得到的一組獨(dú)立分量將作為數(shù)據(jù)集中穩(wěn)定的語義聚類,對(duì)應(yīng)多個(gè)語義類別。穩(wěn)定性語義聚類選擇的目的是,選取穩(wěn)定性語義聚類中適合度高于閾值的一組語義類別參與相關(guān)模型的估計(jì)。語義聚類的適合度采用KL散度計(jì)算,基本思想是將語義聚類和用戶查詢的相似度距離作為語義聚類的適合度,離用戶查詢相似度距離最小的語義聚類適合度最高。語義聚類的適合度按照語義聚類模型和查詢模型間的相似度計(jì)算,并篩選出適合度高于閾值的語義聚類。計(jì)算如式(7):

        如果語義聚類模型和用戶查詢模型生成詞條w的概率越接近,那么這兩種模型的詞條分布越相似。適合度高于閾值的語義聚類下的文檔將用來估計(jì)相關(guān)模型,期待緩解使用全部前N個(gè)查詢結(jié)果文檔估計(jì)相關(guān)模型帶入的不相關(guān)噪聲,造成相關(guān)模型估計(jì)出現(xiàn)主題偏移的問題。

        3.2 估計(jì)相關(guān)模型

        假設(shè)用戶查詢?cè)~條q1,q2,…,qk間相互獨(dú)立,與文檔詞條w保持某種程度的關(guān)聯(lián)。通過式(7)選擇的穩(wěn)定性語義聚類將在相關(guān)模型估計(jì)過程中發(fā)揮橋梁作用,它將用戶查詢和語義聚類中文檔詞條關(guān)聯(lián)起來。使用穩(wěn)定性語義聚類后,在已知用戶查詢Q的情況下,相關(guān)模型p(w | Q, R)的估計(jì)轉(zhuǎn)化為計(jì)算文檔詞條w和用戶查詢q在穩(wěn)定性語義聚類中的同現(xiàn)概率,如式(8):

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)?zāi)康氖菫榱蓑?yàn)證基于穩(wěn)定性語義聚類估計(jì)的相關(guān)模型(SSRM)更接近用戶的查詢需求,比已有的相關(guān)模型和基于聚類的檢索方法在檢索性能上有所改善。

        實(shí)驗(yàn)將在TREC數(shù)據(jù)集上測(cè)試SSRM的檢索性能。實(shí)驗(yàn)中,TREC標(biāo)題用來模擬用戶查詢,并刪除了無相關(guān)結(jié)果文檔的查詢。數(shù)據(jù)集使用Porter進(jìn)行詞干處理,同時(shí)刪除了停止詞。實(shí)驗(yàn)使用Indri5.0建立數(shù)據(jù)集索引。查詢編號(hào)51~150的美聯(lián)社(Associated Press Newswire,AP)數(shù)據(jù)集作為訓(xùn)練集,查詢編號(hào)151~200的AP數(shù)據(jù)集、華爾街日?qǐng)?bào)(Wall Street Journal,WSJ)、圣何塞水星報(bào)(San Jose Mercury News,SJMN)、查詢編號(hào)301~400的金融時(shí)報(bào)(Financial Times,F(xiàn)T)和洛杉磯時(shí)報(bào)(Los Angeles Times,LA)等數(shù)據(jù)集作為測(cè)試集。

        估計(jì)SSRM實(shí)驗(yàn)步驟包括:1)使用基本的查詢似然模型得到初始查詢結(jié)果文檔;2)使用DTU工具箱[14]255中的ICA算法對(duì)前50個(gè)用戶查詢結(jié)果文檔進(jìn)行語義聚類;3)穩(wěn)定性語義聚類驗(yàn)證。首先假設(shè)前50個(gè)文檔形成的數(shù)據(jù)集中存在20個(gè)語義類別,然后使用Bootstapping方法運(yùn)行FastICA算法[6]154930次,探測(cè)數(shù)據(jù)集中存在的穩(wěn)定語義類別;4)通過式(7)選擇適合度高于閾值的穩(wěn)定性語義聚類。適合度閾值設(shè)定為0.3,即選擇KL散度值由高到低排列的前面30%的穩(wěn)定性聚類參與相關(guān)模型的估計(jì);5)利用選擇的穩(wěn)定性語義聚類進(jìn)行相關(guān)模型估計(jì)。估計(jì)中,選擇穩(wěn)定性語義聚類生成詞條的概率值大于閾值0.3的詞條作為語義聚類的關(guān)鍵詞。

        為了驗(yàn)證SSRM的檢索性能高于其他相關(guān)模型和基于聚類的方法,實(shí)驗(yàn)在查詢平均準(zhǔn)確率均值(Mean Average Precision, MAP)上縱向和橫向比較了SSRM和其他模型的檢索性能??v向比較的模型包括:1)基線相關(guān)模型(Relevance Model, RM):Indri實(shí)現(xiàn)Lavarenko的相關(guān)模型[11]122-123作為檢索性能比較基線;2)在無穩(wěn)定性驗(yàn)證的ICA語義聚類上估計(jì)的語義相關(guān)模型(Semantic Relevance Model, SRM)。橫向比較的方法包括:基于聚類的方法(ClusterBased Document Model, CBDM)[1]、基于LDA的文檔模型(LDABased Document Model, LBDM)[15]和重采樣(Resampling)方法[2]。

        4.2 三種相關(guān)模型性能縱向比較

        表1給出了SSRM在測(cè)試集上的MAP性能相比RM、SRM的MAP性能的提升情況?!?chg”表示SSRM相對(duì)RM和SRM在MAP性能上提高的百分比。表中值的上標(biāo)α、β、γ分別表示RM、SRM和SSRM三種模型在置信度為95%的情況下,MAP值在Wilcoxon檢驗(yàn)下顯著性提高?!癠pper”列中的值為MAP性能上界。性能上界值計(jì)算方法:首先手動(dòng)選取前50個(gè)查詢結(jié)果文檔中真正查詢相關(guān)的文檔,然后將這些真實(shí)相關(guān)的文檔作為反饋估計(jì)語義相關(guān)模型(SRM)并檢索得到MAP值。之所以利用SRM計(jì)算檢索性能上界,主要考慮SRM沒有消耗額外的時(shí)間驗(yàn)證語義聚類的穩(wěn)定性。

        表1縱向比較的結(jié)果顯示,SSRM在所有測(cè)試集上得到的MAP值均高于RM和SRM,MAP性能最少提高了32.11%和0.41%。例如在AP測(cè)試集,使用SSRM得到的MAP值為0.3431,相對(duì)RM的MAP值0.25,在性能上提升了37.24%;相對(duì)SRM的MAP值0.3345,在性能上提升了2.57%。

        表1中SSRMMAP值的提高驗(yàn)證了經(jīng)過穩(wěn)定性驗(yàn)證的語義聚類更好過濾了用戶查詢無關(guān)的噪聲,因而估計(jì)的相關(guān)模型更接近用戶查詢的實(shí)際需求,從而提高了MAP性能。同時(shí)也觀察到,并非所有MAP值都是顯著性提高的。例如對(duì)于AP測(cè)試集,SSRMMAP值提高只對(duì)RM是顯著性提高,而對(duì)SRM的提高是非顯著的;但是對(duì)于SJMN和FT測(cè)試集,SSRM相對(duì)RM和SRM在MAP值上的提升都是顯著性的。這說明SJMN和FT測(cè)試集中主題噪聲影響了相關(guān)模型的估計(jì),但SSRM能夠有效過濾這兩種測(cè)試集中的噪聲,因而帶來的MAP提升是顯著性的。

        測(cè)試集FT和LA每個(gè)主題對(duì)應(yīng)的真實(shí)相關(guān)文檔在TREC五個(gè)數(shù)據(jù)集中最少[8],但SSRM在這兩個(gè)測(cè)試集上相對(duì)其他三個(gè)測(cè)試集的MAP性能提升最大。這進(jìn)一步驗(yàn)證了SSRM能夠較好過濾數(shù)據(jù)集中用戶查詢不相關(guān)噪聲,使穩(wěn)定性語義聚類中的文檔查詢相關(guān),并遠(yuǎn)離查詢不相關(guān)主題。在AP和WSJ兩個(gè)測(cè)試集上,SSRM對(duì)MAP性能的提升有限,其原因可能是兩個(gè)數(shù)據(jù)集中的文檔包含多個(gè)語義主題,使用ICA算法很難將多語義主題文檔劃分到合適的語義類別中。這說明利用ICA算法進(jìn)行穩(wěn)定性語義聚類,對(duì)于多個(gè)語義主題的文檔效果有限。由表1還可以觀察到,SSRM的MAP值離性能上界還存在不小差距,說明基于穩(wěn)定性語義聚類估計(jì)出的相關(guān)模型在MAP性能上還有改進(jìn)空間。

        4.3 四種聚類方法性能橫向比較

        橫向比較的三種基于聚類的方法為:基于聚類方法(CBDM)、基于LDA的方法(LBDM)和重采樣(Resampling)方法。比較的原因是:這三種方法是信息檢索中比較典型的方法,同時(shí)三種方法沒有作穩(wěn)定性聚類驗(yàn)證工作,可以對(duì)比驗(yàn)證SSRM的性能。表2中三種基于聚類的方法的MAP值均來源于文獻(xiàn)[1-2,15]的數(shù)據(jù)。

        表2顯示,SSRM在測(cè)試集上相比三種基于聚類方法的MAP性能改善明顯。相比三種基于聚類的檢索方法,MAP性能至少提高了23.64%,19.59%和8.03%。由于SSRM采用ICA算法進(jìn)行語義聚類,并對(duì)語義聚類進(jìn)行了穩(wěn)定性驗(yàn)證,這說明ICA算法相比其他三種聚類方法在語義聚類上的效果更好,特別是經(jīng)過語義聚類穩(wěn)定性驗(yàn)證后估計(jì)的相關(guān)模型,在語義上更接近用戶查詢,是提升MAP性能的主要原因。

        圖1顯示了SSRM、RM、SRM三種相關(guān)模型和檢索上界UP在AP訓(xùn)練集和5個(gè)測(cè)試集上檢索的準(zhǔn)確率召回率曲線的比較情況??梢钥闯?,無論在訓(xùn)練階段還是在測(cè)試階段,SSRM總是獲得比RM明顯好的檢索性能。通常情況下,SSRM也能得到相對(duì)SRM好的檢索性能。檢索性能的改善證明了語義聚類經(jīng)過穩(wěn)定性驗(yàn)證后,更好地將查詢相關(guān)的文檔聚在一起,因此SSRM方法較SRM方法使用更多的真實(shí)相關(guān)文檔參與相關(guān)模型估計(jì),而RM方法直接使用前N個(gè)查詢結(jié)果文檔估計(jì)相關(guān)模型,帶入了較多的不相關(guān)噪聲。

        圖1顯示,在WSJ和FT測(cè)試集上,在高召回率一端,SSRM比RM的檢索性能稍差;同時(shí),SSRM在AP和WSJ測(cè)試集上相比SRM提升的檢索性能有限,甚至在低召回率一端,SSRM的檢索性能比SRM還差。顯示表明,SSRM在召回率的中前段對(duì)檢索性能的提升最明顯。

        圖1中SSRM的檢索性能同性能上界有很大差距。由于性能上界由真實(shí)的相關(guān)文檔估計(jì)的相關(guān)模型得到,這個(gè)差距說明通過數(shù)據(jù)聚類的方法不能完全獲取相關(guān)模型估計(jì)需要的真實(shí)相關(guān)的反饋文檔,同時(shí)也說明SSRM方法有較大的提升空間。一個(gè)解決思路是如何更好地選擇主題相關(guān)文檔,將聚類粒度放到段落或句子層次而不是整個(gè)文檔上。

        5 結(jié)語

        本文研究了ICA語義聚類穩(wěn)定性驗(yàn)證對(duì)相關(guān)模型估計(jì)的影響及其對(duì)檢索性能的改善效果。研究發(fā)現(xiàn),語義聚類經(jīng)過穩(wěn)定性驗(yàn)證后,能夠更好地將查詢相關(guān)的文檔聚在一起。

        利用語義聚類的適合度篩選出和用戶查詢最相似的語義聚類,并以篩選出的語義聚類為文檔和查詢間的橋梁,估計(jì)出的穩(wěn)定性語義聚類模型(SSRM)能夠改善檢索性能。由于不相關(guān)噪聲會(huì)使相關(guān)模型估計(jì)中出現(xiàn)偏離用戶查詢主題的問題,SSRM有效利用了穩(wěn)定性語義聚類的噪聲過濾功能,因而SSRM更接近用戶的查詢需求。另外,SSRM相比基于聚類方法的檢索性能提升,也說明ICA算法是一種適合的語義聚類算法。

        研究發(fā)現(xiàn)對(duì)于多主題文檔,文檔級(jí)別上的語義聚類很難將其劃分到合適的類別中。將來的工作考慮段落或者句子粒度上的聚類,并做聚類的穩(wěn)定性驗(yàn)證工作。另外,如何根據(jù)不同數(shù)據(jù)集學(xué)習(xí)適合數(shù)據(jù)集的訓(xùn)練參數(shù),也是一個(gè)值得研究的問題。

        參考文獻(xiàn):

        [1]LIU X, CROFT W B. Clusterbased retrieval using language models[C]// Proceedings of the 27th International Conference on Research and Development in Information Retrieval. New York: ACM, 2004:186-193.

        [2]LEE K S, CROFT W B, ALLAN J. A clusterbased resampling method for pseudorelevance feedback[C]// Proceedings of the 31st International Conference on Research and Development in Information Retrieval. New York: ACM, 2008:235-242.

        [3]NASIR J A, VARLAMIS I, KARIM A, et al. Semantic smoothing for text clustering[J]. KnowledgeBased Systems, 2013, 54(4): 216-229.

        [4]ALSULAMI B S, ABULKHAIR M F, ESSA F A. Semantic clustering approach based multiAgent system for information retrieval on Web[J]. International Journal of Computer Science & Network Security, 2012, 12(1):41-44.

        [5]HOFMANN T. Probabilistic latent semantic indexing[C]// Proceedings of the 22nd International Conference on Research and Development in Information Retrieval. New York: ACM, 1999:56-73.

        [6]HYVARINEN A. Survey on independent component analysis[J]. Neural Computing Surveys, 1999, 2(7):1527-1558.

        [7]HIMBERG J, HYVARINEN A, ESPOSITO F. Validating the independent components of neuroimaging timeseries via clustering and visualization[J]. Neuroimage, 2004, 22(3): 1214-1222.

        [8]PU Q, HE D. Pseudo relevance feedback using semantic clustering in relevance language model[C]// Proceedings of the 18th ACM International Conference on Information and Knowledge Management. New York: ACM, 2009:1931-1934.

        [9]蒲強(qiáng),何大慶,楊國緯.一種基于統(tǒng)計(jì)語義聚類的查詢語言模型估計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2011,48(2):224-231.(PU Q, HE D Q, YANG G W. An estimation of query language model based on statistical semantic clustering [J]. Journal of Computer Research and Development, 2011, 48(2): 224-231.)

        [10]劉家辰, 苗啟廣, 宋建鋒. 使用聚類穩(wěn)定性分析方法增強(qiáng)單類學(xué)習(xí)算法[J]. 西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 2(2):58-64. (LIU J C, MIAO Q G, SONG J F. Enhanced oneclass learning based on clustering stability analysis[J]. Journal of Xidian University (Natural Science), 2015, 42(2): 58-64.)

        [11]LAVRENKO V, CROFT W B. Relevancebased language models[C]// Proceedings of the 24th International Conference on Research and Development in Information Retrieval. New York: ACM, 2001:120-127.

        [12]劉銘,劉秉權(quán),劉遠(yuǎn)超.面向信息檢索的快速聚類算法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(7): 1452-1463.(LIU M, LIU B Q, LIU Y C. A fast clustering algorithm for information retrieval [J]. Journal of Computer Research and Development, 2013, 50(7):1452-1463.)

        [13]張永,浮盼盼,張玉婷.基于分層聚類及重采樣的大規(guī)模數(shù)據(jù)分類[J].計(jì)算機(jī)應(yīng)用, 2013, 33(10): 2801-2803.(ZHANG Y, FU P P, ZHANG Y T. Largescale data classification based on hierarchical clustering and resampling[J]. Journal of Computer Applications, 2013, 33(10): 2801-2803.)

        [14]KOLENDA T, HANSEN L K, SIGURDSSON S. Independent components in text[J]. Perspectives in Neural Computing, 2000, 32: 235-256.

        [15]WEI X, CROFT W B. LDAbased document models for Ad Hoc retrieval[C]// Proceedings of the 29th International Conference on Research and Development in Information Retrieval. New York: ACM, 2006:178-185.

        猜你喜歡
        信息檢索
        基于同態(tài)加密支持模糊查詢的高效隱私信息檢索協(xié)議
        基于信息檢索課的大學(xué)生信息檢索行為調(diào)查研究
        高職院校圖書館開設(shè)信息檢索課的必要性探討
        基于MOOC理念的“翻轉(zhuǎn)課堂”教學(xué)改革探索——以海南大學(xué)《文獻(xiàn)信息檢索與利用》課程為例
        網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館信息檢索發(fā)展
        山西青年(2018年5期)2018-01-25 16:53:40
        醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        在網(wǎng)絡(luò)環(huán)境下高職院校開設(shè)信息檢索課的必要性研究
        新聞傳播(2016年11期)2016-07-10 12:04:01
        基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
        地理信息檢索中空間相似性度量的一種模糊方法
        教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
        河南科技(2014年11期)2014-02-27 14:10:19
        久久精品国产亚洲av热九九热| 饥渴的熟妇张开腿呻吟视频| 国产精品对白交换视频| 亚洲黄色性生活一级片| 久久精品国产亚洲av夜夜| 无码免费无线观看在线视| 国模欢欢炮交啪啪150| 女性自慰网站免费看ww| 亚洲日本国产一区二区三区| 精品亚洲麻豆1区2区3区| 亚洲国产另类精品| a级福利毛片| 亚洲发给我的在线视频| 久久久久久久亚洲av无码| 少妇人妻真实偷人精品视频| 亚洲高清国产品国语在线观看| 蕾丝女同一区二区三区| 欧美日韩一区二区三区在线观看视频| 性饥渴艳妇性色生活片在线播放| 国产精品乱子伦一区二区三区| 精品国产亚洲一区二区三区四区| 久久综合九色综合久99| 欧美视频二区欧美影视| 天堂视频一区二区免费在线观看 | 级毛片内射视频| 亚洲中文字幕无码久久| 国产免费无码9191精品| 日本不卡视频一区二区| 久久天天躁狠狠躁夜夜2020一| 欧美黄色免费看| 亚洲色图偷拍自拍亚洲色图| 成人无码av免费网站| 日本午夜免费福利视频| 久久洲Av无码西西人体| 成年人干逼视频水好多| 精品淑女少妇av久久免费| 99久久久无码国产精品动漫 | 亚洲av高清一区二区三| 日本japanese少妇高清| 日韩欧美精品有码在线观看| 中文字幕精品亚洲字幕|