蔣宗禮 趙思露
摘要:檢索結(jié)果聚類能夠有效幫助提高獲取信息的效率和質(zhì)量。針對傳統(tǒng)文本聚類模型存在數(shù)據(jù)維數(shù)過高、缺乏語義理解等問題,提出一種面向檢索結(jié)果聚類的融合共現(xiàn)分析主題建模算法?;诟倪M的LDA模型,對得到的“文檔-主題”概率分布進行聚類分析,采用K-means算法完成聚類過程,最后提出根據(jù)聚類中心提取主題詞作為類簇標簽。實驗結(jié)果表明,改進的LDA算法在檢索結(jié)果聚類應用上不僅獲得了很好的聚類效果,類簇標簽也有良好的可讀性。
關(guān)鍵詞:LDA;共現(xiàn)分析;檢索結(jié)果聚類;類簇標簽
Research on Application of Topic Model in Clustering Search Results
JIANG Zong?li,ZHAO Si?lu
(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)
Abstract:The clustering of search results can effectively help improve the efficiency and quality of information retrieval. Aiming at the problems of traditional data clustering models such as high data dimension and lack of semantic understanding, this paper proposes a fusion co?occurrence analysis topic modeling algorithm oriented to the retrieval of results clustering.Based on the improved LDA model, the obtained “document?subject” probability distribution is clustered, the K?means algorithm is used to complete the clustering process, and finally the clustering center is used to extract topic words as cluster?like tags. The experimental results show that the improved LDA algorithm not only has a good clustering effect on the clustering of search results, but also has a good readability of cluster labels.
Key Words:LDA;co?occurrence analysis;clustering of search results;cluster label
0?引言
網(wǎng)絡資源的不斷增長使檢索得到的返回結(jié)果數(shù)量龐大,而且根據(jù)檢索相關(guān)性算法與排序算法的不同,返回的結(jié)果也具有一定差異性。檢索結(jié)果聚類可以對得到的檢索結(jié)果進行挖掘與組織,對信息進行合理總結(jié)與描述,從而有效提高了用戶獲取信息的效率和質(zhì)量。它通過聚類技術(shù)將檢索結(jié)果依據(jù)主題相似性劃分到不同類簇,并提供類簇標簽,使用戶根據(jù)標簽快速、準確定位到感興趣信息所在的類別[1]。其主要有以下3個特征:①檢索結(jié)果聚類不僅需要得到高質(zhì)量的類簇,還需要描述每個類簇主題的可讀標簽;②檢索結(jié)果聚類有許多可利用的信息,例如查詢詞信息、相關(guān)文檔集信息等;③檢索結(jié)果集本身就是一個以查詢詞為主題的大類簇,聚類后的類簇為查詢詞相關(guān)子主題的類簇。
傳統(tǒng)基于VSM的聚類分析方法由于沒有考慮文本中潛在的語義關(guān)聯(lián),不僅聚類效果受到限制,也使得到的類簇標簽可讀性差。
LDA主題模型可以有效挖掘文本內(nèi)部的語義知識,因而被廣泛應用于不同領(lǐng)域[2]。不同文本對象有其自身特點,當面向不同應用領(lǐng)域使用原始LDA主題模型時,結(jié)果都不夠精準。本文在檢索結(jié)果聚類應用研究基礎上提出了基于查詢關(guān)聯(lián)分析的主題模型,并完成了檢索聚類過程。
1?相關(guān)工作
Cutting等[3]首先在Scatter/Gather系統(tǒng)中引入對檢索結(jié)果進行聚類以便用戶快速瀏覽的思想,其采用的是經(jīng)典的K-means聚類。最早的檢索結(jié)果聚類算法利用已有的文本聚類算法,在聚類完成后抽取類簇標簽。雖然在聚類質(zhì)量上占有優(yōu)勢,但提取標簽的可讀性較差。然而,對于檢索結(jié)果聚類而言,沒有一個好的標簽,聚類將失去主要意義,由此產(chǎn)生了基于標簽的聚類算法。該算法先從返回的檢索結(jié)果中抽取詞或短語作為標簽,再將結(jié)果分類到對應標簽中。典型代表有Zamir等[4]提出的STC后綴樹聚類算法,該算法主要通過發(fā)現(xiàn)高頻共現(xiàn)短語作為聚類依據(jù),但其過度依賴高頻關(guān)鍵詞,而忽略了詞項間的隱含語義關(guān)系。為強調(diào)標簽的可讀性與對簇的描述性,Banerjee等[5]基于Wikipedia挖掘高頻詞語義相關(guān)詞作為候選簇標簽;Tseng等[6]基于WordNet抽取查詢關(guān)聯(lián)類別作為聚類描述,這種依賴抽取規(guī)則與外部信息資源的方法雖然使標簽質(zhì)量較好,但增大了聚類的時空復雜度,且簇的連貫性較差。
查詢關(guān)鍵詞為檢索結(jié)果聚類的一個重要線索,文獻[7]中通過對查詢的抽取,尋找查詢的修飾與限制成分及概念外延,以確定潛在的類別標簽,該方法需要外部資源與句法分析知識作為支撐;Gelgi等[8]使用關(guān)系圖表示查詢詞與詞項的關(guān)聯(lián)關(guān)系,通過查詢詞關(guān)聯(lián)度分析對詞項進行加權(quán),以提高檢索結(jié)果聚類質(zhì)量,但文獻中未涉及類簇標簽的獲取。
類簇標簽的需求使文本語義信息挖掘在檢索結(jié)果聚類中顯得尤為重要。LDA模型能夠挖掘文本的潛在語義信息,一些學者將其應用于情感分析、文本分類與推薦系統(tǒng)等方面[9?11],取得了很好的效果。文獻[12]中將原始LDA模型應用于檢索結(jié)果的聚類,在聚類質(zhì)量與聚類標簽提取方面都具有較好的語義描述效果,但其忽略了文本對象的特殊性及模型本身的缺陷。本文在面向特定檢索結(jié)果聚類任務中對LDA主題模型進行了改進,將查詢關(guān)聯(lián)度融入吉布斯采樣,使建模結(jié)果不再向高頻詞傾斜,突出了相關(guān)主題詞權(quán)重查詢,基于該模型完成了檢索結(jié)果聚類任務。
2?LDA主題模型
2.1?模型介紹
LDA主題模型是Blei等[13]提出的一個對離散數(shù)據(jù)集建模的三層產(chǎn)生式概率模型,其圖模型表示如圖1所示。
其中,?M表示文檔集總數(shù),N?m為文檔m下的詞總數(shù),T為主題數(shù)目,θ?m表示文檔m的主題概率分布,φ?t表示主題t的詞項概率分布,α、β分別表示θ?m和φ?t?Dirichlet先驗分布的超參數(shù),?w?mn、z?mn表示第m篇文檔下第n個單詞與其主題,陰影節(jié)點表示可觀測變量。該模型也解釋了文本集中每篇文檔的生成過程,共分為兩步,對于文檔m,先采樣文檔的主題概率分布為θ?m~Dir(α),對于文檔m的第n個單詞w?mn,先采樣詞的主題z?mn~Mult(θ?m)以及主題z?mn的詞分布采樣w?mn~Mult(φ?z?mn),重復N?m次得到文檔m。
采用Gibbs采樣[14]對模型進行參數(shù)估計,其通過對聯(lián)合分布各個分量輪換采樣,構(gòu)造收斂于目標概率分布的馬爾可夫鏈,然后從中進行樣本值采樣。采樣更新過程即估計當前采樣詞的主題后驗分布如下:
得到每個詞項的主題分配后,參數(shù)計算如下:
以上公式中,文檔集中第i個詞項w?i=j,z?i=k表示w?i對應第k個主題;n(k)?m,i表示第m篇文檔除去第m個詞后,主題k出現(xiàn)的次數(shù);n(j)?k,i表示第k個主題除去第i個詞后,詞項j出現(xiàn)的次數(shù);α?k、β?j分別為主題k?與詞項?j?的Dirichlet先驗參數(shù)。
Gibbs算法通過采樣得到每個主題的詞項分布與文檔主題分布,然后根據(jù)式(1)得到當前采樣詞主題,最終得到一篇文檔主題概率分布的表述。由分析可知,一個詞的主題分配與該詞在主題中的概率比,以及該詞所在文檔的主題概率分布有關(guān),則高頻詞在文檔與主題中的占比會較大。
2.2?LDA在檢索結(jié)果聚類應用中存在的問題
根據(jù)對以上模型的分析,將主題模型應用于檢索結(jié)果聚類具有以下優(yōu)勢:①可以避免傳統(tǒng)聚類算法的維數(shù)災難,將文檔映射到較低維空間,實現(xiàn)文本基于語義層面的降維;②傳統(tǒng)文本聚類方法基于概率詞頻統(tǒng)計,脫離了語義層面,基于主題模型的聚類以主題為依據(jù),能將包含相似主題的文檔聚為一類[15];③通過主題建模對文本集進行挖掘可以得到豐富的信息,并將其用于指導聚類質(zhì)心選取等,改進聚類質(zhì)量與效率[16];④對聚類結(jié)果的類簇標簽抽取進行優(yōu)化,得到的主題標簽可讀性更好,因而對于檢索結(jié)果聚類具有重要意義;⑤模型參數(shù)空間規(guī)模固定,與文本自身規(guī)模無關(guān),適合于大規(guī)模文本集。
然而原始的LDA模型基于詞袋模型假設,認為每個詞同等重要,使得模型向高頻詞主題傾斜,容易導致一些詞出現(xiàn)次數(shù)不多但與查詢詞強相關(guān),且主題區(qū)分度明顯的詞在建模過程中作用降低。本文充分利用查詢詞與查詢相關(guān)文檔的信息,將查詢關(guān)聯(lián)度權(quán)重融入主題模型,以改進文檔建模效果,進而優(yōu)化聚類質(zhì)量。
3?面向檢索結(jié)果聚類的LDA主題模型
3.1?檢索結(jié)果文檔集特征分析
檢索結(jié)果文檔都在查詢詞所限定的一個寬泛的主題下,通過聚類將其細分為一些更具體的子主題,每個子主題的文本都與查詢詞相關(guān),每個子主題也與查詢相關(guān)。為了更明確文本所屬的子主題,通過表征該文本的特征詞加以判斷。圖2為檢索結(jié)果文本聚類結(jié)構(gòu)。
顯然與查詢詞關(guān)聯(lián)程度越大的特征詞,越能有效幫助一篇文檔區(qū)分所屬的子主題。
3.2?查詢關(guān)聯(lián)度計算
對于查詢關(guān)鍵詞,一般認為那些與其經(jīng)常搭配出現(xiàn)的詞可以更好地表現(xiàn)詞的語義主題,其共現(xiàn)度越高,詞項與其存在主題相關(guān)的可能性越大,越具有主題表達能力[17]。通過共現(xiàn)分析可以衡量詞項與查詢關(guān)鍵詞之間的關(guān)聯(lián)度,關(guān)聯(lián)度越高,詞項權(quán)重越大。
通常采用互信息分析詞的共現(xiàn)關(guān)系,詞?w?i與w?j?之間的互信息計算如式(4)所示.
p(w?i,w?j)為w?i、w?j同時出現(xiàn)的概率,p(w?i)為w?i出現(xiàn)的概率,p(w?j)為w?j出現(xiàn)的概率。假設檢索結(jié)果集文檔中每一個文檔都包含查詢詞q,則對于文檔集中任意詞項w?i,計算得到的共現(xiàn)關(guān)聯(lián)度MI(w?i,q)=0。若查詢詞在檢索返回相關(guān)文檔集中出現(xiàn)頻率過高,則不適合采用互信息對查詢詞與文檔集中的詞項進行共現(xiàn)分析。而且這種方法只考慮了詞項的共文檔頻率,而沒有考慮兩個詞項的共現(xiàn)頻度以及詞項重要度。所謂共文檔頻度是指查詢關(guān)鍵詞與詞項在檢索結(jié)果文檔集中共同出現(xiàn)在同一文檔中的頻度,而共現(xiàn)頻度是指查詢關(guān)鍵詞與詞項在同一篇文檔中共同出現(xiàn)時,在該文檔中兩個詞項分別出現(xiàn)的頻度。
設D為檢索結(jié)果文檔集,|D|=M,d?m∈D,m∈[1,M];W為文檔集中所有的詞項集合,|W|=N,w?i∈W,i∈[1,N];Q為查詢關(guān)鍵詞集合,查詢詞q?∈Q;對于任意w?i∈W,且w?i≠q,w?i、q在d?m中出現(xiàn)的頻度分別記作freq(w?i|d?m)與freq(q|d?m),包含詞項w?i的文檔集合記作D?w?i,則共現(xiàn)文檔集合記作D?w?i,q;用M(w?i,q)表示詞項w?i相對于查詢關(guān)鍵詞q的共文檔率,即在出現(xiàn)查詢詞q的文檔集中,同時出現(xiàn)w?i的文檔數(shù)與只出現(xiàn)查詢詞文檔數(shù)的比。計算公式如下:
用F(w?i,q)表示w?i與查詢詞q在同一篇文檔中的共現(xiàn)頻度關(guān)系,查詢詞與共現(xiàn)詞的緊密程度計算公式如下:
此外考慮詞項與查詢關(guān)鍵詞在整個文檔集中的重要性,以避免出現(xiàn)與查詢關(guān)鍵詞關(guān)聯(lián)度很高的詞在整個語料集上的重要性偏低,即其主題區(qū)分度不明顯。此處引入逆文檔頻率IDF[18],計算公式如下:
其中C表示語料庫中的文檔集合,C?w?i為包含w?i的文檔集合?;谝陨蠈铂F(xiàn)因素的分析,構(gòu)造查詢關(guān)鍵詞關(guān)聯(lián)程度度量公式,用Cor(w?i,Q)表示詞項w?i與查詢詞集Q的關(guān)聯(lián)程度,?即:
其中?F(w?i,q)?計算時需進行歸一化處理。
3.3?改進后的LDA算法
得到各詞項的查詢關(guān)聯(lián)度后,在對每個詞的主題進行Gibbs采樣過程中,當文檔m的第i個詞項w?i=j分配到主題k時,式(2)中n(j)?k,i的值不是累加1而是累加w?i的詞項關(guān)聯(lián)度Cor(w?i,Q)。同理,式(3)中的n(k)?m,i也累加Cor(w?i,Q)。由此得到“文檔-主題”分布θ與“主題-詞項”分布φ計算公式如下:
上式中,∑Mi=1n(k)?m,i·Cor(w?i,Q)為文檔m主題k下所有詞的關(guān)聯(lián)度權(quán)重和,n(j)?k,i·Cor(w?i,Q)為主題k下所有詞為j的關(guān)聯(lián)度之和。
4?改進模型在檢索結(jié)果聚類中的應用
本文采用基于劃分的K?means聚類算法[19],該算法具有線性時間復雜度,適合于處理大規(guī)模數(shù)據(jù)集合,其通過優(yōu)化一個準則函數(shù)進行聚類劃分。通過LDA建模后,文本被表示為主題概率向量。為發(fā)揮主題模型的優(yōu)勢,本文使用衡量概率分布差異的函數(shù)JS距離替代傳統(tǒng)的相似度計算方法[20],其為KL散度的對稱版本,將距離定義在區(qū)間[0,1]上。對于主題概率向量?p=(p?1,p?2,…,p?T)與q=(q?1,q?2,…,q?T)?,其相似度定義為:
由于類簇標簽抽取對檢索結(jié)果聚類具有重要意義,類簇標簽應能清晰、準確地概括聚類中所有文檔的共同主題[21]。傳統(tǒng)基于最大詞頻的標簽提取缺乏語義信息、可讀性差、用戶不易理解,對聚類的描述不夠準確且與查詢詞的關(guān)聯(lián)度低,主題特征不明顯。LDA可將文本表示為主題概率分布向量,通過聚類,主題分布相似的文檔被放在同一類簇中,主題分布率高的主題即代表該類簇主題,因此選取主題下詞項概率分布高的詞作為描述該類簇的標簽,標簽抽取具體步驟如下:
(1)得到聚類算法迭代終止時各類簇的聚類中心,選取距離聚類中心最近的s篇文檔集合S={d?1,…,d?s}。
(2)統(tǒng)計集合S中每篇文檔的主題概率分布,將概率分布最大的主題作為類簇主題,記作Z?max?(i),i=1,…,K。
(3)得到主題Z?max?(i)?的“主題-詞項”概率分布,選取占比最大的前兩個詞項作為主題描述詞,即該類簇標簽。
整個實驗算法步驟如圖3所示。
5?實驗數(shù)據(jù)及結(jié)果分析
5.1?實驗數(shù)據(jù)
由于目前尚沒有一個應用于檢索結(jié)果聚類評價的標準中文測試集,本文通過構(gòu)造不同的查詢關(guān)鍵詞提交給百度搜索引擎,選取返回結(jié)果的前10頁,約100個結(jié)果(排序算法已可保證覆蓋查詢詞的大部分語義分布)作為數(shù)據(jù)源,用于構(gòu)建實驗數(shù)據(jù)集。構(gòu)造5個查詢詞:“蘋果”、“金剛”、“長城”、“獵豹”、“熊貓”,采集5個檢索結(jié)果集合,共670篇網(wǎng)頁文本。對網(wǎng)頁文本進行預處理,包括HTML解析、分詞、去停用詞等,并對文檔表示格式進行處理,作為LDA建模的輸入。同時對每個集合中的文檔采用人工進行分類,每個類別對應查詢詞在檢索結(jié)果集合中的一個語義分布。
5.2?參數(shù)設置
LDA模型對檢索結(jié)果集進行建模時,模型中的先驗超參數(shù)按照經(jīng)驗值設置為?α=50/T,β=0.01,主題數(shù)T?設為20,Gibbs采樣迭代次數(shù)為500次。聚類過程中,?若K值過大會導致聚類結(jié)果不易理解,過小則聚類效果不明顯。為便于模型的實驗測評,本文選取人工分類得到的主題數(shù)K進行聚類,隨機選取初始聚類中心,為避免收斂到局部最優(yōu),重復執(zhí)行多次。
5.3?建模結(jié)果評價分析
對“獵豹”的檢索結(jié)果集分別使用原始LDA與BQ-LDA進行建模,表1、表2為兩種模型的部分主題詞項分布,詞項根據(jù)分布數(shù)量由高到低排列。
由表1、表2可以看出,在LDA模型中,分布靠前的詞項存在著一些主題區(qū)別度差且重要性低的詞,而改進后的結(jié)果主題語義區(qū)分明顯,靠前的詞項能清晰地描述主題,與查詢關(guān)聯(lián)度更大的詞項分布位序都得到了提升。
本文分別對不同查詢詞進行聚類,對于聚類結(jié)果,采用F-Measure作為評價標準,其定義參照信息檢索的評測方法。假設聚類文檔數(shù)為?N,N?i表示正確劃分時類別i中的文檔個數(shù),N?j表示聚類結(jié)果類簇j中的文檔個數(shù),N(i,j)表示結(jié)果類簇j正確劃分i中的文檔數(shù),則類別i與聚類結(jié)果j?的F-Measure計算如下:
其中P表示準確率,R表示召回率。
整個聚類結(jié)果的評價函數(shù)為:
圖4為不同查詢下文檔集合使用不同模型的聚類效果。
由圖4可以看到,使用主題模型的聚類質(zhì)量比傳統(tǒng)VSM要高,而改進后模型應用于聚類后的F值相比原始LDA更高,最多時高出了9個百分點。
在標簽提取過程中,?將s值?設為3,查詢詞為“獵豹”時,各模型聚類下的類簇標簽結(jié)果如表3所示。
由表3可以看出,VSM下的標簽語義描述效果最差,根據(jù)標簽并不能理解類簇主題,而相比于傳統(tǒng)LDA模型,改進后的模型對簇的描述與區(qū)分度更好。
6?結(jié)語
將查詢詞信息融入聚類,基于融合查詢關(guān)聯(lián)度的主題模型對檢索結(jié)果文檔建模,使用基于主題模型的類簇抽取方法,可以得到不錯的聚類效果與區(qū)分性強的類簇標簽。然而,聚類算法實驗中需要設定初始聚類數(shù)目,在Gibbs采樣的時間效率方面尚存在不足之處,有待下一步改進。
參考文獻:
[1]?柏晗,成穎,柯青.網(wǎng)絡檢索結(jié)果聚類研究綜述[J].情報理論與實踐,2015,38(10):138?144.
[2]?祖弦,謝飛.LDA主題模型研究綜述[J].合肥師范學院學報,2015,33(6):55?58.
[3]?CUTTING D R, KARGER D R,PEDERSEN J O, et al. Scatter/Gather: a cluster?based approach to browsing large document collections[J]. 1992:318?329.
[4]?ZAMIR O E. Clustering Web documents: a phrase based method for grouping seach engine results[C].University of Washington,1999.
[5]?BANERJEE S, RAMANATHAN K, GUPTA A. Clustering short texts using Wikipedia[C].International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM,2007:787?788.
[6]?TSENG Y H, LIN C J, CHEN H H,et al. Toward generic title generation for clustered documents[M]. Berlin: Springer Berlin Heidelberg,2006.
[7]?陳毅恒.文本檢索結(jié)果聚類及類別標簽抽取技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學,2010.
[8]?GELGI F, DAVULCU H, VADREVU S. Term ranking for clustering Web search results[J]. Proceedings of International Workshop on the Web & Databases,2007.
[9]?LI F,HUANG M, ZHU X. Sentiment analysis with global topics and local dependency[C].Twenty?Fourth AAAI Conference on Artificial Intelligence. AAAI Press,2010:1371?1376.
[10]?李文波,孫樂,張大鯤.基于Labeled?LDA模型的文本分類新算法[J].計算機學報,2008,31(4):620?627.
[11]?YANG M, CUI T, TU W. Ordering?sensitive and semantic?aware topic modeling[C].Proceedings of the Twenty?Ninth AAAI Conference on Artificial Intelligence, 2015:2353?2359.
[12]?阮光冊,夏磊.基于主題模型的檢索結(jié)果聚類應用研究[J].情報雜志,2017,36(3):179?184.
[13]?BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. J Machine Learning Research Archive,2003,3:993?1022.
[14]?GRIFFITHS T L, STEYVERS M. Finding scientific topics[J].Proceedings of the National Academy of Sciences of USA, 2004(1):5228?5235.
[15]?王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學報,2012,40(11):2346?2350.
[16]?王春龍,張敬旭.基于LDA的改進K?means算法在文本聚類中的應用[J].計算機應用,2014,34(1):249?254.
[17]?趙蓉英,陳晨.基于共現(xiàn)分析的中文文獻檢索結(jié)果聚類研究[J].情報科學,2014(1):115?118.
[18]?JONES K S. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation, 1972,28(1):493?502.
[19]?NASRAOUI O. Web data mining: exploring hyperlinks, contents, and usage data[M]. New York:ACM,2008.
[20]?ENDRES D M, SCHINDELIN J E. A new metric for probability distributions[J]. IEEE Transactions on Information Theory,2003,49(7):1858?1860.
[21]?韓中華.檢索結(jié)果聚類中的類別標簽抽取技術(shù)研究[D].哈爾濱: 哈爾濱工業(yè)大學,2011.