韓肖赟,侯再恩,孫 綿
(陜西科技大學(xué)文理學(xué)院,陜西 西安 710021)
互聯(lián)網(wǎng)技術(shù)和智能社會(huì)的快速發(fā)展,推動(dòng)了信息的快速交流和傳播,表現(xiàn)為常見的信息組織形式(像語(yǔ)音、視頻、圖片和文本等)向更快捷的形態(tài)轉(zhuǎn)變。文本作為其中的重要成員,也實(shí)現(xiàn)了由長(zhǎng)到短的轉(zhuǎn)變。對(duì)于文本分析而言,如何高效地從大量高維、低質(zhì)量、無(wú)標(biāo)注的非結(jié)構(gòu)化數(shù)據(jù)中尋找有價(jià)值的信息成為當(dāng)前數(shù)據(jù)挖掘的重要目標(biāo)。
主題模型是解決上述問(wèn)題的一種重要方法,目前已經(jīng)滲透到主題提取、文本聚類、文本分類、社交網(wǎng)絡(luò)關(guān)系挖掘以及情感極性分析等多個(gè)領(lǐng)域[1,2]。目前比較成熟的主題模型包括概率潛語(yǔ)義模型PLSA(Probalistic Latent Semantic Analysis)[3]、潛在狄利克雷分配模型LDA(Latent Dirichlet Allocation)[4]、非負(fù)矩陣分解NMF(Non-negative Matrix Factorization)及其它衍生模型。PLSA(PLSI表示概率隱含語(yǔ)義標(biāo)引模型,又稱為PLSA)和LDA都是對(duì)隱含語(yǔ)義標(biāo)引模型LSI(Latent Semantic Indexing)的改進(jìn)。LSI模型的基本思想是通過(guò)奇異值分解將高維的向量空間模型表示的文檔映射到低維的潛在語(yǔ)義空間,但其本身卻不能提供明確的語(yǔ)義解釋。PLSA是在LSI的基礎(chǔ)上,引入了概率,增強(qiáng)了潛在主題與詞匯文檔之間的匹配關(guān)系,即文檔的主題分布;而LDA是在PLSA的基礎(chǔ)上,引入多項(xiàng)式的共軛先驗(yàn)分布Dirichlet來(lái)豐富分布的參數(shù)。這樣可以準(zhǔn)確地實(shí)現(xiàn)對(duì)文檔分詞、文檔和詞-主題內(nèi)部的相似性判定。文獻(xiàn)[5]對(duì)PLSA和LDA模型的實(shí)際應(yīng)用性能進(jìn)行了綜合比較,發(fā)現(xiàn)在文檔級(jí)分類上,前者要明顯優(yōu)于后者,但卻容易出現(xiàn)過(guò)擬合現(xiàn)象。文獻(xiàn)[6]進(jìn)一步發(fā)現(xiàn),LDA模型偏向更細(xì)粒度的文本分類。上述主題模型的建立主要依賴于長(zhǎng)文本中的詞共現(xiàn)關(guān)系,當(dāng)文本長(zhǎng)度發(fā)生變化時(shí),應(yīng)用性能都會(huì)出現(xiàn)不同程度的削減。NMF可以很好地處理短文本數(shù)據(jù)集,尤其是處理不平衡數(shù)據(jù)集,但存在擬合結(jié)果不一致的問(wèn)題,且穩(wěn)定性不如LDA[7]。
文獻(xiàn)[8]提出了狄利克雷多項(xiàng)混合模型DMM(Dirichlet Multinomial Mixture),其與LDA最大的不同在于假設(shè)每一篇短文本至多有一個(gè)主題,而不是多個(gè)主題,且文檔內(nèi)部的所有單詞之間主題共享,從而可以有效地緩解文本特征稀疏對(duì)建模的影響。而且DMM可以看作是LDA的一元混合模型。兩者都是基于詞-詞共同出現(xiàn)的模式(也稱同現(xiàn)關(guān)系)進(jìn)行建模,所以改善同現(xiàn)關(guān)系將成為主題模型研究的關(guān)鍵。
Salton等[9]在1975年基于詞匯的上下文無(wú)關(guān)文法提出了向量空間模型VSM(Vector Space Model),將所有文檔表示成有意義的向量,通過(guò)“文檔-詞項(xiàng)”矩陣有效地實(shí)現(xiàn)了模型推導(dǎo)。
關(guān)于特征計(jì)算,目前已有布爾權(quán)重、絕對(duì)詞頻TF(Term Frequency)、熵權(quán)重、倒排文檔頻度IDF(Inverse Document Frequency) 以及組合計(jì)算方法TFIDF(或TF-IDF)等。宗成慶研究員[10]指出特征權(quán)重計(jì)算的實(shí)質(zhì)是,考慮特征項(xiàng)在整個(gè)類中的分布問(wèn)題。
詞向量的出現(xiàn),不僅能夠再現(xiàn)文檔中詞項(xiàng)的同現(xiàn)模式,還能捕捉到文本的語(yǔ)義和句法信息。它經(jīng)歷了從獨(dú)熱編碼(One-hot)向分布式表示DR(Distributed Representation)[11]的轉(zhuǎn)變。One-hot編碼將每一篇文檔表示為一個(gè)N(表示文檔的詞袋規(guī)模)維向量。雖然這種文本表示比較直觀,但是容易出現(xiàn)數(shù)據(jù)維災(zāi),且0,1表示不能很好地刻畫詞與詞之間的相關(guān)關(guān)系。分布式表示將文檔中的每一個(gè)詞在語(yǔ)義空間映射成一個(gè)長(zhǎng)度固定的向量,并且可以通過(guò)歐氏距離刻畫詞之間的語(yǔ)義相似性。詞向量訓(xùn)練經(jīng)典的工作包括Bengio的語(yǔ)言模型框架,以及SCNNA(Single Convolutional Neural Network Architecture)、HLBLM (Hierarchical Log-Bilinear Language Model)和RNNLM(Recurrent Neural Network Language Model)等模型[12],以及Google的詞向量訓(xùn)練工具word2vec[13]。詞向量有效地引入上下文信息,從根本上提高了文本的表示效率。
以LDA為主的傳統(tǒng)的主題模型依賴于詞同現(xiàn)模式實(shí)現(xiàn)建模,短文本勢(shì)必會(huì)降低這種模式出現(xiàn)的可能性。但是,近幾年短文本數(shù)據(jù)集的出現(xiàn)頻率要遠(yuǎn)高于長(zhǎng)文本的,所以傳統(tǒng)主題模型需要去適應(yīng)和改變,主要包括主題模型的自適應(yīng)和短文本調(diào)整。
(1)主題模型的自適應(yīng)。
傳統(tǒng)主題模型以LDA模型為例,其中最簡(jiǎn)單的處理方式是對(duì)LDA的詞假設(shè)進(jìn)行弱化,即文檔中每一個(gè)詞具有不同主題。Yan等[14]基于詞對(duì)同現(xiàn)模式提出了雙詞話題模型BTM(Biterm Topic Model),即將原來(lái)的一個(gè)詞擴(kuò)展到一個(gè)詞對(duì)。但在實(shí)際應(yīng)用過(guò)程中,并非所有共現(xiàn)的詞對(duì)都能表現(xiàn)出高度的主題聯(lián)系。蔡洋等[15]基于詞對(duì)網(wǎng)絡(luò)的主題聯(lián)系度,提出利用三角圖結(jié)構(gòu)篩選目標(biāo)詞對(duì),然后假定這些詞同時(shí)具有不同的主題。這些方法可以有效地緩解短文本數(shù)據(jù)集上特征稀疏的問(wèn)題,其他方法將在第3節(jié)介紹。
(2)短文本的人工干預(yù)。
主要包括2種方法:①采用聚類或者增加考察屬性的方式,將短文本擴(kuò)展成一個(gè)可以接受的偽長(zhǎng)文檔。文獻(xiàn)[16]提出自聚集方法SADTM(Self-Aggregation Dynamic Topic Model)的動(dòng)態(tài)主題模型,能夠有效捕捉主題分布隨時(shí)間的漸變信息,并通過(guò)文本聚合為主題建模提供了更多新的詞對(duì)同現(xiàn)模式。文獻(xiàn)[17]利用同一用戶的興趣標(biāo)簽以及文本時(shí)間戳等信息元素對(duì)推特文本進(jìn)行特征擴(kuò)充。這種方法在增加文本特征的同時(shí)也豐富了文本形式,但在有些領(lǐng)域上不適用。②基于詞向量,依托外部語(yǔ)料庫(kù)提供額外輔助文本信息,從而緩解短文本上特征稀疏以及同現(xiàn)模式缺乏等問(wèn)題。雖然這種處理方法目前效果較好,但是其對(duì)外部數(shù)據(jù)源的質(zhì)量要求較高,且文本依賴性較強(qiáng)。文獻(xiàn)[9,18]提出了通過(guò)維基百科(Wikipedia)和詞網(wǎng)絡(luò)(WordNet)等外部語(yǔ)料訓(xùn)練詞向量來(lái)豐富小語(yǔ)料庫(kù)上短文本語(yǔ)義,但是在實(shí)際應(yīng)用過(guò)程中,不可避免地會(huì)引入噪聲和個(gè)人的主觀偏好。Zheng等[19]通過(guò)引入一組共軛定義來(lái)表征主題和詞的結(jié)構(gòu),并提供了一種虛擬生成短文本的方法。這種方法的好處在于保持主題一致的同時(shí),能夠有效地處理好新詞。
3.1.1 模型生成過(guò)程
如圖1所示,LDA和DMM具有相似的生成過(guò)程,且都為3層貝葉斯網(wǎng)絡(luò)的生成式概率模型。
Figure 1 Graph model of LDA and DMM圖1 LDA和DMM的圖模型
以下是LDA模型和DMM模型的具體生成過(guò)程:
(1)LDA模型。
假設(shè)每一篇文檔是由多個(gè)主題混合而成;每一個(gè)主題是單詞集合上的概率分布,且文檔中每一個(gè)詞都是由一個(gè)固定的主題生成。
生成過(guò)程:
②每一個(gè)文檔dm,采樣一個(gè)主題分布θd~Dir(α)。
③對(duì)于文檔dm中的所有詞匯wm,i,遍歷a,b:
a 選擇一個(gè)主題zm,j,zm,j~Multi(θd);
(2)DMM模型。
將整個(gè)語(yǔ)料庫(kù)看作是多個(gè)主題的混合;假設(shè)每一篇短文檔至多有一個(gè)主題,且該主題在同一篇文檔中的所有詞之間共享。
生成過(guò)程:
①采樣整個(gè)語(yǔ)料庫(kù)上的主題混合比πz~Dir(α)。
③對(duì)于每一篇文檔d,對(duì)于每一個(gè)單詞wm,i:
a 選擇主題分布zd,zd~Multi(πz);
接下來(lái)將分別介紹LDA和DMM模型的塌陷吉布斯采樣的參數(shù)估計(jì)推導(dǎo)、潛在主題個(gè)數(shù)的確定方案、主題模型目前的擴(kuò)展研究以及在網(wǎng)絡(luò)輿情上的應(yīng)用現(xiàn)狀。
3.1.2 參數(shù)估計(jì)
在主題模型中,wm,n(d)為已知變量,α和β為給定的狄利克雷分布先驗(yàn)參數(shù),zm,n為潛在主題,是模型的生成變量,所以真正需要估計(jì)的是文檔-主題分布θm,k和主題-詞分布φk,t。目前主要的參數(shù)估計(jì)方法主要有期望極大EM(Expectation Maximization)算法、吉布斯采樣GS (Gibbs Sampling)、變分貝葉斯估計(jì)、消息傳遞算法、平均場(chǎng)變分期望最大化和期望傳播算法[21,22]。吉布斯抽樣和變分推斷是2種比較常用的方法,前者通過(guò)構(gòu)造一個(gè)具有平穩(wěn)狀態(tài)的馬爾科夫鏈的后驗(yàn)分布去逼近未知的真實(shí)樣本分布,而后者使用已知簡(jiǎn)單分布逼近需推斷的復(fù)雜分布,并通過(guò)限制近似分布的類型,得到一種局部最優(yōu)且有確定解的近似后驗(yàn)分布[23]。本文主要介紹LDA的塌陷吉布斯抽樣和DMM的吉布斯采樣GSDMM算法[24]。
(1)LDA模型。
塌陷吉布斯抽樣中“塌陷”的含義是指通過(guò)積分的形式避開對(duì)隱含參數(shù)的直接計(jì)算,利用主題與參數(shù)之間的統(tǒng)計(jì)關(guān)系,實(shí)現(xiàn)對(duì)文檔-主題分布和主題-詞分布的估計(jì)。
①根據(jù)圖1a的圖模型所示以及3.1.1節(jié)中的生成過(guò)程,可以得到主題模型的聯(lián)合概率分布:
p(w,z|α,β)=p(w|z,β)p(z|α)
(1)
其中,
(2)
②利用主題模型的聯(lián)合概率分布,計(jì)算條件后驗(yàn)概率。
(3)
③利用多項(xiàng)式分布的先驗(yàn)分布——狄利克雷分布的推論以及式(3),可以得到目標(biāo)參數(shù)的概率分布。最終通過(guò)狄利克雷的期望實(shí)現(xiàn)對(duì)參數(shù)的估計(jì)。
Dir(θm|nm+α)
(2)GSDMM算法。
p(d,z|α,β)=p(d|z,β)p(z|α)=
(4)
(5)
其中,V表示語(yǔ)料庫(kù)單詞的總量。
3.1.3 潛在主題個(gè)數(shù)的確定
無(wú)論是LDA還是DMM模型,都需要確定出具體的主題個(gè)數(shù),對(duì)應(yīng)于超參數(shù)α的維數(shù)K。鑒于兩者的相似性,以下主要分析LDA的主題數(shù)確定方法。
(1)直接確定方法。這類方法一般選取具體指標(biāo)作為優(yōu)化參數(shù),理解簡(jiǎn)單,比較容易實(shí)現(xiàn)。通常采用困惑度(Perplexity)最小作為最優(yōu)模型的衡量標(biāo)準(zhǔn)[4]。但在實(shí)際應(yīng)用中,存在質(zhì)量不穩(wěn)定和主題數(shù)范圍偏大的問(wèn)題。后續(xù)比較有效的優(yōu)化指標(biāo)還包括困惑度-主題方差(Perplexity-Var)指標(biāo)[25]、主題一致性TC(Topic Coherence)[26]和困惑度拐點(diǎn)法RPC(the Rate of Perplexity Change)[27]。
為了衡量上述常見指標(biāo)在確定最優(yōu)主題數(shù)時(shí)的有效性,以下將選用2個(gè)不同分布的數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)準(zhǔn)備見表1。
具體測(cè)試結(jié)果如圖2和圖3所示,圖2表示不均勻數(shù)據(jù)集上的相關(guān)指標(biāo)測(cè)試,圖3為均勻數(shù)據(jù)集上的相關(guān)指標(biāo)測(cè)試。
Figure 2 Performance comparison of different methods (uneven data)圖2 不均勻數(shù)據(jù)集上相關(guān)指標(biāo)測(cè)試
Figure 3 Performance comparison of different methods (uniform data)圖3 均勻數(shù)據(jù)集上相關(guān)指標(biāo)測(cè)試
Table 1 Pre-experiment preparation表1 實(shí)驗(yàn)前期準(zhǔn)備
Table 2 Statistics of optimal number of topics表2 最優(yōu)主題數(shù)結(jié)果統(tǒng)計(jì)
如表3所示,基于困惑度、困惑度拐點(diǎn)法以及困惑度-方差以及確定的最優(yōu)主題數(shù)對(duì)數(shù)據(jù)集的分布比較敏感,前兩者確定的主題數(shù)比較相近,后者相差較遠(yuǎn)。文獻(xiàn)[2]的實(shí)驗(yàn)數(shù)據(jù)為期刊論文摘要,訓(xùn)練模型的過(guò)程中,主題方差隨著主題數(shù)目的增加而減少。這與本文的實(shí)驗(yàn)結(jié)果幾乎相反,對(duì)于困惑度-主題方差指標(biāo)而言,引入的主題方差未能實(shí)現(xiàn)對(duì)寬泛主題的有效約束。本文認(rèn)為文本篇幅普遍較長(zhǎng),是造成困惑度-方差性能差異的主要原因。當(dāng)文檔詞袋規(guī)模大幅度增加時(shí),盡管隨著主題數(shù)的增加會(huì)造成分詞的主題占比的差異性減小,但是較大的基數(shù)并不能保證其累積方差出現(xiàn)顯著性下降。根據(jù)主題一致性指標(biāo)在2個(gè)數(shù)據(jù)集上確定的主題數(shù)分別為25和30,比較符合實(shí)驗(yàn)數(shù)據(jù)集的主題分布和步長(zhǎng)限定(見表2),所以可以確認(rèn)該指標(biāo)的有效性。文獻(xiàn)[26]認(rèn)為通常意義上的測(cè)試集對(duì)選擇最優(yōu)主題數(shù)是一個(gè)充分非必要條件。在上述實(shí)驗(yàn)中發(fā)現(xiàn),基于該指標(biāo)在訓(xùn)練集和測(cè)試上確定的最優(yōu)主題數(shù)比較相近。綜上所述,可以認(rèn)為主題一致性指標(biāo)的性能要優(yōu)于其它3種指標(biāo)的。
(2)間接確定方法。這類方法主要借助其它優(yōu)化算法實(shí)現(xiàn)對(duì)問(wèn)題的有效轉(zhuǎn)化,避免直接求解最優(yōu)主題數(shù)。一是非參數(shù)化方法。Teh等[28]通過(guò)層次狄利克雷過(guò)程對(duì)主題數(shù)目進(jìn)行了非參數(shù)化處理,得到了與困惑度指標(biāo)方法類似的結(jié)論。但是,這種方法時(shí)間復(fù)雜度較高。Griffiths等[29]提出用貝葉斯模型確定最優(yōu)主題數(shù)目的方法。二是基于聚類或分類方法。李菲菲等[30]發(fā)現(xiàn)文檔聚類簇與文檔集隱含的主題數(shù)相一致的特點(diǎn),基于高頻詞網(wǎng)絡(luò)利用社區(qū)發(fā)現(xiàn)算法確定出LDA模型的最優(yōu)主題個(gè)數(shù)。文獻(xiàn)[8]通過(guò)模擬學(xué)生電影愛(ài)好分類情景,提出了MGP(Movies Group Process)算法,實(shí)現(xiàn)了主題個(gè)數(shù)的自適應(yīng)。
Mazarura等[31]通過(guò)測(cè)量模型的主題一致性和主題穩(wěn)定性發(fā)現(xiàn),在短文本上GSDMM算法的性能總體上要優(yōu)于LDA模型的。Liu等[32]提出主題詞嵌入模型TWE(Topical Word Embeddings),以詞-主題分布為對(duì)象,引入詞嵌入實(shí)現(xiàn)對(duì)特定主題的特征表示。李思宇等[33]針對(duì)BTM中詞對(duì)缺少主題和語(yǔ)義相關(guān)性的問(wèn)題,提出了詞對(duì)GS采樣算法。余沖等[34]權(quán)衡了由內(nèi)外部語(yǔ)料訓(xùn)練得到的詞向量對(duì)主題表達(dá)的影響,提出了詞-主題混合WTM(Word Topic Mixture)模型,重新定義了主題模型與詞嵌入條件概率分布。這些模型大多都在不同程度上實(shí)現(xiàn)了對(duì)LDA模型的擴(kuò)展,要么引入詞嵌入技術(shù)訓(xùn)練詞向量,要么是基于同現(xiàn)關(guān)系的文本特征擴(kuò)展。所以不可否認(rèn),LDA模型對(duì)主題模型擴(kuò)展的借鑒意義和重要價(jià)值。
Table 3 Research on the extension of thematic models in recent years表3 近幾年主題模型的擴(kuò)展研究
對(duì)近2年主題模型的擴(kuò)展研究進(jìn)行總結(jié)比較(如表3所示)發(fā)現(xiàn),針對(duì)不同表現(xiàn)形式以及不同數(shù)據(jù)結(jié)構(gòu)的主題建模已經(jīng)進(jìn)入了一個(gè)新的高度。而且關(guān)于緩解數(shù)據(jù)稀疏性、噪聲以及數(shù)據(jù)冗余問(wèn)題的解決方案較多。與以往的主題模型[2,35]相比,如今主題模型對(duì)文本信息考慮得更加全面,主要包括文本信息、語(yǔ)義信息以及句法信息。這些從根本上得益于深度學(xué)習(xí)算法的快速發(fā)展和自然語(yǔ)言模型的自我完善。主題模型作為重要的信息提取手段,雖然可以提取出主題,但是不能直接體現(xiàn)出熱點(diǎn)主題與相應(yīng)主題之間的關(guān)聯(lián)關(guān)系。在未來(lái)基于主題模型的擴(kuò)展框架研究將會(huì)增多,如文獻(xiàn)[36,37]所示,主題模型將承接主題詞提取的重要環(huán)節(jié),研究重心會(huì)偏向主題可擴(kuò)展性、熱點(diǎn)主題詞網(wǎng)絡(luò)演化、可視化和交互應(yīng)用開發(fā)等方面。
主題模型是網(wǎng)絡(luò)輿情分析的重要工具。網(wǎng)絡(luò)輿情本身所具有的主觀性使其容易被引導(dǎo),所以針對(duì)輿情的演化研究具有十分重要的意義。目前關(guān)于網(wǎng)絡(luò)輿情的研究主要包括輿情熱點(diǎn)話題識(shí)別[37]、網(wǎng)絡(luò)社交關(guān)系研究、話題演化研究(包括話題強(qiáng)度和話題內(nèi)容演化)[48]、新話題探測(cè)以及基于主題模型的協(xié)同過(guò)濾等。話題的演化包括初現(xiàn)、衰減、高潮、潛伏、終結(jié)等階段。輿情本身的時(shí)效性使得信息的時(shí)間屬性的作用被放大,尤其是在話題演化研究上。為了提高主題的提取效率,文獻(xiàn)[21]提出主題模型的快速推理算法、在線學(xué)習(xí)算法、文本流推理算法以及分布式學(xué)習(xí)等研究。目前比較重要的結(jié)合時(shí)間屬性的主題模型有在線LDA模型OLDA(Online LDA)以及增量LDA模型(Increment LDA)。文獻(xiàn)[48]對(duì)兩者做了具體的比較,即兩者都可以在線處理,ILDA模型偏向內(nèi)容演化,文本需要根據(jù)時(shí)間先分類(即先離散),話題數(shù)量可變,且可自動(dòng)確定;而OLDA既可以進(jìn)行內(nèi)容演化又可以進(jìn)行強(qiáng)度演化,一般按照時(shí)間順序直接建模,雖然提取的話題數(shù)量固定,但是可以實(shí)現(xiàn)新話題的檢測(cè)。目前關(guān)于短文本的直接在線處理不多,一般是通過(guò)時(shí)間窗口進(jìn)行聚類或者分類研究[49,50]。
主題模型作為目前信息提取的重要工具之一,雖然針對(duì)短文本的稀疏、噪聲以及冗余等問(wèn)題出現(xiàn)了不同側(cè)重的解決方案,但是缺乏全面型通用模型的研究。數(shù)據(jù)產(chǎn)生量大、速度快以及存儲(chǔ)空間增大等外部環(huán)境,將對(duì)主題模型的并行化或者分布式協(xié)同能力提出更高的要求。此外,面向特定短文本的主題建模研究將越來(lái)越多,以網(wǎng)絡(luò)輿情為例,除了一般意義上的主題提取,目前已經(jīng)衍生出一系列集成化程度更高的領(lǐng)域,如輿情動(dòng)態(tài)熱點(diǎn)識(shí)別、熱點(diǎn)動(dòng)態(tài)演化預(yù)測(cè)以及資訊的實(shí)時(shí)推薦等。主題模型作為其中的重要環(huán)節(jié),在模型擴(kuò)展以及應(yīng)用擴(kuò)展等方面已經(jīng)取得了巨大進(jìn)步,但是目前關(guān)于主題模型算法性能的系統(tǒng)評(píng)測(cè)體系并不完整,研究略顯不足。所以,后續(xù)這一部分的研究應(yīng)該得到充分的重視。