亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主題模型在短文本上的應(yīng)用研究*

2020-03-04 07:56:52韓肖赟侯再恩

計(jì)算機(jī)工程與科學(xué) 2020年1期

韓肖赟,侯再恩,孫綿

(陜西科技大學(xué)文理學(xué)院,陜西西安 710021)

1 引言

互聯(lián)網(wǎng)技術(shù)和智能社會(huì)的快速發(fā)展，推動(dòng)了信息的快速交流和傳播，表現(xiàn)為常見的信息組織形式(像語(yǔ)音、視頻、圖片和文本等)向更快捷的形態(tài)轉(zhuǎn)變。文本作為其中的重要成員，也實(shí)現(xiàn)了由長(zhǎng)到短的轉(zhuǎn)變。對(duì)于文本分析而言，如何高效地從大量高維、低質(zhì)量、無(wú)標(biāo)注的非結(jié)構(gòu)化數(shù)據(jù)中尋找有價(jià)值的信息成為當(dāng)前數(shù)據(jù)挖掘的重要目標(biāo)。

主題模型是解決上述問(wèn)題的一種重要方法，目前已經(jīng)滲透到主題提取、文本聚類、文本分類、社交網(wǎng)絡(luò)關(guān)系挖掘以及情感極性分析等多個(gè)領(lǐng)域[1,2]。目前比較成熟的主題模型包括概率潛語(yǔ)義模型PLSA(Probalistic Latent Semantic Analysis)[3]、潛在狄利克雷分配模型LDA(Latent Dirichlet Allocation)[4]、非負(fù)矩陣分解NMF(Non-negative Matrix Factorization)及其它衍生模型。PLSA(PLSI表示概率隱含語(yǔ)義標(biāo)引模型，又稱為PLSA)和LDA都是對(duì)隱含語(yǔ)義標(biāo)引模型LSI(Latent Semantic Indexing)的改進(jìn)。LSI模型的基本思想是通過(guò)奇異值分解將高維的向量空間模型表示的文檔映射到低維的潛在語(yǔ)義空間，但其本身卻不能提供明確的語(yǔ)義解釋。PLSA是在LSI的基礎(chǔ)上，引入了概率，增強(qiáng)了潛在主題與詞匯文檔之間的匹配關(guān)系，即文檔的主題分布；而LDA是在PLSA的基礎(chǔ)上，引入多項(xiàng)式的共軛先驗(yàn)分布Dirichlet來(lái)豐富分布的參數(shù)。這樣可以準(zhǔn)確地實(shí)現(xiàn)對(duì)文檔分詞、文檔和詞-主題內(nèi)部的相似性判定。文獻(xiàn)[5]對(duì)PLSA和LDA模型的實(shí)際應(yīng)用性能進(jìn)行了綜合比較，發(fā)現(xiàn)在文檔級(jí)分類上，前者要明顯優(yōu)于后者，但卻容易出現(xiàn)過(guò)擬合現(xiàn)象。文獻(xiàn)[6]進(jìn)一步發(fā)現(xiàn)，LDA模型偏向更細(xì)粒度的文本分類。上述主題模型的建立主要依賴于長(zhǎng)文本中的詞共現(xiàn)關(guān)系，當(dāng)文本長(zhǎng)度發(fā)生變化時(shí)，應(yīng)用性能都會(huì)出現(xiàn)不同程度的削減。NMF可以很好地處理短文本數(shù)據(jù)集，尤其是處理不平衡數(shù)據(jù)集，但存在擬合結(jié)果不一致的問(wèn)題，且穩(wěn)定性不如LDA[7]。

文獻(xiàn)[8]提出了狄利克雷多項(xiàng)混合模型DMM(Dirichlet Multinomial Mixture),其與LDA最大的不同在于假設(shè)每一篇短文本至多有一個(gè)主題，而不是多個(gè)主題，且文檔內(nèi)部的所有單詞之間主題共享，從而可以有效地緩解文本特征稀疏對(duì)建模的影響。而且DMM可以看作是LDA的一元混合模型。兩者都是基于詞-詞共同出現(xiàn)的模式(也稱同現(xiàn)關(guān)系)進(jìn)行建模，所以改善同現(xiàn)關(guān)系將成為主題模型研究的關(guān)鍵。

2 文本預(yù)處理研究

2.1 文本表示方法

Salton等[9]在1975年基于詞匯的上下文無(wú)關(guān)文法提出了向量空間模型VSM(Vector Space Model),將所有文檔表示成有意義的向量，通過(guò)“文檔-詞項(xiàng)”矩陣有效地實(shí)現(xiàn)了模型推導(dǎo)。

關(guān)于特征計(jì)算，目前已有布爾權(quán)重、絕對(duì)詞頻TF(Term Frequency)、熵權(quán)重、倒排文檔頻度IDF(Inverse Document Frequency) 以及組合計(jì)算方法TFIDF(或TF-IDF)等。宗成慶研究員[10]指出特征權(quán)重計(jì)算的實(shí)質(zhì)是，考慮特征項(xiàng)在整個(gè)類中的分布問(wèn)題。

詞向量的出現(xiàn)，不僅能夠再現(xiàn)文檔中詞項(xiàng)的同現(xiàn)模式，還能捕捉到文本的語(yǔ)義和句法信息。它經(jīng)歷了從獨(dú)熱編碼(One-hot)向分布式表示DR(Distributed Representation)[11]的轉(zhuǎn)變。One-hot編碼將每一篇文檔表示為一個(gè)N(表示文檔的詞袋規(guī)模)維向量。雖然這種文本表示比較直觀，但是容易出現(xiàn)數(shù)據(jù)維災(zāi)，且0，1表示不能很好地刻畫詞與詞之間的相關(guān)關(guān)系。分布式表示將文檔中的每一個(gè)詞在語(yǔ)義空間映射成一個(gè)長(zhǎng)度固定的向量，并且可以通過(guò)歐氏距離刻畫詞之間的語(yǔ)義相似性。詞向量訓(xùn)練經(jīng)典的工作包括Bengio的語(yǔ)言模型框架，以及SCNNA(Single Convolutional Neural Network Architecture)、HLBLM (Hierarchical Log-Bilinear Language Model)和RNNLM(Recurrent Neural Network Language Model)等模型[12]，以及Google的詞向量訓(xùn)練工具word2vec[13]。詞向量有效地引入上下文信息，從根本上提高了文本的表示效率。

2.2 主題模型發(fā)展現(xiàn)狀

以LDA為主的傳統(tǒng)的主題模型依賴于詞同現(xiàn)模式實(shí)現(xiàn)建模，短文本勢(shì)必會(huì)降低這種模式出現(xiàn)的可能性。但是，近幾年短文本數(shù)據(jù)集的出現(xiàn)頻率要遠(yuǎn)高于長(zhǎng)文本的，所以傳統(tǒng)主題模型需要去適應(yīng)和改變，主要包括主題模型的自適應(yīng)和短文本調(diào)整。

(1)主題模型的自適應(yīng)。

傳統(tǒng)主題模型以LDA模型為例，其中最簡(jiǎn)單的處理方式是對(duì)LDA的詞假設(shè)進(jìn)行弱化,即文檔中每一個(gè)詞具有不同主題。Yan等[14]基于詞對(duì)同現(xiàn)模式提出了雙詞話題模型BTM(Biterm Topic Model)，即將原來(lái)的一個(gè)詞擴(kuò)展到一個(gè)詞對(duì)。但在實(shí)際應(yīng)用過(guò)程中，并非所有共現(xiàn)的詞對(duì)都能表現(xiàn)出高度的主題聯(lián)系。蔡洋等[15]基于詞對(duì)網(wǎng)絡(luò)的主題聯(lián)系度，提出利用三角圖結(jié)構(gòu)篩選目標(biāo)詞對(duì)，然后假定這些詞同時(shí)具有不同的主題。這些方法可以有效地緩解短文本數(shù)據(jù)集上特征稀疏的問(wèn)題，其他方法將在第3節(jié)介紹。

(2)短文本的人工干預(yù)。

主要包括2種方法：①采用聚類或者增加考察屬性的方式，將短文本擴(kuò)展成一個(gè)可以接受的偽長(zhǎng)文檔。文獻(xiàn)[16]提出自聚集方法SADTM(Self-Aggregation Dynamic Topic Model)的動(dòng)態(tài)主題模型，能夠有效捕捉主題分布隨時(shí)間的漸變信息，并通過(guò)文本聚合為主題建模提供了更多新的詞對(duì)同現(xiàn)模式。文獻(xiàn)[17]利用同一用戶的興趣標(biāo)簽以及文本時(shí)間戳等信息元素對(duì)推特文本進(jìn)行特征擴(kuò)充。這種方法在增加文本特征的同時(shí)也豐富了文本形式，但在有些領(lǐng)域上不適用。②基于詞向量，依托外部語(yǔ)料庫(kù)提供額外輔助文本信息，從而緩解短文本上特征稀疏以及同現(xiàn)模式缺乏等問(wèn)題。雖然這種處理方法目前效果較好，但是其對(duì)外部數(shù)據(jù)源的質(zhì)量要求較高，且文本依賴性較強(qiáng)。文獻(xiàn)[9,18]提出了通過(guò)維基百科(Wikipedia)和詞網(wǎng)絡(luò)(WordNet)等外部語(yǔ)料訓(xùn)練詞向量來(lái)豐富小語(yǔ)料庫(kù)上短文本語(yǔ)義，但是在實(shí)際應(yīng)用過(guò)程中，不可避免地會(huì)引入噪聲和個(gè)人的主觀偏好。Zheng等[19]通過(guò)引入一組共軛定義來(lái)表征主題和詞的結(jié)構(gòu)，并提供了一種虛擬生成短文本的方法。這種方法的好處在于保持主題一致的同時(shí)，能夠有效地處理好新詞。

3 LDA和DMM及其相關(guān)研究

3.1 LDA和DMM

3.1.1 模型生成過(guò)程

如圖1所示，LDA和DMM具有相似的生成過(guò)程，且都為3層貝葉斯網(wǎng)絡(luò)的生成式概率模型。

Figure 1 Graph model of LDA and DMM圖1 LDA和DMM的圖模型

以下是LDA模型和DMM模型的具體生成過(guò)程：

(1)LDA模型。

假設(shè)每一篇文檔是由多個(gè)主題混合而成；每一個(gè)主題是單詞集合上的概率分布，且文檔中每一個(gè)詞都是由一個(gè)固定的主題生成。

生成過(guò)程：

②每一個(gè)文檔dm，采樣一個(gè)主題分布θd～Dir(α)。

③對(duì)于文檔dm中的所有詞匯wm,i，遍歷a，b：

a 選擇一個(gè)主題zm,j，zm,j～Multi(θd);

(2)DMM模型。

將整個(gè)語(yǔ)料庫(kù)看作是多個(gè)主題的混合；假設(shè)每一篇短文檔至多有一個(gè)主題，且該主題在同一篇文檔中的所有詞之間共享。

生成過(guò)程：

①采樣整個(gè)語(yǔ)料庫(kù)上的主題混合比πz～Dir(α)。

③對(duì)于每一篇文檔d,對(duì)于每一個(gè)單詞wm,i：

a 選擇主題分布zd，zd～Multi(πz)；

接下來(lái)將分別介紹LDA和DMM模型的塌陷吉布斯采樣的參數(shù)估計(jì)推導(dǎo)、潛在主題個(gè)數(shù)的確定方案、主題模型目前的擴(kuò)展研究以及在網(wǎng)絡(luò)輿情上的應(yīng)用現(xiàn)狀。

3.1.2 參數(shù)估計(jì)

在主題模型中，wm,n(d)為已知變量，α和β為給定的狄利克雷分布先驗(yàn)參數(shù)，zm,n為潛在主題，是模型的生成變量，所以真正需要估計(jì)的是文檔-主題分布θm,k和主題-詞分布φk,t。目前主要的參數(shù)估計(jì)方法主要有期望極大EM(Expectation Maximization)算法、吉布斯采樣GS (Gibbs Sampling)、變分貝葉斯估計(jì)、消息傳遞算法、平均場(chǎng)變分期望最大化和期望傳播算法[21,22]。吉布斯抽樣和變分推斷是2種比較常用的方法，前者通過(guò)構(gòu)造一個(gè)具有平穩(wěn)狀態(tài)的馬爾科夫鏈的后驗(yàn)分布去逼近未知的真實(shí)樣本分布，而后者使用已知簡(jiǎn)單分布逼近需推斷的復(fù)雜分布，并通過(guò)限制近似分布的類型，得到一種局部最優(yōu)且有確定解的近似后驗(yàn)分布[23]。本文主要介紹LDA的塌陷吉布斯抽樣和DMM的吉布斯采樣GSDMM算法[24]。

(1)LDA模型。

塌陷吉布斯抽樣中“塌陷”的含義是指通過(guò)積分的形式避開對(duì)隱含參數(shù)的直接計(jì)算，利用主題與參數(shù)之間的統(tǒng)計(jì)關(guān)系，實(shí)現(xiàn)對(duì)文檔-主題分布和主題-詞分布的估計(jì)。

①根據(jù)圖1a的圖模型所示以及3.1.1節(jié)中的生成過(guò)程,可以得到主題模型的聯(lián)合概率分布：

p(w,z|α,β)=p(w|z,β)p(z|α)

(1)

其中，

(2)

②利用主題模型的聯(lián)合概率分布，計(jì)算條件后驗(yàn)概率。

(3)

③利用多項(xiàng)式分布的先驗(yàn)分布——狄利克雷分布的推論以及式(3)，可以得到目標(biāo)參數(shù)的概率分布。最終通過(guò)狄利克雷的期望實(shí)現(xiàn)對(duì)參數(shù)的估計(jì)。

Dir(θm|nm+α)

(2)GSDMM算法。

p(d,z|α,β)=p(d|z,β)p(z|α)=

(4)

(5)

其中，V表示語(yǔ)料庫(kù)單詞的總量。

3.1.3 潛在主題個(gè)數(shù)的確定

無(wú)論是LDA還是DMM模型，都需要確定出具體的主題個(gè)數(shù)，對(duì)應(yīng)于超參數(shù)α的維數(shù)K。鑒于兩者的相似性，以下主要分析LDA的主題數(shù)確定方法。

(1)直接確定方法。這類方法一般選取具體指標(biāo)作為優(yōu)化參數(shù)，理解簡(jiǎn)單，比較容易實(shí)現(xiàn)。通常采用困惑度(Perplexity)最小作為最優(yōu)模型的衡量標(biāo)準(zhǔn)[4]。但在實(shí)際應(yīng)用中，存在質(zhì)量不穩(wěn)定和主題數(shù)范圍偏大的問(wèn)題。后續(xù)比較有效的優(yōu)化指標(biāo)還包括困惑度-主題方差(Perplexity-Var)指標(biāo)[25]、主題一致性TC(Topic Coherence)[26]和困惑度拐點(diǎn)法RPC(the Rate of Perplexity Change)[27]。

為了衡量上述常見指標(biāo)在確定最優(yōu)主題數(shù)時(shí)的有效性，以下將選用2個(gè)不同分布的數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)，具體實(shí)驗(yàn)準(zhǔn)備見表1。

具體測(cè)試結(jié)果如圖2和圖3所示，圖2表示不均勻數(shù)據(jù)集上的相關(guān)指標(biāo)測(cè)試，圖3為均勻數(shù)據(jù)集上的相關(guān)指標(biāo)測(cè)試。

Figure 2 Performance comparison of different methods (uneven data)圖2 不均勻數(shù)據(jù)集上相關(guān)指標(biāo)測(cè)試

Figure 3 Performance comparison of different methods (uniform data)圖3 均勻數(shù)據(jù)集上相關(guān)指標(biāo)測(cè)試

Table 1 Pre-experiment preparation表1 實(shí)驗(yàn)前期準(zhǔn)備

Table 2 Statistics of optimal number of topics表2 最優(yōu)主題數(shù)結(jié)果統(tǒng)計(jì)

如表3所示，基于困惑度、困惑度拐點(diǎn)法以及困惑度-方差以及確定的最優(yōu)主題數(shù)對(duì)數(shù)據(jù)集的分布比較敏感，前兩者確定的主題數(shù)比較相近，后者相差較遠(yuǎn)。文獻(xiàn)[2]的實(shí)驗(yàn)數(shù)據(jù)為期刊論文摘要，訓(xùn)練模型的過(guò)程中，主題方差隨著主題數(shù)目的增加而減少。這與本文的實(shí)驗(yàn)結(jié)果幾乎相反，對(duì)于困惑度-主題方差指標(biāo)而言，引入的主題方差未能實(shí)現(xiàn)對(duì)寬泛主題的有效約束。本文認(rèn)為文本篇幅普遍較長(zhǎng)，是造成困惑度-方差性能差異的主要原因。當(dāng)文檔詞袋規(guī)模大幅度增加時(shí)，盡管隨著主題數(shù)的增加會(huì)造成分詞的主題占比的差異性減小，但是較大的基數(shù)并不能保證其累積方差出現(xiàn)顯著性下降。根據(jù)主題一致性指標(biāo)在2個(gè)數(shù)據(jù)集上確定的主題數(shù)分別為25和30，比較符合實(shí)驗(yàn)數(shù)據(jù)集的主題分布和步長(zhǎng)限定(見表2)，所以可以確認(rèn)該指標(biāo)的有效性。文獻(xiàn)[26]認(rèn)為通常意義上的測(cè)試集對(duì)選擇最優(yōu)主題數(shù)是一個(gè)充分非必要條件。在上述實(shí)驗(yàn)中發(fā)現(xiàn)，基于該指標(biāo)在訓(xùn)練集和測(cè)試上確定的最優(yōu)主題數(shù)比較相近。綜上所述，可以認(rèn)為主題一致性指標(biāo)的性能要優(yōu)于其它3種指標(biāo)的。

(2)間接確定方法。這類方法主要借助其它優(yōu)化算法實(shí)現(xiàn)對(duì)問(wèn)題的有效轉(zhuǎn)化，避免直接求解最優(yōu)主題數(shù)。一是非參數(shù)化方法。Teh等[28]通過(guò)層次狄利克雷過(guò)程對(duì)主題數(shù)目進(jìn)行了非參數(shù)化處理，得到了與困惑度指標(biāo)方法類似的結(jié)論。但是，這種方法時(shí)間復(fù)雜度較高。Griffiths等[29]提出用貝葉斯模型確定最優(yōu)主題數(shù)目的方法。二是基于聚類或分類方法。李菲菲等[30]發(fā)現(xiàn)文檔聚類簇與文檔集隱含的主題數(shù)相一致的特點(diǎn)，基于高頻詞網(wǎng)絡(luò)利用社區(qū)發(fā)現(xiàn)算法確定出LDA模型的最優(yōu)主題個(gè)數(shù)。文獻(xiàn)[8]通過(guò)模擬學(xué)生電影愛(ài)好分類情景，提出了MGP(Movies Group Process)算法，實(shí)現(xiàn)了主題個(gè)數(shù)的自適應(yīng)。

3.2 擴(kuò)展研究

Mazarura等[31]通過(guò)測(cè)量模型的主題一致性和主題穩(wěn)定性發(fā)現(xiàn)，在短文本上GSDMM算法的性能總體上要優(yōu)于LDA模型的。Liu等[32]提出主題詞嵌入模型TWE(Topical Word Embeddings)，以詞-主題分布為對(duì)象，引入詞嵌入實(shí)現(xiàn)對(duì)特定主題的特征表示。李思宇等[33]針對(duì)BTM中詞對(duì)缺少主題和語(yǔ)義相關(guān)性的問(wèn)題，提出了詞對(duì)GS采樣算法。余沖等[34]權(quán)衡了由內(nèi)外部語(yǔ)料訓(xùn)練得到的詞向量對(duì)主題表達(dá)的影響，提出了詞-主題混合WTM(Word Topic Mixture)模型，重新定義了主題模型與詞嵌入條件概率分布。這些模型大多都在不同程度上實(shí)現(xiàn)了對(duì)LDA模型的擴(kuò)展，要么引入詞嵌入技術(shù)訓(xùn)練詞向量，要么是基于同現(xiàn)關(guān)系的文本特征擴(kuò)展。所以不可否認(rèn)，LDA模型對(duì)主題模型擴(kuò)展的借鑒意義和重要價(jià)值。

Table 3 Research on the extension of thematic models in recent years表3 近幾年主題模型的擴(kuò)展研究

對(duì)近2年主題模型的擴(kuò)展研究進(jìn)行總結(jié)比較(如表3所示)發(fā)現(xiàn)，針對(duì)不同表現(xiàn)形式以及不同數(shù)據(jù)結(jié)構(gòu)的主題建模已經(jīng)進(jìn)入了一個(gè)新的高度。而且關(guān)于緩解數(shù)據(jù)稀疏性、噪聲以及數(shù)據(jù)冗余問(wèn)題的解決方案較多。與以往的主題模型[2,35]相比，如今主題模型對(duì)文本信息考慮得更加全面，主要包括文本信息、語(yǔ)義信息以及句法信息。這些從根本上得益于深度學(xué)習(xí)算法的快速發(fā)展和自然語(yǔ)言模型的自我完善。主題模型作為重要的信息提取手段，雖然可以提取出主題，但是不能直接體現(xiàn)出熱點(diǎn)主題與相應(yīng)主題之間的關(guān)聯(lián)關(guān)系。在未來(lái)基于主題模型的擴(kuò)展框架研究將會(huì)增多，如文獻(xiàn)[36,37]所示，主題模型將承接主題詞提取的重要環(huán)節(jié)，研究重心會(huì)偏向主題可擴(kuò)展性、熱點(diǎn)主題詞網(wǎng)絡(luò)演化、可視化和交互應(yīng)用開發(fā)等方面。

3.3 主題模型在網(wǎng)絡(luò)輿情中的應(yīng)用研究

主題模型是網(wǎng)絡(luò)輿情分析的重要工具。網(wǎng)絡(luò)輿情本身所具有的主觀性使其容易被引導(dǎo)，所以針對(duì)輿情的演化研究具有十分重要的意義。目前關(guān)于網(wǎng)絡(luò)輿情的研究主要包括輿情熱點(diǎn)話題識(shí)別[37]、網(wǎng)絡(luò)社交關(guān)系研究、話題演化研究(包括話題強(qiáng)度和話題內(nèi)容演化)[48]、新話題探測(cè)以及基于主題模型的協(xié)同過(guò)濾等。話題的演化包括初現(xiàn)、衰減、高潮、潛伏、終結(jié)等階段。輿情本身的時(shí)效性使得信息的時(shí)間屬性的作用被放大，尤其是在話題演化研究上。為了提高主題的提取效率，文獻(xiàn)[21]提出主題模型的快速推理算法、在線學(xué)習(xí)算法、文本流推理算法以及分布式學(xué)習(xí)等研究。目前比較重要的結(jié)合時(shí)間屬性的主題模型有在線LDA模型OLDA(Online LDA)以及增量LDA模型(Increment LDA)。文獻(xiàn)[48]對(duì)兩者做了具體的比較，即兩者都可以在線處理，ILDA模型偏向內(nèi)容演化，文本需要根據(jù)時(shí)間先分類(即先離散)，話題數(shù)量可變，且可自動(dòng)確定；而OLDA既可以進(jìn)行內(nèi)容演化又可以進(jìn)行強(qiáng)度演化，一般按照時(shí)間順序直接建模，雖然提取的話題數(shù)量固定，但是可以實(shí)現(xiàn)新話題的檢測(cè)。目前關(guān)于短文本的直接在線處理不多，一般是通過(guò)時(shí)間窗口進(jìn)行聚類或者分類研究[49,50]。

4 結(jié)束語(yǔ)

主題模型作為目前信息提取的重要工具之一，雖然針對(duì)短文本的稀疏、噪聲以及冗余等問(wèn)題出現(xiàn)了不同側(cè)重的解決方案，但是缺乏全面型通用模型的研究。數(shù)據(jù)產(chǎn)生量大、速度快以及存儲(chǔ)空間增大等外部環(huán)境，將對(duì)主題模型的并行化或者分布式協(xié)同能力提出更高的要求。此外，面向特定短文本的主題建模研究將越來(lái)越多，以網(wǎng)絡(luò)輿情為例，除了一般意義上的主題提取，目前已經(jīng)衍生出一系列集成化程度更高的領(lǐng)域，如輿情動(dòng)態(tài)熱點(diǎn)識(shí)別、熱點(diǎn)動(dòng)態(tài)演化預(yù)測(cè)以及資訊的實(shí)時(shí)推薦等。主題模型作為其中的重要環(huán)節(jié)，在模型擴(kuò)展以及應(yīng)用擴(kuò)展等方面已經(jīng)取得了巨大進(jìn)步，但是目前關(guān)于主題模型算法性能的系統(tǒng)評(píng)測(cè)體系并不完整,研究略顯不足。所以，后續(xù)這一部分的研究應(yīng)該得到充分的重視。