亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        主題模型在短文本上的應(yīng)用研究*

        2020-03-04 07:56:52韓肖赟侯再恩
        關(guān)鍵詞:語(yǔ)義文本方法

        韓肖赟,侯再恩,孫 綿

        (陜西科技大學(xué)文理學(xué)院,陜西 西安 710021)

        1 引言

        互聯(lián)網(wǎng)技術(shù)和智能社會(huì)的快速發(fā)展,推動(dòng)了信息的快速交流和傳播,表現(xiàn)為常見的信息組織形式(像語(yǔ)音、視頻、圖片和文本等)向更快捷的形態(tài)轉(zhuǎn)變。文本作為其中的重要成員,也實(shí)現(xiàn)了由長(zhǎng)到短的轉(zhuǎn)變。對(duì)于文本分析而言,如何高效地從大量高維、低質(zhì)量、無(wú)標(biāo)注的非結(jié)構(gòu)化數(shù)據(jù)中尋找有價(jià)值的信息成為當(dāng)前數(shù)據(jù)挖掘的重要目標(biāo)。

        主題模型是解決上述問(wèn)題的一種重要方法,目前已經(jīng)滲透到主題提取、文本聚類、文本分類、社交網(wǎng)絡(luò)關(guān)系挖掘以及情感極性分析等多個(gè)領(lǐng)域[1,2]。目前比較成熟的主題模型包括概率潛語(yǔ)義模型PLSA(Probalistic Latent Semantic Analysis)[3]、潛在狄利克雷分配模型LDA(Latent Dirichlet Allocation)[4]、非負(fù)矩陣分解NMF(Non-negative Matrix Factorization)及其它衍生模型。PLSA(PLSI表示概率隱含語(yǔ)義標(biāo)引模型,又稱為PLSA)和LDA都是對(duì)隱含語(yǔ)義標(biāo)引模型LSI(Latent Semantic Indexing)的改進(jìn)。LSI模型的基本思想是通過(guò)奇異值分解將高維的向量空間模型表示的文檔映射到低維的潛在語(yǔ)義空間,但其本身卻不能提供明確的語(yǔ)義解釋。PLSA是在LSI的基礎(chǔ)上,引入了概率,增強(qiáng)了潛在主題與詞匯文檔之間的匹配關(guān)系,即文檔的主題分布;而LDA是在PLSA的基礎(chǔ)上,引入多項(xiàng)式的共軛先驗(yàn)分布Dirichlet來(lái)豐富分布的參數(shù)。這樣可以準(zhǔn)確地實(shí)現(xiàn)對(duì)文檔分詞、文檔和詞-主題內(nèi)部的相似性判定。文獻(xiàn)[5]對(duì)PLSA和LDA模型的實(shí)際應(yīng)用性能進(jìn)行了綜合比較,發(fā)現(xiàn)在文檔級(jí)分類上,前者要明顯優(yōu)于后者,但卻容易出現(xiàn)過(guò)擬合現(xiàn)象。文獻(xiàn)[6]進(jìn)一步發(fā)現(xiàn),LDA模型偏向更細(xì)粒度的文本分類。上述主題模型的建立主要依賴于長(zhǎng)文本中的詞共現(xiàn)關(guān)系,當(dāng)文本長(zhǎng)度發(fā)生變化時(shí),應(yīng)用性能都會(huì)出現(xiàn)不同程度的削減。NMF可以很好地處理短文本數(shù)據(jù)集,尤其是處理不平衡數(shù)據(jù)集,但存在擬合結(jié)果不一致的問(wèn)題,且穩(wěn)定性不如LDA[7]。

        文獻(xiàn)[8]提出了狄利克雷多項(xiàng)混合模型DMM(Dirichlet Multinomial Mixture),其與LDA最大的不同在于假設(shè)每一篇短文本至多有一個(gè)主題,而不是多個(gè)主題,且文檔內(nèi)部的所有單詞之間主題共享,從而可以有效地緩解文本特征稀疏對(duì)建模的影響。而且DMM可以看作是LDA的一元混合模型。兩者都是基于詞-詞共同出現(xiàn)的模式(也稱同現(xiàn)關(guān)系)進(jìn)行建模,所以改善同現(xiàn)關(guān)系將成為主題模型研究的關(guān)鍵。

        2 文本預(yù)處理研究

        2.1 文本表示方法

        Salton等[9]在1975年基于詞匯的上下文無(wú)關(guān)文法提出了向量空間模型VSM(Vector Space Model),將所有文檔表示成有意義的向量,通過(guò)“文檔-詞項(xiàng)”矩陣有效地實(shí)現(xiàn)了模型推導(dǎo)。

        關(guān)于特征計(jì)算,目前已有布爾權(quán)重、絕對(duì)詞頻TF(Term Frequency)、熵權(quán)重、倒排文檔頻度IDF(Inverse Document Frequency) 以及組合計(jì)算方法TFIDF(或TF-IDF)等。宗成慶研究員[10]指出特征權(quán)重計(jì)算的實(shí)質(zhì)是,考慮特征項(xiàng)在整個(gè)類中的分布問(wèn)題。

        詞向量的出現(xiàn),不僅能夠再現(xiàn)文檔中詞項(xiàng)的同現(xiàn)模式,還能捕捉到文本的語(yǔ)義和句法信息。它經(jīng)歷了從獨(dú)熱編碼(One-hot)向分布式表示DR(Distributed Representation)[11]的轉(zhuǎn)變。One-hot編碼將每一篇文檔表示為一個(gè)N(表示文檔的詞袋規(guī)模)維向量。雖然這種文本表示比較直觀,但是容易出現(xiàn)數(shù)據(jù)維災(zāi),且0,1表示不能很好地刻畫詞與詞之間的相關(guān)關(guān)系。分布式表示將文檔中的每一個(gè)詞在語(yǔ)義空間映射成一個(gè)長(zhǎng)度固定的向量,并且可以通過(guò)歐氏距離刻畫詞之間的語(yǔ)義相似性。詞向量訓(xùn)練經(jīng)典的工作包括Bengio的語(yǔ)言模型框架,以及SCNNA(Single Convolutional Neural Network Architecture)、HLBLM (Hierarchical Log-Bilinear Language Model)和RNNLM(Recurrent Neural Network Language Model)等模型[12],以及Google的詞向量訓(xùn)練工具word2vec[13]。詞向量有效地引入上下文信息,從根本上提高了文本的表示效率。

        2.2 主題模型發(fā)展現(xiàn)狀

        以LDA為主的傳統(tǒng)的主題模型依賴于詞同現(xiàn)模式實(shí)現(xiàn)建模,短文本勢(shì)必會(huì)降低這種模式出現(xiàn)的可能性。但是,近幾年短文本數(shù)據(jù)集的出現(xiàn)頻率要遠(yuǎn)高于長(zhǎng)文本的,所以傳統(tǒng)主題模型需要去適應(yīng)和改變,主要包括主題模型的自適應(yīng)和短文本調(diào)整。

        (1)主題模型的自適應(yīng)。

        傳統(tǒng)主題模型以LDA模型為例,其中最簡(jiǎn)單的處理方式是對(duì)LDA的詞假設(shè)進(jìn)行弱化,即文檔中每一個(gè)詞具有不同主題。Yan等[14]基于詞對(duì)同現(xiàn)模式提出了雙詞話題模型BTM(Biterm Topic Model),即將原來(lái)的一個(gè)詞擴(kuò)展到一個(gè)詞對(duì)。但在實(shí)際應(yīng)用過(guò)程中,并非所有共現(xiàn)的詞對(duì)都能表現(xiàn)出高度的主題聯(lián)系。蔡洋等[15]基于詞對(duì)網(wǎng)絡(luò)的主題聯(lián)系度,提出利用三角圖結(jié)構(gòu)篩選目標(biāo)詞對(duì),然后假定這些詞同時(shí)具有不同的主題。這些方法可以有效地緩解短文本數(shù)據(jù)集上特征稀疏的問(wèn)題,其他方法將在第3節(jié)介紹。

        (2)短文本的人工干預(yù)。

        主要包括2種方法:①采用聚類或者增加考察屬性的方式,將短文本擴(kuò)展成一個(gè)可以接受的偽長(zhǎng)文檔。文獻(xiàn)[16]提出自聚集方法SADTM(Self-Aggregation Dynamic Topic Model)的動(dòng)態(tài)主題模型,能夠有效捕捉主題分布隨時(shí)間的漸變信息,并通過(guò)文本聚合為主題建模提供了更多新的詞對(duì)同現(xiàn)模式。文獻(xiàn)[17]利用同一用戶的興趣標(biāo)簽以及文本時(shí)間戳等信息元素對(duì)推特文本進(jìn)行特征擴(kuò)充。這種方法在增加文本特征的同時(shí)也豐富了文本形式,但在有些領(lǐng)域上不適用。②基于詞向量,依托外部語(yǔ)料庫(kù)提供額外輔助文本信息,從而緩解短文本上特征稀疏以及同現(xiàn)模式缺乏等問(wèn)題。雖然這種處理方法目前效果較好,但是其對(duì)外部數(shù)據(jù)源的質(zhì)量要求較高,且文本依賴性較強(qiáng)。文獻(xiàn)[9,18]提出了通過(guò)維基百科(Wikipedia)和詞網(wǎng)絡(luò)(WordNet)等外部語(yǔ)料訓(xùn)練詞向量來(lái)豐富小語(yǔ)料庫(kù)上短文本語(yǔ)義,但是在實(shí)際應(yīng)用過(guò)程中,不可避免地會(huì)引入噪聲和個(gè)人的主觀偏好。Zheng等[19]通過(guò)引入一組共軛定義來(lái)表征主題和詞的結(jié)構(gòu),并提供了一種虛擬生成短文本的方法。這種方法的好處在于保持主題一致的同時(shí),能夠有效地處理好新詞。

        3 LDA和DMM及其相關(guān)研究

        3.1 LDA和DMM

        3.1.1 模型生成過(guò)程

        如圖1所示,LDA和DMM具有相似的生成過(guò)程,且都為3層貝葉斯網(wǎng)絡(luò)的生成式概率模型。

        Figure 1 Graph model of LDA and DMM圖1 LDA和DMM的圖模型

        以下是LDA模型和DMM模型的具體生成過(guò)程:

        (1)LDA模型。

        假設(shè)每一篇文檔是由多個(gè)主題混合而成;每一個(gè)主題是單詞集合上的概率分布,且文檔中每一個(gè)詞都是由一個(gè)固定的主題生成。

        生成過(guò)程:

        ②每一個(gè)文檔dm,采樣一個(gè)主題分布θd~Dir(α)。

        ③對(duì)于文檔dm中的所有詞匯wm,i,遍歷a,b:

        a 選擇一個(gè)主題zm,j,zm,j~Multi(θd);

        (2)DMM模型。

        將整個(gè)語(yǔ)料庫(kù)看作是多個(gè)主題的混合;假設(shè)每一篇短文檔至多有一個(gè)主題,且該主題在同一篇文檔中的所有詞之間共享。

        生成過(guò)程:

        ①采樣整個(gè)語(yǔ)料庫(kù)上的主題混合比πz~Dir(α)。

        ③對(duì)于每一篇文檔d,對(duì)于每一個(gè)單詞wm,i:

        a 選擇主題分布zd,zd~Multi(πz);

        接下來(lái)將分別介紹LDA和DMM模型的塌陷吉布斯采樣的參數(shù)估計(jì)推導(dǎo)、潛在主題個(gè)數(shù)的確定方案、主題模型目前的擴(kuò)展研究以及在網(wǎng)絡(luò)輿情上的應(yīng)用現(xiàn)狀。

        3.1.2 參數(shù)估計(jì)

        在主題模型中,wm,n(d)為已知變量,α和β為給定的狄利克雷分布先驗(yàn)參數(shù),zm,n為潛在主題,是模型的生成變量,所以真正需要估計(jì)的是文檔-主題分布θm,k和主題-詞分布φk,t。目前主要的參數(shù)估計(jì)方法主要有期望極大EM(Expectation Maximization)算法、吉布斯采樣GS (Gibbs Sampling)、變分貝葉斯估計(jì)、消息傳遞算法、平均場(chǎng)變分期望最大化和期望傳播算法[21,22]。吉布斯抽樣和變分推斷是2種比較常用的方法,前者通過(guò)構(gòu)造一個(gè)具有平穩(wěn)狀態(tài)的馬爾科夫鏈的后驗(yàn)分布去逼近未知的真實(shí)樣本分布,而后者使用已知簡(jiǎn)單分布逼近需推斷的復(fù)雜分布,并通過(guò)限制近似分布的類型,得到一種局部最優(yōu)且有確定解的近似后驗(yàn)分布[23]。本文主要介紹LDA的塌陷吉布斯抽樣和DMM的吉布斯采樣GSDMM算法[24]。

        (1)LDA模型。

        塌陷吉布斯抽樣中“塌陷”的含義是指通過(guò)積分的形式避開對(duì)隱含參數(shù)的直接計(jì)算,利用主題與參數(shù)之間的統(tǒng)計(jì)關(guān)系,實(shí)現(xiàn)對(duì)文檔-主題分布和主題-詞分布的估計(jì)。

        ①根據(jù)圖1a的圖模型所示以及3.1.1節(jié)中的生成過(guò)程,可以得到主題模型的聯(lián)合概率分布:

        p(w,z|α,β)=p(w|z,β)p(z|α)

        (1)

        其中,

        (2)

        ②利用主題模型的聯(lián)合概率分布,計(jì)算條件后驗(yàn)概率。

        (3)

        ③利用多項(xiàng)式分布的先驗(yàn)分布——狄利克雷分布的推論以及式(3),可以得到目標(biāo)參數(shù)的概率分布。最終通過(guò)狄利克雷的期望實(shí)現(xiàn)對(duì)參數(shù)的估計(jì)。

        Dir(θm|nm+α)

        (2)GSDMM算法。

        p(d,z|α,β)=p(d|z,β)p(z|α)=

        (4)

        (5)

        其中,V表示語(yǔ)料庫(kù)單詞的總量。

        3.1.3 潛在主題個(gè)數(shù)的確定

        無(wú)論是LDA還是DMM模型,都需要確定出具體的主題個(gè)數(shù),對(duì)應(yīng)于超參數(shù)α的維數(shù)K。鑒于兩者的相似性,以下主要分析LDA的主題數(shù)確定方法。

        (1)直接確定方法。這類方法一般選取具體指標(biāo)作為優(yōu)化參數(shù),理解簡(jiǎn)單,比較容易實(shí)現(xiàn)。通常采用困惑度(Perplexity)最小作為最優(yōu)模型的衡量標(biāo)準(zhǔn)[4]。但在實(shí)際應(yīng)用中,存在質(zhì)量不穩(wěn)定和主題數(shù)范圍偏大的問(wèn)題。后續(xù)比較有效的優(yōu)化指標(biāo)還包括困惑度-主題方差(Perplexity-Var)指標(biāo)[25]、主題一致性TC(Topic Coherence)[26]和困惑度拐點(diǎn)法RPC(the Rate of Perplexity Change)[27]。

        為了衡量上述常見指標(biāo)在確定最優(yōu)主題數(shù)時(shí)的有效性,以下將選用2個(gè)不同分布的數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)準(zhǔn)備見表1。

        具體測(cè)試結(jié)果如圖2和圖3所示,圖2表示不均勻數(shù)據(jù)集上的相關(guān)指標(biāo)測(cè)試,圖3為均勻數(shù)據(jù)集上的相關(guān)指標(biāo)測(cè)試。

        Figure 2 Performance comparison of different methods (uneven data)圖2 不均勻數(shù)據(jù)集上相關(guān)指標(biāo)測(cè)試

        Figure 3 Performance comparison of different methods (uniform data)圖3 均勻數(shù)據(jù)集上相關(guān)指標(biāo)測(cè)試

        Table 1 Pre-experiment preparation表1 實(shí)驗(yàn)前期準(zhǔn)備

        Table 2 Statistics of optimal number of topics表2 最優(yōu)主題數(shù)結(jié)果統(tǒng)計(jì)

        如表3所示,基于困惑度、困惑度拐點(diǎn)法以及困惑度-方差以及確定的最優(yōu)主題數(shù)對(duì)數(shù)據(jù)集的分布比較敏感,前兩者確定的主題數(shù)比較相近,后者相差較遠(yuǎn)。文獻(xiàn)[2]的實(shí)驗(yàn)數(shù)據(jù)為期刊論文摘要,訓(xùn)練模型的過(guò)程中,主題方差隨著主題數(shù)目的增加而減少。這與本文的實(shí)驗(yàn)結(jié)果幾乎相反,對(duì)于困惑度-主題方差指標(biāo)而言,引入的主題方差未能實(shí)現(xiàn)對(duì)寬泛主題的有效約束。本文認(rèn)為文本篇幅普遍較長(zhǎng),是造成困惑度-方差性能差異的主要原因。當(dāng)文檔詞袋規(guī)模大幅度增加時(shí),盡管隨著主題數(shù)的增加會(huì)造成分詞的主題占比的差異性減小,但是較大的基數(shù)并不能保證其累積方差出現(xiàn)顯著性下降。根據(jù)主題一致性指標(biāo)在2個(gè)數(shù)據(jù)集上確定的主題數(shù)分別為25和30,比較符合實(shí)驗(yàn)數(shù)據(jù)集的主題分布和步長(zhǎng)限定(見表2),所以可以確認(rèn)該指標(biāo)的有效性。文獻(xiàn)[26]認(rèn)為通常意義上的測(cè)試集對(duì)選擇最優(yōu)主題數(shù)是一個(gè)充分非必要條件。在上述實(shí)驗(yàn)中發(fā)現(xiàn),基于該指標(biāo)在訓(xùn)練集和測(cè)試上確定的最優(yōu)主題數(shù)比較相近。綜上所述,可以認(rèn)為主題一致性指標(biāo)的性能要優(yōu)于其它3種指標(biāo)的。

        (2)間接確定方法。這類方法主要借助其它優(yōu)化算法實(shí)現(xiàn)對(duì)問(wèn)題的有效轉(zhuǎn)化,避免直接求解最優(yōu)主題數(shù)。一是非參數(shù)化方法。Teh等[28]通過(guò)層次狄利克雷過(guò)程對(duì)主題數(shù)目進(jìn)行了非參數(shù)化處理,得到了與困惑度指標(biāo)方法類似的結(jié)論。但是,這種方法時(shí)間復(fù)雜度較高。Griffiths等[29]提出用貝葉斯模型確定最優(yōu)主題數(shù)目的方法。二是基于聚類或分類方法。李菲菲等[30]發(fā)現(xiàn)文檔聚類簇與文檔集隱含的主題數(shù)相一致的特點(diǎn),基于高頻詞網(wǎng)絡(luò)利用社區(qū)發(fā)現(xiàn)算法確定出LDA模型的最優(yōu)主題個(gè)數(shù)。文獻(xiàn)[8]通過(guò)模擬學(xué)生電影愛(ài)好分類情景,提出了MGP(Movies Group Process)算法,實(shí)現(xiàn)了主題個(gè)數(shù)的自適應(yīng)。

        3.2 擴(kuò)展研究

        Mazarura等[31]通過(guò)測(cè)量模型的主題一致性和主題穩(wěn)定性發(fā)現(xiàn),在短文本上GSDMM算法的性能總體上要優(yōu)于LDA模型的。Liu等[32]提出主題詞嵌入模型TWE(Topical Word Embeddings),以詞-主題分布為對(duì)象,引入詞嵌入實(shí)現(xiàn)對(duì)特定主題的特征表示。李思宇等[33]針對(duì)BTM中詞對(duì)缺少主題和語(yǔ)義相關(guān)性的問(wèn)題,提出了詞對(duì)GS采樣算法。余沖等[34]權(quán)衡了由內(nèi)外部語(yǔ)料訓(xùn)練得到的詞向量對(duì)主題表達(dá)的影響,提出了詞-主題混合WTM(Word Topic Mixture)模型,重新定義了主題模型與詞嵌入條件概率分布。這些模型大多都在不同程度上實(shí)現(xiàn)了對(duì)LDA模型的擴(kuò)展,要么引入詞嵌入技術(shù)訓(xùn)練詞向量,要么是基于同現(xiàn)關(guān)系的文本特征擴(kuò)展。所以不可否認(rèn),LDA模型對(duì)主題模型擴(kuò)展的借鑒意義和重要價(jià)值。

        Table 3 Research on the extension of thematic models in recent years表3 近幾年主題模型的擴(kuò)展研究

        對(duì)近2年主題模型的擴(kuò)展研究進(jìn)行總結(jié)比較(如表3所示)發(fā)現(xiàn),針對(duì)不同表現(xiàn)形式以及不同數(shù)據(jù)結(jié)構(gòu)的主題建模已經(jīng)進(jìn)入了一個(gè)新的高度。而且關(guān)于緩解數(shù)據(jù)稀疏性、噪聲以及數(shù)據(jù)冗余問(wèn)題的解決方案較多。與以往的主題模型[2,35]相比,如今主題模型對(duì)文本信息考慮得更加全面,主要包括文本信息、語(yǔ)義信息以及句法信息。這些從根本上得益于深度學(xué)習(xí)算法的快速發(fā)展和自然語(yǔ)言模型的自我完善。主題模型作為重要的信息提取手段,雖然可以提取出主題,但是不能直接體現(xiàn)出熱點(diǎn)主題與相應(yīng)主題之間的關(guān)聯(lián)關(guān)系。在未來(lái)基于主題模型的擴(kuò)展框架研究將會(huì)增多,如文獻(xiàn)[36,37]所示,主題模型將承接主題詞提取的重要環(huán)節(jié),研究重心會(huì)偏向主題可擴(kuò)展性、熱點(diǎn)主題詞網(wǎng)絡(luò)演化、可視化和交互應(yīng)用開發(fā)等方面。

        3.3 主題模型在網(wǎng)絡(luò)輿情中的應(yīng)用研究

        主題模型是網(wǎng)絡(luò)輿情分析的重要工具。網(wǎng)絡(luò)輿情本身所具有的主觀性使其容易被引導(dǎo),所以針對(duì)輿情的演化研究具有十分重要的意義。目前關(guān)于網(wǎng)絡(luò)輿情的研究主要包括輿情熱點(diǎn)話題識(shí)別[37]、網(wǎng)絡(luò)社交關(guān)系研究、話題演化研究(包括話題強(qiáng)度和話題內(nèi)容演化)[48]、新話題探測(cè)以及基于主題模型的協(xié)同過(guò)濾等。話題的演化包括初現(xiàn)、衰減、高潮、潛伏、終結(jié)等階段。輿情本身的時(shí)效性使得信息的時(shí)間屬性的作用被放大,尤其是在話題演化研究上。為了提高主題的提取效率,文獻(xiàn)[21]提出主題模型的快速推理算法、在線學(xué)習(xí)算法、文本流推理算法以及分布式學(xué)習(xí)等研究。目前比較重要的結(jié)合時(shí)間屬性的主題模型有在線LDA模型OLDA(Online LDA)以及增量LDA模型(Increment LDA)。文獻(xiàn)[48]對(duì)兩者做了具體的比較,即兩者都可以在線處理,ILDA模型偏向內(nèi)容演化,文本需要根據(jù)時(shí)間先分類(即先離散),話題數(shù)量可變,且可自動(dòng)確定;而OLDA既可以進(jìn)行內(nèi)容演化又可以進(jìn)行強(qiáng)度演化,一般按照時(shí)間順序直接建模,雖然提取的話題數(shù)量固定,但是可以實(shí)現(xiàn)新話題的檢測(cè)。目前關(guān)于短文本的直接在線處理不多,一般是通過(guò)時(shí)間窗口進(jìn)行聚類或者分類研究[49,50]。

        4 結(jié)束語(yǔ)

        主題模型作為目前信息提取的重要工具之一,雖然針對(duì)短文本的稀疏、噪聲以及冗余等問(wèn)題出現(xiàn)了不同側(cè)重的解決方案,但是缺乏全面型通用模型的研究。數(shù)據(jù)產(chǎn)生量大、速度快以及存儲(chǔ)空間增大等外部環(huán)境,將對(duì)主題模型的并行化或者分布式協(xié)同能力提出更高的要求。此外,面向特定短文本的主題建模研究將越來(lái)越多,以網(wǎng)絡(luò)輿情為例,除了一般意義上的主題提取,目前已經(jīng)衍生出一系列集成化程度更高的領(lǐng)域,如輿情動(dòng)態(tài)熱點(diǎn)識(shí)別、熱點(diǎn)動(dòng)態(tài)演化預(yù)測(cè)以及資訊的實(shí)時(shí)推薦等。主題模型作為其中的重要環(huán)節(jié),在模型擴(kuò)展以及應(yīng)用擴(kuò)展等方面已經(jīng)取得了巨大進(jìn)步,但是目前關(guān)于主題模型算法性能的系統(tǒng)評(píng)測(cè)體系并不完整,研究略顯不足。所以,后續(xù)這一部分的研究應(yīng)該得到充分的重視。

        猜你喜歡
        語(yǔ)義文本方法
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對(duì)
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        認(rèn)知范疇模糊與語(yǔ)義模糊
        久久天天躁夜夜躁狠狠85麻豆| 无码伊人久久大蕉中文无码| 亚洲国产不卡免费视频| 亚洲av一区二区三区色多多| 国产精品国三级国产av| 国产免费又色又爽又黄软件| 九九久久精品大片| 国产自拍一区在线视频| 俺去啦最新地址| 欧美巨大性爽| 亚洲第一区无码专区| 中文字幕亚洲五月综合婷久狠狠| 无码av中文一区二区三区| 亚洲av无码精品色午夜蛋壳| 911国产在线观看精品| 日本不卡不二三区在线看| 国产区精品一区二区不卡中文 | 国产精品.xx视频.xxtv| 欧美精品高清在线xxxx| 国产性色av一区二区| 国产午夜手机精彩视频| 国产人碰人摸人爱视频| 亚洲免费无毛av一区二区三区| 少妇被按摩出高潮了一区二区| 国产成人亚洲精品无码av大片| 国产在线白丝DVD精品| 日本一级淫片免费啪啪| 亚洲最新国产av网站| 亚洲av麻豆aⅴ无码电影| 午夜精品一区二区三区无码不卡| 日产精品毛片av一区二区三区| 久久久久久自慰出白浆| 国产肉体ⅹxxx137大胆| 熟女白浆精品一区二区| 日本免费一区二区三区影院| 国产av丝袜旗袍无码网站| 国产乱人伦偷精品视频免| 亚洲女同性恋第二区av| 亚洲人成网网址在线看| 一本久道久久综合婷婷五月| 久久99精品免费国产|