亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于微博文本的詞對主題演化模型

        2017-07-31 17:47:12史慶偉劉雨詩張豐田
        計算機應用 2017年5期
        關鍵詞:博文語料短文

        史慶偉,劉雨詩,張豐田

        (遼寧工程技術大學 軟件學院,遼寧 葫蘆島 125105)

        基于微博文本的詞對主題演化模型

        史慶偉,劉雨詩*,張豐田

        (遼寧工程技術大學 軟件學院,遼寧 葫蘆島 125105)

        (*通信作者電子郵箱shishi.mail@foxmail.com)

        針對傳統主題模型忽略了微博短文本和文本動態(tài)演化的問題,提出了基于微博文本的詞對主題演化(BToT)模型,并根據所提模型對數據集進行主題演化分析。BToT模型在文本生成過程中引入連續(xù)的時間變量具體描述時間維度上的主題動態(tài)演化,同時在文檔中構成主題共享的“詞對”結構,擴充了短文本特征。采用Gibbs采樣方法對BToT參數進行估計,根據獲得的主題-時間分布參數對主題進行演化分析。在真實微博數據集上進行驗證,結果表明,BToT模型可以描述微博數據集中潛在的主題演化規(guī)律,獲得的困惑度評價系數低于潛在狄利克雷分配(LDA)、詞對主題模型(BTM)和主題演化模型(ToT)。

        特征值稀疏;主題演化模型;動態(tài)演化;Gibbs采樣;微博

        0 引言

        當前微博作為一種新的傳播載體,允許任何人用電腦、手機等方式在任意時間發(fā)布任何言論,且這些言論能迅速傳播給互聯網所能觸及的任何人[1]。微博數據實時且傳播廣泛的特點,使其數據蘊含了巨大的應用價值。近年來,在用戶推薦,輿情監(jiān)控和話題追蹤等研究方向上往往使用微博數據作為實驗數據集。因此,如何更好地挖掘微博數據、理解微博文本語義成為研究熱點。

        不同于普通文本的語義理解,主題模型在微博上的應用應同時考慮微博文本的兩個主要特點:特點一,微博文本帶有時間標記,文本語義在時間維度上動態(tài)演化,具有實時性;特點二,微博發(fā)布的信息為140字以下的短文本,而短文本的特征矩陣特別稀疏且上下文相關性極強。目前,主題模型解決微博文本特征值稀疏的方法大致可歸納為兩類:背景語料訓練和特征值擴充。其中,背景語料訓練的方法建立在一種假設上,即作為背景語料集的長文本集合與短文本集的潛在語義分布相同,這樣的假設對數據集質量要求較高,不適用于內容分散的微博文本;而特征擴展方法更廣泛地應用于微博語義分析的過程,方法使用外部特征或文本本身對短文本特征進行合理擴充,對潛在語義在語料集上的分布影響較小,應用于微博文本較為合適。然而,這些主題模型的應用還不能很好地展示微博主題在連續(xù)時間上的演化過程。下面舉例加以說明:

        1)雙十一電商都在打折,可以好好購物。

        —2015-11-01

        2)五一假期去哪里玩呢?農家樂怎么樣。

        —2015-04-27

        針對這樣的兩條微博,擴充特征的主題模型雖能得到主題A1(購物)、主題A2(節(jié)假),但是無法確定分析出主題出現的時間,更無法探知A1、A2主題隨時間的變化趨勢。這是由于缺少時間因素造成的,模型默認A1、A2兩個主題出現在同一時間點,但是顯然主題A1在現實中出現在2015-11-11前后的概率更大,而主題A2應更可能出現在2015-05-01左右。所以無時間因素的主題模型中會忽略了微博文本的動態(tài)屬性,導致模型在應用過程中無法得到受時間因素影響的主題分布。這使得在基于微博的輿情監(jiān)測和熱點追蹤等問題的研究上只能使用單一時間點或離散時間點的主題分布進行研究,并不符合微博數據在連續(xù)時間上分布的事實。而引入時間因素的主題演化模型是基于長文本集提出的,在微博短文本上的應用效果不佳?,F假設一種極端情況進行說明,若文檔集中的文檔只包含一個詞,則該文檔下的主題只有一個,在統計過程中過少的樣本將無法保證文檔-主題分布符合實際情況。

        從上訴分析可知,現有的解決特征稀疏的主題模型沒有考慮時間維度,不能表示主題在時間上的演化過程,而考慮時間因素的主題演化模型直接作用在特征值稀疏的短文本上效果不佳,不適用于微博短文本。這兩類主題模型對微博進行語義分析都可能無法有效地獲得微博文本中的潛在語義演化趨勢。

        因此,為契合微博文本的兩個主要特點,本文嘗試提出一種針對短文本的主題演化模型。模型通過不依賴于外部文本的擴充文檔特征的方法,解決短文本在主題模型上因特征稀疏照成的效果不佳的問題,同時模型引入時間變量,在文本生成過程中增加時間因素的影響,使該主題模型適用于微博文本。

        1 相關工作

        相比呂超鎮(zhèn)等[2]提出的背景語料訓練的方法,特征擴充的方法更適用于主題模型在微博短文本上的應用。張晨逸等[3]提出的微博文本潛在狄利克雷語義分析(MicroBlog-Latent Dirichlet Semantic Analysis, MB-LDA),綜合考慮了微博的聯系人關聯關系和文本關聯關系,來輔助進行微博的主題挖掘。唐曉波等[4]提出的基于潛在狄利克雷分配 (Latent Dirichlet Allocation,LDA)模型和微博熱度的熱點挖掘方法,將熱點話題作為背景信息進行輔助。上訴擴充方法的實現是基于文本結構化的擴充方法,利用了微博文本的不同類型而區(qū)別處理,是針對特定的應用方向結合特定的外部特征輔助進行的微博文本挖掘。Xu等[5]通過使用維基百科作為數據源,對文本特征進行擴展以提高主題模型的性能。該方法雖不依賴與特定的文本結構,但是也增加了噪聲的可能性。Yan等[6]提出的詞對主題模型(Biterm Topic Model, BTM)根據位置相近的詞具有相近的隱含語義,將語料集中的距離相近的兩詞組構成詞對,降低文檔的特征稀疏性,且不依賴于外部文本。BTM與其他模型相比更好地解決了特征值稀疏問題,但其忽略文檔層的主題混合的同時并不能揭示主題在時間維度上的動態(tài)演化,對微博文本進行潛在語義分析可能存在偏差。

        主題演化模型將時間因素考慮到LDA模型相關體系, Blei等[7]在LDA模型的基礎上提出了動態(tài)主題模型 (Dynamic Topic Model,DTM)。由于實際應用中DTM的效果對不同大小劃分的時間粒度比較敏感,因此,Wang等[8]在DTM的基礎上,引入文本的時間戳標記到模型中,構建了連續(xù)時間版本的連續(xù)動態(tài)主題模型(continuous time Dynamic Topic Model, cDTM)。大量研究[9-11]表明,主題的演化過程呈現跳躍性,也就是說主題動態(tài)演化有可能不服從一階馬爾可夫假設。Wang等[12]提出了與馬爾可夫假設無關的主題演化模型ToT(Topic over Time),假設時間服從Beta分布[13],更好地擬合了主題動態(tài)演化過程; 但是主題演化模型對主題-詞分布和文檔-主題分布進行估計,短文本的特征值極度稀疏,導致采樣過程中文檔-主題分布不具有統計意義,所以主題演化模型不能直接應用于微博短文本。

        根據上述的研究結果,本文基于微博文本的兩個主要特點,提出一種詞對和時間因素聯合建模的主題模型——詞對主題演化模型(Biterm Topic over Time, BToT)。首先該模型建模時將一篇文檔內的詞改寫成“詞對”集合,重新構建語料集結構,解決短文本的特征值稀疏的問題,且模型保留了文檔層的主題混合,為后續(xù)輿情監(jiān)測和熱點追蹤等問題的研究提供了易于使用的語料集特征。同時,模型將文本的時間戳信息引入到參數演化過程中,假設時間為連續(xù)變量且服從Beta分布,使模型更好地擬合實時性文檔的生成過程,適用于微博文本的語義理解。最后通過Gibbs采樣[14-15]對微博語料集的3個分布(文檔-主題、主題-詞和主題-時間)進行參數估計。

        2 詞對主題演化模型

        首先介紹BToT模型中使用的基本符號[16]。

        w表示構成文檔的基本單位:詞。文檔集內含有的所有詞的構成詞表集合V={1,2,3,…,V},w=v表示w是V內第v個詞。

        b表示同一文檔內任意兩詞構成的無序詞對,b={wm,i,wm, j},每個詞對中的詞屬于同一主題。

        d表示為一篇包含N個詞對的文檔,Nm表示第m篇文檔的詞對總數文檔,dm={bm,1,bm,2,…,bm,n},bm,n表示第m篇文檔中第n個詞對。

        D表示由m篇文檔構成的文檔集,文檔集D={d1,d2, …,dm},dm為文檔集中第m篇文檔。

        Z表示為潛在主題集合,Z={1,2,…,K},z=k表示z為主題集合中第k個主題。

        t表示為時間戳,時間戳集合T={t1,t2,…,tm},tm表示為第m篇文檔的時間戳。

        主題模型假設文檔為詞袋模式,即一篇文檔由若干個無序詞組成,在文檔-詞間存在潛在主題,使文章-主題和主題-詞服從一定的概率分布。即文本生成過程由文檔-主題概率分布和主題-詞概率分布聯合產生。假設,每個主題上的詞分布服從多項分布,矩陣φ∈RK*V表示每個主題上的詞分布概率,其中φk表示第k個主題之上每個詞的概率分布。每篇文檔上的主題分布同樣服從于多項分布,矩陣θ∈RM*K表示每篇文檔上的主題分布概率,其中θm表示第m篇文檔上每個主題的分布概率。

        由于多項分布的共軛先驗概率函數是狄利克雷(Dirichlet)分布[15]通過狄利克雷先驗分布可以推斷多項分布參數φ和θ。引入超參數α∈RK與β∈RV,即先驗概率函數狄利克雷分布的參數,使得θm~ Dirichlet(α),φk~ Dirichlet(β)。

        BToT模型是在傳統主題模型上對詞對、時間因素聯合建模。模型假設存在連續(xù)的時間變量,主題的分布與時間存在緊密聯系,所以時間因素影響主題分布。在文檔的生成過程中,假設主題-時間戳分布為Beta分布,其密度函數的形狀比高斯分布更豐富。文檔生成過程中加入第k個主題上隨時間變化的Beta 分布中生成單詞時間戳部分,在Beta分布中引入參數集Ψ,其中ψk為第k個主題上的時間分布參數。BToT模型假設語料集內相近的詞具有同一主題,將每篇文檔中的任意兩詞組成無序詞對,對間相互獨立,無序排列。若一篇文章有n(n>2)個詞,組成詞對后則含有n*(n-1)/2個詞對,擴大了文本特征,且不依賴于外部文檔,同時BToT模型在一篇文章內組成詞對的方式保留了文檔間的界限。需要注意在文檔生成過程中,詞對中的詞屬于同一主題,主題-詞分布依舊為多項分布φ,其參數的先驗分布依舊為Dirichlet分布。

        BToT模型在語料集中對文檔的產生過程描述如下:

        1)對于每個主題k∈[1,K]:

        從Dirichlet先驗β中抽取多項分布φk~Dirichlet(β);

        2)對于每篇文檔m∈[1,M] :

        從Dirichlet 先驗α中抽取多項分布θm~Dirichlet(α);

        3)對于每篇文檔m∈[1,M]中的每一個詞對b∈[1,N],其中b={wm,i,wm, j}:

        ①從θ中抽取一個主題zm,n,滿足

        zm,n~Multinomial(θm);

        ②在主題中抽取兩個單詞wm,i、wm, j,滿足

        wm,i,wm, j~Multinomial(φk);

        ③在參數為ψk的Beta函數上抽取一個時間戳,滿足tm,n~Beta(ψk)。

        模型生成過程中主題數K已知不變,詞表維度V與文檔數M根據語料集的具體情況確定,生成過程中已知不變。

        BToT模型的概率生成如圖1 所示。

        圖1 BToT模型概率圖Fig. 1 Probability graph of BTOT model

        在圖1中環(huán)形為觀察值,圓形表示變量,箭頭表示各變量之間存在的依賴關系,矩形表示迭代重復的次數[16]。根據上述描述,wm,i、wm, j是可以直接觀測到的已知變量。α與β作為Dirichlet先驗分布的參數,α反映語料集中主題間的相對強弱關系,β則反映主題自身的概率分布情況。剩余的變量zm,n、φk、θm是未知的隱含變量,需根據已知的觀察值進行估計的變量,其中zm,n由α與θm聯合生成,在生成zm,n后,φk與β生成bm,n中的兩詞wm,i、wm, j,一個詞對中的兩詞屬于同一主題。

        3 參數估計

        BToT模型的目標是找出每篇文檔的潛在主題和主題演化過程,需要計算后驗概率如下所示:

        (1)

        式(1)的分母,即整個語料集的所有單詞概率如下所示:

        其中:n是所有詞對的總數,分母要計算kn項,離散空間過大無法進行運算,需要其他方法對參數進行估計。比較常用的參數估計方法[19]包括期望傳播[20]、期望最大化[21]和Gibbs采樣等,其中Gibbs采樣是MCMC(Markov-Chain Monte Carlo)[22]的特例,Gibbs采樣作為一個在高維模型近似推斷上相對簡單的方法被廣泛使用,所以本文對BToT模型的3個隱含變量,φ、θ、Ψ進行采用Gibbs采樣估計,通過全概率公式對后驗概率公式進行模擬。

        進行Gibbs采樣首先要寫出文檔集在BToT模型中的聯合概率分布。根據圖1中的BToT模型的概率圖寫出dm,φ,θ,t,zm聯合概率分布如下所示:

        p(dm,zm,θm,φk,t|α,β,ψk)=

        p(dm,zm|θm,φk)p(θm|α)p(φk|β)p(t|ψk)=

        p(θm|α)p(φk|β)*p(t|ψk)

        (3)

        其中,對于每篇文檔的詞對集dm每一個詞對bm,n={wm,i,wm, j}的概率如下所示:

        p(bm,n=wm,i,wm, j|θm)=

        (4)

        給定主題情況下詞對的多項分布的似然函數,如下所示:

        p(bm,n=wm,i,wm, j|zm,φk)=

        (5)

        p(b|zm,β)=∫p(b|zm,φ)*p(φ|β)dφ=

        (6)

        同理可得:

        (7)

        p(z|α)=∫p(z|θ) *p(θ|α)dθ=

        (8)

        所以聯合概率分布最終如下所示:

        p(dm,zm,θm,φk,t|α,β,ψk)=

        (9)

        根據聯合概率分布和全條件概率公式得到全條件概率如下所示:

        Beta(ψk)=

        (10)

        采用上述公式,對語料集的每篇文檔下的每個單詞分配一個主題。當所有詞都分配主題后,完成一次迭代。在進行若干次迭代后,使馬爾可夫鏈條采樣出一系列的狀態(tài)點,直到達到平穩(wěn)分布狀態(tài),即為聯合概率分布,完成主題采樣。

        當主題采樣結束后,根據期望公式求得φ、θ兩個重要矩陣。

        (11)

        (12)

        詞對時間戳與文檔時間戳相同,服從于不同主題下的Beta分布。Beta分布參數ψk采用矩估計,如下所示:

        ψk,1=tk*[tk(1-tk)/sk-1]

        (13)

        (14)

        4 算法實現

        本文在主題模型的基本框架上,引入時間因素和詞對模式提出了BToT模型。算法需要實現語料集結構改變,對于語料集中的一篇文檔須將文檔中的詞向量改為詞對向量dm,其中每個詞對表示兩個詞組成的結構b={wm,i,wm, j}。在主題演化過程中,需對文檔集的時間戳遍歷,矩估計時間分布參數。

        為方便敘述,ITERATION為參數收斂時的迭代次數,M為語料集中文檔數,B設為一篇文檔中的詞對個數。BToT模型算法描述如下:

        輸入 文檔集合D;

        輸出 分布參數φ,θ,Ψ。

        1)

        //建立由詞對組成的文本集 Setdvariables composed of biterms for ever doc

        2)

        //初始化模型 Zero all count variablesnk,w,nm,k,nk,nmSample topic indexzm,nIncrement count and sumsnk,w,nm,k,nk,nm

        3)

        //初始化時間戳分布參數ΨComputeΨfor every doc’s time

        4)

        //進行迭代 for 1 toITERATIONdo

        5)

        for all documentm∈[1,M] do

        6)

        for all bitermsb∈[1,B] do

        7)

        //除去b所屬兩詞wi,wj的主題 Decrement count and sumsnk,wi-=1,nk,wj-=1,nm,k-=2,nk-=2 8) //隨機生成的新主題 Sample topic indexk~p(z|b)

        9)

        //添加b所屬兩詞wi,wj的主題 Add count and sumsnk,wi+=1,nk,wj+=1,nm,k+=2,nk+=2 10) End for

        11)

        End for

        12)

        End for

        13)

        //計算分布參數φ,θ,ΨCompute parameter setφ,θ,Ψ

        5 實驗結果及分析

        5.1 實驗數據及實驗環(huán)境

        為驗證BToT模型的有效性,選取2011年1月1日至2012年12月30日的真實微博數據作為語料集。通過對新聞、娛樂、體育、養(yǎng)生等13個熱門話題下的微博進行數據爬取,獲得包含帶有時間標記的微博正文81 209條的語料集。使用ICTCLAS 分詞系統對文博正文進行分詞,去停用詞。對語料集進行時間歸一化和排除無意義微博后得到可應用于實驗的微博正文70 496條,詞表大小為32 079。

        5.2 性能評估方法

        通常有3種方法對主題模型進行評估和最優(yōu)主題數確定。有貝葉斯統計標準方法[23]、困惑度(perplexity)方法[24]、主題之間的平均相似度方法[25]。本文通過對訓練結束后的模型進行困惑度計算來對模型評估。

        困惑度公式:

        (15)

        其中:b通常設置為2或e,H(q)是公式中q概率分布的熵。當概率q的困惑度平均分布時,將概率代入困惑度公式得到概率q的perplexity值,對于未知的概率分布q,perplexity的值越小,說明模型越好。xi為測試文本,即語料集中的詞表,N是語料集大小。將語料集數值代入困惑度公式,經推導主題模型困惑度計算公式如下所示:

        (16)

        5.3 參數設置

        BToT模型主要需對超參數α、β,主題數K,迭代次數進行設置。其中α=50/K,β=0.01,超參數α,β作為偽計數,對模型效果影響很小,但α值過大時,文檔屬于同一主題概率增加。主題數K的取值依次為20~200間隔20的數,通過對不同主題數下生成的模型進行困惑度計算,對比不同模型間的效果,同時獲取最佳主題數。Gibbs采樣的迭代次數為1 000結果可以達到收斂。

        5.4 實驗結果和分析

        1)模型性能評估。本文針對LDA主題模型、BTM主題模型、ToT主題模型及BToT主題模型進行對比實驗。通過在相同語料集上,用同一的性能評估方法進行實驗,實驗結果即各個模型在主題數取值范圍內的困惑度值如圖2所示。由圖2可知,BToT模型的困惑度值明顯小于LDA模型、BTM和ToT模型。說明在相同語料集和實驗環(huán)境下,BToT模型對時間標注的短文本集合有更好的效果。

        2)主題演化分析。主題演化分析是對某一確定主題和時間變化關系的描述,即主題-時間的概率分布。在BToT模型中主題-時間分布為Beta分布,通過采樣對Beta分布的參數ψk進行估計,由估計所的參數ψk求得各個主題隨時間的變化規(guī)律,公式如下所示:

        p(t|z)=Beta(ψk)=

        (17)

        由圖2可知困惑度隨主題數的增加而降低,當主題數為200時,BToT模型的困惑度最低。選取主題數為200時的主題2、主題95、主題196為例說明主題演化規(guī)律。

        圖2 LDA、BTM、ToT和BToT模型困惑度對比Fig. 2 Perplexity comparison of LDA, BTM, ToT, BToT表1 BToT模型主題2、95、196前20個詞的概率值Tab. 1 Top 20 word probability of BToT in topic 2,95,196

        主題2詞概率主題95詞概率主題196詞概率臺灣0.0420820中國0.0863234地球0.0399425兩岸0.0316476南海0.0239655人0.0291664命運0.0300980日本0.0210495環(huán)保0.0235496命0.0229007漁民0.0189841生命0.0225510馬英九0.0227974導彈0.0177691人類0.0224262中國0.0210756海軍0.0166757綠色0.0188065人0.0184928美國0.0166149基地0.0172670領導人0.0181485越南0.0149140小時0.0163933話筒0.0160478印度0.0140939項目0.0145210人民0.0134651菲律賓0.0135168生態(tài)0.0133977地區(qū)0.0120187漁船0.0123626組織0.0093618規(guī)律0.0119499級0.0114817神0.0091954理學0.0113989船0.0108135志愿者0.0087377大陸0.0093671帕0.0105097公益0.0084049蔡英文0.0085062艦0.0101756獎0.0081969主席0.0084373釣魚島0.0095074環(huán)境0.0071567朝鮮0.0083340島0.0092340動物0.0067406信息0.0081274戰(zhàn)機0.0092340中國0.0064494理論0.0080241俄羅斯0.0092037母親0.0064078和平0.0078864課程0.0091125淡水0.0062830

        圖3分別為3個主題的演化規(guī)律,圖中Beta函數曲線描述主題在連續(xù)時間上出現的概率,是對該主題在不同時間點受到關注強度的體現。在演化規(guī)律圖中Beta函數曲線為峰值時某主題的概率最大,表示該主題在此對應時間點的關注度最大,也可以說此時該主題的熱度最高。與臺灣問題相關的主題2自2011年1月逐步升高,在2012年5月所受關注度最高,而過后有逐步下降。主題95是與南海問題相關的主題,其在2012年6月所受關注度最高, 而2012年6月發(fā)生中菲南海爭端事件,民眾關注度與模型演化結果存在一致性。而與環(huán)保有關的主題196在2012年1月份后關注度持續(xù)上升。通過對主題演化模型的分析幫助用戶快速發(fā)現社會熱點即民眾關注度,從而對熱點變化作出較為準確的判斷,可以用于進一步的輿論監(jiān)控、熱點預測等工作。

        6 結語

        本文針對微博文本提出BToT模型,通過構建詞對模式和添加時間因素,改善了主題模型因短文本特征值稀疏造成的效果不佳,同時對明顯受時間因素影響的微博短文本語料集進行演化分析,可以得到微博對于主題的關注度變化。BToT模型參數估計采用Gibbs采樣方法實現。實驗結果表明,在相同實驗參數下,BToT模型效果較LDA模型、BTM和ToT模型更優(yōu)。

        圖3 主題演化規(guī)律Fig. 3 Evolution of topics

        通過以上的實驗測試與分析,BToT模型還有些不盡如人意,BToT模型在采樣過程中對文檔中的詞對進行遍歷,語料集中的詞對數遠大于詞數,因而相同實驗環(huán)境下,BToT模型的運行時間多于與LDA模型和ToT模型,略小于BTM,所以以后的工作將專注于通過并行化等方法提高模型的運算能力,使其適應于當前網絡環(huán)境下的海量數據處理。

        References)

        [1] 張劍鋒,夏云慶,姚建民.微博文本處理研究綜述[J].中文信息學報,2012,26(4):21-27.(ZHANG J F, XIA Y Q, YAO J M. A review towards microtext processing[J]. Journal of Chinese Information Processing, 2012,26(4):21-27.)

        [2] 呂超鎮(zhèn),姬東鴻,吳飛飛. 基于LDA特征擴展的短文本分類[J].計算機工程與應用, 2015, 51(4):123-127.(LYU C Z, JI D H, WU F F. Short text classification based on expanding feature of LDA[J]. Computer Engineering and Applications, 2015, 51(4):123-127.)

        [3] 張晨逸,孫建伶,丁軼群. 基于MB-LDA模型的微博主題挖掘[J].計算機研究與發(fā)展, 2011, 48(10):1795-1802. (ZHANG C Y, SUN J L, DING Y Q . Topic mining for microblog based on MB-LDA model[J]. Journal of Computer Research and Development, 2011, 48(10):1795-1802.)

        [4] 唐曉波,向坤. 基于LDA模型和微博熱度的熱點挖掘[J].圖書情報工作, 2014, 58(5):58-63.(TANG X B,XIANG K. Hotspot mining based on LDA model and microblog heat[J]. Library and Information Service, 2014, 58(5):58-63.)

        [5] XU T,OARD D W. Wikipedia-based topic clustering for microblogs[J].Proceedings of the American Society for Information Science and Technology,2011,48(1): 1-10.

        [6] YAN X, GUO J, LAN Y, et al. A biterm topic model for short texts[C]// Proceedings of the 22nd International Conference on World Wide Web. New York: ACM, 2013:1445-1456.

        [7] BLEI D, LAFFERTY J. Dynamic topic model[C]// Proceedings of the 23rd ICML International Conference on Machine Learning, New York: ACM, 2006: 113-120.

        [8] WANG C, BLEI D, HECKERMAN D. Continuous time dynamic topic models[C]// Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence. Corvallis: AUAI Press, 2008: 579-586.

        [9] 劉曉鳴. 社區(qū)問答系統中的專家發(fā)現方法研究[D].大連:大連理工大學,2013.(LIU X P. Finding experts in community question answering[D]. Dalian: Dalian University of Technology, 2013.)

        [10] 馬海平. 基于概率生成模型的相似度建模技術研究及應用[D].合肥:中國科學技術大學,2013.(MA H P. A study of probability generation model based similarity modeling techniques and its applications [D]. Hefei: University of Science and Technology of China, 2013.)

        [11] 羅遠勝. 跨語言信息檢索中雙語主題模型及算法研究[D].南昌:江西財經大學,2013.(LUO Y S. Research on bilingual topic model and its algorithm in cross-language information retrieval [D]. Nanchang: Jiangxi University of Finance and Economics, 2013.)

        [12] WANG X, MCCALLUM A. Topics over time: a non-Markov continuous-time model of topical trends[C]// Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2006: 424-433.

        [13] OWEN C B. Parameter estimation for the beta distribution[D]. Provo: Brigham Young University, 2008.

        [14] 劉書奎,吳子燕,張玉兵.基于Gibbs抽樣的馬爾科夫蒙特卡羅方法在結構物理參數識別及損傷定位中的研究[J]. 振動與沖擊, 2011, 30(10): 203-207.(LIU S K, WU Z Y, ZHANG Y B. Identification of physical parameters and damage locating with Markov chain Monte Carlo method based on Gibbs sampling[J]. Journal of Vibration and Shock, 2011, 30(10): 203-207.)

        [15] 馬躍淵,徐勇勇.Gibbs抽樣算法及軟件設計的初步研究[J]. 計算機應用與軟件, 2005, 22(2):124-126.(MA Y Y, XU Y Y. An initial study on the algorithm and the software of Gibbs sampling[J]. Computer Applications and Software, 2005, 22(2):124-126.)

        [16] 張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J]. 北京交通大學學報, 2010, 34(2):111-114.(ZHANG X P, ZHOU X Z, HUANG H K, et al. An improved LDA topic model[J]. Journal of Beijing Jiaotong University, 2010, 34(2):111-114.)

        [17] 荀靜, 劉培玉, 楊玉珍,等. 基于潛在狄利克雷分布模型的多文檔情感摘要[J]. 計算機應用, 2014, 34(6):1636-1640.(XUN J, LIU P Y, YANG Y Z, et al. Multi-document sentiment summarization based on latent Dirichlet allocation model[J]. Joutnal of Computers Applications,2014,34(6):1636-1364.)

        [18] 徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學報,2011, 34(8):1423-1436.(XU G, WANG H F. The development of topic models in natural language processing[J]. Chinese Journal of Computers, 2014, 34(6):1636-1364.)

        [19] HAN X, STIBOR T. Efficient collapsed Gibbs sampling for latent Dirichlet allocation[J].Journal of Machine Learning Research, 2010, 13: 63-78.

        [20] HOFFMAN M D, BLEI D M,WANG C, et al. Stochastic variational inference[J]. Journal of Machine Learning Research, 2013, 14(1):1303-1347.

        [21] HEINRICH G. Parameter estimation for text analysis[EB/OL]. [2013-04-25].http://www.Arbylon.net/publications/textest2.pdf.

        [22] 汲劍銳.馬爾科夫鏈應用的一些探討[D].武漢: 華中師范大學, 2012.(JI J R. The discussion about the applications of Markov chains[D]. Wuhan: Central China Normal University, 2012.)

        [23] 石晶,范猛,李萬龍.基于LDA模型的主題分析[J].自動化學報,2009,35(12):1586-1593.(SHI J, FAN M, LI W L. Text segmentation based on model LDA[J]. Acta Automatica Sinica, 2009,35(12): 1586-1593.)

        [24] 史慶偉, 李艷妮, 郭朋亮.科技文獻中作者研究興趣動態(tài)發(fā)現[J].計算機應用, 2013, 33(11):3080-3083.(SHI Q W, LI Y N, GUO P L. Dynamic finding of authors’ research interests in scientific literature [J]. Journal of Computer Applications, 2013, 33(11): 3080-3083.)

        [25] 曹娟,張勇東,李錦濤,等.一種基于密度的自適應最優(yōu)LDA 模型選擇方法[J]. 計算機學報, 2008,31(10):1780-1787.(CAO J, ZHANG Y D, LI J T, et al. A method of adaptively selecting best LDA model based on density[J]. Chinese Journal of Computers, 2008, 31(10): 1780-1787.)

        SHI Qingwei, born in 1973, Ph. D., associate professor. His research interests include intelligent information processing.

        LIU Yushi, born in 1993, M. S. candidate. Her research interests include intelligent information processing.

        ZHANG Fengtian, born in 1991, M. S. candidate. His research interests include big data, cloud computing.

        Biterm topic evolution model of microblog

        SHI Qingwei, LIU Yushi*, ZHANG Fengtian

        (SchoolofSoftware,LiaoningTechnicalUniversity,HuludaoLiaoning125105,China)

        Aiming at the problem that the traditional topic model ignore short text and dynamic evolution of microblog, a Biterm Topic over Time (BToT) model based on microblog text was proposed, and the subject evolution analysis was carried out by the proposed model. A continuous time variable was introduced to describe the dynamic evolution of the topic in the time dimension during the process of text generation in the BToT model, and the "Biterm" structure of the topic sharing in the document was formed to extend short text feature. The Gibbs sampling method was used to estimate the parameters of BToT, and the topic evaluation was analyzed by topic-time distributed parameters. The experimental results on real microblog datasets show that BToT can characterize the latent topic evolution and has lower perplexity than Latent Dirichlet Allocation (LDA), Biterm Topic Model (BTM) and Topic over Time (ToT).

        feature sparsity; theme evolution model; dynamic evolution; Gibbs sampling; microblog

        2016-10-12;

        2016-12-31。

        史慶偉(1973—),男,遼寧阜新人,副教授,博士,主要研究方向:智能數據處理; 劉雨詩(1993—),女,遼寧鐵嶺人,碩士研究生,主要研究方向:智能數據處理; 張豐田(1991—),男,河北石家莊人,碩士研究生,主要研究方向:大數據、云計算。

        1001-9081(2017)05-1407-06

        10.11772/j.issn.1001-9081.2017.05.1407

        TP391.1

        A

        猜你喜歡
        博文語料短文
        第一次掙錢
        KEYS
        Keys
        誰和誰好
        基于語料調查的“連……都(也)……”出現的語義背景分析
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        華語電影作為真實語料在翻譯教學中的應用
        打電話2
        《苗防備覽》中的湘西語料
        國內外語用學實證研究比較:語料類型與收集方法
        欧美一级色图| 欧美人与禽z0zo牲伦交| 天码人妻一区二区三区| 国产香蕉尹人在线视频播放| 精品黑人一区二区三区| 丝袜美腿丝袜美腿丝袜美腿丝袜| 欧美综合天天夜夜久久| 国产白嫩美女在线观看| 亚洲av永久无码精品水牛影视| 国产在线视频网友自拍| 亚洲欧洲成人精品香蕉网| 国产精品麻豆欧美日韩ww| 午夜不卡亚洲视频| 一本色道久久综合亚洲精品不| 97精品人人妻人人| 四虎影视永久在线精品| 精品国产迪丽热巴在线| 中文字幕高清不卡视频二区| 色狠狠色噜噜av天堂一区| 久久亚洲黄色| 综合久久青青草免费观看视频| 色吧噜噜一区二区三区| 欧美饥渴熟妇高潮喷水水| 日本在线观看不卡| 一区二区精品天堂亚洲av| 成人网站在线进入爽爽爽| 人人狠狠综合久久亚洲婷婷| 日韩最新av一区二区| 国产青青草在线观看视频| 精品人妻码一区二区三区剧情 | 天天躁日日躁狠狠躁av| 亚洲欧美日韩精品中文乱码| 中文字幕人妻激情在线视频| 99无码精品二区在线视频| 亚洲精品久久久久高潮| 亚洲天堂av社区久久| 中文字幕日韩人妻少妇毛片| 日韩成人大屁股内射喷水| 97av在线播放| 亚洲一二三四区免费视频| 国产成人无码一区二区在线播放 |