劉紅兵,李文坤,張仰森
(1.太原科技大學 電子信息學院,山西 太原 030024;2.北京信息科技大學 智能信息處理研究所,北京 100192)
基于LDA模型和多層聚類的微博話題檢測
劉紅兵1,李文坤2,張仰森2
(1.太原科技大學 電子信息學院,山西 太原 030024;2.北京信息科技大學 智能信息處理研究所,北京 100192)
隨著微博這一新興社交媒體的廣泛應(yīng)用,以微博為背景的相關(guān)研究不斷涌現(xiàn),其中基于微博的話題檢測是當前研究的熱點之一。結(jié)合微博文本的相關(guān)特點,文中提出了一種基于LDA模型和多層聚類的微博話題檢測方法。首先,通過LDA模型對微博數(shù)據(jù)建模并提取特征;其次,利用改進的Single-Pass聚類和層次聚類對微博數(shù)據(jù)進行聚類,從而發(fā)現(xiàn)熱點話題。通過在大規(guī)模微博數(shù)據(jù)上進行話題檢測實驗,通過LDA建模比通過TF-IDF進行特征選擇和權(quán)重計算效果好;改進的Single-Pass聚類能夠處理第一遍Single-Pass聚類未處理的微博,提高了初步聚類的精度,并且為下一步層次聚類減少了時間;多層聚類的聚類效果在準確率、召回率和F值三方面均比單一聚類算法的聚類效果好。顯然,文中的話題檢測方法是可行的,也是有效的。
LDA模型;話題檢測;改進的Single-Pass聚類;層次聚類
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展及其廣泛的應(yīng)用,包括微博、社交網(wǎng)站、即時通訊等在內(nèi)的一些新興社交媒體正在從根本上改變著人們的生活。據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的《第34次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》[1]顯示:截至2014年6月底,我國網(wǎng)民規(guī)模達6.32億,較2013年底增加了1 442萬人。然而,微博網(wǎng)民規(guī)模為2.75億,占所有網(wǎng)民的43.6%。微博已經(jīng)成為人們在線交流和傳播信息的主要平臺,已經(jīng)成為社會輿情傳播的重要載體,一些重要的熱點事件或商業(yè)信息都首先通過微博進行報道。微博上的熱點話題一般來源于突發(fā)事件的報道、具有重要新聞價值的信息或者引起討論、共鳴甚至爭論的用戶交流,很大程度上反映著當前社會的輿論方向。對這些話題進行實時檢測可以幫助用戶快速了解目前的熱點話題、熱門事件,也能夠幫助政府及時了解社會動態(tài)、知道民眾的想法。隨著微博的進一步發(fā)展和日益普及,開展微博平臺上的話題檢測技術(shù)研究迫在眉睫。
近年來,有關(guān)微博的研究受到了學術(shù)界和企業(yè)界的廣泛關(guān)注,針對微博的研究也越來越多。同時,微博話題檢測也有了相應(yīng)的進展。
Peng等[2]總結(jié)了熱門話題的特征,提出了一種基于用戶喜好的熱門話題檢測方法。Ramage等[3]分析了Twitter數(shù)據(jù)的特征,利用Labeled LDA模型進行特征提取,并實現(xiàn)了Twitter排序和推薦功能。Du等[4]通過PangRank算法抽取出關(guān)鍵用戶,然后結(jié)合語義信息提取突發(fā)特征,進而發(fā)現(xiàn)微博中的突發(fā)事件。孫勵[5]采用LDA模型發(fā)現(xiàn)微博熱點話題,并用主題代表話題。此方法雖然能夠解決微博數(shù)據(jù)稀疏問題,但是話題檢測性能有待提高。邱洋[6]分析了微博的特點,在計算相似度時融入了語義和時間參數(shù),然后采用Single-Pass算法進行話題檢測。路榮等[7]利用隱語義分析解決微博短文本數(shù)據(jù)稀疏問題,然后選取每個時間窗內(nèi)最有可能是談?wù)撔侣勗掝}的微博,最后采用K-means和層次聚類進行微博熱點話題檢測。孫勝平[8]采用SP&HA混合聚類發(fā)現(xiàn)微博中的話題,并通過實驗驗證了該方法的有效性。馬雯雯等[9]首先采用隱語義分析(LSA)對微博數(shù)據(jù)建模,然后利用層次聚類的CURE算法確定K-means的初始類,最后通過K-means算法發(fā)現(xiàn)微博話題。蔣洪梅[10]對微博的輿論影響特點進行了具體論述,并對如何更好地利用微博進行輿論引導作了嘗試性的探討。彭澤映等[11]通過觀察和分析發(fā)現(xiàn)基于微博的大規(guī)模短文本所具有的“長尾分布”的特性,提出了一種基于不完全聚類思想用以對這類數(shù)據(jù)進行聚類分析,一定程度上解決了傳統(tǒng)聚類算法難以對大規(guī)模短文本進行有效處理的問題。馬彬等[12]提出了一種基于線索樹雙層聚類的微博話題檢測方法。首先建立微博線索樹,然后在線索樹內(nèi)部進行局部聚類,最后進行全局聚類發(fā)現(xiàn)微博話題。史劍虹等[13]通過隱主題分析挖掘微博中的隱含主題信息,然后采用聚類算法和頻繁項集挖掘技術(shù)進行微博話題檢測并提取話題關(guān)鍵詞集。
在前人研究的基礎(chǔ)上,文中提出了一種新的基于LDA模型和多層聚類的微博話題檢測方法。通過LDA模型挖掘微博文本中潛在的主題信息,解決微博數(shù)據(jù)的數(shù)據(jù)稀疏問題,同時采用融合改進的Single-Pass聚類算法和層次聚類算法進行微博話題檢測。實驗結(jié)果表明,該方法能夠從大規(guī)模微博語料中準確地檢測出當前的熱點話題。
2.1 LDA模型
LDA模型[14]首先由Blei等于2003年提出,是現(xiàn)今最流行的一種文檔主題生成模型。LDA模型適于對文本進行“隱性語義分析”,可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息,目的是將文檔集或語料庫中的每篇文檔的主題按照概率分布的形式給出。而且它也是一種無監(jiān)督的學習算法,不需要任何關(guān)于文檔的背景知識和已標注的訓練語料。
LDA模型也是一個三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。其中,文檔到主題服從Dirichlet分布,主題到詞服從多項式分布。它采用產(chǎn)生式全概率模型對文檔進行建模,對于給定的一個文檔集,LDA將每一篇文檔用若干主題的概率表示,將每個主題用所有的詞的概率表示。每篇文檔的主題都服從特定的分布,主題之間也相互獨立,并且被所有文檔共享。LDA模型生成文檔的過程如圖1所示。
圖1 LDA模型
圖中,θ,φ,z都是隱藏變量,w是可見變量,方框中的內(nèi)容表示循環(huán)執(zhí)行。α是每篇文檔下主題的多項式分布的Dirichlet先驗參數(shù),β是每個主題下詞的多項式分布的Dirichlet先驗參數(shù),θ表示該文檔的主題分布,φ表示該主題的詞分布,z表示每篇文檔分配在每個詞上的主題,w表示每篇文檔的詞向量。概率生成模型的計算公式如式(1)所示。
LDA模型中隱藏參數(shù)的估計也稱為LDA的Infernce問題,通常采用EM算法和吉布斯采樣(GibbsSampling)進行學習估計。Gibbs采樣是由ThomasL.Griffith等人提出的,它是MCMC的一個二維實現(xiàn)方法,比較適合大規(guī)模數(shù)據(jù)的處理,是目前最流行的參數(shù)估計算法。這個算法的運行方式是每次選取概率向量的一個維度,給定其他維度的變量值Sample當前維度的值。不斷迭代,直到收斂輸出待估計的參數(shù)。文中也采用Gibbs采樣對LDA模型的參數(shù)進行估計。LDA模型對文檔集建模的最終結(jié)果如下:
(1)z文件,它的每一行表示原始文檔集中的一個文檔。它把所有的詞用該詞所對應(yīng)的隱主題替換,然后用這些隱主題表示文檔。
(2)phi文件,即文檔-主題矩陣M*K。M表示文檔集中的文檔數(shù),K表示主題數(shù)。
(3)theta文件,即主題-詞矩陣K*V。K表示主題數(shù),V表示文檔集中詞的個數(shù)。
(4)twords文件,它將所有的主題用概率最高的那些特定的詞表示,顯示每個主題的具體內(nèi)容。
傳統(tǒng)LDA模型中,V指文檔集中所有不相同的詞的個數(shù),但是,對于話題檢測來說并不是所有的詞都有實際的語義。正如副詞、介詞、連詞、助詞、嘆詞和擬聲詞等,這些詞都依附于實詞,沒有具體的語義,對話題檢測沒有作用,而且影響系統(tǒng)的性能。文中采用LDA建模時,對傳統(tǒng)LDA模型中V的選擇進行改進,只保留名詞、動詞、形容詞。這樣做不僅能提高LDA模型的性能,而且能降低建模時間。
2.2 多層聚類
2.2.1 Single-Pass聚類
Single-Pass聚類[8]是單遍聚類,屬于增量式聚類算法中的一種。Single-Pass聚類算法的基本思想是:按照文檔輸入的順序依次處理每個文檔,把第一個文檔認為是第一個話題,后續(xù)輸入的每個文檔都與之前創(chuàng)建的話題進行相似度計算,并找出與該文檔相似度最大的那個話題,如果相似度大于閾值,那么將該文檔歸入此話題并更新話題簇,否則用該文檔創(chuàng)建一個新話題,一直循環(huán)此過程,直到所有文檔處理完畢,算法結(jié)束。
Single-Pass算法的優(yōu)點是算法邏輯簡單,執(zhí)行效率較高,而且該算法對輸入文檔的順序敏感,比較適合微博話題檢測。
文中在傳統(tǒng)Single-Pass聚類的基礎(chǔ)上進行改進,得到一個適合于微博話題檢測的聚類算法,具體內(nèi)容詳見第三節(jié)。
2.2.2 凝聚式層次聚類
層次聚類也是一種常用的聚類算法,分為分裂式層次聚類和凝聚式層次聚類。分裂式層次聚類是自頂向下的層次聚類,凝聚式層次聚類是自底向上的層次聚類。凝聚式層次聚類非常適合話題檢測,其運用到話題檢測的思想是:把每一個文檔當作初始的類簇,然后計算各個類簇之間的相似度并找出最大相似度和相應(yīng)的類簇,如果該值大于預(yù)定的閾值,那么將這兩個類簇合并并更新簇的中心,通過不斷的合并與更新得到最終的話題簇。凝聚式層次聚類能夠較準確地對微博話題進行檢測,但是凝聚式層次聚類每次合并都要計算簇之間的相似度,算法時間復(fù)雜度是O(n3),對于大規(guī)模數(shù)據(jù)集凝聚式層次聚類很難在短時間內(nèi)完成。
3.1 微博語料預(yù)處理
由于剛抓取的微博含有大量噪聲,因此需要對微博語料進行預(yù)處理。通過對微博語料的觀察分析,發(fā)現(xiàn)許多微博文本中含有大量的繁體字和鏈接。如果對這些繁體字和鏈接不做處理,那么將會對LDA模型的訓練以及聚類產(chǎn)生很大的影響。文中利用現(xiàn)有的繁簡體字對照表對微博文本進行處理,消除繁體字,同時刪除微博中所有的鏈接,使微博文本規(guī)范化。
此外,語料中含有大量的重復(fù)微博和字數(shù)過少的微博。例如,“轉(zhuǎn)發(fā)微博”,這類微博不僅對話題檢測毫無意義,而且會影響系統(tǒng)性能。因此,去掉重復(fù)微博和字數(shù)過少的微博也是至關(guān)重要的。
微博用戶在轉(zhuǎn)發(fā)互動中形成的微博大都具有語義相關(guān)性,通常是對同一個話題的討論。對于具有轉(zhuǎn)發(fā)關(guān)系的微博文本,把原創(chuàng)微博與轉(zhuǎn)發(fā)微博進行合并,形成一個語義更加豐富的長文本來替換原始微博,解決微博話題檢測的數(shù)據(jù)稀疏問題。
3.2 改進的Single-Pass聚類
傳統(tǒng)的Single-Pass聚類只使用一次循環(huán)遍歷所有微博,完成聚類。事實上,有很多微博雖然屬于某一個話題,但是由于它發(fā)布時間較早,較早完成遍歷,這樣可能導致這些微博因為與之前得到的話題的相似度略低于閾值而被重新創(chuàng)建了新的話題,從而影響了聚類效果。
算法1:改進的Single-Pass聚類算法。
輸入:按時間順序排好序的微博集D={d1,d2,…,dn}
輸出:話題簇T1,T2,…
Forcountfrom1ton
if(count==1)then
d[count]->T1//創(chuàng)建新話題T1
else
maxSim=0
forifrom1to已經(jīng)創(chuàng)建的話題數(shù)
if(sim(d[count],T[i])>maxSim)then
maxSim=sim(d[count],T[i])
clusterNo=i
endif
endfor
if(maxSim>=閾值)then
d[count]->T[clusterNo] //歸入話題
updateandsaveT[clusterNo]
endif
endif
Endfor
Forcountfrom1to沒有歸入話題的微博數(shù)
maxSim=0
forifrom1to已經(jīng)創(chuàng)建的話題數(shù)
if(sim(d[count],T[i])>maxSim)then
maxSim=sim(d[count],T[i])
clusterNo=i
endif
endfor
if(maxSim>=閾值)then
d[count]->T[clusterNo] //歸入話題
updateandsaveT[clusterNo]
else
createnewtopic
endif
Endfor
文中提出了一種新的改進的Single-Pass聚類。該算法在傳統(tǒng)Single-Pass聚類的基礎(chǔ)上,處理了那些漏掉的微博,使聚類更加準確。對于給定的一個微博集D={d1,d2,…,dn},改進的Single-Pass聚類的算法如算法1所示。
3.3 微博話題檢測
文中首先通過LDA模型對微博文本進行建模,提取特征,然后采用多層聚類算法對微博文本聚類實現(xiàn)話題檢測。多層聚類分兩階段進行,第一步利用改進的Single-Pass聚類進行話題初步檢測,第二步利用層次聚類對上一步產(chǎn)生的中間結(jié)果再次聚類形成最終的話題。改進的Single-Pass聚類算法邏輯簡單,能夠快速處理大規(guī)模文本,但是聚類精度一般;凝聚式層次聚類的聚類精度高,但是算法的時間復(fù)雜度也較大。
文中利用LDA模型有效解決了微博的數(shù)據(jù)稀疏問題,同時結(jié)合改進的Single-Pass聚類和層次聚類的優(yōu)點,使話題檢測系統(tǒng)在準確率和時間上都有很大提高。
系統(tǒng)流程圖如圖2所示。
3.4 關(guān)鍵字提取
隨著信息時代的到來,每天都有成千上萬的信息展現(xiàn)在人們面前,如何快速了解海量信息中談?wù)摰臒狳c話題并且找出自己感興趣的話題,不論對于個人還是企業(yè),都是十分重要的。文中利用多層聚類算法檢測出的微博話題都是以微博簇的形式存在的,每個微博簇都是談?wù)撃骋粋€話題的微博文本集。雖然可以把談?wù)撏辉掝}的微博聚集到一個話題簇中,但是要想確定該話題簇具體談?wù)摰脑掝}內(nèi)容,仍然需要一條一條地閱讀微博。因此,檢測出微博話題是不夠的,還需要用三到五個關(guān)鍵字概括出微博話題的主要內(nèi)容。本節(jié)主要介紹關(guān)鍵字提取,即從已檢測出的微博話題中,抽取主要的關(guān)鍵字表示該話題。
圖2 系統(tǒng)流程圖
在關(guān)鍵字提取中,用TF-IDF度量每個詞語的重要度。經(jīng)過多次實驗后,最終選擇TF-IDF排名前三的詞語作為話題關(guān)鍵字。提取過程如下:
(1)將每一個話題中的所有微博作為一個整體,分詞,去停用詞;
(2)計算第一個話題中去掉停用詞后剩下的詞語在所有語料中的TF-IDF值;
(3)根據(jù)TF-IDF值排序,選擇TF-IDF值排名前三的詞語作為該話題的關(guān)鍵字;
(4)重復(fù)步驟(2)和(3),直到所有話題關(guān)鍵字提取完畢為止。
表1展示了各話題中的部分微博和TF-IDF排名前三的詞語。話題一主要以央視曝光星巴克咖啡牟取暴利的行為為背景展開的討論,抽取出來的話題關(guān)鍵字是“星巴克、咖啡、貴”,這與話題內(nèi)容基本上吻合。話題二是關(guān)于高考改革引發(fā)的討論,主要是關(guān)于是否取消英語和數(shù)學的討論,然而抽取出的話題關(guān)鍵字是“英語、數(shù)學、高考”,這與話題二的內(nèi)容也是相吻合的。仔細分析話題三和話題四,話題關(guān)鍵字和微博內(nèi)容也基本上是吻合的,說明采用TF-IDF提取出的話題關(guān)鍵字基本上可以概括出話題的主要內(nèi)容,而且效果也是不錯的。
表1 微博話題和話題關(guān)鍵字
4.1 實驗數(shù)據(jù)及評價指標
目前,在中文微博話題檢測方面還沒有統(tǒng)一的微博數(shù)據(jù)。文中通過網(wǎng)絡(luò)爬蟲,抓取了新浪微博2 352個用戶發(fā)表于2013年6月1號到2013年10月31號之間的所有微博數(shù)據(jù)。經(jīng)過語料去重和噪聲微博過濾,剩下的微博數(shù)據(jù)用于實驗。
在自然語言處理領(lǐng)域,常用的評價指標有準確率、召回率和F值。文中除了使用傳統(tǒng)的這三個評價指標以外,還采用漏檢率和錯檢率評價文中的微博話題檢測系統(tǒng)的性能。
具體的計算公式如下所示:
其中,P表示準確率;D表示話題檢測系統(tǒng)正確檢測出的屬于該話題的微博數(shù);U表示話題檢測系統(tǒng)實際檢測出的屬于該話題的微博數(shù)。
其中,R表示召回率;D表示話題檢測系統(tǒng)正確檢測出的屬于該話題的微博數(shù);T表示語料中所有屬于該話題的微博數(shù)。
其中,F(xiàn)表示F值;P和R分別表示準確率和召回率。
其中,PFA表示錯檢率;FA表示話題檢測系統(tǒng)錯誤檢測出的屬于該話題的微博數(shù);NT表示語料中所有不屬于該話題的微博數(shù)。
其中,PMISS表示漏檢率;MD表示話題檢測系統(tǒng)沒有檢測出的屬于該話題的微博數(shù);T表示語料中所有屬于該話題的微博數(shù)。
4.2 對比實驗及實驗結(jié)果分析
實驗一:為了驗證改進的Single-Pass聚類和凝聚式層次聚類對話題檢測的影響,文中設(shè)置四個系統(tǒng),四個系統(tǒng)均采用余弦相似度度量微博之間的相似性,具體設(shè)置如下:
sys1:只采用Single-Pass聚類。
sys2:在sys1的基礎(chǔ)上融入了層次聚類。
sys3:只采用改進的Single-Pass聚類。
sys4:在sys3的基礎(chǔ)上融入了層次聚類。
實驗中,分別用TF-IDF和LDA模型進行特征選擇,由于采用TF-IDF進行特征選擇時,一些話題根本無法檢測出來,一些評價指標都無法計算,無法進行準確地比較。采用TF-IDF進行特征選擇時,各個系統(tǒng)的話題檢測的效果比LDA模型的均較差,所以在此不再贅述。
圖3顯示了在采用LDA模型進行特征選擇的條件下,四種不同的聚類策略進行話題檢測的實驗結(jié)果。
圖3 不同聚類算法下話題檢測的性能比較
從圖中可以看出,在五個評價指標中sys1的性能最差,sys2和sys3的性能居中,sys4的性能優(yōu)于其他三個系統(tǒng),說明采用文中提出的方法完全能夠滿足話題檢測的要求。sys2和sys3比sys1在各方面都有所提高,說明層次聚類和改進的Single-Pass聚類都能提高話題檢測的性能。sys2在召回率方面優(yōu)于sys3,但在準確率方面不及sys3,說明層次聚類更側(cè)重于召回率的提高,而改進的Single-Pass聚類更側(cè)重于準確率的提高。其主要原因是由于改進的Single-Pass聚類采用層疊Single-Pass聚類方法,其第二次的Single-Pass聚類建立在第一次Single-Pass聚類基礎(chǔ)上,可以有效處理第一次Single-Pass聚類未能處理的微博。而且,層次聚類能夠把Single-Pass聚類處理完的微博再次整合,提高話題檢測效率。其中,sys2就是文獻[8]所采用的聚類算法,由圖3可以看出,文中方法與文獻[8]的話題檢測方法相比,各個指標都有提高,F(xiàn)值提高約12%。
實驗二:為了評估不同閾值對話題檢測結(jié)果的影響,該實驗設(shè)置不同的閾值進行話題檢測,得到的結(jié)果如圖4所示。
圖4 不同閾值話題檢測的性能比較
由圖4可以看出:隨著閾值的不斷增大,話題檢測的準確率、召回率和F值逐漸增大,話題檢測系統(tǒng)的性能持續(xù)提高;但是當閾值超過0.85時,這三個指標開始下降,系統(tǒng)性能也開始下降。
文中根據(jù)微博內(nèi)容的簡短性、微博話題的時序性以及微博文本之間存在轉(zhuǎn)發(fā)關(guān)系等特點,提出了一種基于LDA模型和多層聚類的微博話題檢測方法。通過合并具有轉(zhuǎn)發(fā)關(guān)系的微博,以及采用LDA模型選取特征,有效解決了微博短文本的數(shù)據(jù)稀疏問題。通過融合改進Single-Pass聚類和層次聚類,能夠在保證話題檢測性能的前提下更大程度地縮短話題檢測時間。最后,通過TF-IDF對微博中的詞語進行重要度排序,用排名前三的詞語作為話題關(guān)鍵字,代表話題的主要內(nèi)容。
由于微博文本比較隨意,口語化較強,網(wǎng)絡(luò)詞語也出現(xiàn)頻繁,用現(xiàn)有的分詞工具處理微博文本時并不是很理想,導致文中的話題檢測性能有所下降。同時,微博文本中會出現(xiàn)大量的同義詞,也會影響系統(tǒng)的性能。在下一步的研究中,首先要豐富用戶字典,確保分詞更加準確;其次要引入同義詞字典,處理微博文本中的同義詞,進一步提高系統(tǒng)的性能。
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)絡(luò)信息中心,2014.
[2]PengFeifei,QianXu,LiGaoren.Aresearchofhottopicdetectionthroughmicroblogging[C]//Procof4thinternationalconferenceonintelligenthuman-machinesystemsancybernetics.[s.l.]:IEEE,2012.
[3]RamagesD,DumaisS,LieblingD.Characterizingmicroblogswithtopicmodels[C]//ProceedingsofthefourthinternationalAAAIconferenceonweblogsandsocialmedia.Washington,DC:[s.n.],2010.
[4]DuYY,HeYX,TianY.MicroblogBurstytopicdetectionbasedonuserrelationship[C]//Proceedingsofthe2011IEEEjointinternationalinformationtechnologyandartificialintelligenceconference.Piscataway:IEEE,2011:260-263.
[5] 孫 勵.基于微博的熱點話題發(fā)現(xiàn)[D].北京:北京郵電大學,2013.
[6] 邱 洋.微博數(shù)據(jù)提取及話題檢測方法研究[D].大連:大連理工大學,2013.
[7] 路 榮,項 亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識別與人工智能,2012,25(3):382-387.
[8] 孫勝平.中文微博客熱點話題檢測與跟蹤技術(shù)研究[D].北京:北京交通大學,2011.
[9] 馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J].計算機工程與應(yīng)用,2014,50(1):96-100.
[10] 蔣洪梅.微博客的特點及其輿論影響力[J].新聞愛好者,2011(5):85-86.
[11] 彭澤映,俞曉明,許洪波,等.大規(guī)模短文本的不完全聚類[J].中文信息學報,2011,25(1):54-59.
[12] 馬 彬,洪 宇,陸劍江,等.基于線索樹雙層聚類的微博話題檢測[J].中文信息學報,2012,26(6):121-128.
[13] 史劍虹,陳興蜀,王文賢.基于隱主題分析的中文微博話題發(fā)現(xiàn)[J].計算機應(yīng)用研究,2014,31(3):700-704.
[14]BleiM,NgY,JordanI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003,3(4-5):993-1002.
Microblog Topic Detection Based on LDA Model and Multi-level Clustering
LIU Hong-bing1,LI Wen-kun2,ZHANG Yang-sen2
(1.College of Electronic Information,Taiyuan University of Science and Technology, Taiyuan 030024,China;2.Institute of Intelligence Information Processing,Beijing University of Information Science and Technology,Beijing 100192,China)
With the wide application of microblog,emerging social media,relevant research is being emerged on microblog.The topic detection based on microblog is one of the hotspots in current research.In combination with the relevant characteristics of microblog,a microblog topic detection based on LDA model and hierarchical clustering is proposed.First,LDA model is applied for modeling and feature extraction to microblog data.Then,the improved Single-Pass clustering and hierarchical clustering is used on microblog data clustering and the hot topic is found.Experiment on large-scale corpus shows that it is more effective through the LDA model than by TF-IDF for feature selection and weight calculation;the improved Single-Pass clustering can deal with the untreated microblog by the first Single-Pass clustering,which can improve the accuracy of the initial clustering and reduce the time of hierarchical clustering;it is more effective through the hierarchical clustering than the single clustering in accuracy,recall andF-value.Clearly,itisfeasibleandeffectivebytheLDAmodelandmulti-levelclusteringtodetectthemicroblogtopic.
LDA model;topic detection;improved Single-Pass clustering;hierarchical clustering
2014-11-14
2015-04-08
時間:2016-05-25
國家自然科學基金資助項目(61370139);北京市屬高等學校創(chuàng)新團隊建設(shè)與教師職業(yè)發(fā)展計劃項目(IDHT20130519);北京市教委專項基金(PXM2013_014224_000042,PXM2014_014224_000067)
劉紅兵(1968-),男,副教授,研究方向為智能計算機控制。
http://www.cnki.net/kcms/detail/61.1450.TP.20160525.1700.006.html
TP
A
1673-629X(2016)06-0025-06
10.3969/j.issn.1673-629X.2016.06.006