儲濤濤
(北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876)
基于LDA主題模型的用戶興趣發(fā)現(xiàn)方法
儲濤濤
(北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876)
用戶興趣是對微博用戶研究的重要內(nèi)容,本文使用聚類方法提取用戶興趣。由于微博短文本的特征稀疏和上下文依賴性,傳統(tǒng)方法不能取得良好的效果。本文對微博短文本進(jìn)行基于LDA主題模型的特征拓展處理。LDA主題模型引入隱含主題,通過主題相似性,在一定程度上拓展文本特征,彌補(bǔ)原文本特征稀疏的缺點(diǎn)。并且,在處理多義詞時(shí),主題相似性能明顯區(qū)分不同詞義,以解決上下文依賴問題。在此基礎(chǔ)上,通過文本聚類方法提取用戶興趣。通過實(shí)驗(yàn)表明,在引入LDA模型下,聚類效果和用戶興趣抽取的到明顯提升,有效解決的微博用戶興趣發(fā)現(xiàn)中文博短文本特征稀疏和上下文依賴問題。
用戶興趣;短文本;LDA;特征拓展;K-means
本文著錄格式:儲濤濤. 基于LDA主題模型的用戶興趣發(fā)現(xiàn)方法[J]. 軟件,2016,37(12):38-42
用戶興趣是對微博用戶研究的重要內(nèi)容,本研究中使用文本聚類方法發(fā)掘用戶興趣,文本聚類技術(shù)一直是文本挖掘領(lǐng)域的重要內(nèi)容。而微博短文本由于具有短小、新詞多、不規(guī)范等特點(diǎn),如果直接使用傳統(tǒng)的方法往往不能取得很好的效果。對微博文本的研究,具有十分重要的理論研究和實(shí)際應(yīng)用意義。
從理論上來說,本研究充分考慮互聯(lián)網(wǎng)微博用戶的短文本特性,針對短文本內(nèi)容豐富、特征稀疏、上下文依賴性強(qiáng)的特點(diǎn),設(shè)計(jì)合適的文本挖掘方法,通過LDA模型對微博短文本進(jìn)行特征的擴(kuò)展。從而準(zhǔn)確全面地描述用戶興趣,為用戶興趣發(fā)現(xiàn)擴(kuò)展了方法和范圍。從應(yīng)用上來說,通過對微博文本的分析,可以幫助用戶從海量的微博數(shù)據(jù)中區(qū)分出不同話題的微博,提高用戶的瀏覽效率。由于微博內(nèi)容可以涉及政治、軍事、娛樂等等諸多方面的內(nèi)容,文本分析技術(shù)在話題跟蹤與發(fā)現(xiàn)、輿情預(yù)警、情感分析等領(lǐng)域都有廣泛的應(yīng)用背景。
針對微博的分析一直是今年的研究熱點(diǎn),針對微博用戶的分析,yang[1]等通過研究用戶發(fā)布微博的情況用戶發(fā)布含有鏈接的微博用戶網(wǎng)絡(luò)結(jié)構(gòu)3個(gè)方面提出了一個(gè)新模式來預(yù)測信息擴(kuò)散的速度規(guī)模和范圍。JIANG[2]等同樣也提出了一個(gè)新的模型來預(yù)測信息傳播情況。BOYD[3]等以Twitter為研究對象針對一系列研究數(shù)據(jù)分析了用戶在轉(zhuǎn)發(fā)動機(jī)與評論作者出處和真實(shí)性之間的關(guān)系。針對微博內(nèi)容的分析也是研究的熱點(diǎn)。楊亮[4]等根據(jù)熱點(diǎn)事件發(fā)生時(shí)用戶情感詞數(shù)量增多提出了一個(gè)情感分布模型,并通過該模型分析相鄰時(shí)間段情感分布的語言差異從而實(shí)現(xiàn)對熱點(diǎn)事件的發(fā)現(xiàn)LEE[5]開發(fā)了一套對關(guān)鍵字動態(tài)加權(quán)的方案以實(shí)現(xiàn)對所發(fā)生事件的實(shí)時(shí)監(jiān)測。READ[22]通過API獲得大量表情符號并利用這些表情符號建立語料庫從而判斷微博的情感極性[6]。
針對微博文本的短文本特征,研究人員已經(jīng)提出了多種方法,來克服短文本稀疏性的問題,更好的表示文本特征,提高短文本聚類和聚類的效果。這些方法大致可以分為兩類:一種是基于額外信息如搜索引擎,開源知識庫等的特征擴(kuò)展方法,還有就是通過挖掘短文本本身的特性,通過選擇更好的特征來表示文本。
Yih和Christopher[7]通過使用特征詞的內(nèi)權(quán)重內(nèi)積代替TF-IDF,擴(kuò)展了Web-kernel相似性計(jì)算公式。他們還引入了機(jī)器學(xué)習(xí)的方法來提高相似性度量的準(zhǔn)確性。Banerjee[8]將結(jié)合信息檢索技術(shù)和維基百科的數(shù)據(jù)。他們基于維基百科的數(shù)據(jù)建立了一個(gè)搜索引擎,待聚類的短文本作為關(guān)鍵詞進(jìn)行查詢,通過查詢返回的結(jié)果來進(jìn)行特征擴(kuò)展。在[9]的研究中,使用了不同的外部數(shù)據(jù)來進(jìn)行特征擴(kuò)展。若短文本有多個(gè)特征詞,這則使用維基百科進(jìn)行特征擴(kuò)展。若短文本只有一個(gè)特征詞,則使用WorldNet來進(jìn)行特征擴(kuò)展。除了直接使用額外資源的直接結(jié)果外,一些方法也使用的概念挖掘來擴(kuò)展短文本的特征。Phan[10]等人使用LDA模型挖掘維基百科數(shù)據(jù)中的隱含主題,并且使用隱含主題來擴(kuò)展短文本的特征。Chen[15]等人進(jìn)一步改進(jìn)了[10]中的LDA方法,提出了多粒度主題。
Sriram[11]等人分析了推特中推文的特征,選擇了另外的8個(gè)特征(縮略詞和俚語,時(shí)間-時(shí)間短語,觀點(diǎn)詞等)來代替?zhèn)鹘y(tǒng)的詞袋(bag of words)特征。Sun[12]的研究嘗試模擬人類投票的行為來進(jìn)行短文本聚類。他們將訓(xùn)練集建立索引,然后在這個(gè)索引中搜索關(guān)鍵詞,用返回的結(jié)果投票,結(jié)果中最多的類別就是當(dāng)前待聚類短文本的類別。Yuan[13]等人嘗試優(yōu)化聚類算法來提高在稀疏數(shù)據(jù)上的準(zhǔn)確性。他們使用四種平滑方法和樸素貝葉斯在Yahoo!問答系統(tǒng)數(shù)據(jù)集上做了一些實(shí)驗(yàn)。他們發(fā)現(xiàn),一些合適的平滑方法能夠極大的提高貝葉斯方法在短文本聚類上的準(zhǔn)確性。Wang[14]改進(jìn)了原有的TF-IDF大的特征選擇和權(quán)重計(jì)算方法,提出了DFICF的概念和基于互信息的方法進(jìn)行特征選擇,解決短文本特征稀疏性的問題。在這些研究中,還沒有哪種方法具有十分明顯的優(yōu)勢。其他一些關(guān)于短文本的研究,比如關(guān)鍵詞提取[15]和相似性計(jì)算[16]-[20],對于聚類算法的研究也具有比較大的幫助。
2.1 向量空間
VSM由Salton等提出,已經(jīng)成為信息檢索領(lǐng)域常用的文本表示模型,將文本看作“詞袋”。給出一些符號定義:詞表N為詞的總數(shù);文本集M為文本總數(shù);一篇文di∈D的向量表示為為詞v∈V在d中的權(quán)重,通常采用TF-kiIDF權(quán)重評價(jià)函數(shù):
其中:tfki表示vk在di中出現(xiàn)的次數(shù),dfk表示D中含有vk的文本總數(shù)。通常采用余弦距離計(jì)算兩篇文本之間的相似度:
2.2 隱含狄利克雷分布
LDA主題模型有Blei等提出,是一個(gè)“文本-主題-詞”的三層貝葉斯生成模式,每篇文本表示為主題的混合分布,而每個(gè)主題則是在詞上的概率分布,最初的模型只對文本-主題概率分布引入一個(gè)超參數(shù)使其服從Dirichlet分布,隨后Griffiths等對主題-詞概率分布也引入一個(gè)超參數(shù)使其服從Dirichlet分布。該模型用圖1表示,各個(gè)符號含義如表1所示。
兩個(gè)超參數(shù)一般設(shè)置為α=50/T,β=0.01。LDA模型的參數(shù)個(gè)數(shù)只與主題數(shù)和詞數(shù)相關(guān),參數(shù)估計(jì)是計(jì)算出文本-主題概率分布以及主題-詞概率分布,即θ和φ。通過對變量進(jìn)行Gibbs采樣間接估算θ和φ:
圖1 LDA的圖表示
表1 LDA模型中各符號的含義
2.3 基于主題的相似性
Quan等提出了基于主題的相似性(Topic-Based Similarity,TBS)度量方法來解決短文本的特征稀疏性問題,基本思想是通過第三方主題來比較兩篇短文本。
假設(shè)文本集D中存在兩篇短文本d1和d2,使用分詞為特征項(xiàng),那么他們的向量表示為和V在D上運(yùn)行LDA模型后得到T隱含主題以及主題-詞概率分布φ,記φsk為詞vk屬于主題的概率分布。
這兩篇短文本的可區(qū)分詞集定義為:
3.1 問題描述
微博文本中,存在著大量的用戶短微博數(shù)據(jù),這些文本數(shù)據(jù)大多不足140字,且語法語義多樣。文本中特征稀疏性和上下文依賴性給文本處理工作帶來了很大挑戰(zhàn)。
針對微博文本的特征稀疏性,通過引入可區(qū)分詞集和基于主題的相似性能夠很大程度豐富微博文本的分詞特征項(xiàng)。如下例子:
微博a:“今天 霧霾 很大”
微博b:“空氣 污染 嚴(yán)重”
“霧霾”和“空氣”是不同的詞,如果TBS引入的隱含主題,能夠?qū)烧吆軓?qiáng)地關(guān)聯(lián)起來,認(rèn)為兩者具有主題相似性。
另一個(gè)例子體現(xiàn)了短文本的上下文依賴性強(qiáng)的問題,如下:
微博a:“電腦旁邊的蘋果很大”→ 電腦 蘋果 大微博b:“蘋果電腦很輕”→ 電腦 蘋果 輕微博a和微博b經(jīng)過分詞和去停用詞處理后相似度很大,但是“蘋果”一次在兩個(gè)句子中表達(dá)的意思完全不一致,這使得對“蘋果”的詞義理解依賴上下文。
這個(gè)例子中的微博文本經(jīng)過分詞去停用詞后得到右邊的詞集。VSM計(jì)算結(jié)果會體現(xiàn)出這兩篇微博具有很大的相似性。在此,我們引入一種新的基于LDA的文本聚類算法。
3.2 相似性度量
通常,如果出現(xiàn)在兩個(gè)不同語境中的同一個(gè)詞,表達(dá)出不同的主題。那么這個(gè)詞很可能就體現(xiàn)出多義詞性質(zhì),這在計(jì)算相似性是會誤認(rèn)為兩篇文本相似程度搞。為了解決這個(gè)問題,這里討論共有詞集,以處理上下文依賴問題。
共有詞集定義如下:
對于兩篇微博文本,共有詞集中同時(shí)滿足條件C1和C2的詞降低權(quán)重,來削弱同義詞影響。
條件C1:根據(jù)式(8),提取d1和d2各自的最大主題,兩者不一致;
條件C2:在各自最大主題下,該詞的主題-詞概率值排名前40%。
與式(6)相似思路,采用式(9)降低滿足條件的共有詞vc的權(quán)重:
基于LDA的微博聚類方法的相似度度量算法描述如下
算法1 相似性度量:
輸入 微博文本d1和d2,和概率分布φ和θ;
第1步 獲取共有詞集;
第2步 由式(8)提取兩篇文本各自的最大主題t1max和tm2ax。若或者則跳轉(zhuǎn)至第4步;
第3步 對于共有詞集中的每個(gè)詞vc,如果還滿足條件C2,則根據(jù)式(9)更新權(quán)重;
第6步 根據(jù)式(2)計(jì)算d1和d2的相似度
3.3 聚類方法
聚類算法采用K-means,將一條微博中各個(gè)分詞的TF-IDF平均值μ作為選擇種子起點(diǎn)的指標(biāo),八個(gè)類別中的種子起點(diǎn)分別為各自μ值最大的微博文本。在計(jì)算相似使用4.2中的相似性計(jì)算方法,迭代計(jì)算。
4.1 實(shí)驗(yàn)環(huán)境
表2 實(shí)驗(yàn)環(huán)境
4.2 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)使用從新浪微博平臺爬取下來的用戶微博文本數(shù)據(jù),數(shù)據(jù)通過主題聚類爬取。通過篩選,可用文本共有8個(gè)類別共計(jì)5798篇。
表3 實(shí)驗(yàn)數(shù)據(jù)
4.3 實(shí)驗(yàn)設(shè)置
預(yù)處理 對抓取的原始文本進(jìn)行預(yù)處理,包括分詞去停用詞和長度篩選,分詞采用了ICTCLAS分詞系統(tǒng)
主題數(shù) 聚類學(xué)習(xí)是非監(jiān)督學(xué)習(xí),本文通過抽樣方法評估聚類結(jié)果,利用困惑度Perplexity指標(biāo)確定主題數(shù)。該指標(biāo)表示預(yù)測數(shù)據(jù)時(shí)的不確定度,取值越小表示性能越好。
TBS閾值 TBS調(diào)整可區(qū)分詞的權(quán)重時(shí)需要判斷主題-詞概率是否超過閾值λ。利用最大主題-詞概率值自動確定閾值,將所有主題下最大主題-詞概率值累加求平均,并以40%的分界作為λ的取值:
聚類算法 采用K-means方法。將一條微博中各個(gè)分詞的TF-IDF平均值μ作為選擇種子起點(diǎn)的指標(biāo),八個(gè)類別中的種子起點(diǎn)分別為各自μ值最大的那條微博。
4.4 實(shí)驗(yàn)結(jié)果
在主題數(shù)為50時(shí),Perplexity值接近極限值,且此時(shí)的計(jì)算效率任然較高,在此之后雖然主題數(shù)不斷增加,但是Perplexity減小并不明顯。因此,選擇主題數(shù)為50。
實(shí)驗(yàn)結(jié)果如下:
表4 實(shí)驗(yàn)結(jié)果
綜合比較:將8個(gè)類別上的查全率和準(zhǔn)確率求平均值得到F1,兩種方法對比結(jié)果如圖2。
圖2 實(shí)驗(yàn)結(jié)果對比
顯然,在聚類結(jié)果的性能上,改進(jìn)的新方法明顯優(yōu)于VSM。新方法在三個(gè)指標(biāo)Re、Pr、F1上分別提高百分之1.2、2.5、1.9。新方法相對于VSM,在不犧牲時(shí)間代價(jià)的前提下提高了聚類結(jié)果的精度。
微博短文本處理時(shí)面臨兩個(gè)問題: 特征稀疏性和上下文依賴性。利用 LDA 模型生成主題,TBS方法解決了特征稀疏性問題。同時(shí),用另一種方法進(jìn)一步解決上下文依賴性問題。新方法不僅給出短文本相似性的完備度量,而且能夠自動確定TBS閾值。新方法通過對微博文本的聚類分析,進(jìn)行興趣發(fā)現(xiàn)和提取,結(jié)果表明新方法的聚類性能優(yōu)于VSM,并通過同義詞和多義詞分布能夠解釋其原因。社交媒體由于表述的口語化和不規(guī)范化,給短文本處理帶來新的挑戰(zhàn)。
[1] Predicting the Speed, Scale, and Range of Information Diffusion in. Twitter. Jiang Yang. School of Information. University of Michigan. 1075 Beal Ave.2013; 355-358.
[2] Evolutionary Dynamics of Information Diffusion Over Social NetworksC Jiang, Y Chen, KJR Liu-Signal Processing, IEEE …, 2015.
[3] Tweet, tweet, retweet: Conversational aspects of retweeting on twitter D Boyd, S Golder, G Lotan-System Sciences (HICSS), 2014.
[4] Micro-Blog Hot Events Detection Based on Emotion Distribution [J] L YANG, Y LIN, H LIN-Journal of Chinese Information Processing, 2012 - en.cnki.com.cn.
[5] Mining spatio-temporal information on microblogging streams using a density-based online clustering methodCH Lee- Expert Systems with Applications, 2013-Elsevier.
[6] Using emoticons to reduce dependency in machine learning techniques for sentiment classificationJ Read-Proceedings of the ACL student research workshop, 2005-dl.acm.org;
[7] S. Banerjee, K. Ramanathan and A. Gupta, "Clustering short texts using wikipedia," Proc. ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 07), ACM Press, July 2010, pp. 787-788, doi: 10.1145/ 1277741.1277909.
[8] X. Hu, N. Sun, C. Zhang, and T. S. Chua, "Exploiting internal and external semantics for the clustering of short texts using world knowledge," Proc. ACM International Conference on Information and Knowledge Management (CIKM 09), ACM Press, Nov. 2012.
[9] X. H. Phan, L. M. Nguyen and S. Horiguchi, "Learning to classify short and sparse text & web with hidden topics from large-scale data collections," Proc. International Conference on World Wide Web (WWW 08), ACM Press, Apr. 2014.
[10] M. Chen, X. Jin and D. Shen, "Short text classification improved by learning multi-granularity topics," Proc. International Joint Conference on Artificial Intelligence (IJCAI 11), AAAI Press, July 2013.
[11] B. Sriram, D. Fuhry, E. Demir, H. Ferhatosmanoglu, and M. Demirbas, "Short text classification in twitter to improve information filtering," Proc. ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 10), ACM Press, July 2010.
[12] A. Sun, "Short text classification using very few words," Proc. ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 12), ACM Press, Aug. 2013.
[13] Q. Yuan, G. Cong and N. M. Thalmann, "Enhancing Naive Bayes with various smoothing methods for short text classification," Proc. International Conference on World Wide Web (WWW 12), ACM Press, April 2014.
[14] Meng Wang, Lanfen Lin, Feng Wang, Improving Short Text Classification through Better Feature Space Selection[C] // Ninth International Conference on Computational Intelligence and Security, 2016.
[15] Liu Z, Chen X, Sun M. Mining the interests of Chinese microbloggers via keyword extraction[J]. Frontiers of Computer Science, 2014, 6(1): 76-87.
[16] Bollegala D, Matsuo Y, Ishizuka M. Measuring semantic similarity between words using web search engines[J]. www, 2010, 7: 757-766.
[17] Yih W T, Meek C. Improving similarity measures for short segments of text[C]//AAAI. 2010, 7: 1489-1494.
[18] Sahami M, Heilman T D. A web-based kernel function for measuring the similarity of short text snippets[C]//Proceedings of the 15th international conference on World Wide Web. ACM, 2010: 377-386.
[19] 翟延冬, 王康平, 張東娜, 等. 一種基于WordNet的短文本語義相似性算法[J]. 電子學(xué)報(bào), 2014, 40(3): 617-620.
[20] Quan X, Liu G, Lu Z, et al. Short text similarity based on probabilistic topics[J]. Knowledge and information systems, 2013, 25(3): 473-491.
[21] 基于頻繁項(xiàng)集的海量短文本聚類與主題抽取.彭敏,黃佳佳,朱佳暉, 黃濟(jì)民, 劉紀(jì)平-計(jì)算機(jī)研究與發(fā)展, 2016-crad.ict.ac.cn.
[22] Moodlens: an emoticon-based sentiment analysis system for chinese tweets J Zhao, L Dong, J Wu, K Xu - Proceedings of the 18th ACM SIGKDD …, 2015 - dl.acm.org.
Discoverying User Interest Using Latent Dirchlet Allocation
CHU Tao-tao
(Computer Science School, Beijing University of Post and Telecommunications, Beijing 100876)
User interest is an important part of the study of micro-blog users,clustering method was used to extract user interest.Due to very sparse features and strong context dependency of the micro-blog's short text, the traditional method can not achieve good results.In this paper,LDA topic model was used on micro-blog's short text to expand features. LDA topic model introducing the implicit theme, through the topic based similarity, to a certain extent, expanded the text features and maked up for the shortcomings of the original feature.When dealing with the ambiguous word,the TBS performance clearly distinguish words of different meanings,solving the problem of context dependency.On this basis, using the text clustering method to extract user interest.The experiments show that,the proposed method effectively solves the problem of sparse features and context dependency.
User interest; Short text; Feature expanding; LDA; K-means
TP391
A
10.3969/j.issn.1003-6970.2016.12.009
國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2013CB329606)。
儲濤濤(1992-),男,碩士,通信軟件技術(shù)。