施利萍
摘 要 目前越來(lái)越多的機(jī)構(gòu)建立微信公眾平臺(tái),在公眾號(hào)文章中的留言反映其受眾在該文章話題下的關(guān)注熱點(diǎn)和真實(shí)觀點(diǎn),因此分析和挖掘留言具有十分重要的參考價(jià)值。分析了微信公眾號(hào)留言文本的挖掘價(jià)值,通過(guò)LDA主題模型,研究了如何從留言文本出挖掘出熱點(diǎn)話題,從而幫助公眾號(hào)更好地發(fā)展。
關(guān)鍵詞 微信留言文本 主題發(fā)現(xiàn) LDA模型
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A
1微信公眾號(hào)留言文本的挖掘價(jià)值
隨著移動(dòng)互聯(lián)網(wǎng)的普及,通過(guò)手機(jī)上網(wǎng)的中國(guó)網(wǎng)民規(guī)模近十億,而微信是目前使用最多的社交軟件,月活躍用戶數(shù)達(dá)5億,微信公眾號(hào)達(dá)數(shù)百分個(gè)。越來(lái)越多各單位機(jī)構(gòu)建立微信公眾平臺(tái),利用其進(jìn)行宣傳、展示、服務(wù)、產(chǎn)品推介等。微信公眾平臺(tái)傳播資訊具有針對(duì)性強(qiáng),覆蓋一切碎片化時(shí)間;傳播精準(zhǔn),歷史信息傳播周期長(zhǎng);交互性強(qiáng),方便及時(shí)的交互體驗(yàn);實(shí)時(shí)、靈活、低成本等特點(diǎn)。公眾號(hào)的訂閱者一般對(duì)該公眾號(hào)信息較為關(guān)注,在公眾號(hào)文章中的留言反映他們?cè)谠撐恼略掝}下的關(guān)注熱點(diǎn)和真實(shí)觀點(diǎn)。因此我們可以利用數(shù)據(jù)挖掘技術(shù)從這些留言文本中挖掘出網(wǎng)民所討論的熱點(diǎn)話題,從而了解到網(wǎng)民的態(tài)度。留言大數(shù)據(jù)挖掘有利于公眾平臺(tái)獲取當(dāng)前的熱門關(guān)注點(diǎn),從而有針對(duì)性地加強(qiáng)相關(guān)內(nèi)容創(chuàng)建,進(jìn)而提升用戶體驗(yàn)和活躍度,增加用戶的粘度和參與度。
留言文本具有信息內(nèi)容短、信息量少的特征,這加大了提取話題的難度。本文針對(duì)公眾號(hào)留言文本,應(yīng)用LDA主題模型提取出熱點(diǎn)話題。
2 LDA主題模型
主題模型是當(dāng)前文本表示研究的主要范式,LDA(LatentDirichletAllocafion)主題模型是一種基于概率的主題發(fā)現(xiàn)模型,能夠提取文本隱含主題的非監(jiān)督學(xué)習(xí)模型,是主體模型中典型的代表。由于LDA模型是全概率主題生成模型,可以利用高效的概率推斷算法進(jìn)行計(jì)算,同時(shí)LDA模型在計(jì)算過(guò)程中與訓(xùn)練文檔數(shù)量無(wú)關(guān),因此更適合處理大規(guī)模語(yǔ)料庫(kù)。
LDA模型是一個(gè)三層貝葉斯產(chǎn)生式概率模型,該模型采用“詞袋”的方法,這種方法將每一篇文檔看作一個(gè)詞頻向量,假設(shè)文檔是由一系列潛在主題混合而成,主題是由詞匯表中所有的詞匯混合而成,每一篇文檔代表了主題所代表的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。
3基于LDA模型的微信留言文本主題提取
3.1文本預(yù)處理
保證數(shù)據(jù)的質(zhì)量,降低無(wú)關(guān)數(shù)據(jù)或噪聲數(shù)據(jù)對(duì)結(jié)果的影響,需要對(duì)抓取到元數(shù)據(jù)進(jìn)行預(yù)處理。本文主要從以下方面對(duì)數(shù)據(jù)進(jìn)行整理:
(1)剔除只包含特殊字符和數(shù)字的留言,只保留重復(fù)評(píng)論中的一條;
(2)利用IKAnalyzer2012開源分詞類庫(kù)對(duì)每條留言進(jìn)行分詞,保留名詞和動(dòng)詞;對(duì)短文本分詞可通過(guò)使用詞典中的詞條進(jìn)行字符串匹配來(lái)實(shí)現(xiàn)。將短文本分詞后再去掉一些無(wú)意義的詞語(yǔ),如“的”、“了”等詞語(yǔ),雖然出現(xiàn)頻率高,但對(duì)文本分類沒有太大的貢獻(xiàn);
(3)建立停用詞表剔除文本內(nèi)容中的無(wú)用字詞。
3.2 LDA建模
假定給定一個(gè)留言集R包含M篇留言文本{r1,r2,…,rM},留言文本rm是長(zhǎng)度為Nm的詞匯序列,記為rm={w1,w2,…,wN},其中wn表示序列中的第n個(gè)詞匯,在M篇留言中分布著K個(gè)主題{t1,t2,…,tk}。詞匯wi在留言rm中的概率可以表示為:
p(wi|rm) ==1p((wi|zi=j)p(zj=j|rm)) (1)
其中,zi是潛在主題,標(biāo)示詞匯wi的主題序號(hào),p(wi|zi=j) 標(biāo)示詞匯wi被分配到第j個(gè)主題的概率p(zj=j|rm),標(biāo)示第j個(gè)主題在留言rm中的概率。
模型假定每篇留言是由各個(gè)主題隨機(jī)混合而成,將主題表示為在詞匯上的概率分布,由此其中每個(gè)主題都是可解釋的。模型使用多項(xiàng)式分布建立貝葉斯網(wǎng)絡(luò)中各參數(shù)和變量之間的關(guān)聯(lián),并假設(shè)多項(xiàng)式分布的參數(shù)服從Dirichlet。每個(gè)主題又是詞匯表中所有詞匯的隨機(jī)混合,混合比例也服從多項(xiàng)式分布。
根據(jù)經(jīng)驗(yàn),模型中主題數(shù)目K預(yù)設(shè)為50,同時(shí)根據(jù)Steyvers的建議,令 根據(jù)主題數(shù)目變化, 的所有分量取經(jīng)驗(yàn)值=50/T,而 的所有分量取固定的經(jīng)驗(yàn)值 =0.01,這三個(gè)可變量的取值確定后,結(jié)合輸入向量運(yùn)行Gibbs抽樣,得到詞匯表中的詞語(yǔ)在K個(gè)潛在主題上的概率分布以及潛在主題在每篇留言中的概率分布。
本文認(rèn)為表達(dá)某個(gè)主題的留言越多該主題就越重要。在模型中,一個(gè)留言可能包含一個(gè)或若干個(gè)主題,是若干主題的混合,那么某個(gè)主題的重要度就與該主題在所有留言的各混合主題中所占的比例有關(guān)。所以留言集合中主題的重要度可以通過(guò)計(jì)算留言集合中所有句子包含的該主題的權(quán)重的累加和得到。最后將主題按重要程度排序,從而得到留言文本的熱點(diǎn)主題。
4 結(jié)束語(yǔ)
本文分析了微信公眾號(hào)留言文本的挖掘價(jià)值,通過(guò)LDA主題模型,研究了如何從留言文本出挖掘出熱點(diǎn)話題,從而幫助公眾號(hào)更好地發(fā)展。
參考文獻(xiàn)
[1] 劉坤峰,劉斌,秦長(zhǎng)濤,劉振名,梁品超.新媒體微信公眾平臺(tái)建設(shè)及運(yùn)營(yíng)策略研究[J].河北工程技術(shù)高等專科學(xué)校學(xué)報(bào),2017(01):42—44.
[2] 余傳明,張小青,陳雷.基于LDA模型的評(píng)論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J].情報(bào)理論與實(shí)踐,2010(05):103—106.endprint