王慶福,王興國
(遼寧行政學(xué)院,遼寧 沈陽 110161)
基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究
王慶福,王興國
(遼寧行政學(xué)院,遼寧 沈陽 110161)
目前國內(nèi)存在各種類型的輿論平臺,以資訊類輿論平臺為主,咨詢類平臺的受眾通常都會對咨詢進(jìn)行評論,分析提取評論中主題內(nèi)容,對評論信息進(jìn)行分類分析。了解當(dāng)前網(wǎng)民的核心訴求具有非常重要的意義。主題模型作為主題發(fā)現(xiàn)中重要的模型手段,對主題的定位具有明顯的效果。
網(wǎng)絡(luò)評論;主題發(fā)現(xiàn);網(wǎng)民導(dǎo)向
伴隨著新聞資訊類平臺的不斷出現(xiàn),網(wǎng)絡(luò)上越來越多的網(wǎng)民評論信息,這些信息一方面反映了當(dāng)下網(wǎng)民對當(dāng)前時政的看法,另一方面也可以分析當(dāng)前網(wǎng)民的興趣點。因此對網(wǎng)絡(luò)評論的分析一方面可以提供施政機關(guān)以輿情導(dǎo)向,另一方面,通過網(wǎng)民的評論分析也可以對平臺改善用戶體驗,分析用戶行為提供重要借鑒。
政府機關(guān)的官方網(wǎng)站有很多市民的評論信息,今日頭條和網(wǎng)易新聞等社交媒體也有眾多的網(wǎng)民評論信息,電商平臺有眾多的用戶對商品和服務(wù)的評價信息。分析這些評論信息背后用戶的意圖,對施政機關(guān)來說,可以提高自身施政的力度,電商平臺等可以分析用戶的評論來改善服務(wù),或者可以通過用戶的滿意程度來調(diào)整推薦的內(nèi)容等。
主題模型的表示中,主題可以定義為一個概念,它可以由一系列的單詞組成,主題是這些單詞的條件概率??梢灾卑椎卣J(rèn)為主題是一個桶,桶內(nèi)裝滿了各種出現(xiàn)概率高的單詞,這些單詞與這個主題有很強的關(guān)聯(lián)性。
主題是一個隱藏的信息,需要通過一定的手段來做發(fā)現(xiàn),可以理解為每篇文檔都以一定的概率包含某個詞,文檔通過包含的詞來體現(xiàn)一定的主題,文檔需要從主題中選取一些需要的詞來組成文檔,這是一個完整的過程。因此,生成一篇文檔時,每個詞出現(xiàn)的概率如公式1所示。
(公式1)
將主題模型的公式表示具體到圖的形式如圖1所示。
圖1 主題模型的公式示意
“文檔-詞語”構(gòu)成矩陣表示每個詞語在文檔中出現(xiàn)次數(shù),即出現(xiàn)頻率?!霸~語-主題”矩陣表示每個詞語在給定主題中出現(xiàn)頻率?!拔臋n-主題”矩陣表示每個文檔包含該主題的概率。給定一系列文檔,首先對文檔進(jìn)行分詞,計算各個文檔中詞語頻率可得到“文檔-詞語”矩陣,主題模型即是通過“文檔-詞語”訓(xùn)練得到“詞語-主題”和“文檔-主題”矩陣。
主題模型最早使用SVD的LSA(隱形語義分析),然后引入基于概率的pLSA(ProbabilisticLatent Semantic Analysis),其參數(shù)學(xué)習(xí)采用EM算法和后來改進(jìn)PLSA,引入hyperparameter的LDA(Latent Dirichlet Allocation),其參數(shù)學(xué)習(xí)主要采用EM和Gibbs sampling,下面主要介紹LDA。
網(wǎng)民的評論并沒有主題信息,展現(xiàn)形態(tài)是一條一條的語句,需要對這些語句進(jìn)行分析處理,構(gòu)建主題模型進(jìn)行訓(xùn)練。LDA以文檔集合D作為輸入(會有切詞,去停用詞,取詞干等常見的預(yù)處理,略去不表),希望訓(xùn)練出的2個結(jié)果向量(設(shè)聚成k個Topic,VOC中共包含m個詞),如圖2所示。
對每個D中的文檔d,對應(yīng)到不同topic的概率θd=<Pt1,…,Ptk>,其中,Pti表示d對應(yīng)T中第i個topic的概率。計算方法是直觀的,Pti=nti/n,nti其中表示d中對應(yīng)第i 個topic的詞的數(shù)目,n是d中所有詞的總數(shù)。
t=<Pw1,…pwm>,其中,Pwi表示t生成VOC中第i個單詞的概率。計算方法同樣很直觀,Pwi=nwi/n,其中nwi表示對應(yīng)到topic t的VOC中第i個單詞的數(shù)目,N表示所有對應(yīng)到topic t的單詞總數(shù)。
圖2 LDA主題模型學(xué)習(xí)
在表1中,給出了一些主題對應(yīng)的詞語概率表示,表示這些詞語落在當(dāng)前主題(桶)內(nèi)的概率。
表1 主題-詞語對應(yīng)
許多算法可以訓(xùn)練一個LDA模型。選擇EM算法,因為它簡單并且快速收斂。用EM訓(xùn)練LDA有一個潛在的圖結(jié)構(gòu),在GraphX之上構(gòu)建LDA是一個很自然的選擇。
LDA主要有2類數(shù)據(jù):詞和文檔。把這些數(shù)據(jù)存成一個偶圖(見圖3),左邊是詞節(jié)點,右邊是文檔節(jié)點。每個詞節(jié)點存儲一些權(quán)重值,表示這個詞語和哪個主題相關(guān);類似的,每篇文章節(jié)點存儲當(dāng)前文章討論主題的估計。
圖3 文檔-詞語-主題表示
LDA是眾多主題模型中一種,它們都是基于概率分布假設(shè)的領(lǐng)域。LDA試圖通過當(dāng)前的已知數(shù)據(jù)推測生成未知數(shù)據(jù)即隱藏主題的過程。LDA的過程定義了觀測數(shù)據(jù)和推測隱藏數(shù)據(jù)之間的聯(lián)合概率分布。通過使用聯(lián)合分布來推測估算隱藏變量的條件分布(后驗概率)進(jìn)行數(shù)據(jù)分析。對于LDA而言,觀測數(shù)據(jù)就是文檔和詞語構(gòu)成的聯(lián)合矩陣數(shù)據(jù),隱藏變量就是詞語之間主題結(jié)構(gòu)。則推測文檔中隱含的主題信息其實就是在給定數(shù)據(jù)的前提下生成隱藏變量的分布。
LDA主要基于多種假設(shè)信息,LDA將文檔表示成詞袋的形式,文檔中各個詞語構(gòu)成詞袋中各個元素,其通過弱化文檔中某些信息來發(fā)現(xiàn)文檔中潛藏的更加復(fù)雜的結(jié)構(gòu)。這種假設(shè)雖然在某種程度上不符合現(xiàn)實,但是在發(fā)現(xiàn)文本中語義結(jié)構(gòu)信息確具有非常重要大意義。LDA通過構(gòu)建文檔和詞語之間的關(guān)聯(lián)性,以理論化的方式對關(guān)聯(lián)矩陣進(jìn)行矩陣分解,分解的要義就是通過發(fā)現(xiàn)文檔和詞語之間的潛藏信息(主題結(jié)構(gòu))。LDA巧妙地將未知隱藏數(shù)據(jù)的分析轉(zhuǎn)化為當(dāng)前已經(jīng)信息進(jìn)行分析(后驗概率)。在LDA和隱馬爾可夫模型之間進(jìn)行切換的主題模型。這些模型顯著地擴展了參數(shù)空間,并且顯示了語言建模帶來的性能提升。
LDA是一個優(yōu)秀的模型,主題被作為隱藏的信息可同時作用在詞語和文檔上,它并非是單一主題的適配,而是多個主題同時發(fā)現(xiàn)的結(jié)果,每組文檔通過不同的概率分布來包含著多種主題。值得一提的是,產(chǎn)生的LDA的模型參數(shù)和概率分布可以通過簡單的微調(diào)可適用于其它的推斷算法。為了適配用戶偏好、機器翻譯、搜索日志、用戶評論和社交網(wǎng)絡(luò)等多種數(shù)據(jù),LDA衍生出多種類型的數(shù)據(jù)進(jìn)行分析。
LDA模型的推斷算法不僅在文本處理領(lǐng)域嶄露頭角,也被廣泛運用在其它領(lǐng)域。例如研究者們通過類別文本中詞語包含主題信息,在圖像分析時,每幅圖像都可以表征為由一個個視覺模型組合而成,則此處的視覺模型可以聯(lián)想為文本中主題信息,主題模型在圖像領(lǐng)域可以被用來進(jìn)行圖像分類,圖像識別等。另外,主題模型可以實現(xiàn)對原始數(shù)據(jù)的壓縮,通過將原始數(shù)據(jù)轉(zhuǎn)換為聯(lián)合矩陣的形式,聯(lián)合矩陣經(jīng)過主題訓(xùn)練后分解為矩陣相乘的形式,分解后的矩陣包含了原始數(shù)據(jù)中主要信息,可以提取適當(dāng)?shù)木S度來實現(xiàn)數(shù)據(jù)壓縮的效果。
[1]陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析[J].計算機科學(xué),2013(4):127-130,135.
[2]朱旭東,劉志鏡.基于主題隱馬爾科夫模型的人體異常行為識別[J].計算機科學(xué),2012(3):251-255,275.
[3]王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學(xué)報,2012(11):2346-2350.
[4]魏強,金芝,許焱.基于概率主題模型的物聯(lián)網(wǎng)服務(wù)發(fā)現(xiàn)[J].軟件學(xué)報,2014(8):1640-1658.
[5]楊瀟,馬軍,楊同峰,等.主題模型LDA的多文檔自動文摘[J].智能系統(tǒng)學(xué)報,2010(2):169-176.
Research on Topic Discovery in Online Reviews Based on LDA
Wang Qingfu,Wang Xingguo
(Liaoning Academy of Governance,Shenyang 110161,China)
The various types of public opinion platform, based on information platform of public opinion and consulting platform audience usually comments on consultation, analysis to extract thematic content review, to review the information for classification analysis, to understand the core demands of the current Internet users has very important significance. Topic model, as an important model in the subject discovery, has obvious effect on the orientation of the subject.
online review; topic discovery; public opinion
王慶福(1979-),男,遼寧沈陽,本科,講師;研究方向:計算機網(wǎng)絡(luò)與數(shù)據(jù)庫技術(shù)。