陳雪晶 程銳
摘要:為了更好地為消費者提供具有參考價值的在線評價,本論文基于對網(wǎng)上評論內(nèi)容的分析,借助LDA主題模型挖掘出評論內(nèi)容中所隱藏的主題信息,并與標(biāo)準(zhǔn)訓(xùn)練語料的主題信息進(jìn)行對比,計算它們之間的信息熵,使用計算出來的信息熵來表示評論內(nèi)容偏離標(biāo)準(zhǔn)語料庫的程度,從而得到評論內(nèi)容的有用程度。
關(guān)鍵詞:評論有用性;KL距離;LDA主題模型;信息熵
中圖分類號: TP31? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)26-0266-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
Abstract: In order to better provide consumers with online evaluations of reference value, this thesis is based on the analysis of online comments, use the LDA theme model to dig out the hidden subject information in the comments, and compare it to the subject matter of the standard training corpus, calculate the information entropy between them, use the calculated information entropy to indicate the degree to which the content of the comment deviates from the standard Corpus, to obtain the usefulness of the content of the comments.
Key words: Comment Usefulness; KL distance; LDA topic model;? Information Entropy
1 引言
隨著電子商務(wù)的發(fā)展,消費者的購物習(xí)慣、行為模式等都發(fā)生了相應(yīng)的變化[1]。評論信息是潛在消費者消費意愿的重要依據(jù),而商家可以參考用戶評論調(diào)整其產(chǎn)品,變革銷售模式等來獲取更大的利潤[2]。現(xiàn)如今,在線點評的低門檻和松于審核導(dǎo)致了在線點評的泛濫,不僅評論質(zhì)量參差不齊,而且大量垃圾評論充斥其中,垃圾評論是一些沒有任何意義或用戶帶有某些目的性質(zhì)的在線評論的統(tǒng)稱,這些評論是由用戶隨意或者是故意發(fā)布的不真實的甚至是帶有欺騙性質(zhì)的評論信息[3]?,F(xiàn)如今,在線評論的評論有用性判定已經(jīng)逐步成了衡量在線評論質(zhì)量的最便捷有效的手段之一[4]。有用性可以看作是對評論中所包含的一些潛在價值進(jìn)行主觀測量,評論的有用性可以等同于評論的價值[5]。基于以上分析,研究在線評論的評論有用性是具有實際意義,本論文也將圍繞在線評論的有用性判定進(jìn)行展開。
2 原理分析
本論文實施的主要原理是通過LDA主題模型能夠得到評論文本的主題分布概率,也就是這條評論屬于各個主題的概率是大,所得到的這些概率分布就可以作為計算KL距離的輸入,進(jìn)而得到評論樣本和評論總體之間的差異性,如果差異性很大,則認(rèn)為該評論樣本“不合格”,即判定為該條評論是無用的;如果差異性很小,則認(rèn)為評論樣本“合格”,即判定為是該條評論是有用的。
3 算法描述
3.1 算法流程圖
本論文提出的評論有用性判定算法結(jié)合了信息熵和LDA主題模型,其判定算法的整體流程如圖1所示:
3.2 文檔預(yù)處理
文檔預(yù)處理主要是對訓(xùn)練語料以及評論文檔進(jìn)行相應(yīng)的處理,其處理實現(xiàn)的詳細(xì)流程如圖2所示:
文檔預(yù)處理的實驗結(jié)果如圖3所示:
3.3 主題特征計算
主題特征計算的流程如圖4所示:
以上流程圖主要描述了如何對文本主題特征進(jìn)行計算,主題特征計算其本質(zhì)主要就是利用Gibbs Sampling采樣法結(jié)合LDA主題模型對隱變量進(jìn)行估計,從而得到文本隱含的主題表示。綜合各方面進(jìn)行考慮,本論文中最終選用的參數(shù)估計算法所選擇的是Gibbs Sampling算法,Gibbs算法的大致實現(xiàn)步驟主要由:1、初始化;2、更新糾正詞語分配給每個主題的概率;3、收斂到目標(biāo)分布之后間隔取樣;4、迭代完成之后對取樣的樣本取均值四個步驟組成。
3.4 主題相關(guān)性度量
通過計算主題特征,可以得到語料庫中的評論和用戶提交的評論的主題特征,但語料庫中的評論的主題特征是一個M*K矩陣,而文檔主題特征是一個擁有K個元素的一維矩陣,語料庫中的評論和用戶提交的評論的主題特征的維度不一致,信息熵只能計算兩個維度相同的概率分布的差異性,因此,無法直接求解它們之間的信息熵,要想求解只能將他們轉(zhuǎn)換為同一緯度的矩陣。本論文利用歸一化指數(shù)函數(shù)softmax函數(shù)對語料庫中的文檔主題分布進(jìn)行歸一化處理,處理后語料庫中的文檔主題特征轉(zhuǎn)換為了一維矩陣,此時,它們的維度就達(dá)到了一致,再通過求解信息熵即可評估其差異性。差異性評估的算法流程如圖5所示:
4 實驗過程
4.1 實驗數(shù)據(jù)獲取
本論文通過設(shè)計語料擴(kuò)充模塊獲得對LDA主題模型進(jìn)行訓(xùn)練的文檔。其實現(xiàn)的算法流程如圖6所示。
4.2 參數(shù)調(diào)節(jié)
LDA主題模型中的主題數(shù)K,burn in的大小會影響整個算法的效果,本論文通過實驗對burn in進(jìn)行分析得到每個參數(shù)的最優(yōu)值。
⑴burn in參數(shù)調(diào)節(jié)
burn in最小時算法的建模能力最強(qiáng),根據(jù)burn in參數(shù)調(diào)節(jié)圖可以看出當(dāng)burn in取值為17500時算法的性能最佳。
⑵主題數(shù)量K參數(shù)調(diào)節(jié)
困惑度越小越算法建模的能力越好,從主題數(shù)量K參數(shù)調(diào)節(jié)圖中可以看出,當(dāng)K的取值為20時,實驗的算法效果是最好。
5 實驗結(jié)果分析
實驗結(jié)果的結(jié)果圖如圖9所示:
我們根據(jù)圖9,對比曲線A和B可以明顯發(fā)現(xiàn)兩條曲線之間存在某個可以將他們區(qū)分開來的數(shù)值,我們預(yù)測此值即為判斷評論是否有用的閾值,為了進(jìn)一步確定出這個值是多少,我們增加標(biāo)記為“合格”的評論至5500條,增加標(biāo)記為“不合格”的評論至2400條,閾值從0.3到0.4進(jìn)行取值實驗,并每次試驗的結(jié)果進(jìn)行統(tǒng)計如表1所示:
從表1中可以看出,當(dāng)閾值取0.34時,算法的分類效果最好,所以判斷評論是否有效的主題分布對稱性誤差為0.34。
6 總結(jié)
本論文針對評論有用性判定的問題,提出了結(jié)合主題分布和信息熵的方法。LDA主題模型基于優(yōu)良的數(shù)學(xué)理論挖掘出訓(xùn)練語料和用戶提交的評論中所隱含的主題,得到的主題特征作為信息熵的輸入,得到它們之間在主題層面上的差異的非對稱性度量,通過主題差異性非對稱性度量,可以從側(cè)面對用戶提交的評論的有用性進(jìn)行判定。
參考文獻(xiàn):
[1] 張麗. 在線評論的客戶參與動機(jī)與評論有效性研究[D]. 南開大學(xué), 2011.
[2] 張恒. 基于深度學(xué)習(xí)的虛假評論識別方法研究[D]. 哈爾濱工業(yè)大學(xué), 2011.
[3] Bing L. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data(Data-Centric Systems and Applications)[J].Acm Sigkdd Explorations Newsletter,2008,10(2):23-25.
[4] 劉苗苗,黃沛. 在線評論有用性的實證研究述評與展望[J]. 未來與發(fā)展, 2017, 41(12):64-67.
[5] 方佳明,王鈺瑩,趙志榮. 不同產(chǎn)品品牌聲譽對在線評論有用性影響因素的調(diào)節(jié)效應(yīng)[J]. 軟科學(xué), 2016, 30(3).
【通聯(lián)編輯:梁書】