亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        在線評論的評論有用性判定

        2019-11-17 04:05:19陳雪晶程銳
        電腦知識與技術(shù) 2019年26期
        關(guān)鍵詞:信息熵

        陳雪晶 程銳

        摘要:為了更好地為消費者提供具有參考價值的在線評價,本論文基于對網(wǎng)上評論內(nèi)容的分析,借助LDA主題模型挖掘出評論內(nèi)容中所隱藏的主題信息,并與標(biāo)準(zhǔn)訓(xùn)練語料的主題信息進(jìn)行對比,計算它們之間的信息熵,使用計算出來的信息熵來表示評論內(nèi)容偏離標(biāo)準(zhǔn)語料庫的程度,從而得到評論內(nèi)容的有用程度。

        關(guān)鍵詞:評論有用性;KL距離;LDA主題模型;信息熵

        中圖分類號: TP31? ? ? ? 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2019)26-0266-03

        開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

        Abstract: In order to better provide consumers with online evaluations of reference value, this thesis is based on the analysis of online comments, use the LDA theme model to dig out the hidden subject information in the comments, and compare it to the subject matter of the standard training corpus, calculate the information entropy between them, use the calculated information entropy to indicate the degree to which the content of the comment deviates from the standard Corpus, to obtain the usefulness of the content of the comments.

        Key words: Comment Usefulness; KL distance; LDA topic model;? Information Entropy

        1 引言

        隨著電子商務(wù)的發(fā)展,消費者的購物習(xí)慣、行為模式等都發(fā)生了相應(yīng)的變化[1]。評論信息是潛在消費者消費意愿的重要依據(jù),而商家可以參考用戶評論調(diào)整其產(chǎn)品,變革銷售模式等來獲取更大的利潤[2]。現(xiàn)如今,在線點評的低門檻和松于審核導(dǎo)致了在線點評的泛濫,不僅評論質(zhì)量參差不齊,而且大量垃圾評論充斥其中,垃圾評論是一些沒有任何意義或用戶帶有某些目的性質(zhì)的在線評論的統(tǒng)稱,這些評論是由用戶隨意或者是故意發(fā)布的不真實的甚至是帶有欺騙性質(zhì)的評論信息[3]?,F(xiàn)如今,在線評論的評論有用性判定已經(jīng)逐步成了衡量在線評論質(zhì)量的最便捷有效的手段之一[4]。有用性可以看作是對評論中所包含的一些潛在價值進(jìn)行主觀測量,評論的有用性可以等同于評論的價值[5]。基于以上分析,研究在線評論的評論有用性是具有實際意義,本論文也將圍繞在線評論的有用性判定進(jìn)行展開。

        2 原理分析

        本論文實施的主要原理是通過LDA主題模型能夠得到評論文本的主題分布概率,也就是這條評論屬于各個主題的概率是大,所得到的這些概率分布就可以作為計算KL距離的輸入,進(jìn)而得到評論樣本和評論總體之間的差異性,如果差異性很大,則認(rèn)為該評論樣本“不合格”,即判定為該條評論是無用的;如果差異性很小,則認(rèn)為評論樣本“合格”,即判定為是該條評論是有用的。

        3 算法描述

        3.1 算法流程圖

        本論文提出的評論有用性判定算法結(jié)合了信息熵和LDA主題模型,其判定算法的整體流程如圖1所示:

        3.2 文檔預(yù)處理

        文檔預(yù)處理主要是對訓(xùn)練語料以及評論文檔進(jìn)行相應(yīng)的處理,其處理實現(xiàn)的詳細(xì)流程如圖2所示:

        文檔預(yù)處理的實驗結(jié)果如圖3所示:

        3.3 主題特征計算

        主題特征計算的流程如圖4所示:

        以上流程圖主要描述了如何對文本主題特征進(jìn)行計算,主題特征計算其本質(zhì)主要就是利用Gibbs Sampling采樣法結(jié)合LDA主題模型對隱變量進(jìn)行估計,從而得到文本隱含的主題表示。綜合各方面進(jìn)行考慮,本論文中最終選用的參數(shù)估計算法所選擇的是Gibbs Sampling算法,Gibbs算法的大致實現(xiàn)步驟主要由:1、初始化;2、更新糾正詞語分配給每個主題的概率;3、收斂到目標(biāo)分布之后間隔取樣;4、迭代完成之后對取樣的樣本取均值四個步驟組成。

        3.4 主題相關(guān)性度量

        通過計算主題特征,可以得到語料庫中的評論和用戶提交的評論的主題特征,但語料庫中的評論的主題特征是一個M*K矩陣,而文檔主題特征是一個擁有K個元素的一維矩陣,語料庫中的評論和用戶提交的評論的主題特征的維度不一致,信息熵只能計算兩個維度相同的概率分布的差異性,因此,無法直接求解它們之間的信息熵,要想求解只能將他們轉(zhuǎn)換為同一緯度的矩陣。本論文利用歸一化指數(shù)函數(shù)softmax函數(shù)對語料庫中的文檔主題分布進(jìn)行歸一化處理,處理后語料庫中的文檔主題特征轉(zhuǎn)換為了一維矩陣,此時,它們的維度就達(dá)到了一致,再通過求解信息熵即可評估其差異性。差異性評估的算法流程如圖5所示:

        4 實驗過程

        4.1 實驗數(shù)據(jù)獲取

        本論文通過設(shè)計語料擴(kuò)充模塊獲得對LDA主題模型進(jìn)行訓(xùn)練的文檔。其實現(xiàn)的算法流程如圖6所示。

        4.2 參數(shù)調(diào)節(jié)

        LDA主題模型中的主題數(shù)K,burn in的大小會影響整個算法的效果,本論文通過實驗對burn in進(jìn)行分析得到每個參數(shù)的最優(yōu)值。

        ⑴burn in參數(shù)調(diào)節(jié)

        burn in最小時算法的建模能力最強(qiáng),根據(jù)burn in參數(shù)調(diào)節(jié)圖可以看出當(dāng)burn in取值為17500時算法的性能最佳。

        ⑵主題數(shù)量K參數(shù)調(diào)節(jié)

        困惑度越小越算法建模的能力越好,從主題數(shù)量K參數(shù)調(diào)節(jié)圖中可以看出,當(dāng)K的取值為20時,實驗的算法效果是最好。

        5 實驗結(jié)果分析

        實驗結(jié)果的結(jié)果圖如圖9所示:

        我們根據(jù)圖9,對比曲線A和B可以明顯發(fā)現(xiàn)兩條曲線之間存在某個可以將他們區(qū)分開來的數(shù)值,我們預(yù)測此值即為判斷評論是否有用的閾值,為了進(jìn)一步確定出這個值是多少,我們增加標(biāo)記為“合格”的評論至5500條,增加標(biāo)記為“不合格”的評論至2400條,閾值從0.3到0.4進(jìn)行取值實驗,并每次試驗的結(jié)果進(jìn)行統(tǒng)計如表1所示:

        從表1中可以看出,當(dāng)閾值取0.34時,算法的分類效果最好,所以判斷評論是否有效的主題分布對稱性誤差為0.34。

        6 總結(jié)

        本論文針對評論有用性判定的問題,提出了結(jié)合主題分布和信息熵的方法。LDA主題模型基于優(yōu)良的數(shù)學(xué)理論挖掘出訓(xùn)練語料和用戶提交的評論中所隱含的主題,得到的主題特征作為信息熵的輸入,得到它們之間在主題層面上的差異的非對稱性度量,通過主題差異性非對稱性度量,可以從側(cè)面對用戶提交的評論的有用性進(jìn)行判定。

        參考文獻(xiàn):

        [1] 張麗. 在線評論的客戶參與動機(jī)與評論有效性研究[D]. 南開大學(xué), 2011.

        [2] 張恒. 基于深度學(xué)習(xí)的虛假評論識別方法研究[D]. 哈爾濱工業(yè)大學(xué), 2011.

        [3] Bing L. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data(Data-Centric Systems and Applications)[J].Acm Sigkdd Explorations Newsletter,2008,10(2):23-25.

        [4] 劉苗苗,黃沛. 在線評論有用性的實證研究述評與展望[J]. 未來與發(fā)展, 2017, 41(12):64-67.

        [5] 方佳明,王鈺瑩,趙志榮. 不同產(chǎn)品品牌聲譽對在線評論有用性影響因素的調(diào)節(jié)效應(yīng)[J]. 軟科學(xué), 2016, 30(3).

        【通聯(lián)編輯:梁書】

        猜你喜歡
        信息熵
        基于信息熵可信度的測試點選擇方法研究
        基于信息熵模糊物元的公路邊坡支護(hù)方案優(yōu)選研究
        基于小波奇異信息熵的10kV供電系統(tǒng)故障選線研究與仿真
        基于信息熵的實驗教學(xué)量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        基于信息熵賦權(quán)法優(yōu)化哮喘方醇提工藝
        中成藥(2017年7期)2017-11-22 07:32:59
        一種基于信息熵的雷達(dá)動態(tài)自適應(yīng)選擇跟蹤方法
        改進(jìn)的信息熵模型在區(qū)域水文站網(wǎng)優(yōu)化布設(shè)中的應(yīng)用研究
        基于信息熵的IITFN多屬性決策方法
        基于信息熵的循環(huán)譜分析方法及其在滾動軸承故障診斷中的應(yīng)用
        泊松分布信息熵的性質(zhì)和數(shù)值計算
        人妻少妇偷人精品免费看| 欧美黑人xxxx性高清版| 在线人成免费视频69国产| 国际无码精品| 久久中文字幕久久久久91| 亚洲av毛片一区二区久久| 女人av天堂国产在线| 欧美大屁股xxxx高潮喷水| 少妇内射兰兰久久| 中文字幕一区二区三区久久网站| 久久亚洲av无码西西人体| 国产女合集小岁9三部| 午夜精品久视频在线观看| 国产av一级二级三级| 少妇夜夜春夜夜爽试看视频| 亚洲乱码日产精品bd| a级国产精品片在线观看| 亚洲国产一区一区毛片a| 久久久久国色av免费观看性色| 欧美午夜刺激影院| 手机看片久久国产免费| 久久国产精品一区二区| 亚洲综合精品亚洲国产成人| 女邻居的大乳中文字幕| 久久久久亚洲AV成人网毛片 | 大地资源网在线观看免费官网| 久久久久99精品成人片直播| 国产第19页精品| 果冻国产一区二区三区| 成人自拍小视频在线看| 亚洲av不卡一区二区三区| 一级做a爰片久久毛片| 一区二区三区视频免费观看在线| 国产精品一区二区黄色| 亚洲av成人无码精品电影在线| 亚洲伊人色欲综合网| 91网站在线看| 天堂精品人妻一卡二卡| 麻花传媒68xxx在线观看| 曰本无码人妻丰满熟妇5g影院| 日韩区在线|