亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情感主題特征詞加權(quán)的微博評論聚類算法研究

        2020-12-23 04:33:21吳迪楊瑞欣申超
        現(xiàn)代電子技術 2020年23期
        關鍵詞:聚類算法情感分析

        吳迪 楊瑞欣 申超

        摘 ?要: 為了提高微博評論的情感分析聚類效果,提出一種基于情感主題特征詞加權(quán)的微博評論聚類算法。該算法首先通過定義情感主題詞袋提取情感主題詞;然后利用語義相似度計算獲得情感主題特征詞,進一步通過定義情感主題特征詞重要度和分布度對其進行加權(quán),充分考慮情感主題特征詞對主題的貢獻度;最后通過LDA聚類獲得加權(quán)的情感主題特征詞。實驗結(jié)果表明,該算法表現(xiàn)出較好的情感分析聚類效果,對網(wǎng)絡輿情分析有一定的指導作用。

        關鍵詞: 微博評論; 聚類算法; LDA聚類; 情感分析; 特征詞加權(quán); 主題詞提取

        中圖分類號: TN911.1?34; TP391.1 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)23?0067?05

        Abstract: In order to enhance clustering effect of sentiment analysis on microblog comments, a microblog comment clustering algorithm based on the weighted sentiment topic feature words is proposed in this paper. With the algorithm, the sentiment topic words are extracted by defining the sentiment topic word bag, and then the sentiment topic feature words are obtained by calculation of semantic similarity. The sentiment topic feature words are weighted by defining their importance and distribution. The contribution of sentiment topic feature words to the topic is considered fully in the algorithm. The weighted sentiment topic feature words have been obtained by latent Dirichlet allocation (LDA) clustering. The experimental results show that the algorithm has a good clustering effect of sentiment analysis, and has a certain guiding role for network public opinion analysis.

        Keywords: microblog comment; clustering algorithm; LDA clustering; sentiment analysis; feature word weighting; topic word extraction

        0 ?引 ?言

        隨著網(wǎng)絡的普及,微博已成為獲取社會資訊的重要渠道[1]。用戶微博上的評論包含主觀情感的表達,并攜帶大量用戶信息和數(shù)據(jù)信息,微博用戶的情感表達也會對其他用戶的情感甚至對政府的決策行為產(chǎn)生影響。因此,亟需對微博評論進行有效的情感分析,從而把握網(wǎng)絡輿情走向[2]。

        目前,主題模型已成為微博評論分析領域的熱點。LDA(Latent Dirichlet Allocation,隱含的狄利克雷分配)主題模型是包括詞項、主題和文檔三層結(jié)構(gòu)的文檔生成概率模型[3],可以識別大規(guī)模文檔集或語料庫中潛在的主題信息。傳統(tǒng)的LDA主題模型只能對微博評論中隱含的主題進行建模,僅考慮了微博評論表面語義信息之間的關系,在情感分析方面能力欠佳。

        文獻[4]在LDA中加入情感層與微博用戶關系參數(shù),提出基于LDA和微博用戶關系的主題情感模型,該模型具有良好的情感分類能力;文獻[5]在LDA主題模型的基礎上提出了適用于短文本的情感分析模型,該模型可增強情感詞匯之間的共現(xiàn)頻率,提高了在情感極性分類上的效率;文獻[6]基于LDA主題模型,對產(chǎn)業(yè)產(chǎn)品進行文本挖掘,利用情感詞典對提取主題詞進行情感標注,有效地對產(chǎn)品評論進行情感分析。

        上述文獻在情感分析方面表現(xiàn)出較好的性能,但在兼顧情感與語義兩方面的分析效果上不太理想。文獻[7]提出一種情感主題聯(lián)合模型(Joint Sentiment Topic Model for Sentiment Analysis,JST),該模型在LDA的基礎上增加情感層,使之與文檔、主題和詞語相關聯(lián),具有一定的情感和語義分析能力;文獻[8]提出了隱含情感模型(Latent Sentiment Model,LSM),將主題劃分為三種帶有情感的特殊主題,從而實現(xiàn)對文檔的情感分析;文獻[9]中提出了LTM模型,將情感先驗知識以頻繁項集的形式集成到主題模型中,提高了語義分析能力;文獻[10]提出了平均加權(quán)的WLDA模型,引入平均加權(quán)值和支持向量機算法,有效提高主題區(qū)分度和語義分析方面的質(zhì)量。

        上述文獻在情感和語義分析兩方面都有所突破,但卻忽略了主題內(nèi)部詞與詞之間的相關度。本文充分考慮主題詞的貢獻度和詞與詞之間的相關度,建立更加完善的情感主題詞袋,提出基于情感主題特征詞加權(quán)的微博評論聚類算法MCCWSFW(Microblog Comment Clustering Based on the Weighted Sentiment Topic Feature Words),旨在挖掘出微博評論中的情感主題特征詞集和隱含語義特征,以達到較好的情感分析聚類效果。

        1 ?算法分析

        對于情感分析,一般選取主觀性文本,也就是分析用戶用微博發(fā)布的對某事物或事件的評論。本文處理微博評論步驟主要包括:數(shù)據(jù)預處理、特征處理與詞向量獲取、詞向量相似度計算、特征選擇和特征加權(quán),最后給出MCCWSFW算法的詳細描述。

        1.1 ?數(shù)據(jù)預處理

        數(shù)據(jù)預處理主要包括三個步驟。首先,利用ACHE爬蟲法爬取微博評論,并對微博評論數(shù)據(jù)進行清洗,消除詞干、停止詞,刪除評論頻率很低的詞;然后采用jieba進行中文分詞,并通過LDA主題模型訓練語料庫進行降維處理;最后,針對微博評論定義情感主題詞袋,用來匹配情感主題詞。定義的情感主題詞袋是為后續(xù)情感分析工作做準備,其具體定義如下。

        定義1:情感主題詞袋[F](ST)。

        [F(ST)=c1is(adj)?c1ks(adv)?c1js(v)?c1ns(else)] (1)

        式中:adj代表形容詞;adv代表副詞;v代表動詞;else代表其他詞性;[i],[k],[j],[n]分別代表[F](ST)中的形容詞、副詞、動詞以及其他詞性的數(shù)量;[c1is(adj)],[c1ks(adv)],[c1js(v)],[c1ns(else)]分別代表形容詞、副詞、動詞和其他詞性詞袋;“[?]”表示字符串的拼接。

        1.2 ?特征處理與詞向量獲取

        經(jīng)過1.1節(jié)數(shù)據(jù)預處理過程,對其得到的情感主題詞袋作進一步處理。處理過程主要包括情感主題詞的提取和對其詞向量的獲取兩部分。

        1) 從情感主題詞袋中提取情感主題詞,此步驟由特征處理過程完成。特征處理主要用來降低向量空間維數(shù),從而簡化計算,提高文本處理的速度和效率。本文采用TF?IDF進行特征處理。

        2) 對情感主題詞進行詞向量獲取。首先獲取語料并對語料進行預處理,進一步在數(shù)據(jù)預處理和特征處理的基礎上,采用基于word2vec的詞向量獲取方式對處理過的微博評論做訓練,最后采用Gibbs抽樣法對模型求解。

        1.3 ?詞向量相似度計算

        在完成TF?IDF特征處理和詞向量獲取后,微博評論之間的相似度問題轉(zhuǎn)變成了向量之間的相似度問題。情感主題詞是根據(jù)詞與詞之間的相似度檢測的,本文采用文本處理中最常用的相似性度量方式,即余弦相似度。

        利用Sim[(a,b)]表示計算向量[a]和向量[b]的相似度,則相似度公式描述如下:

        [Sim(a,b)=x1x2+y1y2x21+y21x22+y22] (2)

        式中:[a[x1,y1]]和[b[x2,y2]]代表兩個不同的向量;[x1],[y1],[x2],[y2]分別表示兩個向量的橫、縱坐標。

        1.4 ?特征選擇

        將提取的情感主題詞作為候選情感主題詞,在詞向量模型上將其轉(zhuǎn)換成具有語義知識的詞向量形式,再采用Pearson相關系數(shù)[11]計算詞向量,得到候選情感主題詞之間的語義相似度值,以此對微博評論進行特征選擇,最后將上述特征選擇得到的主題詞定義為情感主題特征詞[Si],利用情感主題特征詞對微博評論進行聚類。

        情感主題特征詞提取流程圖如圖1所示。

        圖1中,該流程通過匹配情感主題詞袋,判斷微博評論是否為情感主題詞,“是”則進一步進行語義相似度計算,得到情感主題特征詞集;“否”則繼續(xù)匹配情感主題詞袋,直到遍歷整個微博評論集。

        1.5 ?特征加權(quán)

        由于在同主題內(nèi)概率較高的詞語間的相似度越高,則這個特征表達就越好。因此,本文充分考慮情感主題特征詞對主題的貢獻度,實現(xiàn)概率較高詞語的相似度及內(nèi)部相似度計算,最終得到主題的權(quán)值計算結(jié)果。

        本文定義了情感主題特征詞重要度和情感主題特征詞分布度兩個參數(shù),并分別對它們進行權(quán)重加權(quán),再將情感主題特征詞重要度和分布度進行線性相加。情感主題特征詞重要度和分布度定義分別如下所示。

        定義2:情感主題特征詞重要度。假設微博評論[D]由[m]個情感主題特征詞構(gòu)成,[D=]{[S1],[S2],…,[Si],…,[Sm]},則情感主題特征詞[Si]的重要度[T]([Si])的計算公式如下:

        [T(Si)=j=1mSim(wi,wj)] ?(3)

        式中[Simwi,wj]表示微博評論[D]中第[i]句和第[j]句之間的余弦相似度值。

        情感主題特征詞的重要度主要描述情感詞對于主題的貢獻作用。如果情感主題特征詞中的詞塊與其他詞塊的相似度之和最大,則其很有可能就是微博評論的情感主題特征詞或者與微博評論有較強的相關性。

        與情感主題特征詞相關的情感詞的個數(shù)稱為情感主題特征詞分布度。情感主題特征詞與越多的其他語句滿足相似度閾值,則其覆蓋的內(nèi)容也就越多,因而成為情感主題特征詞的可能性就越大。

        定義3:情感主題特征詞分布度。假設微博評論[D]的情感詞數(shù)目為[m],情感主題特征詞[Si]的分布度[CSi]計算公式如下:

        [C(Si)=q(wi)m] (4)

        式中[qwi]是微博評論[D]中與情感主題特征詞[Si]滿足相似度閾值的評論個數(shù)。

        根據(jù)前面對情感主題特征詞的分析,情感主題特征詞權(quán)值計算通過重要度和分布度線性相加得到。權(quán)值計算公式如下:

        [Weight=d?T(Si)+(1-d)?C(Si)] (5)

        式中[d]表示阻尼系數(shù),一般設置為0.85。

        情感主題特征詞加權(quán)算法流程如下:

        算法1:情感主題特征詞加權(quán)算法

        輸入:主題數(shù)為[n],情感主題特征詞集[Ti], 主題集[T]

        輸出:情感主題特征詞加權(quán)的主題集[Ti]′

        1) for每個情感主題特征詞集[Ti∈T];

        2) 用式(5)計算情感主題特征詞[Tn]的權(quán)重;

        3) 得到情感主題特征詞集[Ti]′;

        4) end for;

        5) output [Ti]′。

        通過主題特征詞重要度和分布度兩個參數(shù)對情感主題特征詞進行加權(quán),充分考慮情感主題特征詞對主題的貢獻度,從而優(yōu)化情感分析能力。

        1.6 ?MCCWSFW算法

        MCCWSFW算法的圖模型如圖2所示。

        圖2中,[θ],[φ]和[Ψ]分別為超參數(shù)[α],[β]和[δ]的概率分布,[mi]表示情感主題詞袋,([z],[m])表示特征詞加權(quán)過程,[sn]表示加權(quán)后情感主題特征詞。

        圖模型主要描述微博情感主題建模和情感主題特征詞加權(quán)過程,MCCWSFW算法具體過程如圖3所示。

        MCCWSFW算法描述如下。

        算法2:MCCWSFW算法

        輸入:主題數(shù)為[n],情感主題詞袋[F](ST),主題集[T]

        輸出:情感主題特征詞加權(quán)的主題集[Ti]′

        1) 利用情感主題詞袋[F](ST)匹配情感主題詞;

        2) 利用語義相似度對情感主題詞進行計算,提取到情感主題特征詞,構(gòu)成情感主題特征詞集;

        3) 采用word2vec工具獲取情感主題詞集的詞向量;

        4) 得到詞向量,使用情感主題特征詞加權(quán)算法(算法1)進行加權(quán)計算;

        5) 對主題特征詞加權(quán)后的分布訓練,利用LDA主題模型聚類,輸出情感主題特征詞加權(quán)的主題集[Ti]′。

        MCCWSFW算法挖掘語料庫潛在的情感主題特征詞,通過LDA構(gòu)建微博情感主題模型。LDA主題模型參數(shù)設置:主題數(shù)為[n],[α=]0.5,[β=]0.01。采用Gibbs抽樣法,將情感主題?詞語分布從狄利克雷分布中抽取出來。

        2 ?實驗結(jié)果與分析

        對MCCWSFW算法從情感主題特征詞維度、準確率、綜合指標值和時間效率進行測試,與JST,LSM,LTM,WLDA模型進行對比分析。實驗首先確定MCCWSFW算法在3個數(shù)據(jù)集上最優(yōu)情感主題特征詞數(shù),然后分別在自身最優(yōu)情況下進行對比實驗,并分析實驗結(jié)果。

        2.1 ?數(shù)據(jù)集

        數(shù)據(jù)集從2018年10月的52個微博主題評論爬取,選取3個微博主題一周內(nèi)的評論數(shù)據(jù)6 557條進行實驗,其信息如表1所示。

        用Python語言,在CPU為Intel Core I5?7200U@2.50 GHz,內(nèi)存8 GB,操作系統(tǒng)為Windows 7環(huán)境下進行測試。

        2.2 ?聚類評價指標

        實驗采用準確率(Accuracy)、召回率(Recall)和綜合指標[F1]值衡量聚類算法的有效性,計算公式如下:

        [Accuracy=正確識別的微博評論情感個數(shù)識別出的微博評論總數(shù)N] (6)

        [Recall=正確識別的微博評論情感個數(shù)測試集中微博評論情感的總數(shù)n] (7)

        [F1=2×Accuracy×RecallAccuracy+Recall] (8)

        2.3 ?情感主題特征詞維度測試

        由于主題數(shù)對特征詞提取有重要的影響,因此確定聚類最優(yōu)時的主題數(shù)就很重要。下面通過設置不同情感主題特征詞數(shù),對微博評論語料進行LDA建模,最后采用綜合指標[F1]值衡量主題數(shù)最優(yōu)值。

        實驗分別在聚類指標準確率、召回率和[F1]值下進行維度測試,確保在自身最優(yōu)的情況下與其他模型進行對比。結(jié)果如圖4所示。

        如圖4所示,在主題1、主題2和主題3中,情感主題特征詞數(shù)分別為15,10,20時,[F1]值達到最好效果。因此確定主題1、主題2和主題3的最優(yōu)情感主題特征詞數(shù)分別為15,10和20。

        綜上所述,3個數(shù)據(jù)集情感主題特征詞數(shù)在10~20時,均取得較好聚類效果。情感主題特征詞代表主題的特征,當特征維數(shù)較小時,難以分辨主題特征;當特征維數(shù)較大,主題噪聲會對實驗結(jié)果產(chǎn)生干擾,從而降低聚類效果。

        2.4 ?準確率測試

        在主題1、主題2和主題3的情感主題特征詞數(shù)分別為15,10,20時,將MCCWSFW算法分別與JST,LSM,LTM,WLDA模型的情感分類準確率進行對比。對比結(jié)果如圖5所示。

        由圖5可知,MCCWSFW算法的準確率較WLDA、LTM、LSM和JST都有提升。在主題2上,該算法較WLDA和LTM有明顯的優(yōu)勢,正確率分別提高了8%和11%;在主題1和主題3上,該算法較其他模型的準確率均有提升。其中,較WLDA提高了5.33%,較LTM提高7%,較LSM提高8.6%,較JST提高10.7%。

        2.5 ?指標值測試

        實驗在準確率、召回率和[F1]值上,將MCCWSFW算法分別與JST,LSM,LTM和WLDA模型進行對比,結(jié)果如圖6所示。

        由圖6可知,MCCWSFW算法較其他模型的指標值均有所提升,具有一定的優(yōu)越性。這是因為該算法在WLDA基礎上,添加定義的情感主題詞袋[F(ST)]和加權(quán)的情感主題特征詞集,從而可以在確保提取正確主題特征的前提下進行情感分析。

        MCCWSFW算法聚類結(jié)果如表2所示,主題1、主題2和主題3加權(quán)的情感主題特征詞數(shù)分別為自身最優(yōu)維度下的15,10和20。

        聚類結(jié)果表明,主題1關于游客不文明行為的評論居多,且評論中呼吁游客文明旅游、綠色出行。主題2的評論質(zhì)疑剖宮產(chǎn)指標的合理性,呼吁理性健康的醫(yī)患關系。主題3的評論指責涉事副所長濫用職權(quán),應注重對公民權(quán)利的保障,謹慎行使自己的職權(quán),并認為教師的教育尺度越來越難以把握,維護老師尊嚴很有必要。由此可見,MCCWSFW算法對網(wǎng)絡輿情有一定指導作用。

        2.6 ?時間效率測試

        對MCCWSFW算法效率進行測試。在主題1、主題2和主題3上對各模型進行20次平均執(zhí)行時間對比實驗,結(jié)果如表3所示。

        由表3可知:在微博語料數(shù)據(jù)量小于2 000的主題1和主題3中,本文算法平均執(zhí)行時間較其他模型相差不大;但在主題2中,可以看出,隨著微博語料數(shù)據(jù)量的增加,MCCWSFW算法平均執(zhí)行時間較其他模型明顯增加,這是由于該算法利用情感主題詞袋來匹配情感信息和獲取主題情感特征,導致效率降低。

        3 ?結(jié) ?語

        本文提出一種基于情感主題特征詞加權(quán)的微博評論聚類算法,通過定義情感主題詞袋,充分利用微博評論中包含的情感信息;在此基礎上,通過加權(quán)情感主題特征詞,充分利用微博評論之間的主題特征,考慮情感主題特征詞對主題的貢獻度,從而提高微博評論的情感分析聚類效果。

        實驗結(jié)果表明,MCCWSFW算法與JST、LSM、LTM和WLDA模型相比,在情感主題特征詞維度、準確率、綜合指標值和時間效率四個方面,表現(xiàn)出較好的情感分析聚類效果,能有效地應用到微博領域,提高網(wǎng)絡輿情分析能力。下一步將針對提出算法時間效率不高的問題展開進一步研究。

        注:本文通訊作者為申超。

        參考文獻

        [1] 代明竹,高嵩峰.聚類算法在高校學生微博的應用研究[J].現(xiàn)代電子技術,2019,42(7):177?180.

        [2] LIU Zheng, LIU Chiyu, XIA Bin, et al. Multiple relational topic modeling for noisy short texts [J]. International journal of software engineering and knowledge engineering, 2018, 28(11/12): 1559?1574.

        [3] ZHANG Y, EICK C F. Tracking events in twitter by combining an LDA?based approach and a density—contour clustering approach [J]. International journal of semantic computing, 2019, 13(1): 87?110.

        [4] 黃發(fā)良,于戈,張繼連,等.基于社交關系的微博主題情感挖掘[J].軟件學報,2017,28(3):694?707.

        [5] 沈冀,馬志強,李圖雅,等.面向短文本情感分析的詞擴充LDA模型[J].山東大學學報(工學版),2018,48(3):120?126.

        [6] TAGO K, JIN Q. Influence analysis of emotional behaviors and user relationships based on twitter data [J]. Tsinghua science and technology, 2018, 23(1): 104?113.

        [7] YANG Qinjuan, RAO Yanghui, XIE Haoran, et al. Segment?level joint topic?sentiment model for online review analysis [J]. IEEE intelligent systems, 2019, 34(1): 43?50.

        [8] CHEN Zhenpeng, SHEN Sheng, HU Ziniu, et al. Emoji?powered representation learning for cross?lingual sentiment classification [C]// The World Wide Web Conference. San Francisco, CA, USA: ACM, 2019: 251?262.

        [9] CHEN Zhiyuan, LIU Bing. Topic modeling using topics from many domains, lifelong learning and big data [C]// International Conference on Machine Learning (ICML). Beijing: [s.n.], 2014: 2168?2177.

        [10] 郭曉慧.基于LDA主題模型的文本語料情感分類改進方法[J].延邊大學學報(自然科學版),2018(3):266?273.

        [11] MU Yashuang, LIU Xiaodong, WANG Lidong. A Pearson′s correlation coefficient based decision tree and its parallel implementation [J]. Information sciences, 2017, 435: 40?58.

        猜你喜歡
        聚類算法情感分析
        基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡的評價對象抽取研究
        數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應用
        K—Means聚類算法在MapReduce框架下的實現(xiàn)
        軟件導刊(2016年12期)2017-01-21 14:51:17
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設計與實現(xiàn)
        基于K?均值與AGNES聚類算法的校園網(wǎng)行為分析系統(tǒng)研究
        基于詞典與機器學習的中文微博情感分析
        在線評論情感屬性的動態(tài)變化
        預測(2016年5期)2016-12-26 17:16:57
        基于改進的K_means算法在圖像分割中的應用
        文本觀點挖掘和情感分析的研究
        久久精品无码一区二区日韩av| 亚洲国产精品久久久性色av| 欧美亚洲h在线一区二区| 中文字幕一区二区在线| 亚洲天堂久久午夜福利| 天天爽夜夜爽夜夜爽精品视频| 桃花影院理论片在线| 国产亚洲日韩欧美一区二区三区| 熟妇与小伙子露脸对白| 久久精品国产一区老色匹 | 久久红精品一区二区三区| 国产精品成人免费视频一区 | 天下第二社区在线视频| 天码av无码一区二区三区四区 | 亚洲第一页在线免费观看| 亚洲一区二区国产激情| 乱色精品无码一区二区国产盗| 国产乱子伦在线观看| av手机在线天堂网| 日本人妻高清免费v片| 精品一区二区三区在线视频| 人妻无码一区二区视频| 97色偷偷色噜噜狠狠爱网站97| 亚洲高清自偷揄拍自拍| 中文字字幕在线中文乱码解| 亚洲日韩中文字幕无码一区| 无码久久精品国产亚洲av影片| 欧洲人体一区二区三区| 亚洲国产一区二区视频| 欧美日本精品一区二区三区| 蜜桃麻豆www久久囤产精品| 免费国产一级片内射老| 五月激情在线观看视频| 久久国产精品一区二区三区| 国产无套内射久久久国产| 国产精品久久久久久久久免费观看| 一区二区三区精品偷拍av| 国产91色综合久久免费| 人妻少妇乱子伦精品| 国产午夜亚洲精品理论片不卡| 人妻风韵犹存av中文字幕 |