亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像

2023-02-27 20:28:15馬文莉楊利君

計(jì)算機(jī)工程與設(shè)計(jì) 2023年12期

吳迪，馬文莉，楊利君

(河北工程大學(xué) 信息與電氣工程學(xué)院，河北邯鄲 056038)

0 引言

目前，用戶畫像[1-5]主要分為3類：基于用戶行為[6]、用戶偏好[7]和主題的用戶畫像[8]。其中，基于主題的用戶畫像因能夠充分利用微博用戶各種文本信息，以建立全面精準(zhǔn)的用戶畫像而被廣泛應(yīng)用。Ding等[9]提出了基于動(dòng)態(tài)文本建模的LDA-RCC模型，用于分析用戶興趣并建立用戶畫像。李琴等[10]提出了變分自編碼的有監(jiān)督主題情感聯(lián)合分析模型，刻畫用戶群體游客畫像。上述研究只利用主題模型提取用戶主題詞，未考慮用戶興趣的變化。

近年來，研究者們開始考慮時(shí)間因素對(duì)微博用戶興趣的影響。吳樹芳等[11]提出了利用層次分析法和生命周期理論微博用戶畫像構(gòu)建方法。馮勇等[12]提出了利用遺忘曲線擬合衰減因子的TIF-LDA主題模型。安璐等[13]利用生命周期理論，從用戶和文本兩個(gè)角度，提取微博用戶特征。王勝等[14]充分考慮主題模型建模過程詞頻權(quán)重對(duì)主題詞的影響，提出了基于詞頻特征的SL-LDA主題模型，提高中頻詞的影響力。

針對(duì)微博短文本具有時(shí)效性和建模中頻詞缺失的問題，從時(shí)間和詞頻兩個(gè)角度出發(fā)，提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像TW-BTM方法。利用遺忘曲線擬合時(shí)間函數(shù)，以計(jì)算詞條的時(shí)間權(quán)重；采用詞頻特征改進(jìn)BTM建模過程，以提高中頻詞的詞頻權(quán)重。

1 BTM主題模型

針對(duì)傳統(tǒng)主題模型LDA對(duì)短文本建模的不足，短文本建模BTM主題模型應(yīng)運(yùn)而生。利用整個(gè)語料庫的單詞共現(xiàn)模式提高主題學(xué)習(xí)能力，解決了短文本特征稀疏的問題。具體來說，是將整個(gè)語料庫看成所有主題的混合，其中每個(gè)詞對(duì)都是獨(dú)立于一個(gè)主題的。一個(gè)詞對(duì)屬于某一主題的概率稱為詞概率分布，是由詞對(duì)中每個(gè)詞屬于該主題的概率相乘得到。BTM圖模型如圖1所示，超參數(shù)α和β是狄利克雷先驗(yàn)參數(shù)，具體描述如下：①對(duì)語料庫采樣一個(gè)主題分布Θ～Dir(α)； ②對(duì)每個(gè)主題Z∈[1，k]，確定主題Z下的詞分布Φ～Dir(β)； ③對(duì)每個(gè)雙詞b=(wi，wj)∈B，采樣一個(gè)主題Z～Mult(Θ)，根據(jù)主題Z，每個(gè)詞對(duì)都從獨(dú)立主題中采樣，即wi，wj～Mult(Φ)。

圖1 BTM圖模型

2 遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像方法

針對(duì)用戶博文時(shí)效性及短文本建模中頻詞缺失的問題，提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像TW-BTM方法(forgetting curve time function and btm word frequency double-weighted microblog user portrait，TW-BTM)。將微博數(shù)據(jù)集按時(shí)間片切分；利用擬合時(shí)間函數(shù)，計(jì)算微博詞條的時(shí)間權(quán)重，動(dòng)態(tài)調(diào)整用戶興趣詞集；采用詞頻加權(quán)BTM對(duì)不同時(shí)間片上處理后的用戶興趣詞集建模，獲取經(jīng)雙層加權(quán)處理的用戶興趣主題詞；通過微博用戶行為影響力獲取不同時(shí)間片下各主題對(duì)應(yīng)的主題詞，構(gòu)建用戶畫像。TW-BTM方法框架如圖2所示。

如圖2所示，TW-BTM方法的總體框架包括：微博文本預(yù)處理、微博用戶主題滿意度、時(shí)間和詞頻雙層加權(quán)、微博用戶行為影響力計(jì)算。

2.1 微博文本預(yù)處理

采用jieba分詞對(duì)微博短文本進(jìn)行處理，主要包括微博短文本過濾、分詞及詞性標(biāo)注、去停用詞和特征選擇4個(gè)步驟。對(duì)處理好的文本集按時(shí)間片大小劃分?jǐn)?shù)據(jù)。微博短文本集預(yù)處理流程如圖3所示。

由于數(shù)據(jù)集的特殊性，本文根據(jù)數(shù)據(jù)集的特點(diǎn)，構(gòu)建一個(gè)詞典userdict和添加了一些網(wǎng)絡(luò)口語、表情包的停用詞表stoplist，幫助分詞工具更好的對(duì)數(shù)據(jù)集中特定詞的準(zhǔn)確分詞，提高分詞的準(zhǔn)確率。

2.2 時(shí)間和詞頻雙層加權(quán)

2.2.1 遺忘曲線時(shí)間加權(quán)

針對(duì)用戶博文時(shí)效性的問題，不同時(shí)間的博文表現(xiàn)了用戶對(duì)話題不同的關(guān)注興趣點(diǎn)，故考慮時(shí)間因素的影響，從時(shí)間權(quán)重的角度，動(dòng)態(tài)調(diào)整用戶興趣詞集。

采用jieba分詞后的數(shù)據(jù)，初步構(gòu)建用戶興趣詞集。利用艾賓浩斯遺忘曲線擬合時(shí)間函數(shù)，獲取不同時(shí)間片微博文本詞條的時(shí)間權(quán)重之和，動(dòng)態(tài)調(diào)整用戶興趣詞集，挖掘不同時(shí)期的用戶關(guān)注點(diǎn)。

艾賓浩斯遺忘曲線[12]是由德國心理學(xué)家艾賓浩斯針對(duì)人腦對(duì)于新事物的遺忘規(guī)律得出的研究成果。艾賓浩斯遺忘曲線，描述了人對(duì)事物的記憶隨時(shí)間變化逐漸降低的過程。可以將用戶對(duì)一個(gè)事物的興趣關(guān)注度類比為記憶，根據(jù)艾賓浩斯曲線呈現(xiàn)的圖像得出用戶對(duì)一個(gè)事物的興趣關(guān)注程度隨著時(shí)間不斷降低的結(jié)論。利用遺忘函數(shù)擬合的時(shí)間因子，符合遺忘曲線變化趨勢(shì)，進(jìn)而擬合時(shí)間函數(shù)。

假設(shè)ST表示艾賓浩斯遺忘曲線擬合時(shí)間因子，則公式如下所示

ST=85.09×[Tmax-(Tu0-tε)]-0.2298+16.22

(1)

假設(shè)TW表示用戶詞條出現(xiàn)的時(shí)間與當(dāng)前時(shí)間的時(shí)間差所反映的用戶興趣變化的權(quán)重，則公式如下所示

(2)

假設(shè)SumTW表示時(shí)間片內(nèi)各詞條的時(shí)間權(quán)重之和，則公式如下所示

(3)

其中，Tu0表示詞條在時(shí)間片內(nèi)第一次出現(xiàn)的時(shí)間，Tmax表示時(shí)間窗口的最大時(shí)間，Tcur表示當(dāng)前時(shí)間，Trec表示詞條在時(shí)間片內(nèi)最后一次出現(xiàn)的時(shí)間，t=1，2，…，n表示時(shí)間片的個(gè)數(shù)，ε表示時(shí)間窗的大小。式(2)中的數(shù)字含義參考文獻(xiàn)[16]。

根據(jù)遺忘曲線時(shí)間權(quán)重之和SunTW，設(shè)置時(shí)間權(quán)重閾值，通過實(shí)驗(yàn)獲取最佳閾值，篩選掉低頻詞匯，提高中頻詞占比，幫助模型能夠更好提取用戶興趣主題詞。

圖2 TW-BTM方法框架

圖3 微博短文本集預(yù)處理流程

2.2.2 改進(jìn)BTM詞頻加權(quán)

針對(duì)傳統(tǒng)BTM主題模型在處理微博短文本時(shí)存在語義特征稀疏和中頻詞缺失的問題，本文對(duì)BTM進(jìn)行改進(jìn)，提出了一種詞頻加權(quán)的BTM主題模型。具體是根據(jù)統(tǒng)計(jì)文檔中的當(dāng)前詞的詞頻、中頻詞的詞頻及詞頻統(tǒng)計(jì)結(jié)果中的最大最小值，并計(jì)算每個(gè)詞出現(xiàn)的次數(shù)及在文本中的權(quán)重之和，重新調(diào)整特征詞的權(quán)重。將調(diào)整好的詞頻特征引入Gibbs采樣的過程中，采樣過程中初始化的不再是隨機(jī)值，而是重新計(jì)算的詞頻權(quán)重。這可以降低高頻詞的影響力，提高中頻特征詞的影響力。經(jīng)過計(jì)算時(shí)間權(quán)重和提高中頻詞詞頻權(quán)重，使得模型不過分偏重于高頻特征詞詞語，更準(zhǔn)確提取各主題間的主題詞。

為保障加權(quán)后總特征詞的個(gè)數(shù)不變，需要對(duì)每個(gè)特征詞的權(quán)重做調(diào)整，Ci為調(diào)整好的詞的權(quán)重。用計(jì)算得到的Ci替換Gibbs采樣過程中初始化的隨機(jī)值。假設(shè)Gi表示第i個(gè)詞的權(quán)重，取值范圍[1，2]。則模型的詞頻加權(quán)公式如下[15]

(4)

(5)

2.3 微博用戶行為影響力計(jì)算

2.3.1 微博用戶主題滿意度

微博匯聚了大量包含人們思想、感受和經(jīng)歷的文本[16]。熱點(diǎn)話題下，用戶發(fā)布的博文具有不同的情感信息，表達(dá)了用戶的不同感受。通過對(duì)微博文本的情感極性分析，更準(zhǔn)確提取用戶需求。根據(jù)用戶發(fā)布的博文，利用借助情感詞典的情感計(jì)算模型，計(jì)算整條博文的情感得分。

由于微博博文發(fā)布格式隨意，內(nèi)容常包含大量網(wǎng)絡(luò)用語和日常口語。常用的情感詞典無法覆蓋這些網(wǎng)絡(luò)交互用語，不能準(zhǔn)確挖掘文本原本的情感信息。因此采用BosonNLP情感詞典對(duì)用戶博文進(jìn)行情感分析，該詞典是從微博、新聞、論壇等數(shù)據(jù)來源的上百萬篇情感標(biāo)注數(shù)據(jù)當(dāng)中自動(dòng)構(gòu)建的情感極性詞典。因?yàn)闃?biāo)注包括微博數(shù)據(jù)，并有很多網(wǎng)絡(luò)用語及非正式簡(jiǎn)稱，對(duì)非規(guī)范文本也有較高的覆蓋率，更符合本文分析博文情感極性的情況。

情感計(jì)算模型步驟具體如下：

步驟1 獲取BosonNLP情感詞典內(nèi)容，BosonNLP情感詞典中包含情感詞和對(duì)應(yīng)的情感權(quán)重；讀取情感詞典的每一行，轉(zhuǎn)換成字典格式；

步驟2 將分詞結(jié)果轉(zhuǎn)換為字典，找出分詞文本中的情感詞、否定詞和程度副詞；

步驟3 情感詞權(quán)重初始化為1，單條用戶博文情感分?jǐn)?shù)為0，情感詞下標(biāo)初始化為-1，情感詞的位置下標(biāo)集合；

步驟4 遍歷分詞文本

(1)判斷是否是情感詞，如果是情感詞，則權(quán)重*情感詞；

(2)情感詞下標(biāo)加1，獲取下一個(gè)情感詞的位置；①判斷當(dāng)前的情感詞與下一個(gè)情感詞之間是否有否定詞或程度副詞；②更新單條博文的權(quán)重，如果有否定詞，權(quán)重取反；

(3)定位下一個(gè)情感詞；

步驟5 計(jì)算博文整體的情感得分，情感值為正數(shù)，表示積極；為負(fù)數(shù)表示消極。

通過情感計(jì)算模型，對(duì)用戶文本進(jìn)行情感分析，獲取每一條用戶博文的情感極性，動(dòng)態(tài)挖掘微博用戶主題滿意度，獲取用戶關(guān)注興趣點(diǎn)。

假設(shè)wk，t為t時(shí)間片下主題k的滿意度，則微博用戶主題滿意度[15]公式如下

(6)

式中：ht為t時(shí)間片下k主題的積極博文數(shù)量，Sk，t為t時(shí)間片下主題k下的博文總數(shù)。

2.3.2 微博用戶行為活躍度

考慮到熱點(diǎn)話題下不同時(shí)間片文本重要性的不同，如何提取由雙層加權(quán)獲得的不同時(shí)間片用戶興趣詞的占比構(gòu)建用戶畫像是需要解決的問題。

熱點(diǎn)話題下用戶參與的方式存在多樣性，點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)等用戶行為，同樣反映了用戶興趣關(guān)注點(diǎn)?？紤]不同時(shí)間片用戶博文轉(zhuǎn)發(fā)量F、評(píng)論量P和點(diǎn)贊量D等行為數(shù)據(jù)，提出了微博用戶行為活躍度。

假設(shè)Tk，t表示第t個(gè)時(shí)間片的微博用戶行為活躍度，則Tk，t計(jì)算公式如下

Tk，t=[(Ftmax/Fsum)+(Ptmax/Psum)+(Dtmax/Dsum)]/3

(7)

式中：Ftmax表示第t個(gè)時(shí)間片微博用戶博文最高轉(zhuǎn)發(fā)量，F(xiàn)sum表示微博用戶博文總轉(zhuǎn)發(fā)量；Ptmax表示第t個(gè)時(shí)間片微博用戶博文最高評(píng)論量，Psum表示微博用戶博文總評(píng)論量；Dtmax表示第t個(gè)時(shí)間片微博用戶博文最高點(diǎn)贊量，Dsum表示微博用戶博文總點(diǎn)贊量。

結(jié)合微博用戶主題滿意度和微博用戶行為活躍度等因素，提出微博用戶行為影響力計(jì)算方法，提取不同時(shí)間片的用戶興趣主題詞，更全面刻畫熱點(diǎn)話題下的用戶畫像。假設(shè)vtm為t時(shí)間片下的微博用戶行為影響力，則vtm計(jì)算公式如下

(8)

式中：wk，t為t時(shí)間片下主題k的微博用戶主題滿意度，Tk，t表示第t個(gè)時(shí)間片下主題k的微博用戶行為活躍度，nk，t表示t時(shí)間片下各主題k下的特征詞個(gè)數(shù)。

綜上，TW-BTM方法描述如下：

步驟1 處理好的文本集按時(shí)間片大小劃分?jǐn)?shù)據(jù)；

步驟2 對(duì)不同時(shí)間片內(nèi)的微博詞條根據(jù)式(1)～式(3)計(jì)算時(shí)間權(quán)重，并根據(jù)權(quán)重設(shè)置閾值，動(dòng)態(tài)調(diào)整用戶興趣詞集；

步驟3 將根據(jù)式(4)和式(5)計(jì)算得到的詞頻特征替換Gibbs抽樣過程中初始化的隨機(jī)值，利用詞頻加權(quán)BTM主題模型建模，提高中頻特征詞詞頻，獲取經(jīng)雙層加權(quán)的用戶興趣主題詞；

步驟4 采用BosonNLP情感詞典和情感計(jì)算模型，分析用戶博文情感極性，利用情感極性信息根據(jù)式(6)計(jì)算微博用戶主題滿意度；

步驟5 利用用戶的興趣行為(點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā))信息，根據(jù)式(7)計(jì)算微博用戶行為活躍度；

步驟6 根據(jù)式(8)，利用微博用戶主題滿意度和微博用戶行為活躍度等因素計(jì)算微博用戶行為影響力，根據(jù)影響力值，提取不同主題下的主題詞；

步驟7 利用不同時(shí)間片下各主題詞的匯總，構(gòu)建各熱點(diǎn)話題下的用戶畫像。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

本文在64位Windows8版本系統(tǒng)的計(jì)算機(jī)上進(jìn)行模型搭建與實(shí)驗(yàn)。采用PyCharm Professional Version 2021.2.1和Anaconda3開發(fā)環(huán)境下進(jìn)行，編譯語言為Python3。

本文采用的是新浪微博平臺(tái)發(fā)布的2014年5月4日到5月11日的公開熱點(diǎn)話題數(shù)據(jù)集，其中包含了84 168條數(shù)據(jù)，通過刪除數(shù)據(jù)中的噪聲重復(fù)數(shù)據(jù)，保留了37 739條博文。數(shù)據(jù)集的組成部分見表1，數(shù)據(jù)展示示例見表2。

表1 數(shù)據(jù)集的組成部分

表2 數(shù)據(jù)集展示示例

3.2 模型參數(shù)的確定

本文引入PMI-score作為模型的評(píng)價(jià)指標(biāo)，PMI-score表示同主題下特征詞語之間的相關(guān)性，PMI-score分值越高，表明模型提取主題詞效果越佳，建模效果越好。PMI-score的計(jì)算公式如下

(9)

其中，p(wi，wj) 表示滑動(dòng)窗口內(nèi)同時(shí)出現(xiàn)詞對(duì) (wi，wj) 的聯(lián)合分布概率，p(wi) 是詞語wi在邊緣概率分布范圍內(nèi)出現(xiàn)在滑動(dòng)窗口的邊緣概率，N表示每個(gè)主題下特征詞的個(gè)數(shù)，在這里，N=10。

TW-BTM的初始超參數(shù)取經(jīng)驗(yàn)值，α=50/k，β=0.01，迭代次數(shù)由實(shí)驗(yàn)所得，取20次實(shí)驗(yàn)結(jié)果的平均值作為迭代次數(shù)的PMI-score值，實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 TW-BTM在不同迭代次數(shù)下的PMI-score

由圖4可知，迭代次數(shù)為100時(shí)，PMI-score值最優(yōu)，表明提取的主題詞效果最佳，因此，本實(shí)驗(yàn)中n-iter=100。

3.2.1 最優(yōu)主題數(shù)選取

本文利用PMI-score確定最優(yōu)主題數(shù)k值。本實(shí)驗(yàn)中，α=50/k，β=0.01，迭代次數(shù)為100，Day=3，主題數(shù)k取值為3，4，5，6，7，8，9，10，11。實(shí)驗(yàn)重復(fù)進(jìn)行20次，取20次實(shí)驗(yàn)結(jié)果的平均值作為不同k值的PMI-score值，實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 4種方法在不同主題數(shù)下的PMI-score值

由圖5可知，隨著主題數(shù)的增加，4種模型的PMI-score都呈現(xiàn)先上升后下降的大趨勢(shì)且都在主題數(shù)目為8時(shí)，4種方法的PMI-score值最大，表明此時(shí)模型的建模效果最佳，因此選取的最優(yōu)主題數(shù)k=8。

3.2.2 時(shí)間函數(shù)閾值選取

針對(duì)微博數(shù)據(jù)具有時(shí)效性的特點(diǎn)，利用遺忘曲線擬合時(shí)間函數(shù)，獲取每個(gè)時(shí)間片文本的時(shí)間權(quán)重，通過不同時(shí)間權(quán)重閾值的篩選，確定最佳的閾值。本實(shí)驗(yàn)中，迭代次數(shù)為100，最優(yōu)主題數(shù)k為8，取20次實(shí)驗(yàn)結(jié)果的平均值作為不同閾值的PMI-score值，實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 遺忘曲線擬合時(shí)間函數(shù)在不同閾值下的PMI-score值

如圖6所示，本實(shí)驗(yàn)在未經(jīng)時(shí)間函數(shù)處理的原始文本數(shù)據(jù)及遺忘曲線時(shí)間函數(shù)閾值范圍設(shè)置為<100，<90和<80時(shí)進(jìn)行。當(dāng)文本的時(shí)間權(quán)重閾值為<100時(shí)，PMI-score值最大，這是由于時(shí)間函數(shù)篩選掉了數(shù)據(jù)集中的低頻詞，提高中頻詞的占比，使得TW-BTM能夠取得更好的建模效果。當(dāng)閾值為<90和<80時(shí)，PMI-score逐漸降低，這是因?yàn)殚撝翟O(shè)置低，不僅會(huì)減少文本分詞后的低頻詞匯，還減少了一部分中頻詞匯，導(dǎo)致在建模過程中，造成主題詞提取分類不明確。當(dāng)數(shù)據(jù)集為原始數(shù)據(jù)時(shí)，PMI-score值比較低的原因是噪聲詞過多，導(dǎo)致主題建模出現(xiàn)大量重復(fù)詞匯且各主題間主題詞的區(qū)分度不高，出現(xiàn)主題詞混淆的情況。

3.3 熱點(diǎn)話題下微博文本主題分析及用戶畫像構(gòu)建

3.3.1 微博文本主題分析

選取時(shí)間片3和時(shí)間片4下各主題的Top10主題詞，相關(guān)熱點(diǎn)話題的核心大致可以分為恒大、同桌的你、火箭、韓劇等8個(gè)主題。經(jīng)過時(shí)間權(quán)重和詞頻權(quán)重的計(jì)算，TW-BTM提取的不同時(shí)間片各主題下用戶興趣主題詞，見表3。

從表3可知，時(shí)間片3和時(shí)間片4主題詞有一些重復(fù)的詞，這是由于不同時(shí)間片的數(shù)據(jù)集屬于同一個(gè)熱點(diǎn)話題，主題相同，因此不同時(shí)間片的主題詞有一定的重復(fù)度。同時(shí)前后時(shí)間片主題詞又存在不同，這是由于時(shí)間的推移，用戶對(duì)相關(guān)熱點(diǎn)話題的關(guān)注度更加深入，出現(xiàn)用戶興趣偏移的情況，因此不同主題下主題詞獲取結(jié)果不同。表明了TW-BTM能夠準(zhǔn)確的捕獲用戶興趣詞，提高不同時(shí)間片各主題主題詞的區(qū)分度。

3.3.2 微博用戶主題滿意度分析

通過借助BosonNLP詞典，利用情感詞典模型對(duì)熱點(diǎn)話題下的用戶博文進(jìn)行情感分析，實(shí)現(xiàn)熱點(diǎn)話題下用戶博文的情感二分類結(jié)果。其中，積極29 420條，消極8319條，由于微博用戶主題滿意度需要不同時(shí)間片各主題下的積極博文數(shù)量，故積極博文分布見表4。

表3 Day3和Day4的Top10主題詞

表4 熱點(diǎn)話題的積極博文分布情況

由表4所示的不同時(shí)間片主題下積極博文分布，依據(jù)式(6)計(jì)算各主題的微博用戶主題滿意度。實(shí)驗(yàn)結(jié)果如圖7所示。

圖7 不同時(shí)間片下各主題的微博用戶主題滿意度

由圖7可知，微博用戶主題滿意度都在0以上，表明熱點(diǎn)話題下用戶博文大多是積極的，但各主題的滿意度是存在差異的。在各熱點(diǎn)話題中，恒大話題的用戶滿意度是各主題最高的，且整體趨勢(shì)趨于平穩(wěn)狀態(tài)。在時(shí)間片7略有下降，表明用戶對(duì)那一天的比賽結(jié)果略有失望，用戶消極情感有所上升，但還是以積極為主。魅族話題用戶討論也是積極為主，但是消極評(píng)論增加的比例也是穩(wěn)定的，表明部分用戶認(rèn)為魅族手機(jī)存在一些不足之處，這也能幫助企業(yè)去更好改進(jìn)產(chǎn)品，滿足用戶的基本訴求。用戶對(duì)其余主題的積極情感雖有升有降，也是積極為主，消極為輔。

3.3.3 微博用戶行為影響力分析

通過對(duì)不同時(shí)間片微博內(nèi)容的點(diǎn)贊量、轉(zhuǎn)發(fā)量、評(píng)論量的計(jì)算，獲得微博用戶行為活躍度，同時(shí)利用微博用戶主題滿意度與主題下的特征詞個(gè)數(shù)，共同計(jì)算不同時(shí)間片各主題的微博用戶行為影響力，見表5。

表5 不同時(shí)間片各主題的微博用戶行為影響力

通過用戶微博行為影響力的計(jì)算，獲取每個(gè)時(shí)間片各主題下用戶最感興趣的主題詞，構(gòu)建熱點(diǎn)話題下的用戶畫像。由表5可知，不同時(shí)間片各主題的微博用戶行為影響力分布數(shù)值，相對(duì)平均，可以相應(yīng)獲取不同時(shí)間片的興趣主題詞，準(zhǔn)確捕捉各主題下的用戶興趣關(guān)注點(diǎn)。同時(shí)也可以看出，在時(shí)間片7時(shí)的微博用戶行為影響力低于其它時(shí)間片，這是由于時(shí)間片7的用戶行為活躍度偏低和所包含的博文消極情感有所增加，用戶滿意度有所下降，導(dǎo)致該時(shí)間片下的微博用戶行為影響力普遍偏低。

為了更直觀表示熱點(diǎn)話題下用戶討論的主題詞與權(quán)重，本文采用詞項(xiàng)概率分布進(jìn)一步生成熱點(diǎn)話題下用戶興趣主題詞詞云，如圖8所示。

圖8 熱點(diǎn)話題下用戶興趣主題詞詞云展示

從圖8中的圖(a)～圖(d)可知，通過微博用戶行為影響力計(jì)算獲取的恒大、火箭、同桌的你和韓劇熱點(diǎn)話題下的用戶興趣主題詞，可以高度概括這4個(gè)主題下用戶的關(guān)注點(diǎn)。因此從不同時(shí)間片獲取的用戶興趣主題詞，可以更形象地刻畫各主題下的用戶畫像。

3.4 對(duì)比結(jié)果實(shí)驗(yàn)分析

為了驗(yàn)證TW-BTM方法的有效性，本實(shí)驗(yàn)使用公開數(shù)據(jù)集，分別與BTM、SL-LDA與LDA進(jìn)行比較，利用這4種方法對(duì)數(shù)據(jù)集建模并分析實(shí)驗(yàn)結(jié)果。選用“同桌的你”熱點(diǎn)話題的詞分布進(jìn)行分析，4種方法獲取的Top10主題詞見表6。

表6 4種方法在“同桌的你”熱點(diǎn)話題下 Day1和Day7主題詞

由表6可知，在關(guān)于“同桌的你”的主題詞中，BTM、SL-LDA和LDA輸出的結(jié)果中都存在噪聲數(shù)據(jù)，TW-BTM方法輸出的主題詞幾乎不含噪聲詞，說明TW-BTM建模得到的主題詞能更好地概括和描述主題。這是由于TW-BTM在考慮時(shí)間因素的同時(shí)，也改進(jìn)了吉布斯采樣過程中詞頻特征的計(jì)算方法，提高了中頻詞的影響力，刪除了無用的低頻詞和造成主題區(qū)分度不高的詞。因此，TW-BTM相較于其它3種模型，能更準(zhǔn)確挖掘熱點(diǎn)話題下用戶的興趣詞。

為了更形象展示4種方法在用戶博文主題詞挖掘方面的能力，本文計(jì)算了不同時(shí)間片內(nèi)4種方法的PMI-score值，如圖9所示。

圖9 4種方法在不同時(shí)間片內(nèi)對(duì)應(yīng)的PMI-score

由圖9可知，TW-BTM在不同時(shí)間片的PMI-score值均大于其它3種模型。這是因?yàn)锽TM擅長(zhǎng)處理短文本，但是未考慮時(shí)間因素和中頻詞對(duì)主題建模及提取主題詞的影響，導(dǎo)致獲取的主題詞區(qū)分度不高。LDA和SL-LDA由于更擅長(zhǎng)對(duì)長(zhǎng)文本建模，而微博短文本具有語義稀疏和時(shí)效性的特點(diǎn)，影響了兩個(gè)模型的建模效果，導(dǎo)致出現(xiàn)不同時(shí)間片各主題間主題詞混亂的情況。LDA由于其未考慮中頻詞的影響，導(dǎo)致模型建模效果在4種模型中最差。TW-BTM構(gòu)建的用戶畫像能更準(zhǔn)確地表達(dá)熱點(diǎn)話題下用戶的興趣。

4 結(jié)束語

本文提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像TW-BTM。利用遺忘曲線構(gòu)建時(shí)間函數(shù)，計(jì)算微博文本時(shí)間權(quán)重，刪除噪聲詞匯，提高中頻詞占比。改進(jìn)BTM模型，將調(diào)整好的詞頻特征引入Gibbs采樣過程中，提高了中頻詞的影響力和模型主題詞提取的能力。結(jié)合微博用戶主題滿意度和微博用戶行為活躍度等因素，提出微博用戶行為影響力計(jì)算方法，準(zhǔn)確獲取經(jīng)雙層加權(quán)處理的不同時(shí)間片各主題的主題詞，更全面構(gòu)建熱點(diǎn)話題下的用戶畫像。實(shí)驗(yàn)結(jié)果表明，與BTM、SL-LDA及LDA模型相比，TW-BTM在各個(gè)時(shí)間片內(nèi)都有更高的PMI-score值，提高了主題間的區(qū)分度，降低了主題詞的重復(fù)度，能更好地提取用戶的興趣詞。