亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像

        2023-02-27 20:28:15馬文莉楊利君
        關(guān)鍵詞:情感用戶模型

        吳 迪,馬文莉,楊利君

        (河北工程大學(xué) 信息與電氣工程學(xué)院,河北 邯鄲 056038)

        0 引 言

        目前,用戶畫像[1-5]主要分為3類:基于用戶行為[6]、用戶偏好[7]和主題的用戶畫像[8]。其中,基于主題的用戶畫像因能夠充分利用微博用戶各種文本信息,以建立全面精準(zhǔn)的用戶畫像而被廣泛應(yīng)用。Ding等[9]提出了基于動(dòng)態(tài)文本建模的LDA-RCC模型,用于分析用戶興趣并建立用戶畫像。李琴等[10]提出了變分自編碼的有監(jiān)督主題情感聯(lián)合分析模型,刻畫用戶群體游客畫像。上述研究只利用主題模型提取用戶主題詞,未考慮用戶興趣的變化。

        近年來,研究者們開始考慮時(shí)間因素對(duì)微博用戶興趣的影響。吳樹芳等[11]提出了利用層次分析法和生命周期理論微博用戶畫像構(gòu)建方法。馮勇等[12]提出了利用遺忘曲線擬合衰減因子的TIF-LDA主題模型。安璐等[13]利用生命周期理論,從用戶和文本兩個(gè)角度,提取微博用戶特征。王勝等[14]充分考慮主題模型建模過程詞頻權(quán)重對(duì)主題詞的影響,提出了基于詞頻特征的SL-LDA主題模型,提高中頻詞的影響力。

        針對(duì)微博短文本具有時(shí)效性和建模中頻詞缺失的問題,從時(shí)間和詞頻兩個(gè)角度出發(fā),提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像TW-BTM方法。利用遺忘曲線擬合時(shí)間函數(shù),以計(jì)算詞條的時(shí)間權(quán)重;采用詞頻特征改進(jìn)BTM建模過程,以提高中頻詞的詞頻權(quán)重。

        1 BTM主題模型

        針對(duì)傳統(tǒng)主題模型LDA對(duì)短文本建模的不足,短文本建模BTM主題模型應(yīng)運(yùn)而生。利用整個(gè)語料庫的單詞共現(xiàn)模式提高主題學(xué)習(xí)能力,解決了短文本特征稀疏的問題。具體來說,是將整個(gè)語料庫看成所有主題的混合,其中每個(gè)詞對(duì)都是獨(dú)立于一個(gè)主題的。一個(gè)詞對(duì)屬于某一主題的概率稱為詞概率分布,是由詞對(duì)中每個(gè)詞屬于該主題的概率相乘得到。BTM圖模型如圖1所示,超參數(shù)α和β是狄利克雷先驗(yàn)參數(shù),具體描述如下:①對(duì)語料庫采樣一個(gè)主題分布Θ~Dir(α); ②對(duì)每個(gè)主題Z∈[1,k], 確定主題Z下的詞分布Φ~Dir(β); ③對(duì)每個(gè)雙詞b=(wi,wj)∈B, 采樣一個(gè)主題Z~Mult(Θ), 根據(jù)主題Z, 每個(gè)詞對(duì)都從獨(dú)立主題中采樣,即wi,wj~Mult(Φ)。

        圖1 BTM圖模型

        2 遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像方法

        針對(duì)用戶博文時(shí)效性及短文本建模中頻詞缺失的問題,提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像TW-BTM方法(forgetting curve time function and btm word frequency double-weighted microblog user portrait,TW-BTM)。將微博數(shù)據(jù)集按時(shí)間片切分;利用擬合時(shí)間函數(shù),計(jì)算微博詞條的時(shí)間權(quán)重,動(dòng)態(tài)調(diào)整用戶興趣詞集;采用詞頻加權(quán)BTM對(duì)不同時(shí)間片上處理后的用戶興趣詞集建模,獲取經(jīng)雙層加權(quán)處理的用戶興趣主題詞;通過微博用戶行為影響力獲取不同時(shí)間片下各主題對(duì)應(yīng)的主題詞,構(gòu)建用戶畫像。TW-BTM方法框架如圖2所示。

        如圖2所示,TW-BTM方法的總體框架包括:微博文本預(yù)處理、微博用戶主題滿意度、時(shí)間和詞頻雙層加權(quán)、微博用戶行為影響力計(jì)算。

        2.1 微博文本預(yù)處理

        采用jieba分詞對(duì)微博短文本進(jìn)行處理,主要包括微博短文本過濾、分詞及詞性標(biāo)注、去停用詞和特征選擇4個(gè)步驟。對(duì)處理好的文本集按時(shí)間片大小劃分?jǐn)?shù)據(jù)。微博短文本集預(yù)處理流程如圖3所示。

        由于數(shù)據(jù)集的特殊性,本文根據(jù)數(shù)據(jù)集的特點(diǎn),構(gòu)建一個(gè)詞典userdict和添加了一些網(wǎng)絡(luò)口語、表情包的停用詞表stoplist,幫助分詞工具更好的對(duì)數(shù)據(jù)集中特定詞的準(zhǔn)確分詞,提高分詞的準(zhǔn)確率。

        2.2 時(shí)間和詞頻雙層加權(quán)

        2.2.1 遺忘曲線時(shí)間加權(quán)

        針對(duì)用戶博文時(shí)效性的問題,不同時(shí)間的博文表現(xiàn)了用戶對(duì)話題不同的關(guān)注興趣點(diǎn),故考慮時(shí)間因素的影響,從時(shí)間權(quán)重的角度,動(dòng)態(tài)調(diào)整用戶興趣詞集。

        采用jieba分詞后的數(shù)據(jù),初步構(gòu)建用戶興趣詞集。利用艾賓浩斯遺忘曲線擬合時(shí)間函數(shù),獲取不同時(shí)間片微博文本詞條的時(shí)間權(quán)重之和,動(dòng)態(tài)調(diào)整用戶興趣詞集,挖掘不同時(shí)期的用戶關(guān)注點(diǎn)。

        艾賓浩斯遺忘曲線[12]是由德國心理學(xué)家艾賓浩斯針對(duì)人腦對(duì)于新事物的遺忘規(guī)律得出的研究成果。艾賓浩斯遺忘曲線,描述了人對(duì)事物的記憶隨時(shí)間變化逐漸降低的過程。可以將用戶對(duì)一個(gè)事物的興趣關(guān)注度類比為記憶,根據(jù)艾賓浩斯曲線呈現(xiàn)的圖像得出用戶對(duì)一個(gè)事物的興趣關(guān)注程度隨著時(shí)間不斷降低的結(jié)論。利用遺忘函數(shù)擬合的時(shí)間因子,符合遺忘曲線變化趨勢(shì),進(jìn)而擬合時(shí)間函數(shù)。

        假設(shè)ST表示艾賓浩斯遺忘曲線擬合時(shí)間因子,則公式如下所示

        ST=85.09×[Tmax-(Tu0-tε)]-0.2298+16.22

        (1)

        假設(shè)TW表示用戶詞條出現(xiàn)的時(shí)間與當(dāng)前時(shí)間的時(shí)間差所反映的用戶興趣變化的權(quán)重,則公式如下所示

        (2)

        假設(shè)SumTW表示時(shí)間片內(nèi)各詞條的時(shí)間權(quán)重之和,則公式如下所示

        (3)

        其中,Tu0表示詞條在時(shí)間片內(nèi)第一次出現(xiàn)的時(shí)間,Tmax表示時(shí)間窗口的最大時(shí)間,Tcur表示當(dāng)前時(shí)間,Trec表示詞條在時(shí)間片內(nèi)最后一次出現(xiàn)的時(shí)間,t=1,2,…,n表示時(shí)間片的個(gè)數(shù),ε表示時(shí)間窗的大小。式(2)中的數(shù)字含義參考文獻(xiàn)[16]。

        根據(jù)遺忘曲線時(shí)間權(quán)重之和SunTW, 設(shè)置時(shí)間權(quán)重閾值,通過實(shí)驗(yàn)獲取最佳閾值,篩選掉低頻詞匯,提高中頻詞占比,幫助模型能夠更好提取用戶興趣主題詞。

        圖2 TW-BTM方法框架

        圖3 微博短文本集預(yù)處理流程

        2.2.2 改進(jìn)BTM詞頻加權(quán)

        針對(duì)傳統(tǒng)BTM主題模型在處理微博短文本時(shí)存在語義特征稀疏和中頻詞缺失的問題,本文對(duì)BTM進(jìn)行改進(jìn),提出了一種詞頻加權(quán)的BTM主題模型。具體是根據(jù)統(tǒng)計(jì)文檔中的當(dāng)前詞的詞頻、中頻詞的詞頻及詞頻統(tǒng)計(jì)結(jié)果中的最大最小值,并計(jì)算每個(gè)詞出現(xiàn)的次數(shù)及在文本中的權(quán)重之和,重新調(diào)整特征詞的權(quán)重。將調(diào)整好的詞頻特征引入Gibbs采樣的過程中,采樣過程中初始化的不再是隨機(jī)值,而是重新計(jì)算的詞頻權(quán)重。這可以降低高頻詞的影響力,提高中頻特征詞的影響力。經(jīng)過計(jì)算時(shí)間權(quán)重和提高中頻詞詞頻權(quán)重,使得模型不過分偏重于高頻特征詞詞語,更準(zhǔn)確提取各主題間的主題詞。

        為保障加權(quán)后總特征詞的個(gè)數(shù)不變,需要對(duì)每個(gè)特征詞的權(quán)重做調(diào)整,Ci為調(diào)整好的詞的權(quán)重。用計(jì)算得到的Ci替換Gibbs采樣過程中初始化的隨機(jī)值。假設(shè)Gi表示第i個(gè)詞的權(quán)重,取值范圍[1,2]。則模型的詞頻加權(quán)公式如下[15]

        (4)

        (5)

        2.3 微博用戶行為影響力計(jì)算

        2.3.1 微博用戶主題滿意度

        微博匯聚了大量包含人們思想、感受和經(jīng)歷的文本[16]。熱點(diǎn)話題下,用戶發(fā)布的博文具有不同的情感信息,表達(dá)了用戶的不同感受。通過對(duì)微博文本的情感極性分析,更準(zhǔn)確提取用戶需求。根據(jù)用戶發(fā)布的博文,利用借助情感詞典的情感計(jì)算模型,計(jì)算整條博文的情感得分。

        由于微博博文發(fā)布格式隨意,內(nèi)容常包含大量網(wǎng)絡(luò)用語和日常口語。常用的情感詞典無法覆蓋這些網(wǎng)絡(luò)交互用語,不能準(zhǔn)確挖掘文本原本的情感信息。因此采用BosonNLP情感詞典對(duì)用戶博文進(jìn)行情感分析,該詞典是從微博、新聞、論壇等數(shù)據(jù)來源的上百萬篇情感標(biāo)注數(shù)據(jù)當(dāng)中自動(dòng)構(gòu)建的情感極性詞典。因?yàn)闃?biāo)注包括微博數(shù)據(jù),并有很多網(wǎng)絡(luò)用語及非正式簡(jiǎn)稱,對(duì)非規(guī)范文本也有較高的覆蓋率,更符合本文分析博文情感極性的情況。

        情感計(jì)算模型步驟具體如下:

        步驟1 獲取BosonNLP情感詞典內(nèi)容,BosonNLP情感詞典中包含情感詞和對(duì)應(yīng)的情感權(quán)重;讀取情感詞典的每一行,轉(zhuǎn)換成字典格式;

        步驟2 將分詞結(jié)果轉(zhuǎn)換為字典,找出分詞文本中的情感詞、否定詞和程度副詞;

        步驟3 情感詞權(quán)重初始化為1,單條用戶博文情感分?jǐn)?shù)為0,情感詞下標(biāo)初始化為-1,情感詞的位置下標(biāo)集合;

        步驟4 遍歷分詞文本

        (1)判斷是否是情感詞,如果是情感詞,則權(quán)重*情感詞;

        (2)情感詞下標(biāo)加1,獲取下一個(gè)情感詞的位置;①判斷當(dāng)前的情感詞與下一個(gè)情感詞之間是否有否定詞或程度副詞;②更新單條博文的權(quán)重,如果有否定詞,權(quán)重取反;

        (3)定位下一個(gè)情感詞;

        步驟5 計(jì)算博文整體的情感得分,情感值為正數(shù),表示積極;為負(fù)數(shù)表示消極。

        通過情感計(jì)算模型,對(duì)用戶文本進(jìn)行情感分析,獲取每一條用戶博文的情感極性,動(dòng)態(tài)挖掘微博用戶主題滿意度,獲取用戶關(guān)注興趣點(diǎn)。

        假設(shè)wk,t為t時(shí)間片下主題k的滿意度,則微博用戶主題滿意度[15]公式如下

        (6)

        式中:ht為t時(shí)間片下k主題的積極博文數(shù)量,Sk,t為t時(shí)間片下主題k下的博文總數(shù)。

        2.3.2 微博用戶行為活躍度

        考慮到熱點(diǎn)話題下不同時(shí)間片文本重要性的不同,如何提取由雙層加權(quán)獲得的不同時(shí)間片用戶興趣詞的占比構(gòu)建用戶畫像是需要解決的問題。

        熱點(diǎn)話題下用戶參與的方式存在多樣性,點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)等用戶行為,同樣反映了用戶興趣關(guān)注點(diǎn)??紤]不同時(shí)間片用戶博文轉(zhuǎn)發(fā)量F、 評(píng)論量P和點(diǎn)贊量D等行為數(shù)據(jù),提出了微博用戶行為活躍度。

        假設(shè)Tk,t表示第t個(gè)時(shí)間片的微博用戶行為活躍度,則Tk,t計(jì)算公式如下

        Tk,t=[(Ftmax/Fsum)+(Ptmax/Psum)+(Dtmax/Dsum)]/3

        (7)

        式中:Ftmax表示第t個(gè)時(shí)間片微博用戶博文最高轉(zhuǎn)發(fā)量,F(xiàn)sum表示微博用戶博文總轉(zhuǎn)發(fā)量;Ptmax表示第t個(gè)時(shí)間片微博用戶博文最高評(píng)論量,Psum表示微博用戶博文總評(píng)論量;Dtmax表示第t個(gè)時(shí)間片微博用戶博文最高點(diǎn)贊量,Dsum表示微博用戶博文總點(diǎn)贊量。

        結(jié)合微博用戶主題滿意度和微博用戶行為活躍度等因素,提出微博用戶行為影響力計(jì)算方法,提取不同時(shí)間片的用戶興趣主題詞,更全面刻畫熱點(diǎn)話題下的用戶畫像。假設(shè)vtm為t時(shí)間片下的微博用戶行為影響力,則vtm計(jì)算公式如下

        (8)

        式中:wk,t為t時(shí)間片下主題k的微博用戶主題滿意度,Tk,t表示第t個(gè)時(shí)間片下主題k的微博用戶行為活躍度,nk,t表示t時(shí)間片下各主題k下的特征詞個(gè)數(shù)。

        綜上,TW-BTM方法描述如下:

        步驟1 處理好的文本集按時(shí)間片大小劃分?jǐn)?shù)據(jù);

        步驟2 對(duì)不同時(shí)間片內(nèi)的微博詞條根據(jù)式(1)~式(3)計(jì)算時(shí)間權(quán)重,并根據(jù)權(quán)重設(shè)置閾值,動(dòng)態(tài)調(diào)整用戶興趣詞集;

        步驟3 將根據(jù)式(4)和式(5)計(jì)算得到的詞頻特征替換Gibbs抽樣過程中初始化的隨機(jī)值,利用詞頻加權(quán)BTM主題模型建模,提高中頻特征詞詞頻,獲取經(jīng)雙層加權(quán)的用戶興趣主題詞;

        步驟4 采用BosonNLP情感詞典和情感計(jì)算模型,分析用戶博文情感極性,利用情感極性信息根據(jù)式(6)計(jì)算微博用戶主題滿意度;

        步驟5 利用用戶的興趣行為(點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā))信息,根據(jù)式(7)計(jì)算微博用戶行為活躍度;

        步驟6 根據(jù)式(8),利用微博用戶主題滿意度和微博用戶行為活躍度等因素計(jì)算微博用戶行為影響力,根據(jù)影響力值,提取不同主題下的主題詞;

        步驟7 利用不同時(shí)間片下各主題詞的匯總,構(gòu)建各熱點(diǎn)話題下的用戶畫像。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

        本文在64位Windows8版本系統(tǒng)的計(jì)算機(jī)上進(jìn)行模型搭建與實(shí)驗(yàn)。采用PyCharm Professional Version 2021.2.1和Anaconda3開發(fā)環(huán)境下進(jìn)行,編譯語言為Python3。

        本文采用的是新浪微博平臺(tái)發(fā)布的2014年5月4日到5月11日的公開熱點(diǎn)話題數(shù)據(jù)集,其中包含了84 168條數(shù)據(jù),通過刪除數(shù)據(jù)中的噪聲重復(fù)數(shù)據(jù),保留了37 739條博文。數(shù)據(jù)集的組成部分見表1,數(shù)據(jù)展示示例見表2。

        表1 數(shù)據(jù)集的組成部分

        表2 數(shù)據(jù)集展示示例

        3.2 模型參數(shù)的確定

        本文引入PMI-score作為模型的評(píng)價(jià)指標(biāo),PMI-score表示同主題下特征詞語之間的相關(guān)性,PMI-score分值越高,表明模型提取主題詞效果越佳,建模效果越好。PMI-score的計(jì)算公式如下

        (9)

        其中,p(wi,wj) 表示滑動(dòng)窗口內(nèi)同時(shí)出現(xiàn)詞對(duì) (wi,wj) 的聯(lián)合分布概率,p(wi) 是詞語wi在邊緣概率分布范圍內(nèi)出現(xiàn)在滑動(dòng)窗口的邊緣概率,N表示每個(gè)主題下特征詞的個(gè)數(shù),在這里,N=10。

        TW-BTM的初始超參數(shù)取經(jīng)驗(yàn)值,α=50/k,β=0.01, 迭代次數(shù)由實(shí)驗(yàn)所得,取20次實(shí)驗(yàn)結(jié)果的平均值作為迭代次數(shù)的PMI-score值,實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 TW-BTM在不同迭代次數(shù)下的PMI-score

        由圖4可知,迭代次數(shù)為100時(shí),PMI-score值最優(yōu),表明提取的主題詞效果最佳,因此,本實(shí)驗(yàn)中n-iter=100。

        3.2.1 最優(yōu)主題數(shù)選取

        本文利用PMI-score確定最優(yōu)主題數(shù)k值。本實(shí)驗(yàn)中,α=50/k,β=0.01, 迭代次數(shù)為100,Day=3,主題數(shù)k取值為3,4,5,6,7,8,9,10,11。實(shí)驗(yàn)重復(fù)進(jìn)行20次,取20次實(shí)驗(yàn)結(jié)果的平均值作為不同k值的PMI-score值,實(shí)驗(yàn)結(jié)果如圖5所示。

        圖5 4種方法在不同主題數(shù)下的PMI-score值

        由圖5可知,隨著主題數(shù)的增加,4種模型的PMI-score都呈現(xiàn)先上升后下降的大趨勢(shì)且都在主題數(shù)目為8時(shí),4種方法的PMI-score值最大,表明此時(shí)模型的建模效果最佳,因此選取的最優(yōu)主題數(shù)k=8。

        3.2.2 時(shí)間函數(shù)閾值選取

        針對(duì)微博數(shù)據(jù)具有時(shí)效性的特點(diǎn),利用遺忘曲線擬合時(shí)間函數(shù),獲取每個(gè)時(shí)間片文本的時(shí)間權(quán)重,通過不同時(shí)間權(quán)重閾值的篩選,確定最佳的閾值。本實(shí)驗(yàn)中,迭代次數(shù)為100,最優(yōu)主題數(shù)k為8,取20次實(shí)驗(yàn)結(jié)果的平均值作為不同閾值的PMI-score值,實(shí)驗(yàn)結(jié)果如圖6所示。

        圖6 遺忘曲線擬合時(shí)間函數(shù)在不同閾值下的PMI-score值

        如圖6所示,本實(shí)驗(yàn)在未經(jīng)時(shí)間函數(shù)處理的原始文本數(shù)據(jù)及遺忘曲線時(shí)間函數(shù)閾值范圍設(shè)置為<100,<90和<80時(shí)進(jìn)行。當(dāng)文本的時(shí)間權(quán)重閾值為<100時(shí),PMI-score值最大,這是由于時(shí)間函數(shù)篩選掉了數(shù)據(jù)集中的低頻詞,提高中頻詞的占比,使得TW-BTM能夠取得更好的建模效果。當(dāng)閾值為<90和<80時(shí),PMI-score逐漸降低,這是因?yàn)殚撝翟O(shè)置低,不僅會(huì)減少文本分詞后的低頻詞匯,還減少了一部分中頻詞匯,導(dǎo)致在建模過程中,造成主題詞提取分類不明確。當(dāng)數(shù)據(jù)集為原始數(shù)據(jù)時(shí),PMI-score值比較低的原因是噪聲詞過多,導(dǎo)致主題建模出現(xiàn)大量重復(fù)詞匯且各主題間主題詞的區(qū)分度不高,出現(xiàn)主題詞混淆的情況。

        3.3 熱點(diǎn)話題下微博文本主題分析及用戶畫像構(gòu)建

        3.3.1 微博文本主題分析

        選取時(shí)間片3和時(shí)間片4下各主題的Top10主題詞,相關(guān)熱點(diǎn)話題的核心大致可以分為恒大、同桌的你、火箭、韓劇等8個(gè)主題。經(jīng)過時(shí)間權(quán)重和詞頻權(quán)重的計(jì)算,TW-BTM提取的不同時(shí)間片各主題下用戶興趣主題詞,見表3。

        從表3可知,時(shí)間片3和時(shí)間片4主題詞有一些重復(fù)的詞,這是由于不同時(shí)間片的數(shù)據(jù)集屬于同一個(gè)熱點(diǎn)話題,主題相同,因此不同時(shí)間片的主題詞有一定的重復(fù)度。同時(shí)前后時(shí)間片主題詞又存在不同,這是由于時(shí)間的推移,用戶對(duì)相關(guān)熱點(diǎn)話題的關(guān)注度更加深入,出現(xiàn)用戶興趣偏移的情況,因此不同主題下主題詞獲取結(jié)果不同。表明了TW-BTM能夠準(zhǔn)確的捕獲用戶興趣詞,提高不同時(shí)間片各主題主題詞的區(qū)分度。

        3.3.2 微博用戶主題滿意度分析

        通過借助BosonNLP詞典,利用情感詞典模型對(duì)熱點(diǎn)話題下的用戶博文進(jìn)行情感分析,實(shí)現(xiàn)熱點(diǎn)話題下用戶博文的情感二分類結(jié)果。其中,積極29 420條,消極8319條,由于微博用戶主題滿意度需要不同時(shí)間片各主題下的積極博文數(shù)量,故積極博文分布見表4。

        表3 Day3和Day4的Top10主題詞

        表4 熱點(diǎn)話題的積極博文分布情況

        由表4所示的不同時(shí)間片主題下積極博文分布,依據(jù)式(6)計(jì)算各主題的微博用戶主題滿意度。實(shí)驗(yàn)結(jié)果如圖7所示。

        圖7 不同時(shí)間片下各主題的微博用戶主題滿意度

        由圖7可知,微博用戶主題滿意度都在0以上,表明熱點(diǎn)話題下用戶博文大多是積極的,但各主題的滿意度是存在差異的。在各熱點(diǎn)話題中,恒大話題的用戶滿意度是各主題最高的,且整體趨勢(shì)趨于平穩(wěn)狀態(tài)。在時(shí)間片7略有下降,表明用戶對(duì)那一天的比賽結(jié)果略有失望,用戶消極情感有所上升,但還是以積極為主。魅族話題用戶討論也是積極為主,但是消極評(píng)論增加的比例也是穩(wěn)定的,表明部分用戶認(rèn)為魅族手機(jī)存在一些不足之處,這也能幫助企業(yè)去更好改進(jìn)產(chǎn)品,滿足用戶的基本訴求。用戶對(duì)其余主題的積極情感雖有升有降,也是積極為主,消極為輔。

        3.3.3 微博用戶行為影響力分析

        通過對(duì)不同時(shí)間片微博內(nèi)容的點(diǎn)贊量、轉(zhuǎn)發(fā)量、評(píng)論量的計(jì)算,獲得微博用戶行為活躍度,同時(shí)利用微博用戶主題滿意度與主題下的特征詞個(gè)數(shù),共同計(jì)算不同時(shí)間片各主題的微博用戶行為影響力,見表5。

        表5 不同時(shí)間片各主題的微博用戶行為影響力

        通過用戶微博行為影響力的計(jì)算,獲取每個(gè)時(shí)間片各主題下用戶最感興趣的主題詞,構(gòu)建熱點(diǎn)話題下的用戶畫像。由表5可知,不同時(shí)間片各主題的微博用戶行為影響力分布數(shù)值,相對(duì)平均,可以相應(yīng)獲取不同時(shí)間片的興趣主題詞,準(zhǔn)確捕捉各主題下的用戶興趣關(guān)注點(diǎn)。同時(shí)也可以看出,在時(shí)間片7時(shí)的微博用戶行為影響力低于其它時(shí)間片,這是由于時(shí)間片7的用戶行為活躍度偏低和所包含的博文消極情感有所增加,用戶滿意度有所下降,導(dǎo)致該時(shí)間片下的微博用戶行為影響力普遍偏低。

        為了更直觀表示熱點(diǎn)話題下用戶討論的主題詞與權(quán)重,本文采用詞項(xiàng)概率分布進(jìn)一步生成熱點(diǎn)話題下用戶興趣主題詞詞云,如圖8所示。

        圖8 熱點(diǎn)話題下用戶興趣主題詞詞云展示

        從圖8中的圖(a)~圖(d)可知,通過微博用戶行為影響力計(jì)算獲取的恒大、火箭、同桌的你和韓劇熱點(diǎn)話題下的用戶興趣主題詞,可以高度概括這4個(gè)主題下用戶的關(guān)注點(diǎn)。因此從不同時(shí)間片獲取的用戶興趣主題詞,可以更形象地刻畫各主題下的用戶畫像。

        3.4 對(duì)比結(jié)果實(shí)驗(yàn)分析

        為了驗(yàn)證TW-BTM方法的有效性,本實(shí)驗(yàn)使用公開數(shù)據(jù)集,分別與BTM、SL-LDA與LDA進(jìn)行比較,利用這4種方法對(duì)數(shù)據(jù)集建模并分析實(shí)驗(yàn)結(jié)果。選用“同桌的你”熱點(diǎn)話題的詞分布進(jìn)行分析,4種方法獲取的Top10主題詞見表6。

        表6 4種方法在“同桌的你”熱點(diǎn)話題下 Day1和Day7主題詞

        由表6可知,在關(guān)于“同桌的你”的主題詞中,BTM、SL-LDA和LDA輸出的結(jié)果中都存在噪聲數(shù)據(jù),TW-BTM方法輸出的主題詞幾乎不含噪聲詞,說明TW-BTM建模得到的主題詞能更好地概括和描述主題。這是由于TW-BTM在考慮時(shí)間因素的同時(shí),也改進(jìn)了吉布斯采樣過程中詞頻特征的計(jì)算方法,提高了中頻詞的影響力,刪除了無用的低頻詞和造成主題區(qū)分度不高的詞。因此,TW-BTM相較于其它3種模型,能更準(zhǔn)確挖掘熱點(diǎn)話題下用戶的興趣詞。

        為了更形象展示4種方法在用戶博文主題詞挖掘方面的能力,本文計(jì)算了不同時(shí)間片內(nèi)4種方法的PMI-score值,如圖9所示。

        圖9 4種方法在不同時(shí)間片內(nèi)對(duì)應(yīng)的PMI-score

        由圖9可知,TW-BTM在不同時(shí)間片的PMI-score值均大于其它3種模型。這是因?yàn)锽TM擅長(zhǎng)處理短文本,但是未考慮時(shí)間因素和中頻詞對(duì)主題建模及提取主題詞的影響,導(dǎo)致獲取的主題詞區(qū)分度不高。LDA和SL-LDA由于更擅長(zhǎng)對(duì)長(zhǎng)文本建模,而微博短文本具有語義稀疏和時(shí)效性的特點(diǎn),影響了兩個(gè)模型的建模效果,導(dǎo)致出現(xiàn)不同時(shí)間片各主題間主題詞混亂的情況。LDA由于其未考慮中頻詞的影響,導(dǎo)致模型建模效果在4種模型中最差。TW-BTM構(gòu)建的用戶畫像能更準(zhǔn)確地表達(dá)熱點(diǎn)話題下用戶的興趣。

        4 結(jié)束語

        本文提出了遺忘曲線和BTM詞頻雙層加權(quán)微博用戶畫像TW-BTM。利用遺忘曲線構(gòu)建時(shí)間函數(shù),計(jì)算微博文本時(shí)間權(quán)重,刪除噪聲詞匯,提高中頻詞占比。改進(jìn)BTM模型,將調(diào)整好的詞頻特征引入Gibbs采樣過程中,提高了中頻詞的影響力和模型主題詞提取的能力。結(jié)合微博用戶主題滿意度和微博用戶行為活躍度等因素,提出微博用戶行為影響力計(jì)算方法,準(zhǔn)確獲取經(jīng)雙層加權(quán)處理的不同時(shí)間片各主題的主題詞,更全面構(gòu)建熱點(diǎn)話題下的用戶畫像。實(shí)驗(yàn)結(jié)果表明,與BTM、SL-LDA及LDA模型相比,TW-BTM在各個(gè)時(shí)間片內(nèi)都有更高的PMI-score值,提高了主題間的區(qū)分度,降低了主題詞的重復(fù)度,能更好地提取用戶的興趣詞。

        猜你喜歡
        情感用戶模型
        一半模型
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        性色av无码久久一区二区三区| 青青久在线视频免费视频| 国产一区亚洲二区三区| 亚洲精品乱码8久久久久久日本 | 日韩欧群交p片内射中文| 澳门毛片精品一区二区三区| 成在线人免费视频播放| 富婆猛男一区二区三区| 国产成人精品一区二区三区视频| 国产成人精品午夜福利在线| 99熟妇人妻精品一区五一看片| 久久99天堂av亚洲av| 久久99精品国产麻豆不卡| 亚洲久无码中文字幕热| 精品国产一区二区三广区| 久久精品国产亚洲超碰av| 狠狠色噜噜狠狠狠888米奇视频| 久久亚洲伊人| 免费av一区男人的天堂| 免费观看a级片| 大胆欧美熟妇xxbbwwbw高潮了 | 就去吻亚洲精品欧美日韩在线| 一片内射视频在线观看| 亚洲最大中文字幕在线| 日本高清h色视频在线观看| 亚洲电影一区二区三区| 欧美日韩成人在线| 免费人成黄页网站在线观看国内 | 777精品出轨人妻国产| 天天影视色香欲综合久久| 69搡老女人老妇女老熟妇| 亚洲日本精品国产一区二区三区 | 日本韩国男男作爱gaywww| 国产人妻无码一区二区三区免费| 亚洲天堂第一区| 亚洲国产精品一区亚洲国产| 中文字幕一区二区三区视频| 久久久精品人妻一区二区三区蜜桃 | 白白色发布视频在线播放| 欧美激情乱人伦| 失禁大喷潮在线播放|