DOI:10.3969/j.issn.10001565.2025.01.010
摘" 要:微博數(shù)據(jù)的爆炸式增長(zhǎng),使信息篩選變得越來(lái)越困難.構(gòu)建合理的微博用戶興趣畫像,有助于實(shí)現(xiàn)精準(zhǔn)化服務(wù),提高推薦性能.首先,利用LDA(latent Dirichlet allocation)模型從用戶歷史內(nèi)容中挖掘用戶的內(nèi)容偏好特征,并通過(guò)情緒分析模型計(jì)算用戶不同內(nèi)容偏好對(duì)應(yīng)的情緒傾向,得到包含內(nèi)容偏好及其對(duì)應(yīng)情緒傾向2個(gè)維度的用戶興趣畫像;在基于用戶興趣畫像進(jìn)行微博推薦評(píng)估時(shí),利用用戶內(nèi)容偏好進(jìn)行初步篩選,比較待評(píng)估博文內(nèi)容與用戶的內(nèi)容偏好是否匹配,若匹配則進(jìn)一步通過(guò)情緒傾向進(jìn)行過(guò)濾,比較同一內(nèi)容偏好下的情緒相似度,選取高于閾值的博文加入推薦集.真實(shí)微博數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與基于標(biāo)簽的推薦模型、基于情感關(guān)聯(lián)規(guī)則的推薦模型和基于主題的推薦模型相比,本文微博推薦方法具有更好的性能,在F1值上分別提升了10%、6%和2%.
關(guān)鍵詞:用戶興趣畫像;內(nèi)容偏好;情緒傾向;微博推薦
中圖分類號(hào):TP391.3" ""文獻(xiàn)標(biāo)志碼:A" ""文章編號(hào):10001565(2025)01009113
Construction method of microblog user interest profile based on content preference and emotional tendency
XU Jianmin,WANG Mingyu
(School of Cyber Security and Computer, Hebei University, Baoding 071000, China)
Abstract: The explosive growth of microblogging data makes information screening increasingly difficult.Constructing a reasonable microblog user interest profile helps to achieve accurate service and improve recommendation performance. First, the LDA (latent Dirichlet allocation) model is used to excavate the users content preference characteristics from the users historical content,and the corresponding emotional tendency in the users different content preferences is calculated by the emotional analysis model, so as to obtain the users interest profile containing two dimensions of content preferences and their corresponding emotional tendencies. When evaluating microblog recommendations based on user interest profile, where the users content preferences are used for the initial screening first to see whether the content of the blog post matches with the users content preference. And if they match each other, the algrithm would further filters the blog posts by emotional tendency, compares their emotional similarity under the same content preference, and select the blog posts above the threshold to add into the recommendation set. The experimental results on the real microblog dataset show that the microblog recommendation
收稿日期:20240919;修回日期:20241105
基金項(xiàng)目:
國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(23BTQ092)
第一作者:徐建民(1966—),男,河北大學(xué)教授,博士生導(dǎo)師,主要從事信息檢索方向研究.
E-mail:hbuxjm@hbu.edu.cn
通信作者:王銘宇(1997—),男,河北大學(xué)在讀碩士研究生,主要從事微博推薦方向研究.E-mail:yu668135@163.com
method in this paper has better performance compared with the label-based recommendation model, sentiment association rule-based recommendation model and topic-based recommendation model, with 10%, 6% and 2% improvement in the F1 value, respectively.
Key words: user interest profile;content preference;emotions tendency;microblog recommendation
近年來(lái),微博憑借其信息簡(jiǎn)短、傳播快、更新及時(shí)的優(yōu)勢(shì),已成為國(guó)內(nèi)主流的社交媒體.然而,隨著微博用戶和信息的爆炸式增長(zhǎng),信息過(guò)載現(xiàn)象也日益突出,導(dǎo)致用戶難以獲取自己真正感興趣信息.如何在海量的微博數(shù)據(jù)中精準(zhǔn)地挖掘出用戶感興趣的內(nèi)容,構(gòu)建用戶畫像并應(yīng)用于微博推薦,已成為被廣泛關(guān)注的問(wèn)題之一[1-3].
用戶畫像是真實(shí)用戶的虛擬代表,是建立在真實(shí)數(shù)據(jù)上的目標(biāo)用戶模型[4].通過(guò)對(duì)用戶行為、興趣的挖掘和分析得到的用戶畫像,可以直觀展示用戶的興趣偏好[5],已有用戶畫像構(gòu)建的研究主要分為數(shù)值型標(biāo)簽的構(gòu)建和文本型標(biāo)簽的構(gòu)建[6],數(shù)值型畫像標(biāo)簽數(shù)據(jù)通常借助調(diào)查問(wèn)卷、用戶行為日志以及第三方數(shù)據(jù)等[7]途徑獲取,研究人員按需構(gòu)建統(tǒng)計(jì)類、規(guī)則類、模型類等不同類型標(biāo)簽,繼而借助數(shù)理統(tǒng)計(jì)和算法開(kāi)展用戶畫像建模.如夏立新等[8]采用K-means聚類算法獲取不同業(yè)務(wù)場(chǎng)景的群體特征和信息需求構(gòu)建用戶畫像.金吉瓊等[9]采用聚類分析和判別模型對(duì)用戶基礎(chǔ)屬性和消費(fèi)行為數(shù)據(jù)進(jìn)行匯聚,按照不同城市群進(jìn)行分類,識(shí)別出城市群中用戶價(jià)值類型.費(fèi)鵬等[10]構(gòu)建包含類別、聚類和數(shù)值等多源特征體系的多視角用戶畫像融合框架,從而建模預(yù)測(cè)不同用戶特性.為豐富用戶畫像構(gòu)建維度,很多研究融入語(yǔ)義表達(dá)的文本型標(biāo)簽構(gòu)建用戶畫像并展開(kāi)用戶識(shí)別與推薦.如Cui等[11]基于評(píng)論文本內(nèi)容挖掘用戶的內(nèi)容特征,并與現(xiàn)有的知識(shí)圖譜融合來(lái)生成用戶畫像.于偉杰等[12]針對(duì)目前用戶畫像的特征構(gòu)建效果不佳以及泛化能力不足的問(wèn)題,提出基于全詞BERT(bidirectional encoder representation from transformers)詞嵌入的集成用戶畫像方法,并使用多分類器對(duì)不同標(biāo)簽分類.楊洋洋等[13]以引爆點(diǎn)理論為基礎(chǔ),從用戶傳播力和用戶影響力入手,構(gòu)建用于網(wǎng)絡(luò)辟謠信息治理的用戶畫像.
微博作為具有代表性的社交平臺(tái),具有廣泛影響力,針對(duì)微博用戶畫像的研究也引發(fā)學(xué)者關(guān)注[14].一些學(xué)者從用戶的基礎(chǔ)屬性和行為屬性開(kāi)展研究,如王志剛等[15]利用潛在狄利克雷分布(latent Dirichlet allocation,LDA)模型挖掘用戶偏好主題,并結(jié)合用戶性別、關(guān)注數(shù)、總微博數(shù)等基礎(chǔ)屬性數(shù)據(jù)構(gòu)建政務(wù)微博用戶畫像;Xu等[16]對(duì)LDA模型進(jìn)行改進(jìn),提出了一種UIS-LDA主題模型,以此來(lái)挖掘用戶的興趣主題和社交主題,根據(jù)主題分布進(jìn)行用戶聚類,構(gòu)建微博用戶畫像.王戰(zhàn)平等[17]為提升推薦效果,通過(guò)微博內(nèi)容擴(kuò)充用戶標(biāo)簽,并進(jìn)行標(biāo)簽語(yǔ)義映射和語(yǔ)義相關(guān)性挖掘,構(gòu)建用戶標(biāo)簽矩陣以提取用戶興趣偏好,為用戶推薦相近興趣的微博.Bao等[18]采用詞頻反文檔頻率(term frequency-inverse document frequency, TF-IDF)和LDA模型對(duì)用戶間的交互信息進(jìn)行偏好分析和主題分析,并通過(guò)主題中用戶博文的TF-IDF平均值得到用戶偏好,從綜合用戶偏好和主題影響力的角度挖掘用戶興趣,提升了推薦的準(zhǔn)確性.情感特征是指用戶對(duì)文本內(nèi)容的看法,例如喜歡、不喜歡,可表達(dá)出用戶的情感偏好,研究用戶情感有助于揭示用戶的情感需求,整合情感特征的用戶畫像能夠更加全面地刻畫用戶興趣[19].如王帥等[20]綜合使用Word2Vec、LDA和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short term-memory network, LSTM)從基本信息、情感、行為等多特征出發(fā)構(gòu)建用戶畫像.李鐵軍等[21]在對(duì)用戶歷史行為進(jìn)行關(guān)聯(lián)規(guī)則挖掘的基礎(chǔ)上,融合情感特征生成用戶的情感畫像.在已有研究中,大多將情感劃分為積極和消極2類粗粒度情感,而多分類的情緒是一種細(xì)粒度的情感,可捕捉用戶更全面豐富的心理狀態(tài),提高用戶興趣偏好識(shí)別準(zhǔn)確率[22].現(xiàn)有研究表明,用戶在不同內(nèi)容主題中具有不同的情緒偏好,對(duì)其有效利用可更準(zhǔn)確挖掘用戶興趣[23].例如,某些用戶在“戰(zhàn)爭(zhēng)”主題中發(fā)布或產(chǎn)生交互行為的微博通常表現(xiàn)出厭惡的情緒,則在該主題下帶有厭惡情緒的博文更容易引起用戶關(guān)注;對(duì)于宋詞主題,有些用戶喜歡表現(xiàn)喜悅類的詩(shī)詞,另外一些用戶可能更偏向喜歡悲傷類的詩(shī)詞,合理考慮這些因素可更有效獲取用戶興趣偏好.同時(shí)考慮內(nèi)容偏好與情緒偏好的用戶畫像可從多維度視角刻畫用戶特征,將其應(yīng)用于信息推薦,有助于提升推薦效果,但目前在微博推薦領(lǐng)域,缺少將2個(gè)特征結(jié)合,挖掘用戶的內(nèi)容偏好以及在不同內(nèi)容偏好中情緒傾向以構(gòu)建用戶興趣畫像,進(jìn)而實(shí)現(xiàn)微博推薦的研究.
針對(duì)以上不足,本文提出一種基于內(nèi)容偏好和情緒傾向的微博用戶興趣畫像的構(gòu)建方法.首先,構(gòu)建了結(jié)合內(nèi)容偏好和情緒傾向的微博用戶興趣畫像,通過(guò)LDA模型提取博文內(nèi)容主題,并結(jié)合用戶歷史數(shù)據(jù)篩選出用戶的內(nèi)容偏好;在此基礎(chǔ)上,深入分析了用戶在不同內(nèi)容偏好下的多類情緒分布,挖掘用戶情緒傾向用以捕捉其豐富的情緒需求,綜合用戶的內(nèi)容偏好及其情緒偏好構(gòu)建更為精準(zhǔn)的微博用戶興趣畫像.然后,基于該畫像設(shè)計(jì)微博推薦模型,依次進(jìn)行內(nèi)容偏好過(guò)濾和情緒相似度比較,實(shí)現(xiàn)微博推薦.該模型通過(guò)結(jié)合內(nèi)容偏好與情緒傾向的多維分析,使推薦結(jié)果更具針對(duì)性和情感關(guān)聯(lián)性.
1" 微博用戶興趣畫像構(gòu)建及推薦模型
1.1" 研究框架
基于內(nèi)容偏好和情緒傾向的微博用戶興趣畫像構(gòu)建與推薦模型(constructing microblog user interest profiles based on content preference-emotional tendency and recommendation model, CERM)的研究框架如圖1所示.
研究框架分為以下2部分:
1) 基于內(nèi)容偏好和情緒傾向的微博用戶興趣畫像構(gòu)建.該部分包含內(nèi)容偏好的提取及其情緒傾向的挖掘.
①內(nèi)容偏好的提取.使用LDA模型對(duì)用戶歷史微博集中每一篇微博進(jìn)行內(nèi)容主題提取,得到每篇博文的主題向量;將用戶的歷史博文主題向量進(jìn)行矢量加和,根據(jù)概率值高低選取前m個(gè)主題,作為用戶的內(nèi)容偏好.
②情緒傾向的挖掘.對(duì)于用戶的內(nèi)容偏好微博集中每一篇?dú)v史博文,首先對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,去除不含中文的微博,刪除每條微博中多余的空格、亂碼,刪除微博文本中不包含情緒內(nèi)容的URL鏈接、標(biāo)簽信息.然后,輸入Ernie-BiLSTM-Attention(ERBA)模型計(jì)算其對(duì)應(yīng)的情緒分布,取分布中最大概率值所對(duì)應(yīng)情緒類別表示博文情緒.計(jì)算不同內(nèi)容偏好在每類情緒中的條件概率分布,以表示用戶在不同內(nèi)容偏好中所對(duì)應(yīng)的情緒分布,挖掘用戶的情緒傾向.
2) 微博推薦.首先利用LDA模型獲取待評(píng)估博文的內(nèi)容主題,取概率最大值對(duì)應(yīng)的主題為該博文主題,使用ERBA模型計(jì)算該博文的情緒分布;其次,通過(guò)將博文主題與用戶內(nèi)容偏好集進(jìn)行比較實(shí)現(xiàn)內(nèi)容匹配,并進(jìn)一步比較博文和用戶在同一內(nèi)容偏好中的情緒相似度,若情緒相似度超過(guò)閾值,則將該博文加入推薦集.
1.2" 微博用戶興趣畫像構(gòu)建
生成用戶興趣畫像的前提是挖掘用戶興趣,用戶興趣可從內(nèi)容偏好及其對(duì)應(yīng)情緒傾向2方面體現(xiàn).據(jù)此本文通過(guò)挖掘和分析用戶歷史交互數(shù)據(jù)中的內(nèi)容主題和情緒分布,以生成反映其內(nèi)容偏好及其情緒傾向的微博用戶興趣畫像.
1.2.1" 用戶內(nèi)容偏好提取
用戶內(nèi)容偏好包括2部分:第一,借助自然語(yǔ)言工具LDA模型識(shí)別博文內(nèi)容主題;第二,基于用戶交互博文以及博文的內(nèi)容主題信息,識(shí)別用戶感興趣內(nèi)容主題信息.基于上述2部分提取出用戶內(nèi)容偏好.
1)基于LDA模型的博文內(nèi)容主題挖掘
LDA模型是一種基于概率圖的3層貝葉斯經(jīng)典主題模型,常被應(yīng)用于微博文本內(nèi)容主題挖掘[24-25],LDA模型如圖2所示.
圖2中:T是主題數(shù)量;D、N分別表示文檔總數(shù)和文檔中詞總數(shù);θd表示文檔d主題分布;z表示主題z中的主題詞分布;α、β分別是主題分布的超參數(shù)和主題詞分布的超參數(shù);wdi、zdi分別表示文檔中第i個(gè)詞及其主題.
LDA模型假設(shè)每篇文檔是由多個(gè)主題以一定概率組成的,每個(gè)主題由一組詞語(yǔ)以一定概率混合生成,通過(guò)不斷迭代生成文檔中的詞語(yǔ),得主題分布θ.根據(jù)模型生成文檔d的過(guò)程為:①?gòu)腄irichlet (α)分布中取樣生成文檔的主題分布θd;②從θd的多項(xiàng)式分布中取樣生成文檔第i個(gè)詞的主題zdi;③從Dirichlet(β)分布中取樣生成主題zdi下對(duì)應(yīng)的詞分布z,從詞分布中生成詞語(yǔ)wdi,重復(fù)以上操作生成文檔d,接著重復(fù)D次得到整個(gè)語(yǔ)料庫(kù),確定最終的主題分布θ,表征為文檔的主題向量.
在利用LDA模型對(duì)博文進(jìn)行內(nèi)容主題的抽取時(shí),通過(guò)計(jì)算不同主題數(shù)T所對(duì)應(yīng)的困惑度(Preplexity)確定最優(yōu)主題個(gè)數(shù),困惑度最小或處于拐點(diǎn)時(shí)對(duì)應(yīng)的主題數(shù)為最優(yōu)主題數(shù)k[26],困惑度的計(jì)算公式如式(1)所示.
Perlplexity(ND)=exp∑Dd=1logp(wd)∑Dd=1Nd,(1)
其中:ND表示文檔中所有詞的集合;D表示文檔的數(shù)量;wd表示文檔d中的單詞集合;Nd表示文檔d中詞語(yǔ)數(shù)量.
隨著主題數(shù)量的增加,可能會(huì)存在困惑度值逐漸遞減的情況,難以確定最優(yōu)主題數(shù),因此本文加入一致性(Coherence)指標(biāo)[27]作為補(bǔ)充,一致性描述不同主題分布之間的距離.計(jì)算不同主題數(shù)對(duì)應(yīng)的一致性,其得分越高,表示主題分類效果越好.最終根據(jù)困惑度值和一致性確定最優(yōu)主題數(shù)k,根據(jù)主題模型得出每篇博文bi的主題分布θbi,表示為主題向量Lbi={z1:p1,z2:p2,…,zk:pk},∑ki=1pi=1.
2)內(nèi)容偏好挖掘
通過(guò)LDA模型提取用戶每篇博文內(nèi)容主題,將這些主題向量累加并進(jìn)行歸一化操作,得到用戶內(nèi)容主題特征的整體分布,進(jìn)一步選取分布中概率值較高的前m項(xiàng),確定為用戶的內(nèi)容偏好.具體步驟如下:
①取用戶發(fā)表或交互的博文集Bu={b1,b2,…,bn},其中n為博文數(shù)量.
②對(duì)Bu中每篇博文的主題向量使用公式(2)矢量相加.
③利用公式(3)進(jìn)行歸一化操作得到用戶內(nèi)容主題特征的整體分布.
Lu=Lb1+Lb2+…+Lbn={zu1:p1,zu2:p2,…,zuk:pk},(2)
pi=pi∑ki=1pi.(3)
對(duì)歸一化后的分布進(jìn)行降序的排序后,設(shè)置前m項(xiàng)主題類別作為用戶u的內(nèi)容偏好Tu={z1,z2,…,zm}.
1.2.2" 用戶情緒傾向挖掘
在上述提取用戶內(nèi)容偏好的基礎(chǔ)上,篩選出與用戶內(nèi)容偏好相關(guān)的博文,并利用ERBA模型獲取到其情緒分布,隨后進(jìn)行統(tǒng)計(jì)分析,以確定用戶在不同內(nèi)容偏好中的情緒傾向,最終匯總各類內(nèi)容偏好中的情緒傾向來(lái)表征用戶情緒傾向.
1)情緒語(yǔ)料庫(kù)構(gòu)建
目前尚無(wú)用于情緒識(shí)別的權(quán)威情緒語(yǔ)料庫(kù),因此,本文選用2個(gè)公開(kāi)的數(shù)據(jù)集NLPCC2014和NLPCC2018構(gòu)建基礎(chǔ)情緒語(yǔ)料庫(kù),情緒類別按照大連理工大學(xué)情感詞典[28](DUTSD)的分類標(biāo)準(zhǔn),分為“樂(lè)”、“好”、“哀”、“惡”、“怒”、“懼”和“驚”7個(gè)類別,同時(shí)取simplifyweibo_4_mood部分情緒數(shù)據(jù)作為補(bǔ)充數(shù)據(jù)集,合并到基礎(chǔ)情緒語(yǔ)料庫(kù)中,部分情緒文本示例如表1所示.
2)微博文本情緒挖掘
本研究采用ERBA模型對(duì)博文進(jìn)行情緒分析.ERBA模型結(jié)合了深度學(xué)習(xí)模型ERNIE(enhanced language representation with informative entities)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory network, BiLSTM)以及注意力機(jī)制(attention)3個(gè)模塊,在文本分類任務(wù)上取得不錯(cuò)的效果[29].ERNIE預(yù)訓(xùn)練模型通過(guò)對(duì)文本的語(yǔ)法結(jié)構(gòu)、詞法結(jié)構(gòu)和語(yǔ)義信息的統(tǒng)一建模,捕捉文本的多層次語(yǔ)義信息;同時(shí)BiLSTM進(jìn)一步考慮文本前后信息,以獲取更全面的語(yǔ)境信息;通過(guò)注意力機(jī)制動(dòng)態(tài)分配權(quán)重,提高情緒分類的準(zhǔn)確性.本文細(xì)化出7個(gè)情緒類別,并通過(guò)ERBA模型計(jì)算得出一條博文在7類情緒中的概率分布.ERBA模型圖如圖3所示.
ERBA模型對(duì)輸入的文本進(jìn)行分詞處理,分詞后的子詞在ERNIE預(yù)訓(xùn)練層映射到一個(gè)固定長(zhǎng)度的嵌入向量xi;向量輸入BiLSTM模型捕捉博文上下文信息,將每個(gè)時(shí)間步中的前向和后向的隱向量進(jìn)行拼接得到該時(shí)刻的輸出向量hi;接著將BiLSTM的輸出作為注意力層的輸入,利用注意力層分配合適的權(quán)重;最后進(jìn)行全連接運(yùn)算以及softmax運(yùn)算,輸出文本中每種情緒類別的近似概率值作為情緒分類結(jié)果,表示為Euk={ek1:p1,ek2:p2,…,ek7:p7},其中,Euk表示用戶u第k個(gè)博文的情緒分布,eki表示第k個(gè)博文的第i類情緒,pi表示第k個(gè)博文第i類情緒的概率.
3)情緒傾向挖掘
用戶在其內(nèi)容偏好中,對(duì)于不同情緒類別會(huì)表現(xiàn)出不同程度的傾向性,本文通過(guò)計(jì)算用戶在不同內(nèi)容偏好中各類情緒類別的條件概率分布來(lái)表示用戶的情緒傾向.
首先根據(jù)獲取到的博文的主題向量和文本的情緒分布,選取向量和分布中最大值對(duì)應(yīng)的類別分別表示博文的主題和情緒;然后,根據(jù)用戶的內(nèi)容偏好,將用戶同一偏好的博文分為一組,計(jì)算不同內(nèi)容偏好中各類情緒所占比例,得到用戶在不同內(nèi)容偏好下的情緒傾向,如式(4)所示.
P(ej|zi)=P(ej,zi)P(zi),(4)
其中:P(ej|zi)表示用戶在第i個(gè)內(nèi)容偏好下反映出情緒j的條件概率;P(ej,zi)表示用戶博文中內(nèi)容偏好i和情緒j同時(shí)出現(xiàn)的概率;P(zi)表示用戶博文中屬于內(nèi)容偏好i的概率.最后將用戶u在內(nèi)容偏好下的情緒偏好表示為qui={P(e1|zi),P(e2|zi),…,P(e7|zi)}.
1.2.3" 構(gòu)建用戶興趣畫像
通過(guò)將上述提取到的用戶內(nèi)容偏好和不同內(nèi)容偏好對(duì)應(yīng)情緒傾向相結(jié)合,共同刻畫用戶興趣畫像,最終構(gòu)建的用戶興趣畫像描述模型如圖4所示.
圖4中以某一用戶為例,首先利用LDA模型提取用戶的內(nèi)容偏好,將用戶微博集按照不同內(nèi)容偏好進(jìn)行分類,計(jì)算屬于同一偏好下的情緒分布,表示為當(dāng)前偏好下對(duì)應(yīng)的情緒傾向,構(gòu)建了同時(shí)包含內(nèi)容偏好及內(nèi)容偏好對(duì)應(yīng)的情緒傾向的微博用戶興趣畫像,其中,情緒傾向中不同顏色表示不同的情緒類別,情緒占比越大,其顏色區(qū)域就越大,同時(shí)為方便展示,最終示例中只列舉了情緒傾向中占比最高的2類情緒類別.
1.3" 微博推薦
判斷一篇待評(píng)估微博d是否被推薦給用戶u的步驟如下:
1)利用LDA模型生成的內(nèi)容主題,取其中概率值最大的類別作為d的主題,記作zd;同時(shí)將d輸入ERBA模型中生成該博文對(duì)應(yīng)的情緒分布,表示為Ed={ed1:p1,ed2:p2,…,ed7:p7}.
2)將d的主題zd與u的內(nèi)容偏好Tu進(jìn)行匹配,若在Tu中存在zd,則進(jìn)一步比較情緒相似度,否則,不進(jìn)行推薦.通過(guò)式(5)計(jì)算d和u在zd下情緒傾向quzd的余弦相似度,得出情緒相似度,表示為si,當(dāng)相似度高于閾值時(shí)推薦給用戶u.
si=sim(Ed,quzd)=Ed·quzd|Ed||quzd|.(5)
2" 實(shí)驗(yàn)
2.1" 數(shù)據(jù)集
以新浪微博為例,通過(guò)python爬蟲(chóng)程序從新浪微博平臺(tái)獲取到用戶的基本個(gè)人信息、博文、關(guān)注關(guān)系以及社交網(wǎng)絡(luò)交互行為信息.首先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,過(guò)濾掉文本中地址鏈接、@+用戶名和其他無(wú)意義的字符等噪音數(shù)據(jù);然后進(jìn)行分詞操作,去除停用詞,其中,分詞采用的python中jieba開(kāi)源組件,最終所獲原始數(shù)據(jù)包含454 407名用戶、143 979條原創(chuàng)博文、26 915條評(píng)論信息、368 726條關(guān)注、124 356條點(diǎn)贊和24 531條轉(zhuǎn)發(fā).
2.2" 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
采用精確率(Precision)、召回率(Recall)和F1值(F1)作為模型的推薦性能評(píng)價(jià)指標(biāo).精確率描述的是推薦列表中用戶真實(shí)感興趣的微博所占比例,如式(6)所示;召回率描述的是用戶真實(shí)感興趣的微博被推薦的比例,如式(7)所示;F1綜合了模型的精確率和召回率,是調(diào)和平均數(shù),如式(8)所示.
Precision=|R∩L|/|R|,(6)
Recall=|R∩L|/|L|,(7)
F1=2×Precision×RecallPrecision+Recall,(8)
其中:R表示推薦給用戶的微博集合;L表示用戶真實(shí)感興趣的微博集合.目標(biāo)用戶發(fā)布、點(diǎn)贊、轉(zhuǎn)發(fā)和評(píng)論的微博都屬于用戶真實(shí)感興趣微博.
為驗(yàn)證推薦算法的精確率,挑選出833名活躍用戶,以及用戶的138 406條微博數(shù)據(jù)進(jìn)行實(shí)驗(yàn),將實(shí)驗(yàn)數(shù)據(jù)按照8∶2劃分為訓(xùn)練集和測(cè)試集[21, 30],訓(xùn)練集學(xué)習(xí)用戶的相關(guān)興趣偏好,測(cè)試集驗(yàn)證實(shí)驗(yàn)方法的有效性.本文在計(jì)算評(píng)價(jià)指標(biāo)時(shí),選取測(cè)試集中用戶實(shí)際感興趣的博文作為正例,隨機(jī)選取正例30%作為負(fù)例[11],正例和負(fù)例共同構(gòu)成用戶的測(cè)試集.
2.3" 實(shí)驗(yàn)參數(shù)設(shè)置
2.3.1" 情緒分類參數(shù)設(shè)置
采用ERBA模型對(duì)微博文本進(jìn)行情緒分類,將基礎(chǔ)情緒語(yǔ)料庫(kù)文本輸入ERBA模型中訓(xùn)練最優(yōu)參數(shù),保留最優(yōu)參數(shù)用于生成文本的情緒分布,相關(guān)訓(xùn)練參數(shù)設(shè)置如表2所示.
2.3.2" 內(nèi)容偏好的相關(guān)參數(shù)確定
構(gòu)建用戶的內(nèi)容偏好時(shí),涉及到2個(gè)參數(shù),分別是用戶微博集中最優(yōu)主題數(shù)的確定以及與內(nèi)容偏好相關(guān)的主題數(shù)的確定.通過(guò)LDA模型進(jìn)行用戶博文主題分類時(shí),首先利用LDA模型的困惑度和一致性指標(biāo)確定用戶微博集的最優(yōu)主題數(shù).計(jì)算結(jié)果如圖5所示.
a.困惑度;b.一致性
通過(guò)觀察困惑度曲線可得知,隨著主題數(shù)目的不斷增加,不同主題數(shù)目對(duì)應(yīng)的困惑度值逐漸減小,主題數(shù)在15出現(xiàn)拐點(diǎn),之后逐漸減緩,同時(shí)觀察一致性曲線,發(fā)現(xiàn)當(dāng)主題數(shù)目處于15~30時(shí),主題數(shù)目為22時(shí)一致性得分相對(duì)最高,因此本文設(shè)置主題數(shù)目22為最優(yōu)主題數(shù).
根據(jù)確定的最優(yōu)主題數(shù),利用LDA模型獲取主題和主題下的相關(guān)關(guān)鍵詞,部分?jǐn)?shù)據(jù)見(jiàn)表3.
假設(shè)用戶在某一主題中發(fā)布的博文與交互的博文表達(dá)相似的情緒,用戶在主題中存在固定的情緒偏好.進(jìn)行驗(yàn)證實(shí)驗(yàn)時(shí),挑選出833名活躍用戶,分為2組,一組為用戶發(fā)布微博數(shù)據(jù),另一組為用戶點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)微博數(shù)據(jù),作為用戶交互行為數(shù)據(jù).將用戶同一個(gè)主題的原創(chuàng)與交互博文進(jìn)行情緒余弦相似度比較,經(jīng)實(shí)驗(yàn)驗(yàn)證,在85%的情況下,同一主題下發(fā)布與交互博文的情緒相似度大于0.6.分析表明,用戶在同一主題下發(fā)布與交互博文之間表達(dá)了相似的情緒偏好,用戶在某一主題下有著固定的情緒傾向,這種情緒傾向使得用戶對(duì)該主題中相似情緒的博文產(chǎn)生興趣并與之交互.因此,考慮主題和主題中情緒傾向?qū)⒛苡行У乜坍嫵鲇脩舻呐d趣.
為探究與用戶內(nèi)容偏好相關(guān)的主題,需要將每個(gè)用戶的歷史博文主題向量使用式(2)進(jìn)行矢量相加,然后用式(3)進(jìn)行歸一化操作得出用戶的主題分布,取分布中概率值較高的m類主題表示為用戶的內(nèi)容偏好Tu,然后從用戶歷史博文集中篩選出內(nèi)容屬于Tu的博文數(shù)據(jù).例如,當(dāng)選取用戶的內(nèi)容偏好相關(guān)的主題數(shù)為15時(shí),統(tǒng)計(jì)出每個(gè)用戶的主題分布中概率值前15對(duì)應(yīng)的主題;使用用戶在這15類主題下的歷史博文用于訓(xùn)練用戶在該類主題下的情緒偏好,同時(shí)根據(jù)本研究實(shí)證數(shù)據(jù),確定情緒相似度閾值為0.6,根據(jù)測(cè)試集計(jì)算出該主題數(shù)對(duì)應(yīng)的F1值.通過(guò)分析不同主題數(shù)對(duì)應(yīng)推薦效果的F1值,確定與用戶內(nèi)容偏好相關(guān)的最優(yōu)主題數(shù).經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),用戶主題數(shù)主要集中在13~20,因此本文分析用戶在該區(qū)間內(nèi)的F1值,結(jié)果如圖6所示.
由圖6可以看出,推薦的有效性會(huì)受到不同主題數(shù)的影響,隨著主題數(shù)的增加,模型F1值呈先上升后下降的趨勢(shì),在主題數(shù)為15時(shí),達(dá)到最大值.這是由于隨著主題數(shù)增加,擴(kuò)大了用戶的內(nèi)容偏好范圍,引入了用戶實(shí)際不感興趣的主題,最終影響到推薦的效果.在后續(xù)實(shí)驗(yàn)將選取15類主題作為用戶內(nèi)容偏好.
隨機(jī)選取數(shù)據(jù)集中爬取的真實(shí)用戶1000010722,分析其在內(nèi)容偏好為4時(shí)的情緒分布,用戶1000010722在偏好為4時(shí)的相關(guān)主題為主題1、主題2、主題3和主題4,情緒分布情況如表4所示.
表4中觀察到用戶在主題1和主題2中更喜歡“樂(lè)”的情緒,表現(xiàn)出一種積極的情緒,而在主題3和主題4中,更傾向于“懼”情緒,表現(xiàn)出一種消極的情緒,同時(shí),相比于主題3,用戶在主題4中也存在一部分積極的情緒.可以看出用戶在不同主題之間情緒分布存在差異,劃分效果較好.
2.3.3" 用戶興趣畫像構(gòu)建的消融實(shí)驗(yàn)
為研究不同特征結(jié)合的用戶畫像標(biāo)簽對(duì)用戶興趣畫像識(shí)別的影響,本文運(yùn)用隨機(jī)森林算法對(duì)內(nèi)容偏好特征及其情緒傾向特征畫像標(biāo)簽的組合展開(kāi)分類識(shí)別,隨機(jī)種子設(shè)置為42,決策樹(shù)數(shù)量設(shè)置為100,以準(zhǔn)確率(ACC)指標(biāo)比較不同興趣畫像的分類效果,其中,RF_T僅使用內(nèi)容偏好特征作為隨機(jī)森林的輸入變量,RF_E僅使用情緒傾向特征作為輸入變量,RF_TE使用內(nèi)容偏好特征及其情緒傾向特征進(jìn)行訓(xùn)練,如表5所示.
本文采用上述數(shù)據(jù)集,設(shè)定數(shù)據(jù)集的70%作為訓(xùn)練集,30%作為測(cè)試集,采用基尼指數(shù)作為分類標(biāo)準(zhǔn).針對(duì)上述3個(gè)用戶興趣畫像,得到結(jié)果如圖7所示.
從圖7可看出,使用情緒傾向特征的RF_E高于使用內(nèi)容偏好特征的RF_T,說(shuō)明相較于用戶的內(nèi)容偏好,細(xì)粒度的情緒可挖掘用戶豐富的情感信息,可更有效刻畫用戶興趣畫像;與模型RF_TE相比,僅使用內(nèi)容偏好特征的RF_T和僅使用情緒傾向特征的RF_E評(píng)價(jià)指標(biāo)都較低,說(shuō)明內(nèi)容偏好及其情緒傾向進(jìn)行結(jié)合可提升隨機(jī)森林算法在用戶興趣畫像的分類識(shí)別效果.
2.4" 對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文提出的CERM模型在微博推薦中的效果,選取了其他4種推薦模型進(jìn)行對(duì)比,如表6所示.
為驗(yàn)證結(jié)合用戶的內(nèi)容偏好和情緒偏好應(yīng)用于推薦的有效性,設(shè)置了對(duì)比實(shí)驗(yàn),其中,LBRM[17]基于社會(huì)化標(biāo)簽,通過(guò)標(biāo)簽語(yǔ)義相似度構(gòu)建用戶-標(biāo)簽矩陣,實(shí)現(xiàn)了微博推薦.SARM[21]利用情感信息,挖掘關(guān)聯(lián)規(guī)則,將強(qiáng)關(guān)聯(lián)規(guī)則用于微博推薦.TPRM[18]綜合考慮主題相關(guān)性和用戶偏好,找出相似用戶實(shí)現(xiàn)微博推薦.CERM-EM是本文模型的變式,其只考慮了情緒特征,依據(jù)用戶博文的情緒分布,計(jì)算出每類情緒的條件概率,表示為用戶的情緒分布,計(jì)算其分布和待評(píng)估博文之間的情緒相似度實(shí)現(xiàn)推薦.
對(duì)比實(shí)驗(yàn)結(jié)果如表7所示.根據(jù)表7可知,與LBRM、SARM、TPRM和CERM-EM相比,CERM的F1值分別提升了10%、6%、2%、4%.主要原因是CERM模型利用LDA模型獲取博文內(nèi)容主題信息,利用用戶一段時(shí)間內(nèi)博文的內(nèi)容主題信息進(jìn)行計(jì)算,在眾多主題信息中篩選出用戶感興趣的內(nèi)容信息,作為用戶的內(nèi)容偏好;接著引入情緒特征,挖掘出用戶在不同內(nèi)容偏好下的情緒傾向,使用戶內(nèi)容偏好與情緒傾向得到有效表示,獲得更好的推薦效果.
LBRM模型利用標(biāo)簽信息,未考慮到內(nèi)容特征和情緒特征對(duì)用戶興趣偏好的影響,致使推薦效果不如CERM模型;SARM模型引入情感特征,驗(yàn)證了情感有助于提升推薦效果,但效果差于CERM-EM模型,表明細(xì)粒度的情緒可更有效刻畫用戶興趣;TPRM模型考慮到了內(nèi)容特征,通過(guò)結(jié)合用戶的主題影響力和計(jì)算主題中用戶博文的TF-IDF平均值得到的用戶偏好,實(shí)現(xiàn)了微博推薦,但對(duì)用戶興趣的挖掘不夠深入,忽略了用戶與內(nèi)容特征相關(guān)的情緒偏好.CERM模型在內(nèi)容特征的基礎(chǔ)上引入情緒特征,挖掘用戶在內(nèi)容偏好下的情緒傾向,在同一內(nèi)容偏好下推薦與用戶情緒傾向相似的博文,提升了推薦效果.同時(shí)相較于CERM-EM模型僅挖掘情緒傾向,忽略了用戶的內(nèi)容特征對(duì)用戶偏好的影響,導(dǎo)致情緒傾向與內(nèi)容特征未能有效結(jié)合,影響推薦的效果.
CERM模型效果好于上述對(duì)比模型,說(shuō)明用戶存在固定的內(nèi)容偏好,在不同偏好下有著固定的情緒傾向,利用內(nèi)容偏好首先過(guò)濾一部分信息,只關(guān)注用戶感興趣內(nèi)容,減少計(jì)算量的同時(shí)也能提高推薦的精確率,進(jìn)一步推薦與用戶情緒相似度高的博文,能有效提升推薦效果.總結(jié)上述實(shí)驗(yàn)分析可得,同時(shí)考慮用戶的內(nèi)容偏好及其情緒傾向能夠滿足個(gè)性化需求,可提升推薦的有效性.
3" 結(jié)語(yǔ)
利用LDA模型挖掘用戶內(nèi)容偏好,并在此基礎(chǔ)上引入不同內(nèi)容偏好下的情緒傾向,將二者整合得到用戶興趣畫像,實(shí)現(xiàn)了對(duì)微博用戶的精準(zhǔn)描述.與已有方法相比,該方法能更為準(zhǔn)確地刻畫用戶興趣畫像,并提升推薦效果.本文的研究方法不僅可以應(yīng)用于微博平臺(tái),還可以擴(kuò)展到其他平臺(tái),例如Twitter、知乎和小紅書等.不足之處在于:1)目前仍缺乏完善的情緒語(yǔ)料庫(kù),用戶情緒傾向的刻畫還不夠精細(xì).2)只考慮了文本的情緒特征,并沒(méi)有深入分析不同用戶的等級(jí)和差異性.未來(lái)將針對(duì)上述不足展開(kāi)深入研究,進(jìn)一步提高微博推薦的性能.
參" 考" 文" 獻(xiàn):
[1]" AZZAM F, KAYED M, ALI A. A model for generating a user dynamic profile on social media[J]. J King Saud Univ Comput Inf Sci, 2022, 34(10): 9132-9145. DOI: 10.1016/j.jksuci.2022.08.036.
[2]" KHALIL M M Y, WANG Q X, CHEN B, et al. Cross-modality representation learning from transformer for hashtag prediction[J]. J Big Data, 2023, 10(1): 140-148. DOI: 10.1186/s40537-023-00824-2.
[3]" DJENOURI Y, BELHADI A, SRIVASTAVA G, et al. An efficient and accurate GPU-based deep learning model for multimedia recommendation[J]. ACM Trans Multimedia Comput Commun Appl, 2024, 20(2): 1-18. DOI: 10.1145/3524022.
[4]" 邵一博,秦玉華,崔永軍,等.融合多粒度信息的用戶畫像生成方法[J].計(jì)算機(jī)應(yīng)用研究, 2024, 41(2): 401-407. DOI: 10.19734/j.issn.1001-3695.2023.05.0234.
[5]" 李丹,高建忠.基于用戶畫像的圖書館推薦服務(wù)初探[J].圖書館, 2019(7): 66-71.DOI: 10.3969/j.issn.1002-1558.2019.07.010.
[6]" 陳添源,梅鑫.多源數(shù)據(jù)融合的用戶畫像識(shí)別與推薦實(shí)證研究[J].情報(bào)理論與實(shí)踐, 2024, 47(4): 171-180. DOI: 10.16353/j.cnki.1000-7490.2024.04.022.
[7]" PUJAHARI A, SISODIA D S. Item feature refinement using matrix factorization and boosted learning based user profile generation for content-based recommender systems[J]. Expert Syst Appl, 2022, 206: 117849. DOI: 10.1016/j.eswa.2022.117849.
[8]" 夏立新,胡畔,劉坤華,等.融入信息推薦場(chǎng)景要素的在線健康社區(qū)用戶畫像研究[J].圖書情報(bào)知識(shí), 2023, 40(3): 116-128.DOI: 10.13366/j.dik.2023.03.116.
[9]" 金吉瓊,居雷,張易,等.基于用戶畫像的卷煙消費(fèi)者特征識(shí)別和價(jià)值評(píng)估[J].煙草科技, 2023, 56(1):105-112. DOI:10.16135/j.issn1002-0861.2022.0531.
[10]" 費(fèi)鵬,林鴻飛,楊亮,等.一種用于構(gòu)建用戶畫像的多視角融合框架[J].計(jì)算機(jī)科學(xué), 2018, 45(1): 179-182. DOI: 10.11896/j.issn.1002-137X.2018.01.031.
[11]" CUI Y C, YU H L, GUO X X, et al. RAKCR: reviews sentiment-aware based knowledge graph convolutional networks for Personalized Recommendation[J]. Expert Syst Appl, 2024, 248: 123403. DOI: 10.1016/j.eswa.2024.123403.
[12]" 于偉杰,楊文忠,任秋如.基于全詞BERT的集成用戶畫像方法[J].東北師大學(xué)報(bào)(自然科學(xué)版), 2022, 54(4): 87-92. DOI: 10.16163/j.cnki.dslkxb202104053.
[13]" 楊洋洋.數(shù)據(jù)驅(qū)動(dòng)下網(wǎng)絡(luò)辟謠信息畫像與治理模式研究——基于引爆點(diǎn)理論[J/OL].情報(bào)科學(xué), 1-14[2024-05-07]. http://kns.cnki.net/kcms/detail/22.1264.G2.20240506.1702.014.html.
[14]" 吳樹(shù)芳,吳崇崇,朱杰.基于興趣轉(zhuǎn)移的微博用戶動(dòng)態(tài)畫像生成[J].情報(bào)科學(xué), 2021, 39(8): 103-111.DOI: 10.13833/j.issn.1007-7634.2021.08.013.
[15]" 王志剛,邱長(zhǎng)波.基于主題的政務(wù)微博評(píng)論用戶畫像研究[J].情報(bào)雜志, 2022, 41(3): 159-165.DOI: 10.3969/j.issn.1002-1965.2022.03.022.
[16]" XU K, ZHENG X S, CAI Y, et al. Improving user recommendation by extracting social topics and interest topics of users in uni-directional social networks[J]. Knowl Based Syst, 2018, 140: 120-133. DOI: 10.1016/j.knosys.2017.10.031.
[17]" 王戰(zhàn)平,夏榕.基于社會(huì)化標(biāo)簽挖掘的微博內(nèi)容推薦方法研究[J].情報(bào)科學(xué), 2021, 39(5): 91-96.DOI:10.13833/j.issn.1007-7634.2021.05.013.
[18]" BAO F, XU W, FENG Y, et al. A topic-rank recommendation model based on microblog topic relevance amp;user preference analysis[J]. Hum-Cent Comput Info, 2022, 12(10): 1-19.DOI: https://doi.org/10.22967/HCIS.2022.12.010.
[19]" 楊永清,孫凱,張媛媛,等.基于信息畫像的突發(fā)事故災(zāi)難輿情傳播效果的預(yù)測(cè)模型研究[J].情報(bào)科學(xué), 2024, 42(4), 27-35. DOI: 10.13833/j.issn.1007-7634.2024.04.004.
[20]" 王帥,紀(jì)雪梅.基于在線健康社區(qū)用戶畫像的情感表達(dá)特征研究[J].情報(bào)理論與實(shí)踐, 2022, 45(6): 179-87. DOI: 10.16353/j.cnki.1000-7490.2022.06.024.
[21]" 李鐵軍,顏端武,楊雄飛.基于情感加權(quán)關(guān)聯(lián)規(guī)則的微博推薦研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2020, 4(4): 27-33. DOI: 10.11925/infotech.2096-3467.2019.0765.
[22]" 趙又霖,林怡妮,陸穎雋,等.社會(huì)感知數(shù)據(jù)驅(qū)動(dòng)下用戶時(shí)空行為畫像及語(yǔ)義關(guān)聯(lián)研究[J].圖書館學(xué)研究, 2024(2): 54-62. DOI: 10.3969/j.issn.1672-0504.2022.01.011.
[23]" ROBERTS K, ROACH M A, JOHNSON J, et al. EmpaTweet: annotating and detecting emotions on twitter[C]//Proc 8th Int Conf Lang Resour Eval LREC 2012, 2012: 3806-3813.DOI: 10.1155/2012/678107.
[24]" 張柳,王晰巍,黃博,等.基于LDA模型的新冠肺炎疫情微博用戶主題聚類圖譜及主題傳播路徑研究[J].情報(bào)學(xué)報(bào), 2021, 40(3): 234-244. DOI: 10.3772/j.issn.1000-0135.2021.03.002.
[25]" LIU X, BURNS A C, HOU Y J. An investigation of brand-related user-generated content on twitter[J]. J Advert, 2017, 46(2): 236-247. DOI: 10.1080/00913367.2017.1297273.
[26]" 張國(guó)防,王鑫,徐建民.基于主題詞共現(xiàn)的文檔非對(duì)稱關(guān)系量化研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023, 7(3): 110-120. DOI: 10.11925/infotech.2096-3467.2022.0342.
[27]" 曾子明,陳思語(yǔ).基于LDA與BERT-BiLSTM-Attention模型的突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)輿情演化分析[J].情報(bào)理論與實(shí)踐, 2023, 46(9): 158-166. DOI: 10.16353/j.cnki.1000-7490.2023.09.019.
[28]" 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào), 2008, 27(2): 180-185. DOI: 10.3969/j.issn.1000-0135.2008.02.004.
[29]" 黃山成,韓東紅,喬百友,等.基于 ERNIE2. 0-BiLSTM-Attention 的隱式情感分析方法[J].小型微型計(jì)算機(jī)系統(tǒng), 2021, 42(12): 2485-2489. DOI:1000-1220(2021)12-2485-05.
[30]" 張金柱,孫雯雯,仇蒙蒙.融合異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)與注意力機(jī)制的引文推薦研究[J/OL]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 1-17 [2024-06-19]. http://kns.cnki.net/kcms/detail/10.1478.g2.20240117.1104.012.html.
(責(zé)任編輯:孟素蘭)