馬曉峰 王 磊 陳觀淡
1(上海數(shù)據(jù)分析與處理技術(shù)研究所 上海 201112)2(中國科學院自動化研究所復雜系統(tǒng)管理與控制國家重點實驗室 北京 100190)
?
基于混合特征學習的微博轉(zhuǎn)發(fā)預測方法
馬曉峰1王 磊2陳觀淡2
1(上海數(shù)據(jù)分析與處理技術(shù)研究所 上海 201112)2(中國科學院自動化研究所復雜系統(tǒng)管理與控制國家重點實驗室 北京 100190)
微博轉(zhuǎn)發(fā)預測是研究信息傳播的關鍵問題之一,對于輿情監(jiān)控、廣告投放、商業(yè)決策具有重要意義。用戶興趣、微博作者影響力及微博內(nèi)容等信息均影響信息傳播過程。轉(zhuǎn)發(fā)行為預測的挑戰(zhàn)性問題在于如何捕獲更多有意義的影響因素以提高預測性能。提出基于混合特征學習的轉(zhuǎn)發(fā)預測方法,該方法首先引入并分析了局部社會影響力特征、用戶特征、微博內(nèi)容特征的計算方法;接著,基于分類器建立預測模型;最后,比較了不同類型微博的轉(zhuǎn)發(fā)預測效果。在新浪微博平臺數(shù)據(jù)的實驗結(jié)果表明,局部社會影響力特征、用戶特征、微博內(nèi)容特征都對轉(zhuǎn)發(fā)預測有較大影響,其中微博內(nèi)容特征的影響最大。隨機森林預測效果最好,準確率達到83.1%;與樸素貝葉斯、邏輯回歸、支持向量機模型相比,準確率平均提高約7.4%,最高提高約10.8%。另外,該方法對自然災害、環(huán)境、審判、維權(quán)等類型的微博進行轉(zhuǎn)發(fā)預測時,效果更加明顯,說明這類事件轉(zhuǎn)發(fā)的規(guī)律性更強。
微博 混合特征學習 轉(zhuǎn)發(fā)預測
隨著Web2.0技術(shù)的快速發(fā)展,以微博等為代表的社會媒體平臺以其內(nèi)容豐富、交互性強、實時便捷等特點深受用戶喜愛。截至2015年9月30日,國內(nèi)最大的微博平臺之一的新浪微博的月活躍人數(shù)達到2.22億,較2014年同期相比增長33%,日活躍用戶達到1億,較去年同期增長30%??梢姡⒉┯脩羧罕3种掷m(xù)快速增長[1]。當某一社會事件發(fā)生后,人們可以通過該平臺第一時間獲取事件信息,發(fā)表自己的觀點,轉(zhuǎn)發(fā)感興趣的信息等。用戶的轉(zhuǎn)發(fā)行為影響著微博中信息的傳播趨勢,具有傳播快、覆蓋廣的特點。通過轉(zhuǎn)發(fā),某些微博可快速成為關注,造成影響。如何有效從轉(zhuǎn)發(fā)行為中學習用戶的興趣和行為規(guī)律,挖掘影響用戶轉(zhuǎn)發(fā)行為的重要要素,進而充分利用這些要素對未知的用戶轉(zhuǎn)發(fā)行為進行準確預測,對于熱點話題檢測與跟蹤、輿情監(jiān)管及商業(yè)營銷至關重要。這是當前的研究熱點,具有廣闊的應用前景[2,3]。
基于混合特征學習的預測方法將轉(zhuǎn)發(fā)行為預測作為二元分類問題,具有簡單、直觀的特點。其關鍵挑戰(zhàn)性問題是分析影響用戶轉(zhuǎn)發(fā)行為的因素,將其作為特征,然后訓練分類器得到分類模型進行預測。目前,微博轉(zhuǎn)發(fā)行為預測模型所采用的特征集中在用戶特征及微博內(nèi)容特征。社會影響力反映了人們間觀點、行為的相互影響方式,用戶在社交網(wǎng)絡中的社會關系,即與其關聯(lián)較緊密的其他人的行為對該用戶的轉(zhuǎn)發(fā)行為也有重要影響。新近研究表明,根據(jù)用戶自我網(wǎng)絡計算得到的用戶成對影響力和結(jié)構(gòu)影響力有效量化了局部社會影響力,具有較強的預測能力[4]。同時,面向領域的不同社會事件類型對于轉(zhuǎn)發(fā)預測也有影響。因此,本文首先設計了有效融合用戶特征、微博內(nèi)容特征及體現(xiàn)局部社會影響力的自我網(wǎng)絡特征的集成化微博轉(zhuǎn)發(fā)行為預測方法。以周邊用戶的影響力特征為基礎,輔以其他類型的社會特征、話題特征、微博特征、作者特征和時間特征,再結(jié)合機器學習方法對人物的轉(zhuǎn)發(fā)行為進行預測。接著,基于面向領域的事件分類體系,在新浪微博的實際數(shù)據(jù)集上進行了測試,并細致分析了不同事件的轉(zhuǎn)發(fā)預測效果,以便于更深層次理解用戶轉(zhuǎn)發(fā)行為的深層次原因,為輿情監(jiān)管提供有效的輔助決策支持。
微博轉(zhuǎn)發(fā)預測依賴于對轉(zhuǎn)發(fā)影響因素的分析,Guan等分析了熱點事件中用戶轉(zhuǎn)發(fā)行為的影響因素,包括微博用戶性別、身份、是否插入圖片、URL等[5];Rudat等分析了用戶引導、微博主題以及信息量因素對微博轉(zhuǎn)發(fā)行為的影響[6];Morchid等從微博內(nèi)容和用戶方面采用PCA多微博轉(zhuǎn)發(fā)的主要影響因素進行了分析[7];吳凱等構(gòu)建了基于興趣相似度、社會關系、文本特征與用戶屬性影響、用戶受激活次數(shù)的影響4種指標的信息傳播模型[8]。
微博轉(zhuǎn)發(fā)預測方面,Petrovic等對Twitter平臺的轉(zhuǎn)發(fā)預測進行研究,考慮了粉絲數(shù)、關注數(shù)、tweet發(fā)布量等在內(nèi)的用戶相關特征以及標簽、URL、tweet長度等微博本身特征,基于passive-aggressive算法構(gòu)建轉(zhuǎn)發(fā)預測模型[9];張旸等采用特征加權(quán)算法構(gòu)建了微博轉(zhuǎn)發(fā)預測模型[10];Suh等人選取了URL、標簽、關注人數(shù)等因素,使用主成份分析方法(PCA)分析了影響用戶轉(zhuǎn)發(fā)的主要因素,最后結(jié)合所選因素應用廣義線性模型分析影響因素與轉(zhuǎn)發(fā)行為之間的關系。但這些研究僅僅是對轉(zhuǎn)發(fā)行為的統(tǒng)計分析,缺少對用戶行為的預測[11]。文獻[3]提出融合背景熱點信息的轉(zhuǎn)發(fā)興趣、轉(zhuǎn)發(fā)活躍度、行為模式等特征,基于分類算法構(gòu)建了面向熱點話題相關微博的轉(zhuǎn)發(fā)預測模型;文獻[12]提取了用戶間的微網(wǎng)絡結(jié)構(gòu)、權(quán)重比率、用戶個人信息等特征,提出了一個隨機森林微博轉(zhuǎn)發(fā)預測算法;文獻[13,14]選取用戶名、關注人數(shù)、微博包含的單詞個數(shù)等特征,采用基于概率的協(xié)同過濾模型對用戶的轉(zhuǎn)發(fā)行為進行預測;文獻[15,16]選取了22個影響因素,并采用因子圖模型進行預測分析,對于用戶轉(zhuǎn)發(fā)行為預測取得了較高的精度。李英樂等從5個影響指標出發(fā)提出了基于支持向量機(SVM)的微博轉(zhuǎn)發(fā)規(guī)模預測模型[17]。Bandari等將微博轉(zhuǎn)發(fā)數(shù)量劃分為(1~20,20~100,100~2400)不同等級,以此為基礎構(gòu)建多分類模型來預測微博轉(zhuǎn)發(fā)規(guī)模[18]。文獻[19]采用BP神經(jīng)網(wǎng)絡對突發(fā)事件下的微博轉(zhuǎn)發(fā)量進行了預測,并通過改變樣本數(shù)對預測結(jié)果的穩(wěn)定性進行了測試,得到了有一定參考價值的預測結(jié)果。
微博轉(zhuǎn)發(fā)行為預測可形式化地定義為如下問題:給定微博m,用戶v,預測用戶v是否會對微博m進行轉(zhuǎn)發(fā)。用sv,m代表用戶的轉(zhuǎn)發(fā)狀態(tài),sv,m=1代表已轉(zhuǎn)發(fā),sv,m=0代表尚未轉(zhuǎn)發(fā),轉(zhuǎn)發(fā)行為預測問題即對sv,m的狀態(tài)進行預測。
3.1 方法框架
預測方法整體框架如圖1所示。
圖1 微博轉(zhuǎn)發(fā)行為預測框架
3.2 特征選取
本文設計了考慮局部社會影響力特征、用戶特征及微博內(nèi)容特征的集成化的特征選取體系,如表1所示。
表1 微博特征選取體系
各特征的計算描述方法如下:
1) 用戶影響力特征
文獻[4]證明用戶的影響力有利于提升用戶轉(zhuǎn)發(fā)預測準確率。受此啟發(fā),本文首先分析影響力特征,提取特定用戶的1-ego網(wǎng)絡G,即由該特定用戶、其關注者和被關注者組成的完整網(wǎng)絡。設網(wǎng)絡中已對m進行轉(zhuǎn)發(fā)的用戶為激活用戶,沒有進行轉(zhuǎn)發(fā)的用戶為未激活用戶。通過以上信息,本文提取該網(wǎng)絡中針對特定人物的成對影響力特征和結(jié)構(gòu)影響力特征。
成對影響力是網(wǎng)絡中已有的各激活用戶對特定用戶的影響力之和。已有研究證明[4],基于重啟隨機游走(RWR)計算得到的成對影響力與轉(zhuǎn)發(fā)概率之間存在較強的正相關關系。因此本文基于重啟隨機游走來計算成對影響力。
具體算法步驟如下:
(2) 從網(wǎng)絡中提取鄰接矩陣A;
(1)
f(Sv,t,G)=e-d|C(Sv,t)|
(2)
將成對影響力和結(jié)構(gòu)影響力結(jié)合,總的影響力計算式如下:
Q(Sv,t,G)=w×g(Sv,t,G)+(1-w)×f(Sv,t,G)
(3)
其中w為平衡兩項的系數(shù),Q(Sv,t,G)即為影響力特征。
2) 社會特征
除影響力特征外,還有一些其他類型的社會特征,包括:
用戶之前轉(zhuǎn)發(fā)v′發(fā)布的微博的次數(shù);
用戶之前在自己的微博中提到v′的次數(shù)。
3)話題特征
微博m的內(nèi)容是否是用戶感興趣的話題也是影響用戶轉(zhuǎn)發(fā)行為的重要因素之一。因此,我們提取以下話題特征:
TF-IDF特征:根據(jù)用戶以往發(fā)布的微博構(gòu)建詞袋(BOW)模型,得到以TF-IDF為權(quán)重的詞向量,計算其與微博m的TF-IDF詞向量的余弦相似度;
隱話題特征:用LDA對用戶以往發(fā)布的微博進行分析得到代表用戶興趣的話題向量,同樣用LDA對微博m進行分析,計算兩話題向量之間的KL散度,即:
(4)
其中p、q分別是用戶以往發(fā)布微博、微博m的LDA話題分布;
彈指一輝間,每次看到《農(nóng)家致富顧問》,我就想起與她二十余年的情緣,翻開我多年珍藏的《農(nóng)家致富顧問》剪貼簿和雜志社編輯、記者寄給我的厚厚一疊泛黃的信和樣刊,禁不住思潮翻涌,思緒萬千。我與《農(nóng)家致富顧問》感情之深,在這里還要特別感謝《農(nóng)家致富顧問》曾經(jīng)刊登了我編寫的“農(nóng)家致富顧問助我走上致富路”……,豆腐塊小文!使我久久難以忘懷,《農(nóng)家致富顧問》真好,平易近人。
實體特征:從用戶以往發(fā)布的微博得到其使用過的實體的分布,計算該分布與微博m中的實體分布的余弦相似度。
4) 微博自身的特征
微博自身的特征包括:URL數(shù)目、Hashtag數(shù)目、@他人的數(shù)目、微博m中的文字數(shù)目。
5) 微博作者的特征
微博作者特征包括:該作者的關注者數(shù)量、關注該作者的用戶數(shù)量、作者是否是認證用戶、作者發(fā)布的微博的總量。
4.1 數(shù)據(jù)集描述與評價準則
本文從新浪微博平臺隨機抽樣了1522個用戶,如表2所示,爬取了2014年1月23日到2015年3月26日期間27 094條轉(zhuǎn)發(fā)記錄,涉及原創(chuàng)微博6892條。另外從微博作者的直接粉絲以及間接粉絲(粉絲的粉絲)中隨機采樣非轉(zhuǎn)發(fā)記錄,為保證類平衡性,采樣的負樣本與正樣本個數(shù)相同,最終總共得到54 188條數(shù)據(jù)。
表2 新浪微博隨機采樣數(shù)據(jù)
利用該實驗數(shù)據(jù)集,分別訓練樸素貝葉斯、邏輯回歸、支持向量機、隨機森林模型,并利用10折交叉驗證對預測效果進行評價。使用的性能指標包括:精度、召回率、F1、準確率。精度Precision、召回率Recall、F1、準確率Accuracy的計算式為:
(5)
(6)
(7)
(8)
其中TP表示測試數(shù)據(jù)中系統(tǒng)預測轉(zhuǎn)發(fā)并且實際數(shù)據(jù)也是轉(zhuǎn)發(fā)的實例個數(shù);FP表示系統(tǒng)預測轉(zhuǎn)發(fā)并且實際數(shù)據(jù)沒有轉(zhuǎn)發(fā)的實例個數(shù);TN表示系統(tǒng)預測不轉(zhuǎn)發(fā)并且實際數(shù)據(jù)也不轉(zhuǎn)發(fā)的實例個數(shù);FN表示系統(tǒng)預測不轉(zhuǎn)發(fā)但實際數(shù)據(jù)轉(zhuǎn)發(fā)的實例個數(shù)。
4.2 實驗結(jié)果
1) 分類算法比較
樸素貝葉斯、邏輯回歸、支持向量機、隨機森林模型的預測效果如表3所示。可以看出隨機森林準確率達到了83.1%,取得了最好的分類效果。
表3 不同分類算法預測效果
2) 特征重要性比較
為了比較各類特征對于預測效果的作用,本文對比去除某類特征后的轉(zhuǎn)發(fā)預測準確率和原模型預測準確率。不同類別特征對于預測準確率的影響如表4所示,可以看出三個類別的特征對于預測準確率都有較大的影響。其中,微博內(nèi)容特征對預測效果影響最大,不使用微博內(nèi)容特征的模型預測準確率將會降低至68.5%;未使用局部影響力特征將會使準確率降低將近2%??梢?,綜合考慮微博內(nèi)容特征、用戶特征及局部影響力特征可以有效提高預測準確率。
表4 不同微博特征預測效果
3) 不同事件類型的微博影響力預測效果對比
本文基于事件分類體系,采用不同關鍵詞從實驗數(shù)據(jù)集中的微博中選取了自然災害、環(huán)境、公共突發(fā)、暴恐、犯罪、審判、公共衛(wèi)生、政治、反腐、維權(quán)、活動類、周邊國家、政策出臺、軍事等14個類別的微博,比較不同類別中微博轉(zhuǎn)發(fā)預測的準確率。各個類別的數(shù)據(jù)情況如表5所示。
表5 不同類型的微博數(shù)據(jù)情況
不同類型中微博轉(zhuǎn)發(fā)預測準確率如表6所示??梢钥闯?,在所有類別中隨機森林都取得了最好的預測準確率。在對自然災害、環(huán)境、審判、維權(quán)等類型的微博進行轉(zhuǎn)發(fā)預測時,效果更加明顯,說明這類事件轉(zhuǎn)發(fā)的規(guī)律性更強。而對于公共突發(fā)、暴恐、軍事等類型的事件,轉(zhuǎn)發(fā)預測的準確率相對較低。
表6 不同類型微博轉(zhuǎn)發(fā)預測效果
續(xù)表6
微博轉(zhuǎn)發(fā)預測是研究信息傳播的關鍵問題之一,對于輿情監(jiān)控、廣告投放、商業(yè)決策有著重要意義。本文綜合局部社會影響力特征、用戶特征、微博內(nèi)容特征,提出了基于混合特征學習的轉(zhuǎn)發(fā)預測方法。利用新浪微博平臺數(shù)據(jù),本文對比了樸素貝葉斯、邏輯回歸、支持向量機、隨機森林模型的預測效果,結(jié)果表明隨機森林取得了最好的效果,準確率達到83.1%。另外,本文還對比不同特征對于轉(zhuǎn)發(fā)預測的影響,結(jié)果表明局部社會影響力特征、用戶特征、微博內(nèi)容特征都對轉(zhuǎn)發(fā)預測有著較大影響,其中微博內(nèi)容特征的影響最大。最后,本文比較了不同類型微博的轉(zhuǎn)發(fā)預測準確率,結(jié)果表明,在對自然災害、環(huán)境、審判、維權(quán)等類型的微博進行轉(zhuǎn)發(fā)預測時,效果更加明顯,說明這類事件轉(zhuǎn)發(fā)的規(guī)律性更強。而對于公共突發(fā)、暴恐、軍事等類型的事件,轉(zhuǎn)發(fā)預測的準確率相對較低。
[1] 樊博.2015微博用戶發(fā)展報告[R/OL].[2015-12-15].http://data.weibo.com/report/reportDetail?id=297.
[2] 李洋,陳毅恒,劉挺.微博信息傳播預測研究綜述[J].軟件學報,2016,27(2):247-263.
[3] 陳江,劉瑋,巢文涵,等.融合熱點話題的微博轉(zhuǎn)發(fā)預測研究[J].中文信息學報,2015,29(6):150-158.
[4] Zhang J,Liu B,Tang J,et al.Social Influence Locality for Modeling Retweeting Behaviors[C]//International Joint Conference on Artificial Intelligence.AAAI Press,2013:2761-2767.
[5] Guan W,Gao H,Yang M,et al.Analyzing user behavior of the micro-blogging website Sina Weibo during hot social events[J].Physica A:Statistical Mechanics and Its Applications,2014,395:340-351.
[6] Rudat A,Buder J,Hesse F W.Audience design in Twitter:Retweeting behavior between informational value and followers’ interests[J].Computers in Human Behavior,2014,35:132-139.
[7] Morchid M,Dufour R,Bousquet P M,et al.Feature selection using Principal Component Analysis for massive retweet detection[J].Pattern Recognition Letters,2014,49:33-39.
[8] 吳凱,季新生,劉彩霞.基于行為預測的微博網(wǎng)絡信息傳播建模[J].計算機應用研究,2013,30(6):1809-1812.
[9] Sasa Petrovic,Miles Osborne,Victor Lavrenko.RT to Win! Predicting Message Propagation in Twitter[C]//Fifth International AAAI Conference on Weblogs and Social Media(ICWSM),2011.
[10] 張旸,路榮,楊青.微博客中轉(zhuǎn)發(fā)行為的預測研究[J].中文信息學報,2012,26(4):109-114,121.
[11] Bongwon Suh,Lichan Hong,Peter Pirolli,et al.Want to be Retweeted? Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//2010 IEEE Second International Conference on Social Computing (SocialCom). Minneapolis,USA:IEEE,2010:177-184.
[12] 羅知林,陳挺,蔡皖東.一個基于隨機森林的微博轉(zhuǎn)發(fā)預測算法[J].計算機科學,2014,41(4),62-64,74.
[13] Zaman T R,Herbrich R,Gael J V,et al.Predicting information spreading in Twitter[J].Computational Social Science and the Wisdom of Crowds Workshop,2010.
[14] Stern D H,Herbrich R,Graepel T.Matchbox:Large scale online Bayesian recommendations[C]//Proceedings of the 18th International Conference on World Wide Web,Madrid,Spain,2009:111-120.
[15] Yang Zi,Guo Jingyi,Cai Keke,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th International Conference on Information and Knowledge Management,Toronto,Canada,2010:1633-1636.
[16] 楊子.社會網(wǎng)絡分析中的預測模型[D].北京:清華大學,2011.
[17] 李英樂,于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預測方法[J].計算機應用研究,2013,30(9):2594-2597.
[18] Roja Bandari,Sitaram Asur,Bernardo A.Huberman.The Pulse of News in Social Media: Forecasting Popularity[C]//6th International AAAI Conference on Weblogs and Social Media(ICWSM),2012.
[19] 鄧青,馬曄風,劉藝,等.基于BP神經(jīng)網(wǎng)絡的微博轉(zhuǎn)發(fā)量的預測[J].清華大學學報:自然科學版,2015,55(12):1342-1347.
A MICROBLOGGING RETWEET PREDICTION METHOD BASED ON HYBRID FEATURES LEARNING
Ma Xiaofeng1Wang Lei2Chen Guandan2
1(Shanghai Data Analysis and Processing Technology Research Institute,Shanghai 201112,China)=2(The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)
Microblogging retweet prediction is one of the key problems in information dissemination, which plays important roles in public opinion monitoring, advertising, and business decision making. The process of information dissemination is influenced by many factors such as user interest, microblogging author’s influence, and content of post, etc. The challenge of improving prediction performance is how to capture the important features for retweet prediction. In this paper, we propose a retweet prediction method based on hybrid features learning. Firstly, the method introduces and analyses the impacts of hybrid features including social influence locality, user features, and microblogging content features. Then, it builds the retweet prediction model based on classification algorithms. Finally, it compares the results of different types of microblog. Experimental results on Sina Weibo datasets show that local social influence features, user features and microblogging content features affect the retweet prediction,and the greatest impact is the micro-blog content features. Random forest method has the best performance, and the accuracy rate can reach 83.1%. Compared to Naive Bayes, logistic regression and SVM, the accuracy rate increased by an average of about 7.4%, the highest increase of about 10.8%. In addition, the method has an advantage on topics about natural disasters, environment, trial, rights, which shows that these kinds of events contain stronger retweet patterns.
Microblogging Hybrid features learning Retweet prediction
2016-08-01。馬曉峰,博士生,主研領域:社會媒體分析與處理。王磊,高工。陳觀淡,博士生。
TP181
A
10.3969/j.issn.1000-386x.2016.11.058