王曉萌,方濱興,2,張宏莉,王星
(1.哈爾濱工業(yè)大學(xué)計算機網(wǎng)絡(luò)與信息安全技術(shù)研究中心,黑龍江 哈爾濱 150001;2.廣州大學(xué)網(wǎng)絡(luò)空間先進技術(shù)研究院,廣東 廣州 510006)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,尤其是Web2.0技術(shù)出現(xiàn)之后,在線社交網(wǎng)絡(luò)應(yīng)用逐漸涌現(xiàn)并迅猛發(fā)展,使人類使用互聯(lián)網(wǎng)的方式產(chǎn)生了深刻變革。借助在線社交網(wǎng)絡(luò)發(fā)布和接收信息的簡便性,社交網(wǎng)絡(luò)用戶社區(qū)化、意見領(lǐng)袖化加速了新內(nèi)容的創(chuàng)造與傳播,各類話題和觀點可以隨時發(fā)布并爆炸式傳播擴散。根據(jù)歐盟社會計算報告,有別于以發(fā)布消息為主的 Twitter、微博和以共享空間為主的YouTube 視頻網(wǎng)站,F(xiàn)acebook 是一種典型的提供在線交友服務(wù)的社交網(wǎng)絡(luò)[1]。以Facebook 為代表的在線社交網(wǎng)絡(luò)逐漸成為當(dāng)代社會信息傳播的重要集散地,其信息活躍性達到了前所未有的程度。很多名人或者組織都已在Facebook 上開設(shè)公共主頁,通過頻繁地發(fā)布實時的動態(tài)消息來吸引公眾注意力。例如,新聞主頁搶發(fā)最新頭條、電影主頁網(wǎng)羅粉絲等。因此,針對Facebook 的熱門主頁開展消息的流行度預(yù)測研究,如在線內(nèi)容的轉(zhuǎn)發(fā)量、視頻的點擊數(shù)量和在線新聞的評論數(shù)量等,對媒體廣告投放效果評估、話題傳播趨勢預(yù)測[2]、電影票房收益評估[3]和選舉預(yù)測[4]等問題都有著重要應(yīng)用價值。
流行度預(yù)測問題本質(zhì)上源于少數(shù)樣本獲得多數(shù)關(guān)注的統(tǒng)計分布上的不均勻現(xiàn)象,如財富分布、國家人口分布、交友網(wǎng)站的朋友數(shù)分布等。已有研究表明,大部分的網(wǎng)絡(luò)內(nèi)容只有很少的人關(guān)注,而少數(shù)內(nèi)容卻獲得了大量的用戶關(guān)注。針對這種非均勻分布現(xiàn)象的研究最早可以上溯至意大利經(jīng)濟學(xué)者維爾弗雷多·帕累托(Vilfredo Pareto)在研究19 世紀(jì)英國人的財富和收益模式時,提出的著名的“二八定律”,即20%的人口占據(jù)了80%的社會財富。在互聯(lián)網(wǎng)時代,Albert-laszlo 等[5]在《自然》雜志上發(fā)表的文章中指出,電影演員合作網(wǎng)、萬維網(wǎng)、美國西部電力網(wǎng)等復(fù)雜網(wǎng)絡(luò)的度分布符合冪律指數(shù)滿足2<γ<3的冪率分布。在線社交網(wǎng)絡(luò)時代,Kwak 等[6]發(fā)現(xiàn)YouTube上10%的最受歡迎的用戶發(fā)布內(nèi)容吸引了近80%的用戶關(guān)注,然而剩余的90%內(nèi)容至多獲得了20%的用戶關(guān)注。在線社會網(wǎng)絡(luò)中,流行度預(yù)測的主要任務(wù)是預(yù)測用戶生成內(nèi)容的流行度,該問題的一般定義為根據(jù)對用戶生成內(nèi)容發(fā)布后初期傳播過程的觀測,預(yù)測該內(nèi)容在未來某個時間點的流行度值。
針對Facebook 的消息流行度預(yù)測具有較高研究價值,但是也存在很多難點。首先,數(shù)據(jù)規(guī)模龐大。惠普實驗室的Golder 等[7]發(fā)現(xiàn)Facebook 的好友數(shù)(度值)的中值為144,均值為179.53。截止到2015 年9 月,F(xiàn)acebook 擁有約10 億用戶,包括社科、名人、政府機構(gòu)等知名主頁以及眾多普通用戶主頁,其用戶規(guī)模與繁榮程度已經(jīng)在某種程度上可以理解為人類社會在網(wǎng)絡(luò)社會的映射;其次,信息傳播與演化受多種因素控制,如關(guān)系結(jié)構(gòu)、網(wǎng)絡(luò)群體和信息內(nèi)容等,其中很多因素由于測量手段以及隱私保護等因素的限制而難以獲取;最后,多種干擾因素導(dǎo)致傳播過程具有隨機性,不同的信息間也存在著競爭與搶占關(guān)系。
雖然實時預(yù)測一個消息的流行度演化很難,但是基于信息發(fā)布后一段時間內(nèi)的傳播表現(xiàn)來預(yù)測最終流行度是可行的。其中最著名的就是Szabo 等[8]于2008 年提出的SH(Szabo and Huberman)模型,他們發(fā)現(xiàn)文章評分網(wǎng)站Digg 上的新聞討論帖、視頻分享網(wǎng)站YouTube 上的視頻的早期轉(zhuǎn)發(fā)量和最終轉(zhuǎn)發(fā)量在進行取對數(shù)后存在一定程度的線性相關(guān),并首先提出了基于線性回歸(linear regression)的流行度預(yù)測模型。Facebook 作為典型的在線交友網(wǎng)絡(luò),其消息傳播速度介于Digg 和YouTube 之間,傳播機制也更接近人類社會網(wǎng)絡(luò),因此有必要針對Facebook 的消息流行度預(yù)測問題展開研究?,F(xiàn)在方法很少從社會學(xué)角度研究信息傳播的機理,并且對轉(zhuǎn)發(fā)過程中潛在用戶的特征挖掘不充分。然而已有研究表明,社交網(wǎng)絡(luò)中的弱連接可以增益信息傳播,它們對信息傳播的深度和廣度起到非常重要的作用[9],通過對一些Facebook 知名主頁的消息流行度演化趨勢進行分析,本文發(fā)現(xiàn)那些在傳播早期就能聚集較多弱連接用戶參與轉(zhuǎn)發(fā)的消息,其最終流行度都很高,且消息的最終轉(zhuǎn)發(fā)流行度與早期傳播過程中的忠實粉絲所占比例在雙對數(shù)坐標(biāo)系中存在線性相關(guān)。
基于以上發(fā)現(xiàn),本文提出了一種面向在線交友網(wǎng)絡(luò)的流行度預(yù)測模型。為了更好地量化信息傳播過程中的弱連接用戶的參與程度,本文提出了連接強度的概念,并根據(jù)消息傳播早期的流行度與連接強度構(gòu)建多元線性回歸方程,然后通過用戶活躍度對預(yù)測方程進行修正,最終得到基于連接強度的預(yù)測模型(TSL,tie strength based linear)。本文將提出的模型與一些代表性的基準(zhǔn)方法如 SH、DSH(depth based SH)和 RPP(reinforced Poisson process)進行比較,實驗驗證了所提模型對Facebook 主頁消息的最終流行度預(yù)測效果較好。本文貢獻介紹如下。
1)將“弱連接理論”引入流行度預(yù)測問題,并發(fā)現(xiàn)連接強度這一新的流行度預(yù)測特征。
2)提出了基于早期流行度和連接強度的線性回歸模型TSL。
3)引入多個基準(zhǔn)模型,針對Facebook 主頁消息的流行度預(yù)測效果進行對比分析。
近年來,流行度預(yù)測問題受到了越來越多研究者的關(guān)注,并涌現(xiàn)出了許多模型與方法,主要可以分為基于群體狀態(tài)的方法、基于回歸/分類的方法和基于時間序列的方法。
基于群體狀態(tài)的方法是將社交網(wǎng)絡(luò)中的節(jié)點分成幾種狀態(tài),通過模擬群體狀態(tài)轉(zhuǎn)移過程,建立信息傳播模型來分析流行度演化趨勢,主要包括傳染病模型、級聯(lián)傳播模型等。在傳染病模型中,系統(tǒng)中的個體一般被分為幾類,每一類個體都處于同一種狀態(tài)?;緺顟B(tài)包括:易感狀態(tài)S(susceptible),即健康的狀態(tài),但有可能被感染;感染狀態(tài) I(infected),即染病的狀態(tài),具有傳染性;移除狀態(tài)R(recovered),即感染后被治愈并獲得了免疫力或感染后死亡的狀態(tài)。Abdulah 等[10]利用傳染病模型對Twitter 消息的傳播進行了研究,他們認(rèn)為在社交網(wǎng)絡(luò)中處于感染狀態(tài)(I 類)的節(jié)點發(fā)布相關(guān)消息,則其粉絲成為新的易感者,總的人數(shù)不斷增大。Matsubara 等[11]發(fā)現(xiàn)博客流行度服從冪率分布,且用戶關(guān)注呈現(xiàn)周期性變化,在傳統(tǒng)SI 模型基礎(chǔ)上提出了一種動態(tài)感染率的流行度預(yù)測模型。Li 等[12]考慮網(wǎng)絡(luò)底層拓?fù)涮卣鲗鞑サ挠绊?,針對人人網(wǎng)的外源性視頻流行度預(yù)測問題,提出了一種基于網(wǎng)絡(luò)級聯(lián)流行度預(yù)測方法。
基于回歸/分類的方法通過發(fā)現(xiàn)信息傳播過程中的關(guān)鍵影響因素,并探尋這些因素與消息流行度之間的關(guān)系,從而將流行度預(yù)測轉(zhuǎn)化為分類或回歸問題進行求解。這類方法關(guān)注的重點在于提取對于分類或回歸有效的特征,能對未來流行度的數(shù)值給出一個具體的預(yù)測,例如Szabo 等[8]發(fā)現(xiàn)早期的某個特定時間的流行度與傳播晚期的流行度都取對數(shù)之后有強線性關(guān)系,并率先用回歸方法預(yù)測最終流行度。Chang 等[13]發(fā)現(xiàn)視頻網(wǎng)站的電視劇單集流行度與歷史發(fā)布過的劇集的流行度存在相關(guān)性,其收視群體中的隨機觀看者隨著時間推移越來越少,并基于以上發(fā)現(xiàn)提出了一種改進的回歸模型。Bao等[14]發(fā)現(xiàn)早期傳播網(wǎng)絡(luò)的密度和消息轉(zhuǎn)發(fā)深度與最終流行度存在線性相關(guān),并基于這2 個特征提出了一種改進的SH 模型。Kim 等[15]發(fā)現(xiàn)博文早期瀏覽量與最終瀏覽量有關(guān),提出了一種基于指數(shù)函數(shù)的回歸模型。Cheng 等[16]從時間角度分析了在線社交網(wǎng)絡(luò)的熱點話題傳播規(guī)律,提出了一種自回歸移動平均模型預(yù)測回帖數(shù)量。朱海龍等[17]提出了一種基于傳播加速度的微博流行度預(yù)測方法,該方法首先提出傳播加速度概念,并結(jié)合早期流行度建立多元回歸模型對微博轉(zhuǎn)發(fā)數(shù)量進行預(yù)測。
基于時間序列的方法是假設(shè)消息的轉(zhuǎn)發(fā)過程在時間維度上具有延續(xù)性,利用觀測所得的歷史不同時間點上的數(shù)值序列進行建模并預(yù)測未來變化趨勢。Crane 等[18]通過分析Youtube 網(wǎng)站的500 萬段視頻的傳播過程,發(fā)現(xiàn)絕大部分(約90%)視頻的傳播過程可以用泊松過程進行精確刻畫,剩余視頻的傳播過程在經(jīng)歷流行度的峰值之后其單位時間內(nèi)增加的流行度服從冪律分布。Yang 等[19]研究了用戶生成內(nèi)容流行度隨時間的變化模式。該研究通過對5.8 億條推文和1.7 億篇博客文章流行度隨時間消漲模式的聚類分析,挖掘出6 類形態(tài)各異的流行度時序模式。Lerman 等[20]在Digg 網(wǎng)的消息投票模型中考慮了消息的興趣度和可見度,并利用所得模型進行消息最終獲得票數(shù)的預(yù)測。Gao 等[21]提出了一種基于動態(tài)泊松過程的改進方法,該方法建模了信息傳播過程中新穎性隨著時間的衰減過程以及優(yōu)先連接機制。
雖然上述方法已在流行度預(yù)測問題上取得了一些進展,但是針對Facebook 這種超大規(guī)模在線社交網(wǎng)絡(luò)的預(yù)測效果仍然有待提高。造成這種現(xiàn)象的主要原因是Facebook 用戶群體龐大,消息的轉(zhuǎn)發(fā)迅速,傳播機理更為復(fù)雜。基于群體狀態(tài)的方法從微觀角度利用數(shù)學(xué)模型推演信息傳播的過程,但模型中的節(jié)點屬性與狀態(tài)轉(zhuǎn)移概率過于理想化,僅適用于在網(wǎng)絡(luò)拓?fù)湟阎獥l件下進行粗粒度的傳播范圍估計。基于時間序列的方法的本質(zhì)是利用擬合函數(shù)刻畫實時流行度演化趨勢,這類方法針對短期預(yù)測有較好的效果,但是隨著預(yù)測時間的增加,誤差積累導(dǎo)致預(yù)測精度逐漸降低?;诨貧w/分類的方法旨在建立信息傳播早期流行度與未來流行度的映射關(guān)系,需要對流行度演化數(shù)據(jù)進行特征提取,適用于長期預(yù)測。本文針對Facebook 的信息傳播機制進行深度分析,提出了一種基于回歸分析的流行度預(yù)測模型,該模型首先根據(jù)社會學(xué)中的“弱連接理論”以連接強度的形式作為關(guān)鍵特征引入回歸方程,同時結(jié)合早期流行度對消息最終流行度進行預(yù)測,實驗表明該方法可以有效地提升預(yù)測性能。
本文的研究對象為Facebook 主頁的用戶生成消息(user generated content)。用戶可對這些消息進行評論、點贊以及轉(zhuǎn)發(fā)操作。相比于評論數(shù)和點贊數(shù),消息的轉(zhuǎn)發(fā)數(shù)量可以更顯著地反映信息的傳播能力,因此本文將采用消息的轉(zhuǎn)發(fā)數(shù)來刻畫Facebook 信息傳播的流行度。
對于任意Facebook 開放主頁上用戶發(fā)布的消息,人們可以確定其發(fā)布時間以及截止觀測時的所有轉(zhuǎn)發(fā)者ID。對于給定消息m,定義其發(fā)布時間為T0,預(yù)測時間為Tpredict,參考時間為Treference。流行度預(yù)測示意如圖1 所示,其中參考時間為預(yù)測任務(wù)采集早期信息傳播情況所需要的時間長度,這段時間的信息傳播特征被用于模型訓(xùn)練。預(yù)測時間是從消息發(fā)布時間T0開始直至預(yù)測任務(wù)所設(shè)定的目標(biāo)時間,消息的轉(zhuǎn)發(fā)流行度隨著目標(biāo)時間的增長而不斷增加,當(dāng)時間超過消息生命周期后流行度近似保持不變,一般可以認(rèn)為T0<Treference<Tpredict。進一步地,本文將消息m接收到第i次用戶轉(zhuǎn)發(fā)的時間用ti表示,截至Treference時刻的轉(zhuǎn)發(fā)過程可以記為{},其中k∈(0,nm),nm為全部訓(xùn)練時間段[0,Treference]內(nèi)消息m獲得的轉(zhuǎn)發(fā)數(shù),將Bm記為消息m在參考時間Treference的實際轉(zhuǎn)發(fā)數(shù),則為消息m在Tpredict時刻的分享數(shù)預(yù)測值。
圖1 流行度預(yù)測示意
綜上所述,流行度預(yù)測問題定義如下:已知消息m從發(fā)布時間T0到參考時間Treference的轉(zhuǎn)發(fā)數(shù)的累積過程{},估計消息m從發(fā)布時間T0到預(yù)測時間Tpredict所取得的轉(zhuǎn)發(fā)數(shù)。
本文通過模擬用戶以及頁面解析的方式爬取了部分Facebook 主頁數(shù)據(jù)進行實驗分析,隨機選取了一些Facebook中排名前100的最熱門主頁作為數(shù)據(jù)抓取對象,包含名人主頁、新聞主頁以及娛樂主頁等,基于這些主頁抓取了2016 年1 月1 日—12 月31 日這些主頁的所有歷史發(fā)布信息共3 775 條,并將這些消息送入爬取列表,采集轉(zhuǎn)發(fā)過這些消息的用戶ID,總計得到消息的154 萬次轉(zhuǎn)發(fā)。
Facebook 數(shù)據(jù)采集詳細(xì)情況如表1 所示,本文將已抓取主頁分為2 類,A 興趣類(國家地理Geographic、??怂剐侣凢ox News 等);B 娛樂類(哈利波特Harry Potter、電影明星威爾史密斯Will Smith 等)。
表1 Facebook 主頁采集信息
社交網(wǎng)絡(luò)的信息傳播存在特定的生命周期,所以預(yù)測任務(wù)的首要問題是選取合適的時間粒度與時間窗口。一方面,本文需要在消息生命周期未知的條件下,提前設(shè)置預(yù)測時間Tpredict的取值范圍,而且預(yù)測任務(wù)的目的是估計消息最終的轉(zhuǎn)發(fā)量,所以基于完整性的考慮,預(yù)測時間應(yīng)涵蓋絕大部分轉(zhuǎn)發(fā)過程,這樣才能得到較為真實傳播情況。另一方面,消息發(fā)布早期往往會獲得更多的關(guān)注與傳播,參考時間Treference設(shè)置越大則轉(zhuǎn)發(fā)量累積越多,更容易估計最終轉(zhuǎn)發(fā)流行度,而Treference設(shè)置越小則預(yù)測難度越大?;趯崟r性的考慮,參考時間則應(yīng)盡可能地縮短以提升預(yù)測模型的響應(yīng)速度。例如文章評分網(wǎng)站Digg 上的推送新聞的生命周期較短,往往只需要一天時間就可以達到80%的最終總評論量[8],而視頻分享網(wǎng)站YouTube 上的內(nèi)容生命周期較長,平均7 天內(nèi)的用戶轉(zhuǎn)發(fā)量只占最終轉(zhuǎn)發(fā)量的50%。本文首先分析了Facebook 消息流行度的時間特征。Facebook 消息的生命周期如圖2 所示,其中縱坐標(biāo)表示一條消息在每小時內(nèi)所獲得的平均轉(zhuǎn)發(fā)量,橫坐標(biāo)表示距離消息發(fā)布時刻的時間長度。從圖2 可以看出,消息發(fā)布后在前幾小時內(nèi)流行度較高,但會在前24 h 內(nèi)迅速衰減,在150 h 之后每小時增量衰減為0,因此本文將預(yù)測時間Tpredict設(shè)置為7 天。此外,用戶的轉(zhuǎn)發(fā)行為在消息發(fā)布后的前12 h 最為集中,因此基于實時性的考慮將Treference設(shè)置為3 h。
圖2 Facebook 消息的生命周期
很多在線社交網(wǎng)站的用戶活動都具有周期性規(guī)律,F(xiàn)acebook 用戶的轉(zhuǎn)發(fā)行為也具有周期性。以一天為例,本文統(tǒng)計了數(shù)據(jù)集中所有主頁每小時的消息平均轉(zhuǎn)發(fā)量,F(xiàn)acebook 用戶活躍度的變化趨勢如圖3 所示,其中橫坐標(biāo)表示一天中的第幾小時,縱坐標(biāo)表示該小時一條消息所獲得的平均轉(zhuǎn)發(fā)量。從圖3 可以看出,用戶的活躍度在不同時間段內(nèi)存在顯著差異,每小時用戶轉(zhuǎn)發(fā)數(shù)越多,說明用戶在該時段活躍度越高。在凌晨4 時至中午12 時這段時間的用戶活躍度最低,而18 時至22 時為轉(zhuǎn)發(fā)最頻繁時間段,符合用戶的使用習(xí)慣與作息規(guī)律。此外,這種周期性差異可能會導(dǎo)致一個在冷門時間段發(fā)布的熱點消息并沒有在當(dāng)下時刻引起足夠多的關(guān)注,但是會在熱門時間段內(nèi)得到更多的轉(zhuǎn)發(fā),因此有必要在信息傳播早期將所有消息的傳播能力進行統(tǒng)一比較。本文引入了相對活躍度的概念,相對活躍度是一個一維向量,表示一天中第i小時的用戶相對活躍強度。其計算過程為,首先求解數(shù)據(jù)集中所有消息平均每小時轉(zhuǎn)發(fā)量M,然后計算第i小時總轉(zhuǎn)發(fā)量S[i](1≤i≤24),則第i小時的相對活躍度為
式(1)從比例上反映出Facebook 平臺上每天任意小時內(nèi)的用戶活躍度,本文將在后面部分引入這個公式對預(yù)測模型進行修正。
圖3 Facebook 用戶每日活躍度
Facebook 用戶可以瀏覽其他用戶的頁面墻并關(guān)注成為其粉絲,或者接受其他用戶的好友邀請,這種好友關(guān)系在宏觀層面上構(gòu)成了一種較為穩(wěn)定的拓?fù)浣Y(jié)構(gòu)。然而相比于靜態(tài)的好友關(guān)系拓?fù)洌鶕?jù)主頁發(fā)布信息的轉(zhuǎn)發(fā)情況構(gòu)建的交互圖可以更好地反映出信息的傳播能力。Ferrara 等[22]發(fā)現(xiàn)Facebook 中的弱關(guān)系邊對傳播有很明顯的增益效果。本文發(fā)現(xiàn)Facebook 的信息轉(zhuǎn)發(fā)規(guī)律符合社會學(xué)中的弱連接理論,通過將主頁與歷史上所有轉(zhuǎn)發(fā)過該主頁消息的用戶構(gòu)成一個交互圖,將其中極少參與轉(zhuǎn)發(fā)的用戶稱為弱連接節(jié)點,將那些經(jīng)常參與轉(zhuǎn)發(fā)的忠實粉絲稱為強連接節(jié)點,并基于節(jié)點交互關(guān)系提出了連接強度的概念,量化了用戶對于主頁消息的轉(zhuǎn)發(fā)的頻繁程度。連接強度系數(shù)f表示用戶j相對于主頁k的轉(zhuǎn)發(fā)頻率,具體計算式為
其中,cjk是用戶j轉(zhuǎn)發(fā)主頁k所有發(fā)布消息的總頻度,nk為歷史上參與主頁k上消息轉(zhuǎn)發(fā)的所有用戶數(shù),則f為用戶j在主頁k的連接強度系數(shù)。
通過反復(fù)實驗可以發(fā)現(xiàn),在傳播早期強連接用戶比例較小且弱連接比例較大的消息,其最終流行度都很高。將各個主頁top 1%最頻繁參與轉(zhuǎn)發(fā)的用戶作為強連接節(jié)點,并在參考時間Treference設(shè)置為3 h的條件下,將主頁發(fā)布的消息中強連接節(jié)點所占比例與該消息最終流行度構(gòu)成一組點對,圖4 描繪了數(shù)據(jù)集中所有消息發(fā)布后前3 h 內(nèi)強連接用戶所占比例與發(fā)布7 天后的最終流行度在雙對數(shù)坐標(biāo)系中構(gòu)成的散點圖,其中橫縱坐標(biāo)均以自然對數(shù)為底。從圖4 中可以明顯地觀測出,這些點對在雙對數(shù)坐標(biāo)系中呈現(xiàn)較為明顯的線性相關(guān)。根據(jù)弱連接理論,本文可以這樣認(rèn)為,如果在傳播早期轉(zhuǎn)發(fā)該消息的人中有較多忠實粉絲,那么傳播過程會更局限于較為封閉的社區(qū)從而導(dǎo)致最終流行度較小;如果一個消息在傳播早期可以吸引很多具有弱連接關(guān)系的陌生人進行轉(zhuǎn)發(fā),更容易擴散至多個圈子被更多的人關(guān)注并轉(zhuǎn)發(fā),從而獲得較大的最終流行度。通過將連接強度作為一個預(yù)測最終流行度的重要指標(biāo),在SH 模型基礎(chǔ)上添加連接強度這一特征,構(gòu)建了一個二元線性模型
圖4 傳播早期強連接用戶參與比例與最終流行度的關(guān)系
將每個主頁歷史發(fā)布消息總條數(shù)的75%作為訓(xùn)練集,剩余25%作為測試集,并采用最小二乘法估計進行訓(xùn)練,得到參數(shù)α1、α2和α3。
進一步地,考慮到信息發(fā)布時間會對用戶活躍度產(chǎn)生一定影響,從而導(dǎo)致早期流行度的觀測值與真實傳播能力不相符,因此本文引入相對流行度Bm*對其進行修正
將式(5)代入預(yù)測模型中的早期流行度Bm項,得到最終的TSL 預(yù)測模型,其計算式為
本節(jié)通過實驗驗證TSL 模型的性能,數(shù)據(jù)集為表1 所示的從2016 年1 月1 日—12 月31 日的部分熱門Facebook 主頁數(shù)據(jù),包含這些主頁歷史發(fā)布消息3 775 條以及154 萬次轉(zhuǎn)發(fā)ID。
實驗環(huán)境為Intel酷睿i5-6500@ 3.2 GHz 四核,8.00 GB 內(nèi)存,操作系統(tǒng)為Microsoft Windows 7,編程語言為Python。
為了比較并驗證本文提出的基于弱連接理論的流行度預(yù)測模型,通過將本文模型與其他3 種主流模型進行對比來說明本文提出模型的有效性,參與比較的基準(zhǔn)模型介紹如下。
1)SH 模型
SH 模型[8]是Szabo 和Huberman 研究在線視頻與圖片分享流行度時提出的經(jīng)典模型,該模型基于早期流行度與最終流行度值存在對數(shù)坐標(biāo)系下的線性關(guān)系。其計算式為
其中,N(Tpredict)為最終流行度,φ為通過最大似然估計得到的模型參數(shù),σ為修正項。這種線性回歸方法可以用來做長期預(yù)測,但是由于特征選取比較簡單,預(yù)測精度較低。
2)DSH 模型
DSH 模型是Bao 等[14]提出的一種改進的線性回歸模型,該模型首先測定了微博最終流行度和連邊密度(link density)之間的關(guān)系。他們發(fā)現(xiàn)微博的最終流行度和連邊密度之間存在著很強的負(fù)相關(guān)性,這表明低連接度和高傳播深度的群體會更加促進微博流行度的提升?;谝陨习l(fā)現(xiàn),研究者改進了SH 模型。改進后的模型為
3)RPP 模型
RPP 模型是一種基于動態(tài)泊松過程的時間序列模型[21,23],通過結(jié)合時間松弛方程、線性增強方程和事件映射過程,可以模擬新穎性隨時間衰減的過程。該模型針對短期預(yù)測效果較好,如時效性較強的微博、新聞等。
4)TSL 模型
本文提出的基于弱連接理論的線性回歸模型,如式(6)所示。
均方根誤差(RMSE,root mean square error)是在有限測量次數(shù)下,測量值與真實值差的平方均值的平方根,在評價擬合效果方面被廣泛使用,也能夠體現(xiàn)出樣本的離散程度。RMSE 越小表示測試數(shù)據(jù)與真實值偏差程度越小,其具體計算式為
其中,Xobs,i為n個測試樣本真實數(shù)據(jù)的第i個結(jié)果,Xmodel,i為模型輸出數(shù)據(jù)的第i個結(jié)果。
平均絕對百分誤差(MAPE,mean absolute percentage error)是一種預(yù)測模型的常用評價方法,它通常使用百分比的形式展現(xiàn)。MAPE 越小,說明模型輸出與真實值偏差越小。具體計算式為
其中,At為樣本的真實值,F(xiàn)t為模型輸出值。
皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)用于評價線性相關(guān)變量(X與Y之間相互關(guān)系)之間相關(guān)關(guān)系密切程度的統(tǒng)計指標(biāo)。皮爾遜相關(guān)系數(shù)的取值范圍為-1~1,當(dāng)絕對值為1 時,稱X與Y完全相關(guān);當(dāng)絕對值為0 時,稱X與Y不相關(guān);當(dāng)絕對值大于0.8 時,X與Y高度相關(guān);當(dāng)絕對值小于0.3 時,X與Y低度相關(guān)。皮爾遜相關(guān)系數(shù)r的計算式為
本節(jié)設(shè)置了3 組實驗,首先分析模型中連接強度系數(shù)f的取值對預(yù)測性能的影響,然后在各個主頁數(shù)據(jù)集上測試本文TSL 模型與SH 模型的預(yù)測性能,最后對所選主頁進行分類,用多個模型進行對比分析。
首先,為了取得最優(yōu)預(yù)測效果,需要預(yù)先設(shè)定連接強度系數(shù)f的值,在這個過程中有2 個問題:當(dāng)f取值過小時,訓(xùn)練數(shù)據(jù)也減少,從而導(dǎo)致預(yù)測模型失真,因為個別消息在發(fā)布前幾小時可能并沒有忠實粉絲進行轉(zhuǎn)發(fā),其次強連接用戶為0 會導(dǎo)致不可進行取對數(shù)操作,因此本文假設(shè)主頁自身就是一個忠實轉(zhuǎn)發(fā)者,這樣任意發(fā)布的消息至少存在一個忠實粉絲進行轉(zhuǎn)發(fā),從而不會造成點對的缺失;當(dāng)f取值過大,即強連接節(jié)點門檻較低時,模型逐漸退化為SH 模型。Fox News 主頁經(jīng)平滑后的隨f取值變化的預(yù)測性能趨勢如圖5 所示,其中參考時間Treference取值為3 h,橫坐標(biāo)為連接強度系數(shù)f。從圖5 可以看出,傳播初期隨著f逐漸增大,RMSE逐漸減小,相關(guān)系數(shù)r逐漸增大。當(dāng)f=1.8%時,2個指標(biāo)同時達到極值點。
圖5 連接強度系數(shù)f 的取值對Fox News 主頁預(yù)測性能的影響
其次,為了驗證模型的正確性,本文選取同樣基于線性回歸方法預(yù)測最終流行度的SH 模型進行比較。采用SH 模型的Fox News 主頁預(yù)測散點如圖6(a)所示。其中橫坐標(biāo)為信息發(fā)布后參考時間Treference取值為3 h 的早期流行度,縱坐標(biāo)為消息發(fā)布7 天后的最終流行度,橫縱坐標(biāo)均以自然對數(shù)為底。將數(shù)據(jù)集中75%的點對作為訓(xùn)練集,數(shù)據(jù)集中另外25%的點對作為測試集。采用基于連接強度的TSL模型預(yù)測效果如圖6(b)所示。從圖6(b)可以明顯看出,采用該模型訓(xùn)練后離散點有減少趨勢,更多的點都匯聚在直線上,擬合效果更優(yōu),這說明融合連接強度的二元線性回歸模型可適用于流行度預(yù)測。
表2 給出了所有主頁的擬合結(jié)果的詳細(xì)參數(shù)。從表2 可以看出,各主頁RMSE 指標(biāo)均在0.35 以下,說明誤差較小,而相關(guān)系數(shù)r達到0.8 以上,為高相關(guān)。此外還發(fā)現(xiàn)連接強度f的最優(yōu)解因主頁的異同而波動較大,而轉(zhuǎn)發(fā)數(shù)較多的Harry Potter、The Simpsons 主頁分別為0.1%和0.4%,轉(zhuǎn)發(fā)數(shù)最多的NBA 主頁的值卻接近10%,由此可見,連接強度與轉(zhuǎn)發(fā)用戶的數(shù)量并沒有直接關(guān)聯(lián)。另一個發(fā)現(xiàn)是,娛樂類主頁的連接強度普遍小于1%,如Harry Potter、The Simpsons 等名人或電影的公共主頁。而NBA、History、Fox News 等屬性鮮明的興趣類主頁連接強度都較大,這意味著這些主頁中有比例更高的忠實粉絲進行規(guī)律性的轉(zhuǎn)發(fā),連接強度特征將更適合預(yù)測轉(zhuǎn)發(fā)流行度。
圖6 Fox News 主頁的預(yù)測效果
表2 Facebook 主頁預(yù)測結(jié)果
接下來,本文將TSL 模型與其他3 種較為主流的流行度預(yù)測模型在表1 所示的A(興趣類)、B(娛樂類)2 類數(shù)據(jù)集中進行預(yù)測效果對比,如圖7 所示。其中,參考時間Treference設(shè)置為3 h,通過調(diào)整預(yù)測時間Tpredict來觀察各模型的長期預(yù)測效果。對于RPP 模型,本文將初始參數(shù)設(shè)置為10,圖7(b)給出了這幾種模型在娛樂類主頁數(shù)據(jù)集上的MAPE測度評價。從圖7(b)可以看出,RPP 模型在中短期的預(yù)測誤差要優(yōu)于其他模型,但隨著預(yù)測時間Tpredict的增長和轉(zhuǎn)發(fā)量的積累,TSL 模型的長期流行度預(yù)測效果逐漸顯現(xiàn)優(yōu)勢。在興趣類主頁數(shù)據(jù)集上,如圖7(a)所示,當(dāng)Tpredict≥4.5 天時,TSL 模型的長期流行度預(yù)測優(yōu)勢更為明顯,表明TSL 模型對于長期預(yù)測性能更優(yōu)。這可能是由于興趣類主頁的關(guān)注群體較為固定,忠實粉絲群體轉(zhuǎn)發(fā)活動較為規(guī)律,在這種場景下連接強度對最終流行度有更強的指示作用。
圖7 各模型的MAPE 隨時間變化趨勢
本文研究了Facebook 消息轉(zhuǎn)發(fā)流行度的早期傳播特征與最終流行度之間的關(guān)系,提出了一種Facebook 流行度預(yù)測TSL 模型。首先介紹了社會學(xué)中的弱連接理論,提出了連接強度系數(shù),進而發(fā)現(xiàn)在信息傳播早期具有強連接屬性的忠實粉絲比例與最終流行度在雙對數(shù)坐標(biāo)系中呈現(xiàn)線性相關(guān)。其次,通過融合早期流行度與連接強度系數(shù)提出了一種面向Facebook 交友網(wǎng)絡(luò)的流行度預(yù)測模型。最后,根據(jù)Facebook 真實數(shù)據(jù)集的實驗分析表明,所提模型可以對消息的最終轉(zhuǎn)發(fā)流行度進行有效預(yù)測,相較于同類主流模型有較好的預(yù)測效果。