亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于微博關(guān)注網(wǎng)絡(luò)的轉(zhuǎn)發(fā)預(yù)測(cè)算法研究

2020-08-21 09:09:32劉超姚耿楊宏雨

數(shù)字技術(shù)與應(yīng)用 2020年7期

劉超姚耿楊宏雨

摘要：針對(duì)目前研究轉(zhuǎn)發(fā)預(yù)測(cè)的方法忽視了微博傳播過(guò)程中用戶關(guān)注網(wǎng)絡(luò)的問(wèn)題，基于微博信息的轉(zhuǎn)發(fā)機(jī)制，結(jié)合傳染病建模理論，提出一種基于微博關(guān)注網(wǎng)絡(luò)的轉(zhuǎn)發(fā)預(yù)測(cè)模型。首先建立微博轉(zhuǎn)發(fā)者與其被關(guān)注粉絲之間的數(shù)量關(guān)系，然后建立微博傳播者預(yù)測(cè)模型。微博數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，與基準(zhǔn)模型相比，該模型能夠取得更好的預(yù)測(cè)效果。

關(guān)鍵詞：微博;預(yù)測(cè)模型;信息傳播

中圖分類號(hào)：TP391.9 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9416（2020）07-0121-04

0 引言

在線社交媒體和社交網(wǎng)絡(luò)已成為人類生活中不可替代的重要部分，例如新浪微博作為國(guó)內(nèi)最活躍的社交網(wǎng)絡(luò)之一，在2018年其月活躍用戶達(dá)4.62億，連續(xù)三年增長(zhǎng)數(shù)量超過(guò)7000萬(wàn)[1]。在線社交網(wǎng)絡(luò)已經(jīng)成為互聯(lián)網(wǎng)時(shí)代最重要的人際交互平臺(tái)，使得虛擬網(wǎng)絡(luò)成為當(dāng)今社會(huì)熱點(diǎn)話題和輿情傳播的主要渠道。在此背景下，預(yù)測(cè)用戶生成內(nèi)容的受歡迎程度，其在眾多應(yīng)用中的實(shí)用價(jià)值而引起了廣泛關(guān)注[2]，因此預(yù)測(cè)信息傳播的流行程度已成為了在線社交網(wǎng)絡(luò)研究的重要內(nèi)容。

微博作為中國(guó)最具影響力的社交媒體平臺(tái)之一，對(duì)微博流行度的預(yù)測(cè)已經(jīng)成為當(dāng)前的研究熱點(diǎn)。由于微博的轉(zhuǎn)發(fā)數(shù)據(jù)較為容易獲取，并且微博轉(zhuǎn)發(fā)量能夠反映微博在一段時(shí)間內(nèi)的熱度，因此一般采用微博的轉(zhuǎn)發(fā)量作為微博流行度的量化指標(biāo)，從而將對(duì)微博的流行度預(yù)測(cè)轉(zhuǎn)化為對(duì)微博發(fā)布后對(duì)轉(zhuǎn)發(fā)數(shù)量的預(yù)測(cè)，根據(jù)其早期的轉(zhuǎn)發(fā)動(dòng)態(tài)來(lái)預(yù)測(cè)其最終的轉(zhuǎn)發(fā)量[3]。

目前對(duì)微博轉(zhuǎn)發(fā)量的預(yù)測(cè)有基于時(shí)間序列、基于回歸模型、基于傳染病模型等多種預(yù)測(cè)方法。基于時(shí)間序列的方法是對(duì)微博轉(zhuǎn)發(fā)量進(jìn)行時(shí)間序列建模，研究微博轉(zhuǎn)發(fā)量在一段時(shí)間內(nèi)的變化規(guī)律[4]，這種方法不考慮微博傳播過(guò)程中的個(gè)體差異，通常只適用于研究微博傳播的一般情況[3]?；诨貧w的方法是通過(guò)挖掘影響微博傳播中的關(guān)鍵因素，一般包括發(fā)布時(shí)間、文本內(nèi)容、評(píng)論數(shù)量等，利用這些特征建立回歸模型，從而預(yù)測(cè)微博最終轉(zhuǎn)發(fā)量[5]。這種方法的困難在于不易選擇合適的特征，并且需要較多的歷史數(shù)據(jù)訓(xùn)練模型[3]。最后，基于流行病模型的預(yù)測(cè)方法是以傳染病學(xué)和傳播學(xué)的理論研究基礎(chǔ)，構(gòu)建新的傳播規(guī)則和模型，建模思路清晰可靠，已成為微博轉(zhuǎn)發(fā)預(yù)測(cè)的一種重要方法。本文選擇基于傳染病模型，對(duì)微博轉(zhuǎn)發(fā)量進(jìn)行預(yù)測(cè)。

傳染病建模的基本建模思路是把微博網(wǎng)絡(luò)中的用戶節(jié)點(diǎn)劃分為多個(gè)倉(cāng)室，通常有未知者S、傳播者I和免疫者R。對(duì)于某條微博，未知者S表示沒(méi)有接觸過(guò)這條微博的用戶，傳播者I表示接觸過(guò)并且會(huì)以一定概率轉(zhuǎn)發(fā)該微博的用戶。免疫者R表示接觸過(guò)微博后不會(huì)進(jìn)行傳播的用戶。微博的轉(zhuǎn)發(fā)擴(kuò)散就表示為用戶節(jié)點(diǎn)在不同倉(cāng)室之間的轉(zhuǎn)移[6]。在經(jīng)典SIR模型的基礎(chǔ)上，Xiong等[7]增加了接觸信息者C，建立了基于轉(zhuǎn)發(fā)機(jī)制的信息傳播模型，接觸信息者C表示閱讀了這條微博，但還沒(méi)有決定是否要轉(zhuǎn)發(fā)。Zang等[8]在SI模型的基礎(chǔ)上提出了一種網(wǎng)絡(luò)增長(zhǎng)模型，將信息在社交網(wǎng)絡(luò)上的傳播過(guò)程轉(zhuǎn)化為網(wǎng)絡(luò)的增長(zhǎng)，實(shí)現(xiàn)了對(duì)社交網(wǎng)絡(luò)中用戶數(shù)量變化的預(yù)測(cè)。他們建立的這種模型將早期指數(shù)增長(zhǎng)網(wǎng)絡(luò)放緩至中后期的冪律增長(zhǎng)，更加精確地描述了網(wǎng)絡(luò)的變化過(guò)程。

本文基于對(duì)微博傳播過(guò)程的分析，建立了一種基于關(guān)注網(wǎng)絡(luò)的微博轉(zhuǎn)發(fā)量預(yù)測(cè)模型，考慮了微博在傳播過(guò)程中潛在關(guān)注者數(shù)量的變化，并根據(jù)這一動(dòng)態(tài)變化的指標(biāo)預(yù)測(cè)未來(lái)轉(zhuǎn)發(fā)量。在開(kāi)源數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果表明，本文建立的模型相比基準(zhǔn)模型，能夠?qū)崿F(xiàn)更好的預(yù)測(cè)效果。

1 模型建立

在微博網(wǎng)站上，當(dāng)某個(gè)用戶發(fā)出一條微博時(shí)，只有這個(gè)用戶的粉絲可以收到這條信息，并考慮該信息是否值得轉(zhuǎn)發(fā)。如果一些用戶決定轉(zhuǎn)發(fā)它，那么這些用戶的粉絲就有機(jī)會(huì)閱讀和傳播這條微博。這些粉絲的轉(zhuǎn)發(fā)又會(huì)帶來(lái)新的用戶去閱讀和傳播。這樣這條微博信息的影響就超出了發(fā)布者的局部網(wǎng)絡(luò)，并且有機(jī)會(huì)在微博網(wǎng)絡(luò)上擴(kuò)散到更大范圍。

基于上述的信息傳播機(jī)制，我們的模型以下列方式定義。在每個(gè)時(shí)間步里，轉(zhuǎn)發(fā)者和其他用戶之間的交互行為有以下規(guī)則：

（1）定義轉(zhuǎn)發(fā)者為I，每個(gè)轉(zhuǎn)發(fā)者的粉絲會(huì)收到微博信息，因此，這個(gè)轉(zhuǎn)發(fā)者的粉絲會(huì)成為這條微博的潛在關(guān)注者。

（2）全部的潛在關(guān)注者構(gòu)成一個(gè)倉(cāng)室S，并且會(huì)有的概率轉(zhuǎn)發(fā)這條微博，即以的速度轉(zhuǎn)變?yōu)檗D(zhuǎn)發(fā)者。當(dāng)該S倉(cāng)室內(nèi)的用戶轉(zhuǎn)變?yōu)檗D(zhuǎn)發(fā)者后，這個(gè)用戶的粉絲會(huì)在下一個(gè)時(shí)刻加入到倉(cāng)室S中。

可以看出，在該模型中，存在兩種狀態(tài)，分別是轉(zhuǎn)發(fā)者I，以及潛在關(guān)注者S。這個(gè)模型的一個(gè)重要特征就是S并不是一個(gè)定值，而是根據(jù)初始微博傳播的數(shù)據(jù)，建立S和I之間的數(shù)量關(guān)系：。我們將分別定義為在t時(shí)刻潛在關(guān)注者和轉(zhuǎn)發(fā)者的數(shù)量。因此在的時(shí)間段內(nèi)，新增I的數(shù)量可計(jì)算為：

通過(guò)對(duì)微博傳播數(shù)據(jù)的分析，發(fā)現(xiàn)潛在關(guān)注者數(shù)量S與微博傳播初期的轉(zhuǎn)發(fā)者數(shù)量I，以及初期轉(zhuǎn)發(fā)者的平均粉絲數(shù)相關(guān)，其中S和I之間存在較為明顯的函數(shù)關(guān)系。當(dāng)轉(zhuǎn)發(fā)數(shù)量較小時(shí)，微博處在一個(gè)快速傳播的階段，此階段轉(zhuǎn)發(fā)數(shù)會(huì)大幅增加，在這個(gè)階段，平均粉絲數(shù)較大，反映了在傳播初期，參與傳播的用戶多為活躍用戶，微博影響力較大。此時(shí)，每個(gè)參與轉(zhuǎn)發(fā)的用戶會(huì)帶來(lái)較多的潛在關(guān)注者，因此總的S數(shù)量相對(duì)I數(shù)量呈現(xiàn)出更加快速的增長(zhǎng)。

隨著時(shí)間的增加，轉(zhuǎn)發(fā)快速增長(zhǎng)階段結(jié)束后，總轉(zhuǎn)發(fā)次數(shù)在慢慢趨于平穩(wěn)，這個(gè)階段轉(zhuǎn)發(fā)率下降到一個(gè)較低程度。此時(shí)，主要參與轉(zhuǎn)發(fā)的是數(shù)量相對(duì)較多的普通用戶，他們擁有較小的粉絲數(shù)，但是由于整體的轉(zhuǎn)發(fā)數(shù)量較多，因此也會(huì)使?jié)撛陉P(guān)注者的數(shù)量在短時(shí)間內(nèi)有明顯的增長(zhǎng)。之后隨著轉(zhuǎn)發(fā)率和單位時(shí)間內(nèi)轉(zhuǎn)發(fā)數(shù)的進(jìn)一步下降，新接受到信息的潛在關(guān)注者較少，因此信息較少發(fā)生傳播，總轉(zhuǎn)發(fā)量在較長(zhǎng)時(shí)間上維持穩(wěn)定。

由上述分析，可以根據(jù)某微博在t時(shí)刻的轉(zhuǎn)發(fā)數(shù)量I，計(jì)算得到對(duì)應(yīng)的未感染者數(shù)量，如公式（4）：

由上述公式，可以得到任意時(shí)刻I的數(shù)量。首先利用LM算法，在微博傳播的初始階段進(jìn)行擬合，最小化誤差和，得到參數(shù)。再將參數(shù)帶入到公式中，計(jì)算得到下一時(shí)間點(diǎn)的I的數(shù)量。為了使I的預(yù)測(cè)值更加準(zhǔn)確，也為了方便計(jì)算，需要讓計(jì)算時(shí)間間隔較小，保證條件成立。

2 實(shí)驗(yàn)分析

2.1 數(shù)據(jù)預(yù)處理與評(píng)價(jià)指標(biāo)

本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自Jing Zhang等[9]采集的微博轉(zhuǎn)發(fā)數(shù)據(jù)集。該數(shù)據(jù)集采集了170萬(wàn)用戶的微博數(shù)據(jù)，并構(gòu)建了這170萬(wàn)用戶之間的關(guān)注關(guān)系網(wǎng)絡(luò)。為了準(zhǔn)確評(píng)價(jià)實(shí)驗(yàn)結(jié)果，使用絕對(duì)誤差MAPE，以及平均絕對(duì)誤差MAE，其計(jì)算公式為分別為公式（10）、公式（11）。

2.2 實(shí)驗(yàn)分析

2.2.1 微博熱度對(duì)模型預(yù)測(cè)效果的影響

首先，在實(shí)驗(yàn)數(shù)據(jù)集上用本文提出的模型進(jìn)行實(shí)驗(yàn)，以每條微博發(fā)布后4h的數(shù)據(jù)為訓(xùn)練集，對(duì)未來(lái)24h的微博轉(zhuǎn)發(fā)量進(jìn)行預(yù)測(cè)。模型對(duì)不同熱度的微博預(yù)測(cè)結(jié)果如圖1。根據(jù)實(shí)驗(yàn)結(jié)果可以看出，本文提出的轉(zhuǎn)發(fā)量預(yù)測(cè)模型能夠較為準(zhǔn)確的對(duì)微博的未來(lái)轉(zhuǎn)發(fā)量進(jìn)行預(yù)測(cè)。特別是對(duì)于微博轉(zhuǎn)發(fā)量較大、熱度較高的微博，預(yù)測(cè)效果較好。

2.2.2 預(yù)測(cè)時(shí)間對(duì)模型預(yù)測(cè)效果的影響

選擇數(shù)據(jù)集中轉(zhuǎn)發(fā)量超過(guò)20000的微博數(shù)據(jù)，用本文提出的模型以及對(duì)比的模型進(jìn)行測(cè)試，對(duì)比模型分別采用SH[10]、LL[11]、UAPA[12]。計(jì)算模型在微博發(fā)布后的各個(gè)時(shí)間節(jié)點(diǎn)上的預(yù)測(cè)誤差，結(jié)果如圖2所示。根據(jù)實(shí)驗(yàn)結(jié)果可知，隨著預(yù)測(cè)時(shí)間的增大，模型的誤差也會(huì)增大。從總體上看，本文提出的模型（SIP）在各時(shí)間段內(nèi)，均有較低的預(yù)測(cè)誤差，同時(shí)相比其他模型，準(zhǔn)確率也更高。

3 結(jié)語(yǔ)

本文基于微博轉(zhuǎn)發(fā)的實(shí)際規(guī)律，結(jié)合傳染病建模理論，建立了一個(gè)針對(duì)微博轉(zhuǎn)發(fā)量的預(yù)測(cè)模型。首先用參與傳播者的粉絲作為微博的關(guān)注者，代替?zhèn)魅静∧Ｐ凸潭〝?shù)量的初始未感染者，并建立了微博關(guān)注者與轉(zhuǎn)發(fā)者數(shù)量關(guān)系方程，利用已知數(shù)據(jù)擬合其中的參數(shù)，然后又建立了轉(zhuǎn)發(fā)者數(shù)量的預(yù)測(cè)模型。將本文建立的模型在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，證明該模型有較好的預(yù)測(cè)效果。

參考文獻(xiàn)

[1] 2018微博用戶發(fā)展報(bào)告[R].北京：新浪微博數(shù)據(jù)中心，2019.

[2] 胡長(zhǎng)軍，許文文，胡穎，等.在線社交網(wǎng)絡(luò)信息傳播研究綜述[J].電子與信息學(xué)報(bào)，2017，39（4）：794-804.

[3] 吳越，陳曉亮，蔣忠遠(yuǎn).微博信息流行度預(yù)測(cè)研究綜述[J].西華大學(xué)學(xué)報(bào)，2017，36（1）：1-6.

[4] Yang J，Leskovec J.Patterns of temporal variation in online media[C]//Proceedings of the fourth ACM international conference on Web search and data mining.ACM，2011：177-186.

[5] Jamali S，Rangwala H.Digging digg：Comment mining， popularity prediction，and social network analysis[C]//2009 International Conference on Web Information Systems and Mining.IEEE，2009：32-38.

[6] 李洋，陳毅恒，劉挺.微博信息傳播預(yù)測(cè)研究綜述[J].軟件學(xué)報(bào)，2016，27（2）：247-263.

[7] Xiong F，Liu Y，Zhang Z，et al.An information diffusion model based on retweeting mechanism for online social media[J]. Physics Letters A，2012，376（30-31）：2103-2108.

[8] Zang C，Cui P，F(xiàn)aloutsos C.Beyond sigmoids：The nettide model for social network growth，and its applications[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM，2016：2015-2024.

[9] Zhang J，Tang J，Li J，et al. Who influenced you？ predicting retweet via social influence locality[J].ACM Transactions on Knowledge Discovery from Data （TKDD），2015，9（3）：25.

[10] Szabo G，Huberman B A.Predicting the Popularity of Online Content[J].Communications of the ACM，2010，53（8）：80-88.

[11] Shen H，Wang D，Song C，et al.Modeling and predicting popularity dynamics via reinforced poisson processes[C]//Twenty-eighth AAAI conference on artificial intelligence.2014.

[12] 朱海龍，云曉春，韓志帥.基于傳播加速度的微博流行度預(yù)測(cè)方法[J].計(jì)算機(jī)研究與發(fā)展，2018，55（6）：1282-1293.