亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于轉(zhuǎn)發(fā)傳播過(guò)程的微博轉(zhuǎn)發(fā)量預(yù)測(cè)

        2017-01-10 07:06:38趙惠東
        電子學(xué)報(bào) 2016年12期
        關(guān)鍵詞:影響力矩陣預(yù)測(cè)

        趙惠東,劉 剛,石 川,吳 斌

        (北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)

        基于轉(zhuǎn)發(fā)傳播過(guò)程的微博轉(zhuǎn)發(fā)量預(yù)測(cè)

        趙惠東,劉 剛,石 川,吳 斌

        (北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)

        微博已經(jīng)成為日常生活中最流行的信息分享工具.轉(zhuǎn)發(fā)是微博中信息傳播的核心方法,所以轉(zhuǎn)發(fā)量預(yù)測(cè)不僅是一個(gè)有趣的研究問(wèn)題,也有較大的實(shí)際意義.然而,當(dāng)前大部分研究只是把問(wèn)題視為分類(lèi)或回歸問(wèn)題,沒(méi)有考慮轉(zhuǎn)發(fā)的傳播過(guò)程.本文中,我們提出一個(gè)符合轉(zhuǎn)發(fā)傳播過(guò)程的轉(zhuǎn)發(fā)量預(yù)測(cè)模型.本文認(rèn)為轉(zhuǎn)發(fā)信息來(lái)自?xún)煞矫?直接粉絲和間接粉絲,而粉絲帶來(lái)的轉(zhuǎn)發(fā)量由轉(zhuǎn)發(fā)意愿和影響力決定.我們用歷史行為和內(nèi)容相關(guān)性來(lái)估算一名直接粉絲的轉(zhuǎn)發(fā)意愿,并用他/她的影響力來(lái)估算通過(guò)他/她的間接粉絲的轉(zhuǎn)發(fā)量.新浪微博上的實(shí)驗(yàn)表明我們的模型比其他已有的方法效果好.

        轉(zhuǎn)發(fā)量預(yù)測(cè);轉(zhuǎn)發(fā)意愿;轉(zhuǎn)發(fā)影響力

        1 引言

        微博為人們提供了一個(gè)通過(guò)互聯(lián)網(wǎng)和智能手機(jī)等設(shè)備就能夠隨時(shí)隨地和朋友或陌生人分享、傳播、獲取信息的平臺(tái).這些年來(lái)微博服務(wù)越來(lái)越流行.例如,美國(guó)著名微博Twitter在2012年3月就已經(jīng)擁有一千四百萬(wàn)活躍用戶(hù).而作為中國(guó)最有代表性的微博服務(wù),新浪微博在2013年3月時(shí)已經(jīng)擁有超過(guò)五千萬(wàn)的注冊(cè)用戶(hù).

        微博服務(wù)已經(jīng)成為信息傳播的重要媒體之一.在微博網(wǎng)絡(luò)中,信息主要通過(guò)轉(zhuǎn)發(fā)行為來(lái)傳播.當(dāng)用戶(hù)發(fā)布一條微博,微博就會(huì)被推送給他/她的粉絲.當(dāng)粉絲看到這條微博,他們將決定是否轉(zhuǎn)發(fā)這條微博.如果轉(zhuǎn)發(fā),這條微博就會(huì)再次推送給該粉絲的粉絲.通過(guò)這種方式,信息在微博網(wǎng)絡(luò)中傳播.轉(zhuǎn)發(fā)量是指一條微博被轉(zhuǎn)發(fā)了多少次.它是轉(zhuǎn)發(fā)行為的重要衡量指標(biāo).轉(zhuǎn)發(fā)量預(yù)測(cè)在真實(shí)世界中具有重大意義.例如,我們可以在開(kāi)始時(shí)就阻止謠言的傳播.

        有很多關(guān)于微博網(wǎng)絡(luò)中信息傳播和轉(zhuǎn)發(fā)行為的研究[1~3].其中大部分研究將此問(wèn)題看作微博是否被轉(zhuǎn)發(fā)的二分類(lèi)問(wèn)題.通過(guò)提取適當(dāng)?shù)奶卣骱瓦x擇合適的分類(lèi)器,這些方法都會(huì)得到一個(gè)轉(zhuǎn)發(fā)預(yù)測(cè)模型.也有一些人認(rèn)為這個(gè)問(wèn)題是回歸問(wèn)題,但取得的結(jié)果一般.然而,所有這些方法都忽略了對(duì)于轉(zhuǎn)發(fā)行為來(lái)說(shuō)很重要的轉(zhuǎn)發(fā)傳播過(guò)程.通過(guò)分析傳播過(guò)程,我們認(rèn)為微博的轉(zhuǎn)發(fā)主要有兩個(gè)部分:來(lái)自用戶(hù)直接粉絲的轉(zhuǎn)發(fā)(圖1(a)中的圓圈)和來(lái)自用戶(hù)間接粉絲的轉(zhuǎn)發(fā)(圖1(a)中的方塊).粉絲的影響力對(duì)于預(yù)測(cè)來(lái)自間接粉絲的轉(zhuǎn)發(fā)量很重要.圖1(b)展示了一個(gè)真實(shí)的轉(zhuǎn)發(fā)傳播過(guò)程.其中來(lái)自用戶(hù)間接粉絲的轉(zhuǎn)發(fā)量可能會(huì)很大.如果我們忽略了轉(zhuǎn)發(fā)過(guò)程,就可能只關(guān)注用戶(hù)自己的影響力,只能處理特殊的轉(zhuǎn)發(fā)傳播過(guò)程,例如圖1(c)那樣.這樣會(huì)大大簡(jiǎn)化問(wèn)題的難度并導(dǎo)致錯(cuò)誤的預(yù)測(cè).

        在本文中,我們研究了轉(zhuǎn)發(fā)量預(yù)測(cè)問(wèn)題,并提出了合理利用多種信息的轉(zhuǎn)發(fā)量預(yù)測(cè)模型.使用的信息包括歷史行為、內(nèi)容相關(guān)性、粉絲的影響力三種.我們利用行為和內(nèi)容相關(guān)性來(lái)估計(jì)用戶(hù)的直接粉絲是否愿意轉(zhuǎn)發(fā),即轉(zhuǎn)發(fā)意愿,然后用直接粉絲的轉(zhuǎn)發(fā)影響力來(lái)估計(jì)來(lái)自用戶(hù)間接粉絲的轉(zhuǎn)發(fā)量,合理整合轉(zhuǎn)發(fā)意愿和轉(zhuǎn)發(fā)影響力,通過(guò)模擬轉(zhuǎn)發(fā)傳播過(guò)程我們能預(yù)測(cè)轉(zhuǎn)發(fā)量.我們搜集了新浪微博數(shù)據(jù)作為數(shù)據(jù)集并得到了良好的實(shí)驗(yàn)結(jié)果.

        2 相關(guān)工作

        隨著微博服務(wù)的高速發(fā)展,出現(xiàn)了越來(lái)越多與微博相關(guān)的研究熱點(diǎn).最基本的研究點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)和用戶(hù)特征.文獻(xiàn)[4]從各種方面比較兩種不同微博平臺(tái)(新浪微博和Twitter)上的用戶(hù)行為.文獻(xiàn)[5]研究了與政治相關(guān)的微博,并發(fā)現(xiàn)這些微博中的情感會(huì)影響它的轉(zhuǎn)發(fā)量.

        轉(zhuǎn)發(fā)是微博的核心功能之一,保證了微博網(wǎng)絡(luò)中的信息傳播.所以許多研究者把注意力放在轉(zhuǎn)發(fā)行為上.文獻(xiàn)[6]用主成分分析的方法分析了那些高轉(zhuǎn)發(fā)量的微博的特征,自動(dòng)提取出那些可能被大規(guī)模轉(zhuǎn)發(fā)的微博.文獻(xiàn)[7]提出用條件隨機(jī)場(chǎng)來(lái)對(duì)轉(zhuǎn)發(fā)模型進(jìn)行建模.他們研究了劃分社會(huì)關(guān)系圖的方法,構(gòu)建出用來(lái)轉(zhuǎn)發(fā)預(yù)測(cè)的網(wǎng)絡(luò)關(guān)系.文獻(xiàn)[8]通過(guò)預(yù)測(cè)社會(huì)影響來(lái)回答“誰(shuí)分享什么”的問(wèn)題,提出了一種混合因子非負(fù)矩陣分解方法.

        現(xiàn)在也有許多基于中文微博的轉(zhuǎn)發(fā)量預(yù)測(cè)研究.文獻(xiàn)[9]提出一個(gè)動(dòng)態(tài)預(yù)測(cè)用戶(hù)轉(zhuǎn)發(fā)模式的方法,發(fā)現(xiàn)了許多以前傳統(tǒng)方法沒(méi)有捕捉到的外生特性,這些外生特性也很重要.文獻(xiàn)[10]提出一個(gè)基于SVM(Support Vector Machine)算法的預(yù)測(cè)模型.在新浪微博上取得了很好的效果,但他們提取了太過(guò)復(fù)雜的特征.文獻(xiàn)[11]將問(wèn)題分成了2步.他們先將微博基于潛在的轉(zhuǎn)發(fā)量分成幾類(lèi),再對(duì)每類(lèi)分別做回歸.新浪微博上的實(shí)驗(yàn)得到了比傳統(tǒng)的沒(méi)有提取復(fù)雜特征的一階段模型更好的效果.

        3 轉(zhuǎn)發(fā)量預(yù)測(cè)模型

        3.1 問(wèn)題定義

        對(duì)于所有用戶(hù),我們有一個(gè)四元組U=(F,T,Nr,Mr).F表示用戶(hù)的粉絲集合,其中Fi表示第i名粉絲.T表示該用戶(hù)已經(jīng)發(fā)過(guò)的微博的集合,其中Tj表示第j條微博.為了方便,在沒(méi)有聲明時(shí)下文的i表示粉絲,j表示微博.Nr表示一條微博的真實(shí)轉(zhuǎn)發(fā)量,包括所有直接粉絲和間接粉絲帶來(lái)的轉(zhuǎn)發(fā)量,其中Nr(j)是指第j條微博的轉(zhuǎn)發(fā)量.矩陣Μr定義為粉絲和微博的轉(zhuǎn)發(fā)關(guān)系矩陣.Μr中的每行表示一個(gè)粉絲,每列表示一條微博.Μr的規(guī)模是|F|*|T|.Μr中的值如下:

        (1)

        同時(shí),對(duì)于每一個(gè)粉絲Fi,我們有一個(gè)二元組Fi=(Ei,Ri).Fi發(fā)布的微博組成集合Ei.對(duì)于Ei中的每條微博,我們有其內(nèi)容.Ri表示所有被Fi轉(zhuǎn)發(fā)的微博,注意這些微博可能不是來(lái)自于用戶(hù)U.對(duì)于Ri中的第k條微博,我們有它的轉(zhuǎn)發(fā)時(shí)間tRi(k)和真實(shí)轉(zhuǎn)發(fā)量NRi(k).

        前文提到過(guò),轉(zhuǎn)發(fā)量包括兩部分.因?yàn)橹苯臃劢z有更緊密的關(guān)系和更豐富的信息,模型預(yù)測(cè)直接粉絲的轉(zhuǎn)發(fā)意愿.同時(shí),因?yàn)殚g接粉絲的信息太多而不好獲取,我們利用直接粉絲的轉(zhuǎn)發(fā)影響力來(lái)估算來(lái)自間接粉絲的轉(zhuǎn)發(fā)量.最后,我們從這兩方面來(lái)估算轉(zhuǎn)發(fā)量.轉(zhuǎn)發(fā)量預(yù)測(cè)模型的核心函數(shù)如下.

        (2)

        Np(j)表示對(duì)微博Tj的預(yù)測(cè)轉(zhuǎn)發(fā)量,其中包括來(lái)自F中所有粉絲的轉(zhuǎn)發(fā)量及通過(guò)Fi的間接粉絲的轉(zhuǎn)發(fā)量.f(i,j)表示粉絲Fi對(duì)微博Tj的轉(zhuǎn)發(fā)意愿.它是屬于0、1之間的概率.Pi表示粉絲Fi的轉(zhuǎn)發(fā)影響力,用于估算間接粉絲的轉(zhuǎn)發(fā)量.f(i,j)和(1+Pi)的乘積是來(lái)自直接粉絲Fi和其間接粉絲的預(yù)測(cè)量總和.所以對(duì)于一條微博Tj,它的轉(zhuǎn)發(fā)量就是所有乘積的總和.

        所有主要符號(hào)定義見(jiàn)表1.

        表1 所用的主要符號(hào)

        3.2 轉(zhuǎn)發(fā)意愿的計(jì)算

        本文從兩方面信息估算f(i,j)的值,粉絲對(duì)該用戶(hù)微博的過(guò)去轉(zhuǎn)發(fā)行為和該粉絲發(fā)過(guò)的微博與要預(yù)測(cè)的微博的內(nèi)容相關(guān)性.不同的粉絲會(huì)表現(xiàn)出不同的行為習(xí)慣.一些人喜歡轉(zhuǎn)發(fā)而另一些不喜歡.過(guò)去轉(zhuǎn)發(fā)行為代表一個(gè)粉絲的轉(zhuǎn)發(fā)習(xí)慣,是否喜歡轉(zhuǎn)發(fā).內(nèi)容相關(guān)性則表示一條微博是否和該粉絲的日常興趣點(diǎn)相關(guān).一般來(lái)說(shuō),用戶(hù)只對(duì)自己關(guān)心的領(lǐng)域的微博感興趣.如果一條微博屬于該用戶(hù)的興趣領(lǐng)域,被轉(zhuǎn)發(fā)的可能性更大.

        3.2.1 過(guò)去轉(zhuǎn)發(fā)行為

        我們通過(guò)矩陣分解模型[12]來(lái)對(duì)過(guò)去轉(zhuǎn)發(fā)行為建模.矩陣分解的目的是補(bǔ)全矩陣中的空缺.對(duì)于一條新微博,我們能預(yù)測(cè)所有粉絲對(duì)其的轉(zhuǎn)發(fā)可能性.

        該模型的核心觀點(diǎn)是將轉(zhuǎn)發(fā)關(guān)系矩陣Mr分解成兩個(gè)更小的矩陣.首先,我們基于數(shù)據(jù)集中粉絲和微博的關(guān)系構(gòu)建轉(zhuǎn)發(fā)關(guān)系矩陣Mr.然后構(gòu)建隱特征矩陣p和q,分別對(duì)應(yīng)粉絲和微博.矩陣p和q的規(guī)模為|F|×K和|T|×K.pi表示粉絲Fi的隱特征,qj表示微博Tj的隱特征.K表示隱特征的個(gè)數(shù).轉(zhuǎn)發(fā)矩陣Mr能分解成p和qT的乘積.通過(guò)最小化損失函數(shù)Eq.3,我們能得到p和q.

        (3)

        本文中,我們采用隨機(jī)梯度下降算法.迭代函數(shù)如下.

        (4)

        (5)

        通過(guò)計(jì)算p和q,我們能得到基于歷史行為的任意粉絲對(duì)任意微博的轉(zhuǎn)發(fā)意愿,用Mp[i,j]表示.

        (6)

        式(6)是一個(gè)確保Mp[i,j]在0、1之間的規(guī)則化函數(shù).δ的目的是防止Mp[i,j]太小.本文中,經(jīng)過(guò)試驗(yàn)δ取0.02.

        3.2.2 內(nèi)容相關(guān)性

        轉(zhuǎn)發(fā)行為是建立在瀏覽行為基礎(chǔ)上的.大部分用戶(hù)對(duì)不能吸引他/她注意力的微博只會(huì)一掃而過(guò).當(dāng)然也不會(huì)轉(zhuǎn)發(fā)此條微博.只有一個(gè)微博和他/她的興趣點(diǎn)相近,用戶(hù)才會(huì)關(guān)注它并轉(zhuǎn)發(fā).

        我們構(gòu)建矩陣Mc來(lái)描述內(nèi)容相關(guān)性.Mc[i,j]表示粉絲Fi發(fā)布的微博集合Ei與用戶(hù)微博Tj的內(nèi)容相關(guān)性.本文采用詞袋模型來(lái)計(jì)算相關(guān)性.它忽略了詞的出現(xiàn)順序,只考慮出現(xiàn)次數(shù).

        首先,采用著名的中文分詞工具ansj-seg(https://github.com/NLPchina/ansj-seg)分詞,再去掉常見(jiàn)但沒(méi)意義的停用詞,剩下的詞組成詞袋.Wi和Wj分別表示粉絲的微博集Ei和用戶(hù)微博Tj的詞袋.兩個(gè)詞袋間的內(nèi)容相關(guān)性可以通過(guò)很多算法計(jì)算,比如余弦距離、海明距離等.我們采用下面的函數(shù)計(jì)算Mc[i,j].

        (7)

        3.3 轉(zhuǎn)發(fā)影響力的計(jì)算

        除了來(lái)自直接粉絲的轉(zhuǎn)發(fā),來(lái)自間接粉絲的轉(zhuǎn)發(fā)在轉(zhuǎn)發(fā)行為中也很重要.但因?yàn)樾畔⒖偭康闹笖?shù)式增長(zhǎng),我們無(wú)法獲得間接粉絲的所有信息.而且還存在兩跳粉絲、三跳粉絲及更多跳粉絲.所以我們選擇粉絲的轉(zhuǎn)發(fā)影響力來(lái)衡量來(lái)自間接粉絲的轉(zhuǎn)發(fā)量.

        第i個(gè)粉絲的轉(zhuǎn)發(fā)影響力Pi表示當(dāng)粉絲Fi轉(zhuǎn)發(fā)了該微博后,該微博繼續(xù)被粉絲Fi的粉絲轉(zhuǎn)發(fā)的能力.因?yàn)橛绊懥茈y計(jì)算而且本文的重點(diǎn)在轉(zhuǎn)發(fā)模型上,我們用平均轉(zhuǎn)發(fā)量來(lái)衡量轉(zhuǎn)發(fā)影響力.很明顯轉(zhuǎn)發(fā)影響力和時(shí)間有關(guān),所以直接用所有被粉絲Fi轉(zhuǎn)發(fā)的微博的平均轉(zhuǎn)發(fā)量作為粉絲Fi的影響力并不合適.為了解決這個(gè)問(wèn)題,我們引入一個(gè)時(shí)間函數(shù)來(lái)保證時(shí)間的影響.權(quán)重函數(shù)如下.

        (8)

        在上面的函數(shù)中,k表示在過(guò)去被粉絲Fi轉(zhuǎn)發(fā)過(guò)的第k條微博.t表示預(yù)測(cè)時(shí)間.通過(guò)權(quán)重函數(shù),在近期被粉絲Fi轉(zhuǎn)發(fā)的微博對(duì)轉(zhuǎn)發(fā)量的貢獻(xiàn)更大.

        3.4 整體模型

        計(jì)算Mp和Mc后,我們能通過(guò)下面的公式計(jì)算f(i,j).

        f(i,j)=αi×Mp[i,j]+βi×Mc[i,j]

        (9)

        其中αi和βi表示兩種信息的權(quán)重.對(duì)于每個(gè)粉絲Fi,這兩個(gè)值是不同的,所以是個(gè)性化參數(shù).加入轉(zhuǎn)發(fā)影響力Pi后,微博Tj的最終轉(zhuǎn)發(fā)量預(yù)測(cè)公式如下.

        Np(j)=

        (10)

        常用的損失函數(shù)有很多,如0-1損失函數(shù)、絕對(duì)值損失函數(shù).本文采用均方誤差作為損失函數(shù).函數(shù)如下.其中α和β表示由αi和βi組成的向量.

        (11)

        接下來(lái)問(wèn)題變成了一個(gè)帶約束的最優(yōu)化問(wèn)題.優(yōu)化函數(shù)見(jiàn)式(12).

        s.t.αi+βi=1,i=1,2,…,|F|

        (12)

        帶約束的最優(yōu)化問(wèn)題一般用懲罰函數(shù)的方法解決.然而,我們模型中的約束只是簡(jiǎn)單的線性約束,所以約束可以通過(guò)用一個(gè)參數(shù)的變形來(lái)代替另一個(gè)參數(shù)的方法抵消掉.最后優(yōu)化公式變?yōu)?/p>

        (13)

        因?yàn)樽顑?yōu)化函數(shù)是二次方程式,本文采用隨機(jī)梯度下降算法.每一個(gè)αi和βi的迭代公式如下.

        (14)

        βi←1-αi

        (15)

        詳細(xì)算法見(jiàn)算法1.

        算法1轉(zhuǎn)發(fā)量預(yù)測(cè)模型

        輸入:

        U=(F,T,Nr,Mr),Fi=(Ei,Ri)

        輸出:

        Np

        1.用Mr計(jì)算Mp[i,j]

        2.用T和所有Ei計(jì)算Mc[i,j]

        3.用Ri計(jì)算Pi

        4.初始化α和β

        5.循環(huán) 未收斂

        6. 用式(10)計(jì)算Np

        7. 用式(14)更新α

        8. 用式(15)更新β

        9.結(jié)束循環(huán)

        4 實(shí)驗(yàn)

        本節(jié)中,我們先介紹從新浪微博得到的數(shù)據(jù)集.然后驗(yàn)證模型的有效性和個(gè)性化參數(shù)的效果.最后做了一個(gè)實(shí)例研究.

        4.1 數(shù)據(jù)集

        我們從新浪微博獲得數(shù)據(jù)集.新浪微博是中國(guó)的最大微博服務(wù)之一.而且它提供API給所有用戶(hù).通過(guò)這些API,我們能得到包括微博內(nèi)容、時(shí)間、轉(zhuǎn)發(fā)狀況等所有信息.在我們的數(shù)據(jù)集中,共有9,535個(gè)用戶(hù).這些用戶(hù)涵蓋了轉(zhuǎn)發(fā)量巨大的大V用戶(hù)以及轉(zhuǎn)發(fā)量很小的普通用戶(hù).為了確保轉(zhuǎn)發(fā)量的穩(wěn)定性,我們刪除最新一個(gè)月的微博,因?yàn)樗鼈兛赡苋栽诒晦D(zhuǎn)發(fā).一共有745,919條微博和326,180個(gè)粉絲.轉(zhuǎn)發(fā)總量為18,108,061次.

        為了驗(yàn)證微博的選取是否有代表性,對(duì)微博的轉(zhuǎn)發(fā)量的分布進(jìn)行分析.轉(zhuǎn)發(fā)量分布見(jiàn)圖2.其中橫坐標(biāo)為一條微博的轉(zhuǎn)發(fā)量,縱坐標(biāo)為這個(gè)轉(zhuǎn)發(fā)量的微博條數(shù),坐標(biāo)軸均為對(duì)數(shù)刻度.從圖2中可見(jiàn),轉(zhuǎn)發(fā)量從0到100,000以上均有覆蓋,大部分微博的轉(zhuǎn)發(fā)量較低,隨著轉(zhuǎn)發(fā)量增多,微博越來(lái)越少,符合長(zhǎng)尾分布.真實(shí)的微博轉(zhuǎn)發(fā)情況也應(yīng)是如此,大部分微博的轉(zhuǎn)發(fā)量都很低,少數(shù)微博的轉(zhuǎn)發(fā)量特別高,可見(jiàn)選取的微博還是有覆蓋性的.

        4.2 對(duì)比實(shí)驗(yàn)

        本節(jié)中,我們通過(guò)和幾種方法作對(duì)比來(lái)驗(yàn)證提出的方法.我們選擇了如下4種方法及3種模型變形來(lái)對(duì)比.基本方法中所用的部分特征見(jiàn)表2.

        (1)多元線性回歸(MLR)[13]是普通線性回歸的一般化,考慮了多個(gè)獨(dú)立變量的情況.

        (2)多重感知機(jī)(MP)[14]是一種帶有前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò).它能將輸入向量映射到輸出向量.

        (3)M5P[15]模型是決策樹(shù)和多元線性回歸的結(jié)合.每一個(gè)葉結(jié)點(diǎn)是一個(gè)線性回歸模型,所以M5P能用于連續(xù)值的回歸問(wèn)題.

        (4)兩階段模型(TP)[11]將轉(zhuǎn)發(fā)量預(yù)測(cè)問(wèn)題分成兩個(gè)階段.第一階段,他們將微博基于潛在的轉(zhuǎn)發(fā)量分成幾類(lèi).在第二階段,在每類(lèi)中做回歸.

        (5)我們的模型(BCI)及模型變形.BCI使用了兩種信息計(jì)算轉(zhuǎn)發(fā)意愿,所以我們通過(guò)只用一種信息的方式能得到兩種變形.模型BCIC只使用過(guò)去歷史行為而模型BCIB只使用內(nèi)容相關(guān)性.模型BCIBC則不使用過(guò)去歷史行為和內(nèi)容相關(guān)性,直接用轉(zhuǎn)發(fā)影響力來(lái)預(yù)測(cè)轉(zhuǎn)發(fā)量.對(duì)應(yīng)的函數(shù)如下.

        (16)

        (17)

        (18)

        4.3 衡量標(biāo)準(zhǔn)

        我們用平均絕對(duì)誤差MAE和相對(duì)絕對(duì)誤差RAE來(lái)衡量結(jié)果.在統(tǒng)計(jì)學(xué)中,它們是常用的標(biāo)準(zhǔn)之一,用來(lái)衡量預(yù)測(cè)值和真實(shí)值的差距.其定義如下.

        (19)

        (20)

        其中pi是測(cè)試集中第i條微博的預(yù)測(cè)轉(zhuǎn)發(fā)量,ri是真實(shí)轉(zhuǎn)發(fā)量.rm是測(cè)試集的平均轉(zhuǎn)發(fā)量.MAE和RAE的值越小,模型越有效.它表示預(yù)測(cè)值與真實(shí)值更接近.

        習(xí)慣上,我們更喜歡用準(zhǔn)確率[11]來(lái)衡量結(jié)果.單一的值更容易給我們以直觀印象.但對(duì)于一個(gè)預(yù)測(cè)轉(zhuǎn)發(fā)量問(wèn)題,要得到絕對(duì)正確的值太過(guò)嚴(yán)苛.所以我們定義一個(gè)范圍來(lái)衡量預(yù)測(cè)結(jié)果.定義的范圍如下.

        (21)

        (22)

        4.4 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)共有γ和λ兩個(gè)參數(shù).其中γ是學(xué)習(xí)速率.γ的大小不僅會(huì)影響訓(xùn)練時(shí)間,也會(huì)影響結(jié)果的收斂性.γ的值越大,學(xué)習(xí)速度越快,但可能結(jié)果無(wú)法收斂.γ的值越小,學(xué)習(xí)速度越慢,結(jié)果收斂性更好.一般都會(huì)把γ取的很小,在0.001這個(gè)量級(jí).本文的模型是對(duì)每一個(gè)用戶(hù)U建立的,所以要計(jì)算多次模型.根據(jù)嘗試,γ設(shè)置為0.002,對(duì)于大部分用戶(hù)數(shù)據(jù)已經(jīng)可以收斂.對(duì)于無(wú)法收斂的用戶(hù)數(shù)據(jù),將γ縮小,直到所用用戶(hù)的數(shù)據(jù)都收斂.

        λ是正則化系數(shù),目的是防止模型過(guò)擬合.一般會(huì)將λ的值設(shè)置在0.01這個(gè)量級(jí).由于模型要計(jì)算多次,每一次都確定一次λ過(guò)于復(fù)雜,所以λ的參數(shù)實(shí)驗(yàn)建立在整體結(jié)果上.對(duì)于每個(gè)用戶(hù),隨機(jī)選取數(shù)據(jù)集中的60%作為訓(xùn)練集,剩下的作為測(cè)試集,進(jìn)行參數(shù)λ的實(shí)驗(yàn).結(jié)果見(jiàn)圖3.可見(jiàn)λ對(duì)實(shí)驗(yàn)結(jié)果有影響,但不是很明顯.最終將λ設(shè)置為0.02.

        4.5 有效性實(shí)驗(yàn)

        首先,我們做有效性實(shí)驗(yàn)來(lái)驗(yàn)證模型的效果.對(duì)于每個(gè)用戶(hù),隨機(jī)選取數(shù)據(jù)集中的60%、70%、80%和90%作為訓(xùn)練集,剩下的作為測(cè)試集,采用4.2節(jié)提到的方法和4.3節(jié)提的衡量方法做實(shí)驗(yàn).表3中展示的是MAE和RAE的結(jié)果,準(zhǔn)確率結(jié)果Acc在圖4中.

        從表3中,可以觀察到提出的模型BCI在所有情況下都是最好的,都有相對(duì)明顯的提升.在60%和70%的情況下,我們的模型相比MLR提升超過(guò)了100%.在4種對(duì)比方法中,除了90%的情況TP均取得了最好的結(jié)果,同時(shí)MLR效果總是最差的.BCIC的結(jié)果不理想,結(jié)果甚至比一些對(duì)比方法更糟.但BCIB的結(jié)果優(yōu)于對(duì)比方法,接近模型BCI.而B(niǎo)CIBC結(jié)果很低,可見(jiàn)轉(zhuǎn)發(fā)意愿的計(jì)算是有意義的,只用轉(zhuǎn)發(fā)影響力的話結(jié)果會(huì)大很多.我們可以推斷出,用戶(hù)是否轉(zhuǎn)發(fā)微博更主要的取決于

        結(jié)果中有效果.但對(duì)于一條微博,興趣更重要.

        從圖4中,我們能得到更多的信息.橫坐標(biāo)隨著式(20)中的m值的變化而變化.m值越大,準(zhǔn)確率應(yīng)該越低.然而,因?yàn)檗D(zhuǎn)發(fā)量有很多是0,預(yù)測(cè)值在此時(shí)更容易正確,所以下降趨勢(shì)不明顯.結(jié)果分成了3個(gè)層次,特別是在60%的情況下.相對(duì)來(lái)講,BCIC和BCIBC的下降趨勢(shì)最明顯.BCIC使用了Mr中的歷史轉(zhuǎn)發(fā)信息.經(jīng)過(guò)矩陣分解,Mr中的0值將被填上.所以BCIC的結(jié)果相對(duì)來(lái)說(shuō)離0比較遠(yuǎn),趨勢(shì)更明顯.BCIBC的下降趨勢(shì)和BCIC類(lèi)似.

        4.6 個(gè)性化參數(shù)的效果實(shí)驗(yàn)

        我們的模型中,每一個(gè)粉絲都有其特殊的αi和βi.接下來(lái),我們測(cè)試模型中αi和βi的有效性.這兩個(gè)參數(shù)的目的是整合兩種信息:歷史轉(zhuǎn)發(fā)信息和內(nèi)容相關(guān)性信息,它們對(duì)于每個(gè)粉絲是不同的.

        表3 有效性對(duì)比

        α60%70%80%90%MAERAEMAERAEMAERAEMAERAE隨機(jī)3042016053662019522863015182642014160535740188637750196128600151626350141214023021115151027473618019183387018150226801195248701352257601353250401342參數(shù)學(xué)習(xí)219801159229701224230801223221101185

        表4和圖5中的α值設(shè)置為隨機(jī)、0.5、1、0和參數(shù)學(xué)習(xí)的值.β的值是1-α.表4中的衡量標(biāo)準(zhǔn)還是MAE和RAE,圖5中為準(zhǔn)確率Acc.

        從表4,我們可以看出參數(shù)學(xué)習(xí)取得了最好的效果.α=1和α=0就是BCIC和BCIB.BCIC和BCIB的結(jié)果比我們的模型BCI的結(jié)果差.這表明兩種信息都有效果.在大多數(shù)情況,α=random和α=0.5的結(jié)果相似且在BCIC和BCIB的結(jié)果之間.這種現(xiàn)象表明盡管兩種信息都有用,但還是需要一個(gè)有效的整合方法來(lái)利用它們.所以我們模型中的參數(shù)學(xué)習(xí)是有必要的.

        在圖5中我們同樣發(fā)現(xiàn)下降趨勢(shì).同時(shí),α=random、α=0.5和α=1的結(jié)果的下降趨勢(shì)相似.正相反,α=0的下降趨勢(shì)不明顯.參數(shù)學(xué)習(xí)的結(jié)果曲線在所有曲線的上方,它的下降趨勢(shì)和α=0的下降趨勢(shì)相似但也不一樣.可見(jiàn),參數(shù)學(xué)習(xí)能有效地整合兩種信息,相比一種信息有所提高.

        4.7 實(shí)例研究

        本節(jié)中,我們具體地展示個(gè)性化參數(shù).我們是對(duì)每一個(gè)用戶(hù)建模.每一個(gè)用戶(hù)有很多粉絲,粉絲數(shù)從1到數(shù)百不等.所以我們選擇一個(gè)適當(dāng)?shù)挠脩?hù)作為例子,該用戶(hù)有94個(gè)粉絲.由于空間限制,表5中只列出5對(duì)有代表性的αi和βi.同時(shí)列出Mp[i,j],Mc[i,j]和Pi幫助理解.然后我們還需要一個(gè)預(yù)測(cè)結(jié)果很好的微博.我們找到一個(gè)真實(shí)轉(zhuǎn)發(fā)量為11的微博,它的預(yù)測(cè)轉(zhuǎn)發(fā)量為12.

        表5 αi和βi的實(shí)例

        在表5中,αi的值遞增.這個(gè)結(jié)果反映了不同粉絲的區(qū)別.通過(guò)分析數(shù)據(jù),Mp[i,j]的值越大,αi的值越大.一個(gè)轉(zhuǎn)發(fā)過(guò)微博的粉絲有更大的αi.如果一個(gè)粉絲轉(zhuǎn)發(fā)過(guò)微博,未來(lái)中他/她更可能轉(zhuǎn)發(fā)微博.所以Mp[i,j]的值更大.為了利用Mp[i,j]的信息,αi就要更大.因?yàn)镸c[i,j]比大部分Mp[i,j]都小,αi的值主要受Mp[i,j]影響.同時(shí),αi的值與Pi相互獨(dú)立.

        上面的結(jié)果表明,Mp[i,j]更加占主導(dǎo)地位,然而利用Mp[i,j]的BCIC的效果要比BCIB差.經(jīng)過(guò)分析發(fā)現(xiàn),BCIC的預(yù)測(cè)結(jié)果一般偏大,可見(jiàn)只依靠Mp[i,j]會(huì)使結(jié)果比較大,偏離真實(shí)值,經(jīng)過(guò)較小的Mc[i,j]的修正,結(jié)果向真實(shí)值靠攏,但結(jié)果還是Mp[i,j]占主導(dǎo).因?yàn)閿?shù)據(jù)集中大部分轉(zhuǎn)發(fā)量較小,而B(niǎo)CIB預(yù)測(cè)的結(jié)果與BCIC恰好相反,預(yù)測(cè)結(jié)果偏小,預(yù)測(cè)值與真實(shí)值更加接近,結(jié)果比BCIC好.

        5 總結(jié)

        轉(zhuǎn)發(fā)是微博網(wǎng)絡(luò)中信息傳播的核心手段之一.轉(zhuǎn)發(fā)量是轉(zhuǎn)發(fā)傳播影響力的一種衡量方法,而且具有很大的實(shí)際意義.我們提出一個(gè)基于粉絲轉(zhuǎn)發(fā)意愿和影響力的模型.用歷史轉(zhuǎn)發(fā)行為、內(nèi)容相關(guān)性?xún)煞N信息來(lái)計(jì)算轉(zhuǎn)發(fā)意愿.新浪微博數(shù)據(jù)集上的實(shí)驗(yàn)表明我們的模型效果優(yōu)于一般的預(yù)測(cè)模型.

        未來(lái),我們可以繼續(xù)提高模型的效果.一方面,我們的模型可以擴(kuò)展到使用更多種信息.理論上,我們能用任意數(shù)量的矩陣來(lái)計(jì)算轉(zhuǎn)發(fā)意愿.另一方面可以利用更復(fù)雜的特征,比如微博的主題.更多的使用那樣的復(fù)雜特征,模型會(huì)得到更好的效果.同時(shí),也可以根據(jù)轉(zhuǎn)發(fā)意愿來(lái)研究微博的實(shí)際轉(zhuǎn)發(fā)路線,而不再只是計(jì)算轉(zhuǎn)發(fā)量的結(jié)果.

        [1]Ma H,Qian W,Xia F,et al.Towards modeling popularity of microblogs[J].Frontiers of Computer Science,2013,7(2):171-184.

        [2]Yang Z,Guo J,Cai K,et al.Understanding retweeting behaviors in social networks[A].Proceedings of the 19th ACM International Conference on Information and Knowledge Management[C].Toronto,Ontario,Canada:ACM,2010.1633-1636.

        [3]Yang J,Counts S.Predicting the speed,scale,and range of information diffusion in Twitter[A].Proceedings of the International AAAI Conference on Weblogs and Social Media[C].Washington,USA:AAAI,2010.355-358.

        [4]Gao Q,Abel F,Houben G J,et al.A comparative study of users’ microblogging behavior on Sina Weibo and Twitter[A].User Modeling,Adaptation,and Personalization[C].Montreal,Canada:Springer,2012.88-101.

        [5]Stieglitz S,Dang-Xuan L.Political communication and influence through microblogging-an empirical analysis of sentiment in twitter messages and retweet behavior[A].System Science (HICSS),2012 45th Hawaii International Conference on[C].Hawaii:IEEE,2012.3500-3509.

        [6]Morchid M,Dufour R,Bousquet P M,et al.Feature selection using principal component analysis for massive retweet detection[J].Pattern Recognition Letters,2014,49:33-39.

        [7]Peng H K,Zhu J,Piao D,et al.Retweet modeling using conditional random fields[A].Data Mining Workshops (ICDMW),2011 IEEE 11th International Conference on[C].Vancouver,British Columbia,Canada:IEEE,2011.336-343.

        [8]Cui P,Wang F,Liu S,et al.Who should share what?:item-level social influence prediction for users and posts ranking[A].Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval[C].Beijing,China:ACM,2011.185-194.

        [9]Lu X,Yu Z,Guo B,et al.Modeling and predicting the re-post behavior in SinaWeibo[A].Green Computing and Communications (GreenCom),2013 IEEE and Internet of Things (iThings/CPSCom),IEEE International Conference on and IEEE Cyber,Physical and Social Computing[C].Beijing,China:IEEE,2013.962-969.

        [10]李英樂(lè),于洪濤,劉力雄.基于SVM 的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(9):2594-2597. Y Li,H Yu,L Liu.Predict algorithm of micro-blog retweet scale based on svm[J].Application Research of Computers,2013,30(9):2594-2597.(in chinese)

        [11]Liu G,Shi C,Chen Q,et al.A two-phase model for retweet number prediction[A].Web-Age Information Management[C].Macau,China:Springer International Publishing,2014.781-792.

        [12]Koren Y,Bell R,Volinsky C.Matrix factorization techniques for recommender systems[J].Computer,2009,42(8):30-37.

        [13]Breiman L,Friedman J H.Predicting multivariate responses in multiple linear regression[J].Journal of the Royal Statistical Society,1997,59(1):3-54.

        [14]Ruck D W,Rogers S K,Kabrisky M,et al.The multilayer perceptron as an approximation to a Bayes optimal di44scriminant function[J].Neural Networks,IEEE Transactions on,1990,1(4):296-298

        [17].Frank E,Wang Y,Inglis S,et al.Using model trees for classification[J].Machine Learning,1998,32(1):63-7

        趙惠東 男,1990年11月出生,遼寧沈陽(yáng)人,2013年在北京郵電大學(xué)獲得學(xué)士學(xué)位,現(xiàn)為北京郵電大學(xué)計(jì)算機(jī)學(xué)院碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘.

        E-mail:zhaohuidong1121@foxmail.com

        劉 剛 男,1989年5月出生,遼寧沈陽(yáng)人,2012年在北京郵電大學(xué)獲得學(xué)士學(xué)位,2015年在北京郵電大學(xué)獲得工學(xué)碩士學(xué)位,研究方向?yàn)閿?shù)據(jù)挖掘.

        石 川 男,1978年4月出生,湖北洪湖人,教授、博士生導(dǎo)師、IEEE/ACM/CCF會(huì)員.2001年在吉林大學(xué)獲得學(xué)士學(xué)位,2004年在武漢大學(xué)獲得碩士學(xué)位,2007年在中國(guó)科學(xué)院計(jì)算技術(shù)研究所獲得博士學(xué)位.2007年加入北京郵電大學(xué),研究方向包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和演化計(jì)算.

        吳 斌 男,1969年11月出生,湖南長(zhǎng)沙人,教授、博士生導(dǎo)師,2002年中國(guó)科學(xué)院計(jì)算技術(shù)研究所博士畢業(yè),現(xiàn)在北京郵電大學(xué)計(jì)算機(jī)學(xué)院工作,主要從事復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘、海量數(shù)據(jù)并行處理、可視分析、電信客戶(hù)關(guān)系管理等方面的研究工作.

        Retweet Number Prediction Based on Retweet Propagation Process

        ZHAO Hui-dong,LIU Gang,SHI Chuan,WU Bin

        (BeijingKeyLabofIntelligentTelecommunicationSoftwareandMultimedia,BeijingUniversityofPostsandTelecommunications,Beijng100876,China)

        Micro-blog has become the most popular information sharing tool in our daily life.The retweet behavior is a main method of information propagation in micro-blog.So the retweet number prediction is an interesting research topic and has much practical significance.However,most of current researches only regard this problem as aclassification or regression problem,and they did not consider the retweet propagation process.Considering the retweet propagation process,we propose a retweet number prediction model BCI.In our model,we think retweet messages are from two parts,direct followers and indirect followers.The retweet number of followers is decided by their retweet intention and influence.We use behavior and content information to estimate retweet intention for a direct follower and use the influence to estimate the indirect followers’ retweet number.Experimental results on Sina Weibo dataset show that our retweet number prediction model has much better performance than other well-established methods.

        retweet number prediction;retweet intention;the influence on retweeting

        2015-02-03;

        2015-08-04;責(zé)任編輯:梅志強(qiáng)

        國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(No.2013CB329606);國(guó)家自然科學(xué)基金(No.61375058,No.71231002);北京市高等教育青年英才項(xiàng)目

        TP391

        A

        0372-2112 (2016)12-2989-08

        ??學(xué)報(bào)URL:http://www.ejournal.org.cn

        10.3969/j.issn.0372-2112.2016.12.025

        猜你喜歡
        影響力矩陣預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        天才影響力
        NBA特刊(2018年14期)2018-08-13 08:51:40
        黃艷:最深遠(yuǎn)的影響力
        不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
        初等行變換與初等列變換并用求逆矩陣
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年1期)2015-09-10 07:22:44
        国产青草视频在线观看| 丝袜美腿亚洲综合久久| 亚洲免费一区二区av| 国产手机在线观看一区二区三区 | 欧美日韩色另类综合| 国产一区二区三区小说| 熟女白浆精品一区二区| 久久精品国产亚洲av豆腐| 福利视频自拍偷拍视频| 亚洲女同av在线观看| 久久精品中文字幕| 国产麻豆md传媒视频| 91短视频在线观看免费| 在线观看日韩精品视频网站| 一本久久精品久久综合| 日本久久久久亚洲中字幕| 中文成人无字幕乱码精品区| 99国产精品丝袜久久久久| 国产精品久久夜伦鲁鲁| 少妇人妻字幕精品毛片专区| 无码国产色欲xxxx视频| 亚洲精品久久久久久| 久久久久无码精品国| 国产麻豆一区二区三区在| 影音先锋久久久久av综合网成人| 久激情内射婷内射蜜桃| 亚洲欧洲精品国产二码| 国产熟女乱综合一区二区三区| 激情五月天色婷婷久久| 99在线精品免费视频| 无码精品人妻一区二区三区影院| 久热香蕉av在线爽青青| 国产午夜在线观看视频| 懂色av一区二区三区尤物| 美丽人妻在夫前被黑人| 人妻激情偷乱一区二区三区| 色妺妺视频网| 日本黄色一区二区三区视频| 精品中文字幕在线不卡| 国产精品办公室沙发| 三上悠亚av影院在线看|