亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題模型的微博轉發(fā)行為預測

        2018-05-29 07:45:52宮葉云黃萱菁
        中文信息學報 2018年4期
        關鍵詞:社交文本用戶

        郭 亞,宮葉云,張 奇,黃萱菁

        (復旦大學 計算機科學技術學院,上海 201203)

        0 引言

        社交媒體發(fā)展迅速,已逐漸成為我們文化肌理的一部分。根據(jù)2012年的社交媒體報告[1],美國人一個月內(nèi)花費超過1 211億分鐘在社交媒體上。微博服務是一種通過關注機制分享簡短實時信息的廣播式的社交網(wǎng)絡平臺,用戶可以方便的查看和轉發(fā)關注用戶的微博。微博信息可以通過用戶轉發(fā)迅速從一個社交圈傳播到另一個社交圈,這可看作社交網(wǎng)絡中的病毒傳播[2]。通過對用戶轉發(fā)行為的研究,可以更好的理解用戶行為,亦可進一步應用于社交營銷[3-4]、微博檢索[5]以及熱點事件預測[6-7]等領域中。

        最近幾年,已有很多工作從不同角度對其進行了研究,包括社會影響力[8-9],文本特征[10]及社交特征[11-13]等。Suh等人[14]研究了微博內(nèi)容,Hashtag,URL以及文本特征對轉發(fā)行為的影響。通過對轉發(fā)微博的分析, 我們發(fā)現(xiàn)用戶不僅受到文本等特征的影響,同時,還受到微博本身屬性的影響。例如,微博熱度、微博作者等。而現(xiàn)有的方法則不能很好的利用這些信息。

        為了解決這個問題,我們提出了一種基于LDA模型[15]的方法,同時利用文本信息,結構信息和作者信息對用戶轉發(fā)行為進行建模。實驗表明該方法的性能顯著優(yōu)于目前最好的方法。

        本文的主要貢獻有:

        (1) 收集大量真實微博數(shù)據(jù),包含微博內(nèi)容、用戶信息以及其對應的社交網(wǎng)絡。模擬還原用戶使用環(huán)境。

        (2) 通過對數(shù)據(jù)進行分析,研究發(fā)現(xiàn)一些影響用戶轉發(fā)行為的重要因素: 用戶興趣、微博熱度和作者信息等。

        (3) 提出了一個新穎的基于LDA模型的方法,該方法同時利用文本信息,結構信息和作者信息對用戶轉發(fā)行為進行建模。實驗結果表明該方法的性能優(yōu)越。

        本文結構如下: 第一節(jié)介紹相關工作以及相關領域最先進的方法;第二節(jié)介紹我們?nèi)绾问占瘮?shù)據(jù)和分析數(shù)據(jù);第三節(jié)介紹本文提出的方法;第四節(jié)描述實驗方法,實驗結果及其分析;第五節(jié)為總結部分。

        1 相關工作

        當前很多工作研究不同特征對用戶行為的影響,比如文本內(nèi)容,社交網(wǎng)絡和時間信息等。Petrovic等人[12]對社會特征,包括微博作者和內(nèi)容進行了研究,他們通過實驗說明這個任務確實可行。Naveed等人[10]使用回歸方法,加入高維和低維文本特征來預測轉發(fā)行為。Luo等人[13]研究了作者和關注者的歷史信息,關注者的社會地位,微博內(nèi)容和關注者微博內(nèi)容的相似性。Feng 和 Wang[16]提出了通過歷史轉發(fā)記錄來進行個性化的排名。他們使用特征感知的方法結合文本和用戶特征對轉發(fā)行為進行建模。Gupta等人[6]基于文本內(nèi)容,時間信息,地理信息和結構屬性,將這個看作二分類問題進行研究。同時,他們也使用多分類方法來預測一條微博被轉發(fā)的次數(shù)。Luo等人[17]介紹了一種基于自回歸移動平均模型(ARMA)的方法。其中轉發(fā)行為被看作一個時間序列,序列值是對應的轉發(fā)次數(shù)或者一段時間內(nèi)的可能瀏覽次數(shù)。Peng等人[18]使用條件隨機場的方法對用戶的發(fā)文歷史和社交關系進行特征抽取。

        與以上這些方法不同,我們提出了一個基于LDA的方法來預測轉發(fā)行為。微博內(nèi)容、結構信息和作者信息統(tǒng)一到一個模型中。

        2 數(shù)據(jù)收集和分析

        我們從新浪微博中收集數(shù)據(jù)。在新浪微博中,用戶只能看到關注用戶的微博,我們抓取數(shù)據(jù),然后模擬真實的微博網(wǎng)絡。下面介紹數(shù)據(jù)集的構造方法。

        首先,隨機選取200個用戶作為核心用戶,也是我們的微博網(wǎng)絡中的第一層用戶。然后抓取這200用戶的關注列表,將他們所有關注的用戶作為微博網(wǎng)絡中的第二層用戶,這一層共有82 311個用戶。這樣得到了一個兩層微博網(wǎng)絡。最后我們抓取網(wǎng)絡中用戶的最新的2 000條微博,共約8 500萬條。具體統(tǒng)計數(shù)據(jù)見表1。

        表1 數(shù)據(jù)集統(tǒng)計數(shù)據(jù)

        從表1中可以看出約60%的微博是轉發(fā)的,其中約33%包含評論。這與Yu等人[22]統(tǒng)計的結果類似,可以認為這個統(tǒng)計結果能反映不同文化背景的社交媒體的真實情況。

        為了便于數(shù)據(jù)分析,我們對微博進行預處理,去除微博中的標點、URL、表情和圖片等無用信息。然后對微博進行分詞處理。其中轉發(fā)的微博分為兩類,一類帶有評論,另一類沒有。對于帶評論的轉發(fā)微博,我們將評論與轉發(fā)內(nèi)容當作兩條微博處理。

        圖1到圖4分別統(tǒng)計了第一層的用戶微博數(shù)分布、用戶轉發(fā)數(shù)分布、微博詞數(shù)分布和用戶關注數(shù)分布。

        圖1 用戶微博數(shù)分布

        圖2 用戶轉發(fā)數(shù)分布

        圖3 微博詞數(shù)分布

        圖4 用戶關注數(shù)分布

        由圖1和圖2可以看出,用戶的微博數(shù)(轉發(fā)數(shù))呈現(xiàn)兩極分化,微博(轉發(fā))數(shù)量小于400和大于1 600的用戶較多。而從圖3可以看出,絕大多數(shù)用戶發(fā)送的微博詞數(shù)都小于20。圖4表明用戶關注數(shù)量集中于300左右。

        第一層的網(wǎng)絡由200核心用戶構成,我們認為他們的瀏覽歷史包含了他們轉發(fā)一條微博的時間點到這條被轉發(fā)微博的發(fā)送時間點之間的所能看到的微博。通過恢復用戶的發(fā)送和瀏覽歷史,可以觀察到下面的現(xiàn)象:

        1) 第一層200核心用戶共關注了82 311個用戶。其中被核心用戶轉發(fā)過微博的用戶有52 177個,占總關注用戶的63.3%。此外,被轉發(fā)超過1次的只占17.8%。所以用戶一般只會轉發(fā)某一部分關注用戶的微博。

        2) 當用戶瀏覽看到多條同樣的微博時,不一定轉發(fā)首次看到的那一條微博。根據(jù)統(tǒng)計大約37.4%的轉發(fā)行為屬于這類情況。從而說明用戶的轉發(fā)行為不僅受到微博內(nèi)容的影響還受到微博作者的影響。

        3) 每條微博在被轉發(fā)之前,可能已經(jīng)被其他關注用戶轉發(fā)過多次,我們稱之為微博熱度。統(tǒng)計每個用戶轉發(fā)的微博的熱度分布,可以發(fā)現(xiàn),不同用戶的轉發(fā)熱度分布不同,即有些人偏好轉發(fā)那些很火的微博,而有些則不然。后文我們將這個特征稱為結構特征。

        4) 用戶更偏好轉發(fā)自己感興趣的微博,而不同用戶有不同的興趣愛好,我們使用用戶微博的話題分布來表示用戶的興趣。

        綜上所述,用戶的轉發(fā)行為受到用戶興趣、微博作者和微博熱度的影響,分別稱之為內(nèi)容影響、用戶影響和結構影響。因此,我們假設用戶a是否轉發(fā)一條微博由以下因素決定: 1)誰發(fā)送這條微博;2)用戶a關注的用戶中有多少人發(fā)送或轉發(fā)了這條微博;3)微博的內(nèi)容;4)用戶a的興趣。

        3 用戶行為預測模型

        本節(jié)中,首先簡要介紹一下LDA模型,然后詳細介紹我們提出的預測轉發(fā)行為的方法。

        3.1 LDA主題模型

        Latent Dirichlet Allocation(LDA)模型由Blei等人[15]在2003年提出,LDA是一種主題模型,可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA也是一種非監(jiān)督學習方法,可用于識別大規(guī)模文檔集中潛藏的主題信息,目前廣泛應用于文本挖掘等領域。

        LDA采用詞袋(bag of words)方法,認為詞之間沒有順序關系。文檔是由詞構成的集合,文檔包含多個主題,文檔中每一個詞都由其中的一個主題生成。

        3.2 ASC-LDA

        通過第二節(jié)介紹我們可以知道影響用戶行為的關鍵因素: 用戶影響、結構影響和內(nèi)容影響。通過擴展LDA模型,利用這三個因素對用戶行為進行建模。

        用戶影響(A): 由第二節(jié)的統(tǒng)計數(shù)據(jù)可知,用戶可能只轉發(fā)幾個特定用戶的微博。因此,對于用戶u,我們假設他轉發(fā)每個關注用戶pfei的微博的概率fei服從二項分布,這個二項分布以Beta分布為先驗分布。

        結構影響(S): 一些用戶可能比較喜歡轉發(fā)那些已經(jīng)被很多用戶轉發(fā)過的微博,即熱度高的微博,另一些用戶則相反。因此,我們假設每個用戶u對應一個轉發(fā)熱度分布。我們首先對每條微博的轉發(fā)次數(shù)做歸一化處理,使其取值范圍為0到1之間,歸一化后的值用xd表示。最后使用Beta分布對其進行模擬。

        內(nèi)容影響(C): 內(nèi)容影響通過隱含的主題進行建模。我們使用基于LDA的主題模型來完成這一任務。通過使用Gibbs采樣估計隱含變量,微博d的生成概率如式(1)所示。

        (1)

        式(1)中,wd是微博d中的詞,Nd是微博d中的詞數(shù),wdn表示微博d中的第n個詞,zdn表示微博d中第n個詞的主題,ld是微博d的轉發(fā)標記,f(wdn|φzdn,ld)是在當前轉發(fā)標記ld下生成詞wdn的似然函數(shù)。符號說明見表2。

        表2 模型中主要參數(shù)說明

        這里使用D表示用戶u的瀏覽歷史微博。D中第d條微博包含一個詞序列wd=wdnNdn=1,其中Nd是第d條微博的字數(shù),wdn是字典W中的一個字。Ad表示第d條微博的作者。給定一個用戶,一條微博以及它的作者,那么任務就是判斷該用戶是否會轉發(fā)這條微博。

        模型的生成過程如圖5:

        (1) 用戶關注的每個用戶a∈A

        —生成ψa~Beta(λ)

        (2) 對于每一個主題z∈K,和轉發(fā)標記l,根據(jù)φz,l~Dir(δl),得到主題詞分布φz,l。

        (3) 對于每一條微博d∈D

        a) 生成轉發(fā)標記ld~Binomial(ψa)

        b) 生成正則化后的轉發(fā)次數(shù)xd~Beta(ηld)

        c) 根據(jù)θd~Dir(α),得到主題分布θ°d

        d) 微博中每一個詞n=1,...,Nd

        —根據(jù)分布zdn~Mult(θd),得到主題zdn

        —根據(jù)分布wdn~Mult(φzdn,ld),得到詞wdn

        圖5 ASC-LDA圖模型

        3.2.1 模型推斷

        我們使用Gibbs采樣學習模型的參數(shù),采樣過程分為對每個詞的主題z采樣和對微博的轉發(fā)標記l進行采樣。

        對z采樣: 微博中的每一詞wdn在轉發(fā)標記l下,分配主題zdn=k條件概率:

        (2)

        對l采樣: 當給定每個詞的主題z的情況下,對第d篇文檔的轉發(fā)標記利用式(3)進行采樣:

        p(ld=l|z,wd,l,xd)∝··

        (3)

        3.2.2 轉發(fā)預測

        給定一條用戶看到的未標記的微博d,首先通過迭代采樣,直到隱含變量穩(wěn)定后,計算得到該微博的主題分布,然后通過式(6)計算這條微博被用戶轉發(fā)的概率:

        (6)

        式(6)中p(wdn|wd)是詞wdn在微博d中的權重,權重值通過TD-IDF計算;p(zdn|wd,z,l)是轉發(fā)標記l時生成主題zdn的概率。

        4 實驗

        4.1 實驗設置

        在第二節(jié)中介紹了數(shù)據(jù)集的收集,通過恢復核心用戶的瀏覽歷史,我們可以模擬用戶的實際使用環(huán)境。每一個用戶我們將瀏覽歷史中的70%作為訓練集,剩下30%作為測試集,統(tǒng)計信息見表3。

        表3 實驗數(shù)據(jù)集統(tǒng)計信息

        實驗中使用精度(P)、召回率(R)和F1-score(F1)來評價模型效果。其中F1-score是精度和召回率的調(diào)和平均數(shù)。模型進行500次迭代采樣。在基于LDA的模型中,α設為50/K,β=0.1。其中K是主題個數(shù),模型中參數(shù)λ1和λ2均設為0.1,通過試驗,我們將所有基于LDA的模型的主題個數(shù)設為20。

        實驗中將我們的方法與以下幾個baseline方法進行比較:

        (1)Na?veBayes: 轉發(fā)預測任務被看作一個二分類問題,每條微博轉發(fā)與不轉發(fā)標記代表兩類,通過樸素貝葉斯模型計算給定一條微博各個標記的后驗概率。

        (2)SVMrank: 我們實現(xiàn)Luo等人[13]提出的方法,該方法利用微博內(nèi)容,粉絲的身份信息、關注時間以及興趣等特征來完成這一任務。

        (3)SC-LDA: 同樣基于LDA模型實現(xiàn),在完整模型的基礎上去除作者信息的影響進行訓練。在得到每篇微博的主題分布后,對于用戶u,給定他看到的一篇微博,轉發(fā)標記打分計算如式(7)所示。

        (7)

        ?AC-LDA: 該方法忽略結構信息的影響,轉發(fā)標記打分計算如式(8)所示。

        (8)

        4.2 實驗結果

        我們將從兩個方面對提出的方法進行評估分析:

        1)與其他當前最好方法進行比較。

        2)評估實驗參數(shù)對實驗結果的影響。

        表4展示了各種方法的實驗結果。通過結果可以看出: 1)Na?ve Bayes實驗效果最差。2)我們提出的方法效果明顯好于其他方法。3)各個特征都對實驗結果有影響。

        表4 實驗對比結果

        其中C-LDA是只考慮文本特征的實驗結果,但也比Na?ve Bayes和SVM方法要好。將它分別與AC-LDA和SC-LDA比較可以發(fā)現(xiàn),作者信息有助于提高精確度,而結構信息對召回率有較大影響。比較C-LDA和ASC-LDA的F1-score可以發(fā)現(xiàn): 在作者信息和結構信息同時作用下實驗結果提高大概35%,效果明顯。

        圖6中將用戶根據(jù)微博數(shù)分為五組,分析了微博數(shù)對實驗的影響。由圖6可見,用戶發(fā)送的微博越多實驗結果越好。同時通過圖1可知,微博數(shù)量超過1 000條的用戶占用戶總數(shù)的38.5%,所以這部分用戶對實驗結果有較大影響。

        圖6 用戶微博數(shù)對實驗結果的影響

        模型中有一些超參數(shù),其中主題數(shù)是最重要的參數(shù)之一。表5中展示了主題數(shù)目對實驗效果的影響,從表中可以看出,在主題數(shù)目為20時效果最好。

        表5 主題數(shù)目對ASC-LDA方法實驗結果的影響

        5 總結

        本文首先從真實的社交網(wǎng)絡中收集了大量的微博數(shù)據(jù)以及網(wǎng)絡信息,重構了用戶的實際使用環(huán)境。然后通過大量的數(shù)據(jù)觀察和分析,發(fā)現(xiàn)了影響用戶轉發(fā)行為的重要因素: 作者信息、用戶興趣和微博熱度?;诖?,我們提出一個新穎的預測微博轉發(fā)行為的方法ASC-LDA。該方法基于LDA模型,同時利用結構信息、作者信息和文本信息對用戶行為進行建模。實驗表明,結構信息、作者信息和文本信息都對實驗結果有影響。我們的方法效果優(yōu)于當前最好的方法, F值比其他Baseline方法高出35%—45%。

        [1] State of the Media: The Social Media Report 2012[DB/OL].http://www.nielsen.com/us/en/reports/2012/state-of-the-media-the-social-media-report-2012.html,2012.

        [2] Rodrigues T, Benevenuto F, Cha M,et al. On word-of-mouth based discovery of the web[C]//Proceedings of SIGCOMM ′11, 2011.

        [3] Castellanos M, Dayal U, Hsu M, et al. Lci: a social channel analysis platform for live customer intelligence[C]//Proceedings of SIGMOD ′11, 2011.

        [4] Homan D L, Fodor M. Can you measure the roi of your social media marketing[C]//Proceedings of MIT Sloan Management Review, 2010:41-49.

        [5] Chang J, Kim H J. Twitter search methods using retweet information[C]//Proceedings of BUSTECH ′12, 2012:67-71.

        [6] Gupta M, Gao J, Zhai C, et al. Predicting future popularity trend of events in microblogging platforms[C]//Proceedings of the American Society for Information Science and Technology, 2012:1-10.

        [7] Hong L, Dan O, Davison B D. Predicting popular messages in twitter[C]//Proceedings of WWW ′11, 2011.

        [8] Liu L, Tang J, Han J, Jiang M, et al. Mining topic-level influence in heterogeneous networks[C]//Proceedings of CIKM ′10, 2010.

        [9] Zhang J, Liu B, Tang J, et al. Social influence locality for modeling retweeting behaviors[C]//Proceedings of IJCAI′13, 2013.

        [10] Naveed N, Gottron T, Kunegis J, et al. Bad news travel fast: A content-based analysis of interestingness on twitter[C]//Proceedings of Web Science Conf., 2011.

        [11] Zaman T R, Herbrich R, Van Gael J, et al. Predicting information spreading in twitter[C]//Proceedings of Workshop on Computational Social Science and the Wisdom of Crowds, NIPS, 2010.

        [12] Petrovic S, Osborne M, Lavrenko V. Rt to win! predicting message propagation in twitter[C]//Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media,2011.

        [13] Luo Z, Osborne M, Tang J, et al. Who will retweet me?: Finding retweeters in twitter[C]//Proceedings of SIGIR ′13, 2013.

        [14] Suh B, Hong L, Pirolli P, et al. Want to be retweeted? large scale analytics on factors impacting retweet in twitter network[C]//Proceedings of SocialCom′10, 2010.

        [15] Blei D M, Ng A Y and Jordan M L. Latent Dirichlet Allocation[J].Journal of Machine Learning Research 2003: 993-1022.

        [16] Feng W, Wang J. Retweet or not?: personalized tweet re-ranking[C]//Proceedings of the sixth ACM international conference on Web search and data mining, 2013:577-586.

        [17] Luo Z, Wang Y, Wu X. Predicting retweeting behavior based on autoregressive moving average model[C]//Proceedings of Web Information Systems Engineering-WISE 2012, 2012:777-782.

        [18] Peng H K, Zhu J, Piao D, et al. Retweet modeling using conditional random fields[C]//Proceedings of ICDMW ′11, 2011.

        [19] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C]//Proceedings of HICSS ′10, 2010.

        [20] Nagarajan M, Purohit H, Sheth A P. A qualitative examination of topical tweet and retweet practices[C]//Proceedings of the ICWSM, 2010.

        [21] Letierce J, Passant A, Decker S, et al. Understanding how twitter is used to spread scientific messages[C]//Proceedings of Web Science Conference, 2010.

        [22] Yu L L, Asur S, Huberman B A. Artificial inflation: The real story of trends and trend-setters in sina weibo[C]//Proceedings of Social Com-PASSAT ′12, 2012.

        E-mail: qi_zhang@fudan.edu.cn

        猜你喜歡
        社交文本用戶
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        社交距離
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        你回避社交,真不是因為內(nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        小12箩利洗澡无码视频网站| 精品国产三级a∨在线欧美| 内射合集对白在线| 国产一区二区不卡老阿姨| 国产69口爆吞精在线视频喝尿| 亚洲国产人成自精在线尤物| 丝袜美腿在线观看一区| 国产精品亚洲欧美大片在线看| 爽妇网国产精品| 男人的av天堂狠狠操| 国产欧美日本亚洲精品一4区| 国产三级c片在线观看| 米奇欧美777四色影视在线| 永久免费av无码入口国语片| 性一交一乱一伦| 国产AV国片精品有毛| 丰满人妻被猛烈进入中文字幕护士 | 国产亚洲精品色婷婷97久久久| 亚洲人成色7777在线观看不卡 | 乱子轮熟睡1区| 国产午夜福利小视频合集| 亚洲精品成人网线在线播放va| 亚洲av有码精品天堂| 免费观看一区二区三区视频| 日本黑人亚洲一区二区 | 最新国产精品久久精品| 一级免费毛片| 亚洲第一页综合av免费在线观看| 亚洲白嫩少妇在线喷水| 久久久精品国产亚洲av网深田| 免费无遮挡禁18污污网站| 五月婷婷激情综合| 亚洲高清在线观看免费视频| 蜜桃臀av一区二区三区| 熟妇激情内射com| 精品国产免费Av无码久久久| 国产精品久久国产精麻豆| 美女内射毛片在线看免费人动物| 少妇厨房愉情理伦片bd在线观看| 扒下语文老师的丝袜美腿| 国产精品自线一区二区三区|