亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)的微博轉(zhuǎn)發(fā)行為預(yù)測(cè)①

        2019-08-22 02:31:06穆圣坤張路橋滕彩峰
        關(guān)鍵詞:博文神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)

        穆圣坤, 張路橋, 滕彩峰

        (成都信息工程大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,成都 610225)

        近年來,隨著微博活躍用戶持續(xù)穩(wěn)步增長(zhǎng),微博逐漸成為社交網(wǎng)絡(luò)中信息傳播及信息收集的重要平臺(tái),截至2017年9月,微博月活躍人數(shù)共3.76億,較去年同期增長(zhǎng)27%,日活躍用戶達(dá)到1.65億,較去年同期增長(zhǎng)25%. 如此龐大的用戶規(guī)模使得微博已經(jīng)成為社交網(wǎng)絡(luò)中重要的媒體之一.

        微博轉(zhuǎn)發(fā)是微博信息傳播的重要途徑,是微博信息傳播[1,2]、微博營銷、輿情監(jiān)控[3]等問題的研究關(guān)鍵,研究微博轉(zhuǎn)發(fā)問題可以更好地跟蹤微博信息的傳播路徑,更好地研究微博傳播的特點(diǎn),方便進(jìn)行深層次的研究; 同時(shí)還可以通過挖掘用戶粉絲的興趣特點(diǎn),進(jìn)行粉絲分類,從而達(dá)到微博營銷、微博推薦[4,5]等目的. 因此,研究微博轉(zhuǎn)發(fā)問題有著重要的意義.

        1 相關(guān)工作

        再對(duì)微博轉(zhuǎn)發(fā)的研究上,主要的研究方向有影響微博轉(zhuǎn)發(fā)因素的分析[6,7]和微博轉(zhuǎn)發(fā)預(yù)測(cè)[8-10]. 在影響微博轉(zhuǎn)發(fā)因素的分析方面,Rudat[11]等研究了用戶引導(dǎo)、微博主題以及信息量3個(gè)方面因素對(duì)微博轉(zhuǎn)發(fā)行為的影響. 徐曉璇[12]主要是根據(jù)信息的傳播特點(diǎn)、微博群體轉(zhuǎn)發(fā)規(guī)律、微博用戶信息轉(zhuǎn)發(fā)行為的心理三方面因素,分別從傳播學(xué)、信息學(xué)、社會(huì)學(xué)的角度對(duì)影響用戶轉(zhuǎn)發(fā)微博的因素進(jìn)行了研究. 賴勝強(qiáng)[13]等人利用多元回歸法在微博信息內(nèi)容特性、傳播者特性以及受眾特性這三個(gè)方面對(duì)影響用戶轉(zhuǎn)發(fā)微博的因素進(jìn)行了研究. 吳凱[14]利用興趣相似程度、社會(huì)關(guān)系影響、文本特征與用戶屬性影響、用戶受激活次數(shù)的影響四種指標(biāo)構(gòu)建了一種行為預(yù)測(cè)的信息傳播模型. 文獻(xiàn)[15]在微博數(shù)據(jù)中發(fā)現(xiàn)影響用戶是否會(huì)轉(zhuǎn)發(fā)的一個(gè)重要因素是用戶的社會(huì)關(guān)系結(jié)構(gòu),并利用邏輯回歸構(gòu)建轉(zhuǎn)發(fā)預(yù)測(cè)模型. 在微博預(yù)測(cè)方面,S Petrovic[16]提出了基于passive-aggressive算法的人工實(shí)驗(yàn)方法來預(yù)測(cè)微博.Suh[17]等人首先研究了對(duì)微博轉(zhuǎn)發(fā)率影響較大的因素,然后又提出了預(yù)測(cè)轉(zhuǎn)發(fā)率的廣義線性模型. 鄧青[18]從微博文本內(nèi)容和發(fā)帖人兩方面對(duì)影響微博轉(zhuǎn)發(fā)的因素進(jìn)行了分析研究,并利用BP神經(jīng)網(wǎng)絡(luò)對(duì)突發(fā)事件下的微博轉(zhuǎn)發(fā)量進(jìn)行了預(yù)測(cè). 張效尉[19]等借助集成學(xué)習(xí)的思想提出了一種的預(yù)測(cè)微博用戶轉(zhuǎn)發(fā)行為的算法.Nesi P[20]等從Twitter數(shù)據(jù)中提取出若干特征,然后利用遞歸劃分過程構(gòu)建了用于預(yù)測(cè)的分類樹. 李志清[21]通過LDA主題生成模型提取并構(gòu)建了微博的主題特征,同時(shí)再與微博特征和用戶特征相結(jié)合,最終提出了基于主題特征的微博預(yù)測(cè)模型. 李英樂[22]等利用用戶影響力、興趣相似度、用戶活躍度、微博文本內(nèi)容的重要性和用戶親密程度五類特征通過支持向量機(jī)算法構(gòu)建模型進(jìn)行轉(zhuǎn)發(fā)行為預(yù)測(cè).

        綜上所述,以往模型存在的問題是:(1) 沒有考慮到網(wǎng)絡(luò)的飛速發(fā)展、微博營銷策略的改變對(duì)微博轉(zhuǎn)發(fā)的影響. (2) 在通過用戶歷史微博來預(yù)測(cè)當(dāng)前微博轉(zhuǎn)發(fā)量的研究上,沒有考慮到歷史微博和預(yù)測(cè)微博的文本相關(guān)性. (3) 在興趣相似度的問題上,沒有通過微博文本和粉絲興趣的相似度來預(yù)測(cè)單個(gè)粉絲是否會(huì)轉(zhuǎn)發(fā). 這樣必然會(huì)導(dǎo)致最終的結(jié)果不準(zhǔn)確. 基于以上的分析,本文結(jié)合LSTM[23,24]和DNN神經(jīng)網(wǎng)絡(luò)[25]的優(yōu)勢(shì),提出一種基于LSTM的模型來預(yù)測(cè)用戶微博的轉(zhuǎn)發(fā)量級(jí).

        1.1 模型架構(gòu)

        隨著微博用戶數(shù)量和微博平均瀏覽時(shí)長(zhǎng)的不斷增長(zhǎng),微博用戶營銷策略的不斷變化,微博轉(zhuǎn)發(fā)量也會(huì)呈現(xiàn)不同的變化趨勢(shì),故本文定義這種變化趨勢(shì)為轉(zhuǎn)發(fā)趨勢(shì)度. 當(dāng)然微博主題的不同、用戶知名度變化、微博用戶營銷策略的不同都對(duì)應(yīng)這不同的轉(zhuǎn)發(fā)趨勢(shì)度,轉(zhuǎn)發(fā)趨勢(shì)度越高的用戶其發(fā)布微博后,該微博被轉(zhuǎn)發(fā)幾率越大,傳播的范圍和影響也會(huì)變大,所以轉(zhuǎn)發(fā)趨勢(shì)度也是影響微博轉(zhuǎn)發(fā)的關(guān)鍵因素之一. 此外,用戶轉(zhuǎn)發(fā)微博主要有兩類原因:① 內(nèi)容:即用戶對(duì)微博的內(nèi)容感興趣,② 用戶本身:用戶對(duì)微博發(fā)布者感興趣.

        基于以上三點(diǎn),本文通過微博特征、用戶特征、微博文本與粉絲興趣的相似度、轉(zhuǎn)發(fā)趨勢(shì)度與LSTM和DNN神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)相結(jié)合來建立預(yù)測(cè)模型. 模型架構(gòu)如圖1.

        2 數(shù)據(jù)采集及特征選擇

        2.1 數(shù)據(jù)采集

        由于微博API的限制,本文采用網(wǎng)絡(luò)爬蟲獲取新浪微博數(shù)據(jù). 詳細(xì)數(shù)據(jù)如表1.

        2.2 特征選擇

        本文選取用戶特征和微博特征共計(jì)17種. 詳見表2.

        以“汽車之家”微博為例,其中活躍粉絲數(shù)是在“汽車之家”一年之內(nèi)發(fā)布的所有微博中存在評(píng)論或轉(zhuǎn)發(fā)行為的用戶. 平均微博轉(zhuǎn)發(fā)數(shù)是用戶所有微博的轉(zhuǎn)發(fā)數(shù)之和與發(fā)布微博總數(shù)量的比值.

        微博文本特征詞向量:將微博文本提取出來,利用jieba分詞獲取文本的特征詞向量.

        粉絲興趣特征詞向量:獲取每個(gè)粉絲近期的微博文本,同樣通過分詞得到該粉絲的特征詞向量.

        圖1 模型框架圖

        利用微博文本特征詞向量和粉絲的特征詞向量構(gòu)建的語料庫,然后通過TF-IDF分別建立微博文本特征向量和粉絲微博特征向量

        微博文本興趣相似度:計(jì)算微博文本特征向量和粉絲微博特征向量的余弦相似度.

        如圖2所示,是用戶微博文本示例.

        表1 數(shù)據(jù)表

        表2 特征表

        圖2 預(yù)測(cè)微博文本示例

        圖3是不同小時(shí)發(fā)布微博數(shù)累計(jì)分布曲線,可知用戶在晚上22時(shí)至8時(shí),活躍次數(shù)較少,發(fā)布微博的數(shù)量也相對(duì)較低. 圖4為微博VIP等級(jí)與用戶微博轉(zhuǎn)發(fā)數(shù)的分布圖,微博針對(duì)VIP級(jí)別越高的會(huì)員,會(huì)有更多的特權(quán),其微博更易擴(kuò)散,轉(zhuǎn)發(fā)量也會(huì)多一些. 此外,從前人的研究中也可以看出微博包含圖片數(shù)、是否有視頻、是否有外部鏈接、是否包含主題符都對(duì)微博轉(zhuǎn)發(fā)有著一定的影響.

        圖3 不同小時(shí)發(fā)布微博數(shù)累計(jì)分布曲線

        圖4 微博用戶VIP等級(jí)與平均轉(zhuǎn)發(fā)量分布圖

        3 轉(zhuǎn)發(fā)行為預(yù)測(cè)

        3.1 SIM-LSTM神經(jīng)網(wǎng)絡(luò)模型:構(gòu)建轉(zhuǎn)發(fā)趨勢(shì)度

        目的:預(yù)測(cè)出某條微博的轉(zhuǎn)發(fā)趨勢(shì)度.

        輸入:活躍粉絲數(shù)、關(guān)注用戶數(shù)、微博數(shù)、是否為認(rèn)證用戶、微博等級(jí)、會(huì)員等級(jí)、平均微博轉(zhuǎn)發(fā)數(shù)、微博發(fā)布時(shí)間、圖片的個(gè)數(shù)、是否有視頻、是否有外部鏈接、是否有包含主題符:#、平均微博點(diǎn)贊數(shù)、平均微博評(píng)論數(shù)、微博文本特征向量、預(yù)測(cè)微博文本特征向量.

        輸出:微博轉(zhuǎn)發(fā)趨勢(shì)度對(duì)應(yīng)該條微博轉(zhuǎn)發(fā)量,根據(jù)本文所使用的數(shù)據(jù)集,將微博最終轉(zhuǎn)發(fā)量對(duì)應(yīng)為10個(gè)數(shù)量級(jí)(0-9). 如表3所示.

        相較于傳統(tǒng)的LSTM,本文新加入了一個(gè)控制門sim. sim門功能:前一節(jié)點(diǎn)的細(xì)胞狀態(tài) C(t-1)和輸出的隱藏層 h(t-1)進(jìn)入當(dāng)前節(jié)點(diǎn)時(shí)會(huì)先進(jìn)入sim門,sim門是微博相似度的余弦函數(shù),sim值大于0時(shí):進(jìn)入遺忘門、輸入門依次更新細(xì)胞狀態(tài)最后得到 C(t)和 h(t); 當(dāng)sim值小于0時(shí):細(xì)胞狀態(tài)直接輸出上一時(shí)刻的細(xì)胞狀態(tài)和上一時(shí)刻的隱藏層狀態(tài)即 C(t)=C(t-1),h(t)=h(t-1).

        表3 微博轉(zhuǎn)發(fā)趨勢(shì)與微博轉(zhuǎn)發(fā)數(shù)對(duì)照表

        SIM-LSTM網(wǎng)絡(luò)模型可以根據(jù)歷史微博文本內(nèi)容和預(yù)測(cè)微博文本內(nèi)容的相似度來選取相關(guān)性大的微博作為訓(xùn)練集,使得訓(xùn)練數(shù)據(jù)之間的關(guān)系更加緊密,故采用此結(jié)構(gòu)可以有效的使弱相關(guān)的訓(xùn)練數(shù)據(jù)權(quán)重變小,從而得到更加準(zhǔn)確的預(yù)測(cè)效果.

        改進(jìn)LSTM模型圖如圖5所示.

        圖5 SIM-LSTM結(jié)構(gòu)圖

        圖5中①號(hào)框中是sim判斷門; 是改進(jìn)的判斷控制函數(shù)sim:

        當(dāng)判斷的sim值大于0時(shí):按照原來LSTM依次更新細(xì)胞狀態(tài); 當(dāng)sim值小于0時(shí):細(xì)胞狀態(tài)直接輸出上一時(shí)刻的細(xì)胞狀態(tài)和上一時(shí)刻的隱藏層狀態(tài).

        圖5中②號(hào)框中是遺忘門:輸入是前一時(shí)刻的隱藏狀態(tài) h(t-1)和本序列數(shù)據(jù) X(t),此處通過的激活函數(shù)是本文提出的Sigmoid函數(shù),得到遺忘門輸出:其中,Wf、Uf、bf是線性關(guān)系的系數(shù)和偏倚,X(t)是本文上面提到的16種特征.

        圖5中③號(hào)框中是輸入門:它的輸入是包括兩部分是i(t)和a(t):

        同理Wi、Ui、bi、Wa、Ua、ba是線性關(guān)系的系數(shù)和偏倚.

        圖5中④號(hào)框中是輸出門:

        圖5中⑤號(hào)框中是細(xì)胞狀態(tài)更新:細(xì)胞狀態(tài)更新C(t)有兩部分組成:遺忘門輸出f(t)和C(t-1)的乘積、輸入門i(t)和a(t)的乘積.

        其中,·是Hadamard積.

        4 建模分析與結(jié)果

        4.1 SIM-LSTM預(yù)測(cè)模型分析

        SIM-LSTM模型中sim門是通過粉絲興趣和微博文本的相似度來對(duì)輸入數(shù)據(jù)進(jìn)行權(quán)重控制,使相關(guān)性小的微博數(shù)據(jù)權(quán)重降低甚至為0,所以我們訓(xùn)練集中的數(shù)據(jù)會(huì)與預(yù)測(cè)微博相關(guān)性更大,結(jié)果必然會(huì)更好. 為此,我們將SIM-LSTM模型和傳統(tǒng)的LSTM模型進(jìn)行對(duì)比試驗(yàn),分別將各自的轉(zhuǎn)發(fā)趨勢(shì)度作為特征訓(xùn)練最后的神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果表明SIM-LSTM的提出是有效的.

        圖6上圖是SIM-LSTM結(jié)果混淆矩陣,下圖是LSTM的混淆矩陣,我們可以看出,SIM-LSTM得到結(jié)果會(huì)更好,同時(shí)我們計(jì)算得SIM-LSTM的準(zhǔn)確率為89.55%,LSTM的準(zhǔn)確率為75.53%.

        4.2 深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)轉(zhuǎn)發(fā)量級(jí)

        目的:預(yù)測(cè)微博的轉(zhuǎn)發(fā)量級(jí).

        本文是在用戶活躍粉絲集中預(yù)測(cè)單個(gè)粉絲是否會(huì)轉(zhuǎn)發(fā)微博,最后統(tǒng)計(jì)預(yù)測(cè)會(huì)轉(zhuǎn)發(fā)微博的粉絲數(shù)來得到微博的轉(zhuǎn)發(fā)量.

        因?yàn)橐A(yù)測(cè)粉絲是否會(huì)轉(zhuǎn)發(fā),所以輸入包含用戶、微博、粉絲3類特征再加興趣相似度和轉(zhuǎn)發(fā)趨勢(shì)度共計(jì)20種.

        用戶特征有:活躍粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、是否認(rèn)證、微博等級(jí)、VIP等級(jí)、平均轉(zhuǎn)發(fā)量、平均點(diǎn)贊量、平均評(píng)論量; 微博特征有圖片數(shù)、是否有視頻、外部鏈接、主題符、發(fā)布時(shí)間; 粉絲特征有微博數(shù)、關(guān)注數(shù)、VIP等級(jí)、是否認(rèn)證.

        輸出:0 和 1,0代表該粉絲不會(huì)轉(zhuǎn)發(fā),1代表該粉絲會(huì)轉(zhuǎn)發(fā).

        為了深入探究不同模型對(duì)最后轉(zhuǎn)發(fā)預(yù)測(cè)結(jié)果的影響,我們使用LR、SVM、BP、RF算法進(jìn)行建模預(yù)測(cè).

        此外我們?cè)趯?shí)驗(yàn)后,又利用隨機(jī)森林預(yù)測(cè)模型給出的特征權(quán)重(如圖7(a)、(b)和圖8所示為訓(xùn)練特征中微博類特征、粉絲類特征、微博用戶類特征的權(quán)重條形圖)進(jìn)行特征篩選,剔除權(quán)重在0.5以下的特征,然后再次通過DNN進(jìn)行建模預(yù)測(cè),得到了更高的準(zhǔn)確率.

        圖6 SIM-LSTM和LSTM預(yù)測(cè)結(jié)果混淆矩陣

        DNN的一些關(guān)鍵參數(shù)如下:

        損失函數(shù):對(duì)數(shù)似然損失函數(shù).

        激活函數(shù):Softmax函數(shù).

        參數(shù)設(shè)置:本文最終采用隱藏層為8層,節(jié)點(diǎn)數(shù)目為32的神經(jīng)網(wǎng)絡(luò)模型. 利用指數(shù)衰減法來動(dòng)態(tài)的設(shè)置學(xué)習(xí)率,設(shè)置初始學(xué)習(xí)率為0.1,衰減系數(shù)為0.95. 滑動(dòng)平均模型的衰減率為:0.999,dropout率為0.5.

        圖7 微博類、粉絲類特征的權(quán)重條形圖

        圖8 微博用戶類特征的權(quán)重條形圖

        在DNN模型訓(xùn)練中,我們將圖9是微博興趣相似度與轉(zhuǎn)發(fā)率的關(guān)系圖,可以看出,相似程度高的粉絲轉(zhuǎn)發(fā)用戶微博的可能性更高.

        預(yù)測(cè)用戶轉(zhuǎn)發(fā)量級(jí):為了獲得理想的預(yù)測(cè)結(jié)果,本文選擇了多種預(yù)測(cè)模型并通過交叉驗(yàn)證來對(duì)轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè),通過準(zhǔn)確率、召回率、F1值來對(duì)結(jié)果進(jìn)行度量,準(zhǔn)確率用于檢驗(yàn)?zāi)P偷臏?zhǔn)確性,召回率用于檢驗(yàn)?zāi)P偷耐陚湫?,?zhǔn)確率和召回率相互制約,因此用F1值作為模型效果的綜合評(píng)價(jià)指標(biāo). 經(jīng)實(shí)驗(yàn)得:本文提出的方法較其他的方法而言有著近5%的提高,提出的轉(zhuǎn)發(fā)趨勢(shì)度和微博興趣相似度對(duì)微博轉(zhuǎn)發(fā)的研究也有著重要的影響. 如表4所示.

        圖9 微博興趣相似度與轉(zhuǎn)發(fā)率的關(guān)系圖

        表4 微博轉(zhuǎn)發(fā)量級(jí)預(yù)測(cè)結(jié)果

        5 結(jié)語

        本文主要是針對(duì)社交網(wǎng)絡(luò)平臺(tái)(以微博為例)用戶微博的轉(zhuǎn)發(fā)量級(jí)的預(yù)測(cè),社交平臺(tái)的消息傳播是通過千千萬萬個(gè)用戶轉(zhuǎn)發(fā)而實(shí)現(xiàn)的,本文首先考慮到近幾年我國網(wǎng)絡(luò)發(fā)展迅速,人們的生活水平不斷提高,上網(wǎng)瀏覽微博信息的時(shí)長(zhǎng)不斷增加,使得微博的轉(zhuǎn)發(fā)量呈遞增趨勢(shì),所以提出微博轉(zhuǎn)發(fā)趨勢(shì)度,同時(shí)又針對(duì)性的利用用戶活躍粉絲興趣與用戶微博文本內(nèi)容的相似度來把微博轉(zhuǎn)發(fā)量的預(yù)測(cè)針對(duì)到每一個(gè)粉絲的身上. 經(jīng)試驗(yàn)分析,并取得較好的結(jié)果,準(zhǔn)確率達(dá)85.6%. 此外,本文只是利用微博的特征來對(duì)微博的轉(zhuǎn)發(fā)量級(jí)進(jìn)行預(yù)測(cè),如果可以將微博發(fā)布后的一天內(nèi)的轉(zhuǎn)發(fā)數(shù)據(jù)利用起來,再進(jìn)行微博最終轉(zhuǎn)發(fā)量的預(yù)測(cè),那么應(yīng)該會(huì)有更大的提高. 這也為微博預(yù)測(cè)提供一種新的思路.

        猜你喜歡
        博文神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)
        無可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        第一次掙錢
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        誰和誰好
        不必預(yù)測(cè)未來,只需把握現(xiàn)在
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        国产一区内射最近更新| 中文字幕视频一区二区 | 丰满的少妇av一区二区三区| 亚洲国产精品无码中文字| 色一乱一伦一图一区二区精品| 国产成人亚洲欧美三区综合| 男女搞基视频免费网站| 人妻丰满熟av无码区hd| 精品久久亚洲中文无码| 国产91在线|亚洲| 中文字幕中文字幕777| 中文字幕网伦射乱中文| 精品一区二区三区在线观看视频| 成人国产乱对白在线观看| 日本a级黄片免费观看| 麻豆╳╳╳乱女另类| 国产nv精品你懂得| 久久精品人妻嫩草av蜜桃| 精品一区二区av天堂色偷偷| 亚洲伊人色欲综合网| 亚洲an日韩专区在线| 精品人妻午夜中文字幕av四季| 亚洲 日韩 激情 无码 中出| 久久精品一区二区三区av| 精品国产1区2区3区AV| 精华国产一区二区三区| 精品伊人久久大香线蕉综合| 在线视频你懂的国产福利| 亚洲国产黄色在线观看| 内射白浆一区二区在线观看| 中文字幕人妻丝袜乱一区三区 | 99在线无码精品秘 人口| 偷拍综合在线视频二区日韩| 最爽无遮挡行房视频| 日本在线视频网站www色下载| 白白色青青草视频免费观看| 午夜精品久久久久久久久 | 久久久久久中文字幕有精品| 九九久久精品一区二区三区av| 胸大美女又黄的网站| 射精情感曰妓女色视频|