亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost 的微博流行度預測算法

        2022-04-14 06:33:14任敏捷靳國慶王曉雯陳睿東袁運新聶為之劉安安
        數(shù)據(jù)采集與處理 2022年2期
        關(guān)鍵詞:博文檔位分類

        任敏捷,靳國慶,王曉雯,陳睿東,袁運新,聶為之,劉安安

        (1.人民網(wǎng)傳播內(nèi)容認知國家重點實驗室,北京 100733;2.天津大學電氣自動化與信息工程學院,天津 300072)

        引言

        隨著互聯(lián)網(wǎng)的普及和媒體融合建設(shè)的推進,主流社交媒體的流行度預測是全媒體時代下備受矚目的研究課題[1],可以廣泛應用于輿情監(jiān)測和數(shù)據(jù)話語權(quán)爭奪的領(lǐng)域中,具有相當可觀的現(xiàn)實意義。在我國,微博是一個影響力較廣的主流社交媒體,對微博流行度預測問題進行研究有助于計算信息未來的熱度、發(fā)現(xiàn)熱點話題和提取信息傳播的規(guī)律,進而廣泛應用于信息檢索、輿情研判和企業(yè)營銷等領(lǐng)域[2]。

        流行度預測指的是對由用戶發(fā)布的信息未來所獲得的關(guān)注程度進行預測[3]。而流行度的定義往往取決于社交媒體的平臺,不同的網(wǎng)絡(luò)平臺有不同的數(shù)值指標度量。當前許多研究僅使用單一評價指標,例如,Pinto 等[4]將流行度定義為YouTube 上在線視頻的瀏覽數(shù),提出通過訓練多元線性模型(Multivariate linear model,ML Model)和多元徑向基模型(Multivariate radial basis functions model,MRBF Model)來預測視頻的未來指定時刻的瀏覽數(shù);孔慶超等[5]基于動態(tài)演化的論壇的討論帖展開流行度預測,認為相較于帖子的瀏覽數(shù),將流行度的度量定義為討論帖的評論數(shù)更加能夠反映用戶的關(guān)注情況。Hong 等[6]將給定時刻Twitter 的轉(zhuǎn)發(fā)數(shù)作為Twitter 的流行度,Gao 等[7]同樣將轉(zhuǎn)發(fā)數(shù)作為Twitter 和微博的流行度度量,但這種度量沒有將微博的評論數(shù)和點贊數(shù)考慮在內(nèi),對受歡迎程度的指標范圍覆蓋不夠全面,因此,為了使流行度的評價指標更具有代表性和普遍性,本文同時將微博的轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)和三者之和定義為互動值來作為微博流行度度量的標準。

        目前社交媒體流行度預測的主流方法是基于特征的模型預測,即先進行有效特征的挖掘,再進行模型的構(gòu)造用以訓練學習,最后得到流行度的各項指標。有效特征的挖掘立足于社交媒體平臺信息特點的分析,Wu 等[8]在研究社交媒體流行度時針對Flickr 平臺進行了考察,認為Flickr 平臺上照片和帖子的時空信息對于最后流行度的影響十分重要。Mazloom 等[9]針對Instagram 上的帖子進行研究,發(fā)現(xiàn)其帖子的分類特征對流行度的準確預測大有益處。Vilares 等[10]在研究Twitter 上的信息時關(guān)注更多的是文本特征,流行度預測基于Twitter 信息的詞匯和句法處理。這些方法都立足于所研究社交媒體的特點,表明特征的提取依賴于社交媒體的特性分析。而關(guān)于微博流行度的特點,有研究表明微博信息的流行度呈現(xiàn)冪律分布[11]。這種現(xiàn)象的出現(xiàn)源于微博社會網(wǎng)絡(luò)中的信息過載導致的用戶注意力稀缺[12],即微博信息的流行度與用戶密不可分。張旸等[13]采用信息增益法分析多種發(fā)帖用戶特征的重要性,證實了用戶影響力之于帖子流行度的重要地位,Jiang 等[14]發(fā)現(xiàn)在影響微博信息流行度的重要因素包括該信息內(nèi)容對相關(guān)用戶的提及率??梢钥闯?,以上發(fā)現(xiàn)多基于單類影響因素重要性的分析,沒有綜合考慮多種影響因素,特征利用不夠全面,同時,不同社交媒體的特點具有獨特性,現(xiàn)有的基于其他社交媒體平臺的相關(guān)工作不能直接應用于微博的研究。

        針對上述問題,本文對微博這一社交媒體平臺進行分析,針對其特點提出和構(gòu)造了對應的特征,設(shè)計了多種流行度預測方案??紤]到XGBoost 可以有效地對所提特征進行聯(lián)合利用[15-16],本文著重提出了一種基于XGBoost 的微博流行度預測算法。所提出的算法能夠從多方面充分考慮與微博流行度密切相關(guān)的影響因素,將涉及的相關(guān)特征進行提取和融合。首先,基于對原始數(shù)據(jù)分析,分別從博文信息、話題信息和用戶信息3 方面提取特征。在博文特征中,重點構(gòu)造了博文內(nèi)容數(shù)值化特征和博文時間特征,并基于博文特征衍生出話題特征。在用戶特征中,將用戶的影響力具象化,同時從統(tǒng)計學的角度對用戶的檔位分布特征進行比例計算,作為新的用戶特征。本文算法采用了分類式框架,多類特征融合之后,提前對流行度的檔位進行劃分,使用XGBoost 作為分類模型對微博的流行度檔位進行預測,將流行度預測問題轉(zhuǎn)換為流行度分類問題。最后,對用戶特征進行再構(gòu)造,基于新的用戶特征,將微博的流行度進行分類輸出,得到需要的微博轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)和互動值。

        總而言之,本文的創(chuàng)新點可以歸納為以下3 個方面:

        (1)針對國內(nèi)社交媒體流行度預測工作匱乏的情況,對微博這一國內(nèi)主流社交媒體平臺的流行趨勢特點進行分析和建模,著重挖掘了發(fā)博用戶、發(fā)博時間、博文話題等信息與博文流行度的關(guān)聯(lián)并構(gòu)造了對應的多種特征。

        (2)基于提取和構(gòu)造的多種特征,設(shè)計了多種微博流行度預測方案,在實驗部分進行了性能比較。

        (3)著重提出了一種基于XGBoost 的微博流行度預測算法,該算法采用了分類式框架,綜合考慮了點贊數(shù)、評論數(shù)和轉(zhuǎn)發(fā)數(shù)3 個指標,將提取好的博文特征、話題特征和用戶特征融合起來,對流行度進行分檔預測,在微博流行度預測數(shù)據(jù)集上取得準確率高達85.69%的良好效果。

        1 相關(guān)技術(shù)

        1.1 特征提取和特征融合

        本文運用特征提?。‵eature extraction)和特征融合(Feature fusion)的思想。特征提取指的是對初始的某一模式的未處理數(shù)據(jù)進行變換,建立非冗余的能夠提供該模式有代表性信息的派生值,即特征,以便后續(xù)學習與泛化,特征提取被廣泛應用于模式識別和機器學習中,提取出特征的好壞與泛化能力密切相關(guān)[17]。

        特征融合,是指對同一模式抽取不同的特征矢量進行優(yōu)化組合[18]。根據(jù)融合時間的不同,特征融合又可分為兩大類,一類為前期融合(Early fusion),即在模型訓練前就將不同的特征融合,融合后的特征用于訓練和學習,經(jīng)典的特征融合方法有串聯(lián)拼接(Concat)和并行策略(Add)。另一類為后期融合(Late fusion),這一類在特征未完全融合之前就進行模型訓練,根據(jù)結(jié)果改進后多次訓練后融合。后期融合典型的方法有Single shot multibox detector(SSD)[19],Multi-scale CNN(MS-CNN)[20]和Feature pyramid network(FPN)[21]等?;谇捌谌诤显谏缃幻襟w領(lǐng)域流行度預測的良好表現(xiàn)[22],本文算法采用的是前期融合中的串聯(lián)拼接方法。

        1.2 機器學習模型的應用

        社交媒體的流行度預測還依賴于良好模型的構(gòu)建。極端梯度提升決策樹(eXtreme gradient boosting,XGBoost)是在梯度提升決策樹(Gradient boosting decision tree,GBDT)的基礎(chǔ)上將速度和效率發(fā)揮到極致的機器學習模型[15,23],其核心思想是根據(jù)樣本的特征,從零開始,每一次迭代都在現(xiàn)有基礎(chǔ)上增加一棵樹,即分類器,去擬合上一次迭代中預測值和真實值的殘差,訓練完成得到所有分類器的值相加,即為最終的預測結(jié)果。在整個迭代的過程中,需要定義一個目標函數(shù),使整個樹群的預測值盡可能靠近真實值,同時保障有較大的泛化能力。

        本文算法將采用在殘差學習中,表現(xiàn)比GBDT 更好的XGBoost[15-16]對微博信息的多模態(tài)特征進行訓練,在充分挖掘和構(gòu)造有效特征的基礎(chǔ)上,利用機器學習的模型提高算法的性能。

        1.3 深度神經(jīng)網(wǎng)絡(luò)原理

        在下文的對比實驗中,采用深度神經(jīng)網(wǎng)絡(luò)(Deep neural networks,DNN)[22]結(jié)構(gòu)設(shè)計了基于深度學習框架的流行度預測方法,與本文算法進行性能對比。

        基于感知機的擴展,DNN 可以被理解為含有多層隱藏層的神經(jīng)網(wǎng)絡(luò),其內(nèi)部可分為輸入層、隱藏層和輸出層3 類。見圖1,使用的DNN 網(wǎng)絡(luò)包含兩個隱藏層,最左邊一層是輸入層,中間兩層是隱藏層,分別為256 和128 維(此處分別用4 和2 個神經(jīng)元代替表達),最終輸出層為1 維的輸出。輸入層即為融合后的特征輸入。

        2 基于XGBoost 的微博流行度預測算法

        本文提出了一種基于XGBoost 的微博流行度預測算法(圖2)。在算法架構(gòu)中主要包括數(shù)據(jù)分析、特征的提取與融合以及XGBoost 訓練3 個模塊。

        圖2 基于XGBoost 的微博流行度預測算法架構(gòu)Fig.2 Framework of microblog popularity prediction algorithm based on XGBoost

        2.1 數(shù)據(jù)分析

        微博流行度預測數(shù)據(jù)集中的用戶肖像信息和微博信息分別見表1 和表2。對以上數(shù)據(jù)進行分析,選取影響流行度預測的關(guān)鍵因素匯總,見表3。從表1~3 可以看出,原始數(shù)據(jù)主要可分為博文信息和用戶肖像信息兩大類,博文信息有博文文字內(nèi)容和博文發(fā)布時間,用戶肖像信息包含用戶的全部微博數(shù)量、該用戶的關(guān)注數(shù)和粉絲數(shù)。這兩類數(shù)據(jù)信息與流行度預測密切相關(guān),都是微博流行度的重要影響因素[2]。但兩類數(shù)據(jù)包含的特征重要性各有差別,在此基礎(chǔ)上分別進行特征的提取與構(gòu)造是十分必要的。在進一步特征提取與構(gòu)造的過程中,本算法將有效特征分為3 類:博文特征、話題特征和用戶特征。

        表1 用戶肖像信息Table 1 User portrait information

        表2 微博信息Table 2 Microblog information

        表3 微博流行度預測相關(guān)的原始數(shù)據(jù)Table 3 Original data related to microblog popularity prediction

        2.2 特征提取與融合

        2.2.1 博文特征提取

        將原始的博文文字內(nèi)容和博文發(fā)布時間進一步分析可以提取和構(gòu)造出如表4 所示的博文特征。

        表4 博文特征Table 4 Blog features

        對于博文的文字內(nèi)容,關(guān)注到其包含著微博正文、標題和話題等重要內(nèi)容特征,且內(nèi)容結(jié)構(gòu)工整,格式較為統(tǒng)一。例如,標題一般由“【】”進行標注,話題存在于“##”之間,微博正文是剩余的文字內(nèi)容?;谝陨咸匦?,對原始的博文進行第一次數(shù)據(jù)清洗,得到了標題、話題和第一版微博正文。

        針對所得第一版微博正文,部分博文帶有特殊符號@和網(wǎng)址,分別表示關(guān)聯(lián)其他用戶和存在視頻鏈接?;谠摪l(fā)現(xiàn),對第一版微博正文進行第二次數(shù)據(jù)清洗,得到了最終的微博正文和是否有視頻及是否關(guān)聯(lián)其他用戶的布爾類型的附加特征,其中1 代表有,0 代表無。

        得到微博正文、標題和話題等文本化的內(nèi)容特征并不能完全滿足模型訓練的要求,在此基礎(chǔ)上進一步對其進行數(shù)值化的構(gòu)造,得到正文長度、標題長度和話題個數(shù)3 個新的數(shù)值化特征。

        對于博文的發(fā)布時間,基于一天中不同時刻社交媒體的流量存在高低峰差異,見圖3,橫軸為一天24 小時中不同的時段,縱軸表示數(shù)據(jù)集中所有博文在一天中該時段的平均或總互動值,可以看出不同時刻互動值相差較大,反映了流行度的時間敏感性,故重點關(guān)注博文的發(fā)布時刻,并從原始發(fā)布時間中提取出這個時間特征,認為其可以作為需要關(guān)注的有效博文特征。

        圖3 博文發(fā)布時段與互動值關(guān)系Fig.3 Relationship between publishing period and interactive value

        2.2.2 話題特征提取

        話題特征是從博文特征中的話題衍生出來的新的特征,主要反映某話題的影響力,即話題指數(shù)。

        表5 主要構(gòu)造了3 個話題特征:話題涉及的微博數(shù)、話題的總互動值和話題平均互動值。其中互動值表示為微博的轉(zhuǎn)贊評之和,總互動值是話題涉及微博的所有轉(zhuǎn)贊評之和,而平均互動值是話題涉及微博的單條微博的平均轉(zhuǎn)贊評之和。一般認為,話題指數(shù)越高,該話題的影響力越大。

        表5 話題特征Table 5 Topic features

        2.2.3 用戶特征提取

        如表4 所示,用戶特征是從用戶肖像信息中提取和構(gòu)造得來。原始的用戶肖像特征如用戶全部微博數(shù)量、關(guān)注數(shù)和粉絲數(shù)可以大致反映用戶的影響力,但還不夠細致和全面。

        在此基礎(chǔ)上,對用戶的影響力進一步具象化,主要反映在用戶的每條微博的平均轉(zhuǎn)發(fā)數(shù)(Avg_Repost)、平均評論數(shù)(Avg_Comment)、平均點贊數(shù)(Avg_Like)和平均互動值(Avg_Total)這4 個新構(gòu)造的用戶特征。他們之間存在如下關(guān)系

        除此之外,還創(chuàng)造性地從統(tǒng)計的角度對用戶的微博在不同檔位的概率進行了計算。檔位劃分見表6。

        表6 檔位劃分Table 6 Division of gears

        用戶的微博在不同檔位的比例計算公式為

        式中Counti+1表示用戶在i+1 檔位的微博數(shù)。最終,提取的用戶特征總結(jié)見表7。

        表7 用戶特征Table 7 User features

        特征工程的最后一步,是特征的融合,如圖2所示,將提取和構(gòu)造得到的博文特征fpost、話題特征ftag和用戶特征fuser進行串聯(lián)合并得到fall,即fall=fpost⊕ftag⊕fuser,作為XGBoost 模型的輸入特征。

        2.3 XGBoost 訓練與輸出

        2.3.1 模型分類訓練

        得到特征工程輸出的特征fall后,利用XGBoost 對fall進行分類訓練,用以預測微博的流行度檔位,亦即互動值檔位。XGBoost 是一種廣泛應用于分類和回歸問題的決策樹模型,在本文算法架構(gòu)中,輸入數(shù)據(jù)表示如下

        在輸入數(shù)據(jù)表示中,fi表示第i條微博的總體特征,ti表示該微博的互動值檔位,n為數(shù)據(jù)集中的微博總數(shù),d表示特征的維度。訓練目的是得到預測的微博互互動值檔位t^i,定義如下

        式中l(wèi)表示損失函數(shù)。目標函數(shù)ο越小,XGBoost 的訓練效果越好。

        在訓練的過程中,還采取了丟棄過大互動值(大于等于10 000)的訓練策略,以提高模型對小數(shù)值的預測能力,在該訓練策略下模型對丟棄的大數(shù)值也有能將其預測到檔位5 的能力。

        2.3.2 基于用戶特征的分類輸出

        XGBoost 的分類訓練運用于微博檔位的預測事實上將互動值預測問題轉(zhuǎn)換為互動值的分類問題,在得到預測的檔位結(jié)果后,需要基于用戶的特征將微博的互動值乃至轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)進一步計算得到。

        用戶在不同的檔位上會有不同的互動值,構(gòu)造一個新的用戶特征User_label_avg,計算公式為

        式中:Label_repost 表示用戶的轉(zhuǎn)發(fā)比例,Label_comment 表示評論比例,Label_like 表示點贊比例,3 者共同構(gòu)成了label_distribution 這一新的用戶特征。

        3 實驗結(jié)果

        3.1 數(shù)據(jù)集

        微博流行度預測數(shù)據(jù)集由隨機抽取的500 個主流價值觀微博用戶數(shù)據(jù),以及這500 個用戶于抽取日期前發(fā)布的共100 萬條原創(chuàng)博文數(shù)據(jù)所構(gòu)成。實驗取每個用戶隨機90%博文內(nèi)容數(shù)據(jù)形成訓練集,而每個用戶剩下10%數(shù)據(jù)為測試集。在訓練過程中,隨機選取訓練集的80%用于模型訓練,剩下的20%用于算法驗證。

        數(shù)據(jù)集中的用戶數(shù)據(jù)包含用戶Id(抽樣&字段加密)、用戶簡介、微博認證、全部微博數(shù)量、關(guān)注數(shù)、粉絲數(shù)和抽取日期這些用戶肖像信息。訓練集中原創(chuàng)博文數(shù)據(jù)包含帖子Id(抽樣&字段加密)、用戶Id(抽樣&字段加密)、博文文字內(nèi)容、博文發(fā)布時間、博文在抽取日期時的轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)。測試集的博文轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)不公開。

        3.2 評價指標

        實驗的評價指標按照分檔規(guī)則,將每條微博的互動值(轉(zhuǎn)贊評之和)劃分為5 檔,0~10 為1 檔,11~50 為2 檔,51~150 為3 檔,151~300 為4 檔,大于300 為5 檔。每個檔位對應的權(quán)重見表8。

        表8 檔位權(quán)重Table 8 Weight of gears

        在這個分檔規(guī)則下,將對于每一條博文抽取日期時的互動值(轉(zhuǎn)贊評之和)的預測準確率進行評測,準確率(Accuracy)計算公式為

        式中:Weighti為第i個檔位的權(quán)重,Count_ri為第i個檔位預測正確的博文數(shù)量,Counti為第i個檔位的博文數(shù)量。

        3.3 對比實驗

        除了上文提出的基于XGBoost 的分類式流行度預測算法,本文還提出了基于深度學習框架的方法、基于XGBoost 的預測式流行度預測算法和用戶匹配方法3 類不同的設(shè)計方案與本文算法進行性能比較。

        具體的實驗細節(jié)為XGBoost 訓練時采用5 次交叉驗證,主要參數(shù)設(shè)置如下:“n_estimators”設(shè)為500,“ base_score”設(shè)為0.5,“gamma”設(shè)為0.1,“l(fā)earning_rate”設(shè)為0.02,“min_child_weight”設(shè)為3,“max_depth”設(shè)為7?;谏疃葘W習框架的方法在PyTorch 環(huán)境下訓練,學習速率為10-4,訓練驗證次數(shù)設(shè)為10。

        3.3.1 與深度學習方法對比

        表9 給出了深度學習方法和本文方法在微博流行度預測數(shù)據(jù)集上的性能對比實驗。

        表9 與基于深度學習框架的方法對比實驗Table 9 Comparative experiments with methods based on deep learning framework

        深度學習的方法即基于前文介紹的DNN 結(jié)構(gòu),見圖4,在此將所有特征分為兩大類,文本特征使用BERT 模型處理,數(shù)字特征進行串聯(lián)拼接處理,最后將所有特征融合,送入DNN 中訓練學習。

        圖4 深度學習方法框架Fig.4 Framework of deep learning methods

        如表9 所示,在深度學習的各種方法中,發(fā)現(xiàn)僅基于DNN 模型[22]進行全數(shù)據(jù)集的訓練準確率只有39.10%。

        而丟棄無需預測的用戶數(shù)據(jù),即數(shù)據(jù)集內(nèi)其所發(fā)微博有95%以上處于某一固定分類,在測試計算準確率時,將這部分權(quán)重單獨計算,取測試集比例折合到訓練結(jié)果中,和丟棄互動值過大(≥10 000)的數(shù)據(jù),分別提高了6.12%和7%的準確率。同時將兩種數(shù)據(jù)丟棄并將預測目標歸一化用于DNN 訓練,則可以將準確率提高到48.89%。另一種數(shù)據(jù)處理的方案是對用戶進行分類(圖5),不同的用戶類別賦予不同權(quán)重,分類依據(jù)如下:

        圖5 用戶分類示例Fig.5 Example of user classification

        (1)用戶類別1:95%以上博文全屬于某一分段的用戶(0,1,2,3,4);

        (2)用戶類別2:90%以上博文屬于兩個相鄰分段的用戶(01,12,23,34);

        (3)用戶類別3:90%以上博文屬于3 個相鄰分段的用戶(012,123,234);

        (4)用戶類別4:剩余用戶。

        如表9 所示,對訓練集進行用戶分類處理后,準確率達到68.57%,性能得到大幅度提升,基于此,將所有對性能提升有益的方案加以融合,最終的準確率達到了74.92%。

        盡管深度學習的方法對數(shù)據(jù)的特征利用率已經(jīng)很高,但是最終的性能并沒有超過本文方法。這是由于與深度學習的方法相比,XGBoost 模型對數(shù)字特征的敏感性較強,在本文微博流行度預測的情境下,結(jié)合用戶信息博文信息數(shù)字特征占比很大的情況,本文方法所使用的XGBoost 模型能更好地利用這些數(shù)字特征的關(guān)聯(lián)信息,具有一定的優(yōu)勢,因此優(yōu)于深度學習算法。

        3.3.2 預測與分類對比

        本文的方法基于機器學習下的XGBoost 模型構(gòu)建,其中預測對象是區(qū)別預測類型的重要關(guān)注項,預測對象為互動值或轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)的方法,視作預測方法;預測對象為互動值所處檔位的方法,則稱之為分類方法。表10 列出了基于XGBoost 的預測與分類方法的不同數(shù)據(jù)劃分方案的對比實驗。

        如表10 所示,考慮到互動值過大的數(shù)據(jù)對預測結(jié)果的不良影響以及其導致的訓練樣本分布不均衡的問題,在機器學習的所有方法中,訓練時均丟棄了互動值過大的數(shù)據(jù)。對比發(fā)現(xiàn),分類方法的性能明顯高于預測方法,由于分類方法在流行度預測過程中對檔位邊緣的數(shù)據(jù)具體互動值容錯率較高,提高了其檔位預測的準確性。進一步分析可知,在預測方法中,對用戶進行分類較其他數(shù)據(jù)劃分方案性能更好,而預測方法中對互動值的預測較轉(zhuǎn)發(fā)數(shù)、評論數(shù)和點贊數(shù)的預測更為準確,準確率高了1.53%。在分類方法中,對全數(shù)據(jù)集的訓練性能要略高于丟棄部分用戶數(shù)據(jù),這表明在分類方法中,即使存在不同用戶微博互動值差異過大的損失,提高數(shù)據(jù)量即使用所有的用戶數(shù)據(jù)對提升互動值檔位分類準確度仍有貢獻。

        表10 基于XGBoost 的預測與分類方法對比實驗Table 10 Comparative experiments with prediction and classification methods based on XGBoost

        3.3.3 與用戶匹配方法對比

        表11 展示了本文方法和用戶匹配等其他方法的綜合對比實驗。

        表11 與用戶匹配方法的對比實驗Table 11 Comparative experiments with user matching methods

        用戶匹配方法是一類基于用戶特征的,不依靠于任何模型訓練的方法。這類方法依賴于已知的用戶微博流行度統(tǒng)計信息,將微博流行度情況與微博用戶緊密聯(lián)系在一起。用戶匹配方法分為按用戶最大權(quán)重檔位匹配方法和按用戶對應時段最大權(quán)重檔位匹配方法。

        按用戶最大權(quán)重檔位匹配方法的匹配策略是通過計算出用戶微博各檔位總權(quán)重分布,將某檔位博文數(shù)量乘該檔位權(quán)重。按用戶對應時段最大權(quán)重檔位匹配方法的匹配策略是先按用戶一天中各個時段(0~23)統(tǒng)計所發(fā)博文獲得最大權(quán)重的檔位,然后按用戶和時間進行匹配,若測試集中出現(xiàn)訓練集中未出現(xiàn)的時段,匹配兩側(cè)相鄰時段中權(quán)重大的那一個檔位。見表11,實驗結(jié)果表明,用戶匹配方法準確率最高可達81.75%,這體現(xiàn)出用戶特征在分類處具有顯著作用,盡管用戶匹配的方法對用戶特征的挖掘十分全面,但是缺少模型的支持,在準確率上仍未超過本文方法。

        所有實驗結(jié)果表明,本文方法在評價指標上優(yōu)于用戶匹配和深度學習的所有方法。

        4 結(jié)束語

        針對全媒體時代下,社交媒體流行度預測在信息處理領(lǐng)域的重要性和必要性,本文提出了一種基于XGBoost 的微博流行度預測算法。首先,通過對微博數(shù)據(jù)的特點進行分析,梳理提煉出需要重點考慮的數(shù)據(jù);其次,算法運用特征工程的思想詳盡地挖掘、提取和構(gòu)造了與微博博文及微博用戶相關(guān)的包括博文特征、話題特征和用戶特征在內(nèi)的有效特征,并將有效特征進行融合;最后,將融合后的特征與XGBoost 模型進行結(jié)合用于訓練學習,對用戶特征進行二次構(gòu)造利用,構(gòu)建一個分類式的流行度預測架構(gòu),實現(xiàn)對微博的流行度預測。本算法證實了用戶特征在流行度預測上的高影響力,并且在微博流行度預測的數(shù)據(jù)集上取得了優(yōu)越效果,進一步驗證了本文算法的合理性和優(yōu)越性。在實際的應用中,本文算法可用于揭示社交媒體中個人偏好和公眾關(guān)注,有助于預判社會輿情趨勢,提前做出應對決策。同時,高準確率的流行度預測還可以提高用戶體驗和服務(wù)效率,并有利于廣泛的應用,如內(nèi)容推薦、在線廣告和信息檢索等,具有巨大的商業(yè)價值。但基于算法與用戶的高度關(guān)聯(lián)性,對缺乏用戶信息的流行度預測或存在一定的局限性。

        猜你喜歡
        博文檔位分類
        第一次掙錢
        分類算一算
        分類討論求坐標
        三繞組變壓器運行分接頭檔位計算及電壓分析
        智富時代(2018年9期)2018-10-19 18:51:44
        數(shù)據(jù)分析中的分類討論
        誰和誰好
        教你一招:數(shù)的分類
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        引入分接頭檔位的換流變差動保護方案研究
        河南科技(2015年2期)2015-02-27 14:20:29
        打電話2
        美女视频在线观看网址大全| 国产精品无码专区综合网| 午夜无码片在线观看影院y| 亚洲中文字幕视频第一二区| 久久久久亚洲精品男人的天堂| 欧美最猛性xxxxx免费| 亚洲AV伊人久久综合密臀性色| 午夜亚洲精品视频网站| 国产免费三级av在线| 国产精品成人观看视频| 人妻久久999精品1024| 成年女人午夜特黄特色毛片免| 一区二区三区精品少妇| 无码人妻精品丰满熟妇区| 亚洲AⅤ无码国精品中文字慕| 国产午夜在线观看视频| 国产免费又色又爽粗视频| 狠狠色噜噜狠狠狠狠色综合久| 亚洲色图视频在线观看网站| 久久精品国产亚洲av网站| 免费国产a国产片高清网站 | 免费人成黄页网站在线观看国产| 国产精品亚洲二区在线看| 麻豆精品国产精华精华液好用吗| 亚洲第一看片| 国产一区二区三区蜜桃| 亚洲国产精品日本无码网站| 内射中出无码护士在线| 人人爽亚洲aⅴ人人爽av人人片| 亚洲不卡免费观看av一区二区| 中文字幕乱码一区av久久不卡| 欧美人妻日韩精品| 在线观看女同一区二区| 国产精品麻豆va在线播放| 无码人妻品一区二区三区精99 | 日韩日韩日韩日韩日韩日韩日韩| 国产成人综合亚洲精品| 丰满人妻AV无码一区二区三区| 水蜜桃在线精品视频网| 国产午夜福利100集发布| 国内成人精品亚洲日本语音|