歐陽純萍,陳湘龍,劉永彬
(南華大學(xué) 計(jì)算機(jī)學(xué)院,湖南 衡陽 421001)
網(wǎng)絡(luò)新聞因其具有及時性、全面性等特點(diǎn)越來越受廣大網(wǎng)民的關(guān)注,國內(nèi)外發(fā)生的重大事件,大部分都是第一時間通過網(wǎng)絡(luò)新聞平臺發(fā)布,并引發(fā)了社會劇烈的反響和激烈的辯論。因此,在引導(dǎo)社會輿論的方面,網(wǎng)絡(luò)新聞平臺的大量言論發(fā)揮著難以估量的作用,為能正確引導(dǎo)網(wǎng)絡(luò)輿情的導(dǎo)向,在輿情監(jiān)控過程中需要對某些具有較高影響力的網(wǎng)絡(luò)新聞評論用戶采取特別措施。
近年來用戶影響力分析受到了大量的研究者的關(guān)注,許多影響力計(jì)算的方法相繼被提出,Cha等[1]通過從用戶的轉(zhuǎn)發(fā)數(shù)、評論數(shù)、粉絲數(shù)等靜態(tài)屬性排名來分析Twitter社交網(wǎng)絡(luò)中的用戶影響力,但是該方法在靜態(tài)屬性選擇上面存在局限性,并且沒有考慮用戶在社交網(wǎng)絡(luò)中的關(guān)系。Weng等[2]根據(jù)用戶之間的粉絲聯(lián)系形成的網(wǎng)絡(luò)關(guān)系,通過PageRank算法計(jì)算用戶的影響力排名,該方法實(shí)現(xiàn)簡單、效果較好,但是僅使用粉絲作為影響力的評價(jià)指標(biāo)并不是很全面。吳慧等[3]使用用戶的活躍度和用戶所發(fā)微博質(zhì)量作為綜合指標(biāo)得到影響力權(quán)重,并結(jié)合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)計(jì)算用戶在社交網(wǎng)絡(luò)中的影響力,該方法雖然關(guān)注用戶所發(fā)內(nèi)容的質(zhì)量,但是卻沒有關(guān)注內(nèi)容的情感傾向性。
在用戶影響力分析的研究中,采用靜態(tài)屬性排名的方法具有更加全面的特點(diǎn),但屬性的構(gòu)建在很大程度上依賴構(gòu)建者的主觀意識。傳統(tǒng)的基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的用戶影響力分析方法大部分是利用遍歷網(wǎng)絡(luò)結(jié)構(gòu)去分析用戶之間的影響力,而用戶節(jié)點(diǎn)本身的屬性信息較少考慮。由于表征用戶影響力的因素具有多樣性,但是針對不同的用戶評價(jià)對象,有效的特征又不盡相同。因此,本文針對新聞評論網(wǎng)絡(luò)的特點(diǎn),提取考慮表征網(wǎng)絡(luò)新聞評論網(wǎng)絡(luò)用戶影響力的4種主要因素,提出了面向新聞評論網(wǎng)絡(luò)用戶的四度影響力分析模型FDRank(four-degree influence rank),與國內(nèi)外前沿方法TwitterRank、PageRank、Brank、MDIR和RBrank比較,本文提出的方法能夠更準(zhǔn)確找出具有較高影響力的用戶。
從20世紀(jì)初到現(xiàn)在,影響力分析的研究受到了各個領(lǐng)域?qū)W者的研究和關(guān)注,上世紀(jì)50年代,Roshwalb等[4]發(fā)現(xiàn)在平時具有影響力的人,在工作、生活或政治選舉是都存在很大的優(yōu)勢。之后Triplett[5]通過研究動力因素發(fā)現(xiàn),當(dāng)一個人受到更多的關(guān)注時,他會表現(xiàn)的更為突出。近年來,隨著微博、騰訊新聞、Twitter等網(wǎng)絡(luò)社交媒體的興起,對用戶影響力的研究也隨之增多,主要集中在以下3個方面:
(1)基于社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的度量。主要通過節(jié)點(diǎn)的出入度以及度的方向來度量用戶的影響力值。度的大小表明該節(jié)點(diǎn)受他人的影響程度或是受歡迎程度,而度的方向則表示信息傳遞的方向,這類方法的典型代表就是Page-Rank 算法[6],之后許多研究者在PageRank算法上進(jìn)行了深入研究,改進(jìn)。王鵬等[7]結(jié)合PageRank算法和社交網(wǎng)絡(luò)用戶的行為數(shù)據(jù)和質(zhì)量數(shù)據(jù),如利用網(wǎng)絡(luò)中用戶發(fā)布信息的轉(zhuǎn)發(fā)率、評論率以及用戶是否認(rèn)證情況等行為因素,綜合用戶自身質(zhì)量與追隨者質(zhì)量等,最終計(jì)算得到社交網(wǎng)絡(luò)中的用戶影響力。劉威等[8]借鑒PageRank算法思想,綜合考慮用戶話題信息傳播能力以及用戶與背景話題間關(guān)聯(lián)性對微博用戶影響力進(jìn)行排序。單純依靠網(wǎng)絡(luò)結(jié)構(gòu)分析來進(jìn)行影響力分析的方法雖然模型簡單,計(jì)算資源耗費(fèi)較低,但是忽略了節(jié)點(diǎn)的屬性信息以及節(jié)點(diǎn)之間的互動關(guān)系,這些能對用戶影響力有一定表征能力的因素。
(2)基于用戶行為的度量。通過分析在線社交用戶的行為軌跡數(shù)據(jù)(包括瀏覽/發(fā)布/轉(zhuǎn)發(fā)信息、點(diǎn)贊、話題評論和建立好友關(guān)系等),能夠評估用戶在社交網(wǎng)絡(luò)平臺上的影響力。Xiang等[9]利用社交網(wǎng)絡(luò)用戶之間的交互信息和話題相似性和信息交互情況,提出了一種潛在變分模型用以來評估計(jì)算用戶之間的影響強(qiáng)度。SAITO等[10]將用戶影響力模型轉(zhuǎn)化成一種最大似然問題,并且利用期望最大化算法進(jìn)行求解。YANG等[11]基于影響力函數(shù)和信息的談?wù)摯螖?shù)建立了一種線性影響力模型對用戶的影響力進(jìn)行度量。魏杰明等[12]從用戶行為方式和互動規(guī)律的角度出發(fā),系統(tǒng)研究了社交網(wǎng)絡(luò)中用戶行為和貼文特征。再采用PCA主成分分析法,將各組成因素進(jìn)行相關(guān)性研究,得到最終的用戶影響力。上述方法均是從用戶本身的屬性和行為特征出發(fā)來分析其影響力,并沒有考慮用戶所發(fā)布內(nèi)容的情感極性,用戶發(fā)布的新聞評論內(nèi)容是否具有情感傾向?qū)τ趦?nèi)容的傳播有一定的影響。
(3)結(jié)合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶的度量。單純從網(wǎng)絡(luò)結(jié)構(gòu)來分析用戶的影響力,容易丟失一些用戶本身的特征,而單純從用戶特征來分析用戶的影響力,又不能充分利用用戶所處社交網(wǎng)絡(luò)的結(jié)構(gòu)信息。因此,還有一些學(xué)者把網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶自身特征進(jìn)行結(jié)合來度量用戶的影響力。學(xué)者們最初嘗試綜合使用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、用戶特征和用戶行為數(shù)據(jù)預(yù)測當(dāng)前時刻的用戶影響力[13,14]。后續(xù),學(xué)者們又對融合方法進(jìn)行了細(xì)粒度研究。王新勝等[15]首先對用戶的自身因素和用戶傳播能力進(jìn)行計(jì)算,得到用戶直接影響力。然后再計(jì)算基于用戶網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的用戶間接影響力,最后綜合用戶直接影響力和間接影響力,從而分析得到用戶的最終用戶影響力。羅芳等[16]把用戶基本屬性、交互行為和微博內(nèi)容3個維度因素融入PageRank算法中,基于網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)了一種多維度微博用戶影響力度量算法。上述研究成果為用戶影響力分析提供了可行的新思路,融合用戶自身特征與網(wǎng)絡(luò)結(jié)構(gòu)分析算法可以更好地綜合評價(jià)用戶的影響力。
鑒于當(dāng)前研究的可改進(jìn)之處以及新聞評論數(shù)據(jù)的特點(diǎn),本文提出一種融合用戶行為特征、評論內(nèi)容與問題的相關(guān)性、評論的情感傾向性、網(wǎng)絡(luò)結(jié)構(gòu)的四度新聞評論用戶影響力分析算法??紤]用戶評論內(nèi)容與新聞文章的相似程度,避免不相關(guān)內(nèi)容的干擾;計(jì)算評論內(nèi)容的情感傾向性,通過分析數(shù)據(jù)發(fā)現(xiàn)當(dāng)所發(fā)內(nèi)容具有較強(qiáng)的情感極性時,更容易獲得大家的關(guān)注;分析用戶的行為(包含評論和點(diǎn)贊兩種),當(dāng)用戶獲得越多的評論和點(diǎn)贊數(shù),表明該用戶所發(fā)表的評論具有較強(qiáng)的說服力;分析用戶的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),表征用戶在社交網(wǎng)絡(luò)中與其他用戶的聯(lián)系強(qiáng)度,更全面地反映用戶的影響力;最后利用加權(quán)線性融合方法得到最終的新聞評論網(wǎng)絡(luò)的用戶影響力。
網(wǎng)絡(luò)新聞用戶可以通過評論發(fā)表自身的觀點(diǎn),通過點(diǎn)贊、關(guān)注和回復(fù)他人評論與其他用戶進(jìn)行互動。本文通過分析用戶自身質(zhì)量、用戶網(wǎng)絡(luò)結(jié)構(gòu)、用戶發(fā)布評論內(nèi)容及評論情感值4個方面對用戶影響力進(jìn)行分析,提出了四度用戶影響力分析算法,如圖1所示。
圖1 四度用戶影響力分析算法流程
用戶可以通過PC端、手機(jī)移動端等發(fā)布關(guān)于一篇新聞文章的評論,每個評論基本是由幾句話組成。當(dāng)評論內(nèi)容與新聞文章的相關(guān)程度低,則很有可能是一些垃圾評論,影響力較低。而評論內(nèi)容與新聞內(nèi)容相關(guān)程度較高的,則可能存在更大的影響力,并且通過內(nèi)容相關(guān)性計(jì)算,還能夠排除一些信息量低的評論的影響。
(1)
式中:tfki表示Vk在nai中出現(xiàn)的次數(shù),dfk表示文本集NA中含有Vk的文本總數(shù)。對于文本的相似度,本文利用余弦相似度來計(jì)算評論與新聞文章之間的相似,并使用其結(jié)果作為評論內(nèi)容影響力CI
CI=Sim(comment,article)=
(2)
根據(jù)新聞傳播規(guī)律,通常用戶如果發(fā)表的評論不帶任何情感色彩,這類新聞文本傳播范圍很有限。所以新聞評論文本的情感極性對于文本傳播有較強(qiáng)的影響,而文本傳播率又是評價(jià)用戶影響力的重要指標(biāo)。因此,在分析用戶影響力時有必要先分析評論內(nèi)容的情感極性。本文提出一個融合多個深度學(xué)習(xí)算法的模型來計(jì)算新聞評論的3類情感傾向性,即負(fù)面、中立、正面,模型如圖2所示。首先將文本通過word2vec轉(zhuǎn)換為向量表示,然后使用BIGRU和Attention機(jī)制增強(qiáng)上下文語義信息并獲取初步特征,再通過CNN獲取更深層次的特征,最后通過SoftMax進(jìn)行回歸最終獲得對應(yīng)情感的分類概率P=(P正,P中,P負(fù))。
圖2 基于多模型融合的情感分類模型
對最終獲得的分類概率,選取最大概率值所對應(yīng)的情感,作為情感分類的最終結(jié)果,并且通過之前的研究發(fā)現(xiàn),對于某一情感分類的概率值越大則證明該文本的情感傾向性越強(qiáng)即情感特征比較明顯,本研究采用情感分類的概率值作為情感值的結(jié)果,提出情感值的度量SI公式如下
Pi=max(P正,P中,P負(fù))
(3)
(4)
在新聞評論用戶中,表征用戶自身質(zhì)量的兩類因素包括用戶評論的回復(fù)率以及用戶評論的點(diǎn)贊率。因此,我們結(jié)合這兩大因素來計(jì)算新聞評論用戶的自身質(zhì)量。
(1)用戶評論的回復(fù)率
首先計(jì)算用戶評論的平均回復(fù)數(shù),即用戶每條評論的回復(fù)總數(shù)除以用戶發(fā)布評論的總數(shù);然后再用用戶評論的平均回復(fù)數(shù)除以總的用戶數(shù)計(jì)算得到用戶評論的回復(fù)率。用戶評論的回復(fù)率表示每一位新聞評論用戶在發(fā)布評論后平均被回復(fù)的數(shù)量,對體現(xiàn)用戶所發(fā)布信息的傳播能力具有較好的表征作用。本文使用Reply(z)表示用戶評論的回復(fù)率,具體定義如下
(5)
式中:z表示用戶,Sum(m)表示新聞評論用戶z發(fā)布評論被回復(fù)的總數(shù),Sum(a)表示用戶z發(fā)布評論的總數(shù),Sum(u)表示總用戶數(shù)。
(2)用戶評論的點(diǎn)贊率
在計(jì)算方法上,用戶評論的點(diǎn)贊率與用戶評論的回復(fù)率基本相同。首先計(jì)算用戶評論的平均點(diǎn)贊數(shù),即用戶發(fā)布評論獲得的總點(diǎn)贊數(shù)除以用戶發(fā)布評論的總數(shù),再使用用戶評論的平均點(diǎn)贊數(shù)除以總用戶數(shù)。本文使用Support(z)表示用戶z所發(fā)布評論的點(diǎn)贊率,具體定義如下
(6)
式中:Sum(s)表示用戶z發(fā)布的所有評論獲得的總點(diǎn)贊數(shù),其余符號與式(5)中的意義相同。由于用戶評論的回復(fù)率和用戶評論的點(diǎn)贊率對于表征用戶自身質(zhì)量的權(quán)重有所區(qū)別,因此,本文使用線性回歸模型將用戶評論的回復(fù)率以及點(diǎn)贊率結(jié)合起來計(jì)算用戶自身質(zhì)量評價(jià)值。定義如下,其中α,β分別表示兩種用戶行為所占的權(quán)重
Uquality(z)=α·Reply(z)+β·Support(z)
(7)
用戶在社交網(wǎng)絡(luò)中與其他用戶的聯(lián)系,也是反映用戶影響力的一個重要因素。PageRank算法是用來比較不同網(wǎng)頁的重要性的算法,而在社交網(wǎng)絡(luò)中用戶的關(guān)系模型和網(wǎng)頁的鏈接模型十分相似,用戶的粉絲數(shù)相當(dāng)于網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的入度,用戶的關(guān)注數(shù)相當(dāng)于網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的出度,所以可以利用PageRank算法來計(jì)算新聞評論網(wǎng)絡(luò)中的不同用戶之間的網(wǎng)絡(luò)結(jié)構(gòu)影響力,算法定義如下
PI(ui)=PageRank(ui)=
(8)
式中:ui和uj分別表示兩個不同的用戶,PageRank(ui)和PageRank(uj)則表示ui和uj所對應(yīng)的Rank值,N(ui)是指鏈入ui的用戶集合,Link(uj)是用戶uj所有鏈接出去的邊數(shù)量,即網(wǎng)絡(luò)節(jié)點(diǎn)出度,d=0.85表示阻尼系數(shù)。
在前述已構(gòu)建的用戶評論內(nèi)容影響力計(jì)算、用戶評論內(nèi)容的情感極性計(jì)算、用戶自身質(zhì)量評價(jià)和用戶的網(wǎng)絡(luò)結(jié)構(gòu)影響力計(jì)算4個維度的結(jié)果基礎(chǔ)上,最終的四度用戶影響力分析模型定義如下
UI(z)=ω·(CI(z)+SI(z)+Uquality(z))+θ·PI(z)
(9)
式中:UI(z)表示用戶z的影響力,CI(z),SI(z),Uquality(z),PI(z)分別表示用戶z評論內(nèi)容的影響力、評論的情感值、用戶自身質(zhì)量以及網(wǎng)絡(luò)結(jié)構(gòu)的影響力大小,ω,θ表示評價(jià)影響力各指標(biāo)的權(quán)重。
3.1.1 實(shí)驗(yàn)數(shù)據(jù)集
本文以騰訊新聞作為數(shù)據(jù)源,抓取了2019年5月至2019年6月兩個月內(nèi)發(fā)布的新聞及評論作為研究數(shù)據(jù)。由于爬取到的信息過于冗余,本文過濾粉絲數(shù)少于10的用戶、點(diǎn)贊數(shù)少于10的用戶,經(jīng)過篩選之后的數(shù)據(jù)統(tǒng)計(jì)見表1。
表1 騰訊新聞相關(guān)數(shù)據(jù)
3.1.2 實(shí)驗(yàn)評價(jià)方式
為了驗(yàn)證本文提出方法的有效性,實(shí)驗(yàn)選取目前較為流行或是經(jīng)典的用戶影響力分析算法作為對比,具體方法如下。
(1)經(jīng)典的PageRank算法;
(2)Weng等[2]提出的TwitterRank算法;
(3)Brank[10]算法:基于PageRank算法進(jìn)行的改進(jìn),從跟隨者和追隨者的角度雙向交互,通過轉(zhuǎn)發(fā)強(qiáng)度、評論強(qiáng)度、體積密度等方面來衡量用戶影響力;
(4)RBrank[15]:該方法通過將用戶活動添加到Page-Rank 中獲得改進(jìn)的算法;
(5)MDIR[17]算法:該方法通過融合用戶基本屬性、用戶交互行為、用戶博文內(nèi)容多個維度來計(jì)算用戶影響力。
實(shí)驗(yàn)利用N折交叉驗(yàn)證方法,即最后的參考標(biāo)準(zhǔn)結(jié)果由多種算法投票結(jié)果確定。例如給定5個算法A,B,C,D,E計(jì)算得到Top-K個高影響力用戶集合分別為IA,IB,IC,ID,IE。此時取N=2,即2種算法都投票正確的結(jié)果為參考的正確結(jié)果,用I2表示,如下所示
I2=(IA∩IB)∪(IA∩IC)∪(IA∩ID)∪(IA∩IE)∪
(IB∩IC)∪(IB∩ID)∪(IB∩IE)∪(IC∩ID)∪
(IC∩IE)∪(ID∩IE)
(10)
對于算法A準(zhǔn)確率PA的計(jì)算公式如式(11)所示
(11)
算法A的召回率RA計(jì)算公式如式(12)所示
(12)
算法A的F1值FA計(jì)算公式如式(13)所示
(13)
本文初始化參數(shù)α,β,ω,θ分別為0.6、0.4、0.8、0.2,具體的參數(shù)選擇實(shí)驗(yàn)會在3.2.2節(jié)中進(jìn)行分析。實(shí)驗(yàn)分別在N=2,3,4,5時驗(yàn)證各個算法的準(zhǔn)確率和召回率,當(dāng)N=6時,由于參考的正確結(jié)果集合為6種算法結(jié)果的交集,從而導(dǎo)致所有算法均具有相同的準(zhǔn)確率和召回率,所以N=6的實(shí)驗(yàn)不具備討論價(jià)值。因此,在本文中只針對N=2,3,4,5的4種情況,對6種算法分別計(jì)算Top-K(K取值為50,100,200,400,800,1600)影響力用戶的準(zhǔn)確率、召回率進(jìn)行比較。
3.2.1 算法準(zhǔn)確率與召回率驗(yàn)證
如圖3所示的實(shí)驗(yàn)結(jié)果可知,本文提出的FDRank算法在4組用戶規(guī)模為Top-K的情況下準(zhǔn)確率均取得了較優(yōu)的結(jié)果,但由于N折交叉驗(yàn)證所取參考標(biāo)準(zhǔn)的值不同,實(shí)驗(yàn)效果也有所不同。由于參考標(biāo)準(zhǔn)值N設(shè)置過小(N=2),參考標(biāo)準(zhǔn)集合I2中元素?cái)?shù)目過多,各算法與I2交集較為一致,導(dǎo)致準(zhǔn)確率相差不大;當(dāng)標(biāo)準(zhǔn)值N設(shè)置過大(N=5)時,參考標(biāo)準(zhǔn)集合中I5存在的元素較少,各算法結(jié)果與標(biāo)準(zhǔn)集的交集相差較大,故準(zhǔn)確率整體偏低;參考標(biāo)準(zhǔn)值N設(shè)置為3,4時,各個算法的準(zhǔn)確率區(qū)分度較大,能體現(xiàn)各個算法準(zhǔn)確性的優(yōu)劣。
圖3 在交叉驗(yàn)證中各算法的準(zhǔn)確率
實(shí)驗(yàn)同樣對比了6種算法在不同用戶規(guī)模下,使用N折交叉驗(yàn)證的召回率。由圖4所示,4組對比實(shí)驗(yàn)中,隨著參考標(biāo)準(zhǔn)值N的增加,所有算法的召回率也呈現(xiàn)上升趨勢,這是因?yàn)閰⒖紭?biāo)準(zhǔn)值N的增加,導(dǎo)致多個參考標(biāo)準(zhǔn)的交集元素減少,從而使得整體召回率上升。同時在實(shí)驗(yàn)結(jié)果中FDRank的召回率均優(yōu)于其它算法,并且在參考標(biāo)準(zhǔn)值N設(shè)置為3,4時,召回率的區(qū)分度較大??梢?,在N=3,4時,能夠更好表征不同算法之間的優(yōu)劣,因此,在后續(xù)的實(shí)驗(yàn)中,我們對N均取值為3和4。
圖4 在交叉驗(yàn)證中各算法的召回率
3.2.2 參數(shù)對比分析
本文提出方法中,有4個待確定的參數(shù)分別是α,β,ω,θ,通過賦予這些參數(shù)不同的數(shù)值,組成權(quán)值組,采用7組不同的權(quán)值組進(jìn)行對比,并分別采用3折和4折交叉驗(yàn)證,得到各權(quán)值組的準(zhǔn)確率和召回率。從圖5和圖6中可以看出,對于不同的權(quán)值組所得到的FDRank算法準(zhǔn)確率和召回率是不同的,總體準(zhǔn)確率在0.865~0.97之間,召回率在0.811~0.926之間,其中權(quán)值組參數(shù)α,β,ω,θ分別為0.6、0.5、0.8、0.2時,F(xiàn)DRank算法能取得最優(yōu)結(jié)果。從權(quán)值組參數(shù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)對用戶影響力分析結(jié)果的影響小于用戶自身質(zhì)量和評論內(nèi)容,并且對于用戶自身質(zhì)量來說,用戶評論回復(fù)率的影響程度高于用戶評論點(diǎn)贊率。
圖5 各權(quán)值組準(zhǔn)確率比較
圖6 各權(quán)值組召回率比較
為了更進(jìn)一步驗(yàn)證本文提出方法的有效性,通過將FDRank算法的模塊進(jìn)行拆分,分別設(shè)計(jì)幾種不同的組合進(jìn)行實(shí)驗(yàn):
組合1:FDRank1為單獨(dú)使用網(wǎng)絡(luò)結(jié)構(gòu)影響力進(jìn)行分析;
組合2:FDRank2由網(wǎng)絡(luò)結(jié)構(gòu)影響力和評論內(nèi)容影響力組成;
組合3:FDRank3由網(wǎng)絡(luò)結(jié)構(gòu)影響力、評論內(nèi)容影響力以及評論的情感值組成。
將4種FDRank組合算法分別與3.1.2節(jié)中提及的5種對比算法進(jìn)行4折交叉驗(yàn)證,得到每種FDRank組合算法的F值,見表2。
表2 FDRank組合算法F值的比較結(jié)果
從表中可以發(fā)現(xiàn),F(xiàn)DRank3在不同Top-K用戶集獲得的F值比FDRank2平均高了0.035,而FDRank3相較于FDRank2添加了評論的情感值作為一個影響因素,這也驗(yàn)證在計(jì)算用戶影響力時,通過分析用戶所發(fā)布評論的情感傾向有助于計(jì)算用戶的影響力。同時從表中可以發(fā)現(xiàn),在增加用戶自身質(zhì)量后,F(xiàn)值提升最為明顯,說明用戶自身質(zhì)量是用戶影響力計(jì)算中非常關(guān)鍵的因素。
本文從新聞評論內(nèi)容的影響力、評論的情感值、用戶自身質(zhì)量以及用戶的網(wǎng)絡(luò)結(jié)構(gòu)4方面考慮,提出FDRank算法。將評論內(nèi)容的情感值作為用戶影響力分析的特征,實(shí)驗(yàn)結(jié)果表明,用戶評論內(nèi)容的情感極性是分析用戶影響力的有效特征。在與多個算法的對比實(shí)驗(yàn)中,F(xiàn)DRank算法均取得最優(yōu)結(jié)果,準(zhǔn)確率和召回率最高為97%和92.5%,相較于排名第二的MDIR算法,在不同的Top-K下準(zhǔn)確率和召回率平均提升了4.3%和2.9%。本文在參數(shù)對比分析實(shí)驗(yàn)中考慮的參數(shù)權(quán)值組合有限,未能更有效定位最優(yōu)參數(shù),下一步的工作考慮自動化參數(shù)學(xué)習(xí)方式,探索采用Attention機(jī)制實(shí)現(xiàn)對模型參數(shù)的自動學(xué)習(xí)。