傅熙雯
(云南大學(xué),云南 昆明 650091)
隨著科學(xué)技術(shù)的不斷發(fā)展,在線社交平臺(tái)不斷增多,如微博、微信等,其不僅具有傳統(tǒng)媒體的“時(shí)空偏向”特征,同時(shí)還可實(shí)現(xiàn)信息傳播主體多元化、內(nèi)容碎片化,為人們提供多樣化選擇,滿足人們的個(gè)性化需求。
為促進(jìn)復(fù)雜網(wǎng)絡(luò)以及系統(tǒng)科學(xué)領(lǐng)域不斷發(fā)展,需對(duì)在線社交網(wǎng)絡(luò)信息傳播機(jī)制進(jìn)行深入探究,提升互聯(lián)網(wǎng)治理水平。因此,亟需對(duì)在線社交網(wǎng)絡(luò)信息傳播進(jìn)行建模分析,并進(jìn)行轉(zhuǎn)發(fā)預(yù)測(cè)。
機(jī)器學(xué)習(xí)模型種類較多,常見(jiàn)的機(jī)器學(xué)習(xí)模型主要包括決策樹(shù)、支持向量機(jī)和樸素貝葉斯等,不同模型均有一定的應(yīng)用優(yōu)勢(shì)和弊端,本次在線分析社交網(wǎng)絡(luò)信息傳播建模中采用隨機(jī)森林模型。
對(duì)隨機(jī)森林本質(zhì)進(jìn)行分析發(fā)現(xiàn),其屬于決策樹(shù)組合,是一種集成了bagging和具有隨機(jī)性特征分裂方法的組合分類器,對(duì)于輸入數(shù)量無(wú)需進(jìn)行預(yù)處理,在建模前無(wú)需進(jìn)行特征選擇,在模型運(yùn)行中,通過(guò)對(duì)變量的重要性進(jìn)行選擇,分析不同輸入變量對(duì)模型的重要程度。
另外,在實(shí)際應(yīng)用隨機(jī)森林模型時(shí),泛化誤差率較低,數(shù)據(jù)集中可包含異常值和噪聲,即使數(shù)據(jù)確實(shí),依然保持較高的預(yù)測(cè)準(zhǔn)確性,可有效提升預(yù)測(cè)結(jié)果準(zhǔn)確性,并且能夠平衡誤差,預(yù)測(cè)性能較好。除此以外,在模型中,各個(gè)決策樹(shù)均相互獨(dú)立,能夠避免過(guò)擬合問(wèn)題產(chǎn)生[1]。
在數(shù)據(jù)分析過(guò)程中,需應(yīng)用多種度量指標(biāo),在本次建模分析中采用召回率(recall)和精確度(precision),可準(zhǔn)確反映出稀類分類實(shí)際情況。
對(duì)于兩分類問(wèn)題,可用混淆矩陣表示,{+,-}指正負(fù)類的標(biāo)簽集合,“+”代表正類,“-”代表負(fù)類。根據(jù)給定分類模型,即可準(zhǔn)確計(jì)算測(cè)試機(jī),共包含4種分類。
f++(TP)為真正類,樣本預(yù)測(cè)類別為正,真實(shí)類別為正;f+-(TP)為假負(fù)類,樣本預(yù)測(cè)類別為負(fù),真實(shí)類別為正;f-+(TP)為假正類,樣本預(yù)測(cè)類別為正,真實(shí)類別為負(fù);f--(TP)為真負(fù)類,樣本預(yù)測(cè)類別為負(fù),真實(shí)類別為負(fù)。
根據(jù)混淆矩陣,即可對(duì)召回率(R)以及精確度(P)進(jìn)行計(jì)算:
在模型分類效果評(píng)估中,還可采用F1度量這一指標(biāo),F(xiàn)1為召回率和精確度的平均值,如果R和P均最大,則F1即可最大化,三者之間的關(guān)系如下:
受試者工作特征曲線即ROC曲線,在模型評(píng)估完成后,對(duì)于評(píng)估所得結(jié)果,可繪制成曲線,即可對(duì)不同分類模型的差異進(jìn)行對(duì)比分析。在曲線二維平面中,橫軸和縱軸分別為假正率及真正率,長(zhǎng)度均為1。在ROC曲線評(píng)估模型的實(shí)際應(yīng)用中,可采用以下2種分析方式:對(duì)ROC曲線的偏向進(jìn)行觀察,如果ROC曲線偏向左上角,則模型分類性能較好;對(duì)ROC曲線下面積(AUC)進(jìn)行觀察,如果AUC較大,則模型分類效果較好[2]。
ROC曲線繪制流程如圖1所示,其中a為樣本,如果閾值為C,則a為正類;如果閾值小于等于C,則a為正類。
圖1 ROC繪制流程
在本次在線分析社交網(wǎng)絡(luò)信息傳播建模中,采用隨機(jī)森林模型,對(duì)于模型參數(shù)可采用用戶特征關(guān)鍵詞權(quán)重,據(jù)此創(chuàng)建興趣加權(quán)隨機(jī)森林模型(WRF)。在無(wú)加權(quán)RF模型中,對(duì)于各個(gè)用戶的特征變量,可采用一個(gè)權(quán)重參數(shù),其能夠?qū)?quán)重進(jìn)行調(diào)節(jié),充分展現(xiàn)出各個(gè)用戶特征變量的差異。對(duì)興趣差異進(jìn)行分析發(fā)現(xiàn),主要體現(xiàn)在興趣數(shù)量和興趣程度2個(gè)方面。各個(gè)用戶輸入變量的特征加權(quán)值計(jì)算方式如下:
式(1)中:weight(f)為特征f的最終權(quán)重;index(f)為該特征某用戶的興趣權(quán)重;index(f)mean為該特征權(quán)重值的平均值。
在本次研究中,計(jì)算模型的關(guān)鍵步驟如下:①清洗數(shù)據(jù)集,數(shù)據(jù)集主要分布在多個(gè)文本中,因此,通過(guò)對(duì)數(shù)據(jù)集進(jìn)行合并和去重處理,即可有效清洗數(shù)據(jù)集;②在數(shù)據(jù)集清洗完成后,可利用轉(zhuǎn)發(fā)屬性以及非轉(zhuǎn)發(fā)屬性,將數(shù)據(jù)集分為2種類型,再對(duì)各個(gè)數(shù)據(jù)集上各項(xiàng)指標(biāo)的累積度分布情況進(jìn)行計(jì)算,然后繪制CDF曲線;③創(chuàng)建轉(zhuǎn)發(fā)行為預(yù)測(cè)指標(biāo)體系,并根據(jù)式(1)對(duì)各個(gè)應(yīng)用戶的興趣加權(quán)參數(shù)進(jìn)行計(jì)算,然后再對(duì)各個(gè)特征進(jìn)行加權(quán)計(jì)算;④將原始特征變量以及特征變量輸入隨機(jī)森林模型中,對(duì)R、P以及F1進(jìn)行計(jì)算,然后在此基礎(chǔ)上繪制ROC曲線,對(duì)各個(gè)指標(biāo)在模型中的重要性進(jìn)行對(duì)比分析;⑤以多種用戶屬性作為基礎(chǔ),并進(jìn)行分類預(yù)測(cè),對(duì)各個(gè)屬性分類效果進(jìn)行比較[3]。
在模型分析前,在獲得原始數(shù)據(jù)后,需對(duì)所有數(shù)據(jù)進(jìn)行清洗,在此過(guò)程中,可利用Python編程語(yǔ)言中的Numpy以及Pandas工具包,對(duì)數(shù)據(jù)進(jìn)行拆分、合并處理,同時(shí)還可對(duì)缺失值進(jìn)行有效處理。在數(shù)據(jù)清洗完成后,即可利用R語(yǔ)言界面友好的“rattle”數(shù)據(jù)挖掘工具包對(duì)模型進(jìn)行計(jì)算分析。
在隨機(jī)森林模型計(jì)算中,決策樹(shù)數(shù)量的影響較大,在隨機(jī)森林模型計(jì)算分析中,一般默認(rèn)決策樹(shù)數(shù)量,但是在具體的計(jì)算過(guò)程中,為了對(duì)模型進(jìn)行優(yōu)化處理,要求合理定義最佳參數(shù)。隨機(jī)森林模型計(jì)算誤差和決策樹(shù)之間的關(guān)系如圖2所示,分析圖2發(fā)現(xiàn),OBB指模型的泛化誤差,“0”指否定結(jié)論的誤判率,“1”指肯定結(jié)論的誤判率。比如選擇微博平臺(tái)作為研究對(duì)象,在用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)分析中,可對(duì)多個(gè)模型進(jìn)行對(duì)比。
圖2 決策樹(shù)數(shù)量與模型誤差關(guān)系
在預(yù)測(cè)分析中,可利用改進(jìn)后的隨機(jī)森林模型(WRF)與經(jīng)典森林模型RF和Logistic回歸模型相比,各項(xiàng)性能指標(biāo)均比較好,精度更高,同時(shí)召回率指標(biāo)和F1分值也有所提升。由此可見(jiàn),在對(duì)用戶興趣加權(quán)進(jìn)行調(diào)整后,通過(guò)利用WRF,可對(duì)用戶轉(zhuǎn)發(fā)微博信息的行為進(jìn)行準(zhǔn)確預(yù)測(cè)。
為了能夠?qū)Σ煌P椭杏脩艮D(zhuǎn)發(fā)行為預(yù)測(cè)性能進(jìn)行對(duì)比,需對(duì)ROC曲線進(jìn)行繪制和分析,并對(duì)ROC曲線下方面積(AUC)進(jìn)行計(jì)算,據(jù)此對(duì)各個(gè)模型的性能進(jìn)行對(duì)比。當(dāng)AUC在1.0~0.5之間時(shí),如果AUC接近1,則模型分類效果較好,如果AUC在0.9以上,則分類準(zhǔn)確性較高;當(dāng)AUC在0.7~0.9之間時(shí),分類準(zhǔn)確性較高;當(dāng)AUC在0.5~0.7之間時(shí),準(zhǔn)確性較低;如果AUC為1,則模型最完美;當(dāng)AUC為0.5時(shí),模型效果最差[4]。
確定模型指標(biāo)重要性程度,可選擇2個(gè)度量標(biāo)準(zhǔn),即精度平均減少值(Mean Decrease Accuracy)和節(jié)點(diǎn)不純度平均減少值(Mean Decrease Gini),如果2個(gè)值較大,則指標(biāo)重要性也較高。在2種度量標(biāo)準(zhǔn)下,各個(gè)指標(biāo)的排名差異較大,其中,轉(zhuǎn)發(fā)性以及轉(zhuǎn)發(fā)活躍度對(duì)于WRF分類效果的影響最大,而用戶分類關(guān)鍵詞數(shù)量以及性別對(duì)于模型分類的重要性最小。
在對(duì)模型分類預(yù)測(cè)性能進(jìn)行評(píng)估后,即可確定不同指標(biāo)的重要程度,為了能夠?qū)τ脩艮D(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè),可選擇3個(gè)屬性進(jìn)行分析,包括特征屬性、行為屬性及興趣屬性。
3類用戶屬性預(yù)測(cè)結(jié)果差異較大,其中,行為屬性預(yù)測(cè)結(jié)果準(zhǔn)確性較高,而用戶興趣屬性預(yù)測(cè)結(jié)果準(zhǔn)確性較低。另外,在3類指標(biāo)中,特征屬性的召回率較高,興趣屬性預(yù)測(cè)召回率和特征屬性預(yù)測(cè)召回率相近,行為屬性召回率最低。
通過(guò)對(duì)F1分值進(jìn)行對(duì)比發(fā)現(xiàn),行為屬性效果最好,興趣屬性得分最低。數(shù)據(jù)集具有不平衡特征,因此,在對(duì)模型分類能力進(jìn)行分析時(shí),需對(duì)精確度指標(biāo)以及召回率指標(biāo)進(jìn)行分析,通過(guò)對(duì)F1度量結(jié)果進(jìn)行對(duì)比分析發(fā)現(xiàn),用戶行為屬性分類效果最好,由此可見(jiàn),用戶的轉(zhuǎn)發(fā)行為、評(píng)論等會(huì)對(duì)轉(zhuǎn)發(fā)行為產(chǎn)生較大影響,另外,不同用戶粉絲屬性以及關(guān)注人屬性等會(huì)對(duì)用戶信息轉(zhuǎn)發(fā)行為產(chǎn)生較大影響,用戶興趣處于不斷變化中,對(duì)于用戶信息轉(zhuǎn)發(fā)行為的影響比較小。
在繪制ROC曲線后,通過(guò)對(duì)ROC曲線進(jìn)行分析,可發(fā)現(xiàn)用戶行為屬性的分類效果較好,對(duì)用戶轉(zhuǎn)發(fā)預(yù)測(cè)的影響較大。用戶3類屬性的ROC曲線如圖3所示,行為屬性ROC曲線最靠近左上角,因此,AUC值最大,由此可見(jiàn),行為屬性對(duì)于用戶轉(zhuǎn)發(fā)行為的影響較大,其次為用戶特征屬性,最后為用戶興趣屬性。
圖3 3類屬性的ROC曲線
綜上所述,本文主要對(duì)在線社交網(wǎng)絡(luò)信息傳播建模方法以及用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)方式進(jìn)行了詳細(xì)探究。在在線社交網(wǎng)絡(luò)平臺(tái)運(yùn)行中,在信息傳播方面,用戶行為驅(qū)動(dòng)為十分重要的內(nèi)在影響機(jī)制。在本次研究中,創(chuàng)建用戶興趣加權(quán)的隨機(jī)森林模型,在用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)中選擇3個(gè)屬性,分別為特征屬性、行為屬性和興趣屬性,通過(guò)將隨機(jī)森林模型(WRF)與傳統(tǒng)森林模型以及Logistic回歸模型進(jìn)行對(duì)比發(fā)現(xiàn),WRF模型的分類性能比較好。另外,在WRF模型的基礎(chǔ)上,對(duì)各項(xiàng)屬性評(píng)分以及ROC曲線進(jìn)行對(duì)比,確定行為屬性預(yù)測(cè)效果較好,能夠反映出用戶行為習(xí)慣對(duì)在線社交網(wǎng)絡(luò)平臺(tái)運(yùn)營(yíng)中信息傳播的影響。