王茜儀,杜明坤,孫逸飛
(江蘇警官學(xué)院,江蘇 南京 210031)
網(wǎng)絡(luò)輿情,有的專家認(rèn)為是民眾對(duì)管理者持有的政治態(tài)度,有的專家認(rèn)為是民眾對(duì)目前社會(huì)現(xiàn)象的看法和觀點(diǎn)的總和[1]。做好輿情管控有利于提高民眾的安全感和政府部門公信力[2]。隨著網(wǎng)絡(luò)的快速發(fā)展,網(wǎng)絡(luò)輿情傳播途徑越來越多,各種輿情指標(biāo)也層出不窮,指標(biāo)越多越會(huì)影響人民對(duì)輿情的分析和判斷。如今輿情管理已經(jīng)成為社會(huì)秩序管理不可忽視的一部分[3]。
如今,隨著手機(jī)用戶,自媒體增多,網(wǎng)絡(luò)直播、各大視頻網(wǎng)站層出不窮,網(wǎng)絡(luò)輿情的指標(biāo)非常多,單一指標(biāo)已經(jīng)不能對(duì)輿沒情進(jìn)行判斷,如果選取多個(gè)指標(biāo)對(duì)輿情進(jìn)行判斷還要考慮指標(biāo)的權(quán)重問題,網(wǎng)絡(luò)輿情各指標(biāo)之間有一定的關(guān)聯(lián),主成分分析指標(biāo)之間關(guān)聯(lián)性越大,效果越好。因此,用主成分分析方法(Principal Component Analysis,PCA)對(duì)網(wǎng)絡(luò)輿情各指標(biāo)進(jìn)行降維,提取權(quán)重較高的指標(biāo),再用貝葉斯網(wǎng)絡(luò)模型進(jìn)行預(yù)測。
首先對(duì)已獲取數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。將數(shù)據(jù)N中心化,即使每個(gè)維度的數(shù)據(jù)數(shù)學(xué)期望為0,得到:
(1)
[coeff,score,latent,tsquare]=PCA(x)
(2)
COEFF是N矩陣所對(duì)應(yīng)的協(xié)方差陣V的所有特征向量組成的矩陣,即變換矩陣或稱投影矩陣,COEFF每列對(duì)應(yīng)一個(gè)特征值的特征向量,列的排列順序是按特征值的大小遞減排序。具體過程如下:
(3)
由T的特征方程可以求得n個(gè)非0特征根λi(i∈[1,m]),將這些特征根從大到小排列得到:λ1≥λ2≥……≥λm>0。
(1)latent貢獻(xiàn)率。
(2)score是對(duì)主分的打分,投影之后的數(shù)據(jù),也就是說原X矩陣在主成分空間的表示。每一列表示一個(gè)主成分。
(3)latent'將列轉(zhuǎn)置為行。
(4)y=(100*latent/sum(latent))'計(jì)算每個(gè)主成分貢獻(xiàn)率(百分?jǐn)?shù)化)。
(5)B=X*coeff(:,1:r)選擇主成分對(duì)數(shù)據(jù)進(jìn)行還原(經(jīng)中心化處理,所以有負(fù)數(shù))。
通過保留方差最大、包含原始數(shù)據(jù)最多的幾個(gè)主成分來實(shí)現(xiàn)高精度降維來實(shí)現(xiàn)保留了原始數(shù)據(jù)絕大部分信息的同時(shí)精簡數(shù)據(jù)集,本文選擇累計(jì)貢獻(xiàn)率>85%以上的r(r λj對(duì)應(yīng)的特征向量為Ej=(e1,e2,……,em),(j=1,2,……,r),以這些特征向量作列向量形成矩陣O=coeff(:,1:r)。 最終得到數(shù)據(jù)集B=O×X。最后用貝葉斯網(wǎng)絡(luò)算法對(duì)其進(jìn)行預(yù)測。 每個(gè)事件網(wǎng)絡(luò)輿情預(yù)測指標(biāo)體系選取百度搜索指數(shù)、資訊指數(shù)、媒體指數(shù)、熱門微博數(shù)及微博轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、點(diǎn)贊數(shù)等7個(gè)指標(biāo),將獲取的XX房事件、李XX事件、鮑XX事件等6件網(wǎng)絡(luò)輿情事件的數(shù)據(jù)信息分為兩部分,其中李XX事件作為預(yù)測數(shù)據(jù),其余數(shù)據(jù)做網(wǎng)絡(luò)輿情預(yù)測的樣本數(shù)據(jù)。本文將李XX事件作為演示案例數(shù)據(jù)來源,通過爬蟲對(duì)每項(xiàng)指標(biāo)從2020年2月7日至2020年2月11日連續(xù)11天的信息采集。對(duì)已獲取數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,本文采用Min-max標(biāo)準(zhǔn)化方法,將原始數(shù)據(jù)通過相關(guān)公式映射在[0,1]區(qū)間內(nèi)。(標(biāo)準(zhǔn)化公式:[本數(shù)據(jù)-極小值/極大值-極小值]),標(biāo)準(zhǔn)化處理后數(shù)據(jù)如表1所示。 表1 標(biāo)準(zhǔn)化數(shù)據(jù) 以每個(gè)指標(biāo)在不同時(shí)間片的數(shù)據(jù)作為主成分分析訓(xùn)練數(shù)據(jù),這樣每個(gè)事件共有77個(gè)數(shù)據(jù)。用hij表示第i個(gè)指標(biāo)在第j天的數(shù)據(jù),構(gòu)建出一個(gè)H=(hij)7*11的矩陣,對(duì)該矩陣進(jìn)行主成分分析,可以得到李XX事件主成分貢獻(xiàn)率依次為為57.23%,21.75%,14.71%,4.94%,1.16%,0.11%,0.07%,故本實(shí)驗(yàn)選取達(dá)到85%貢獻(xiàn)率的前3個(gè)主成分信息。通過信息計(jì)算得到:李XX事件前3個(gè)主成分分別能夠表達(dá)原始數(shù)據(jù)集93.17%,6.261%,0.367%的數(shù)據(jù)信息,即前3個(gè)主成分λ1,λ2和λ3可以解釋原始數(shù)據(jù)99.80%的信息量,因此,該數(shù)據(jù)集可以由8維降為3維。利用λ1,λ2和λ3的數(shù)據(jù)對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析,能夠達(dá)到精簡數(shù)據(jù)集的目的。最終得到數(shù)據(jù)Z如表2所示。 表2 主成分?jǐn)?shù)據(jù) 2.3.1 確定網(wǎng)絡(luò)結(jié)構(gòu) 本文使用Genie2.3軟件建立數(shù)據(jù)驅(qū)動(dòng)的基于動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情預(yù)測模型。采集數(shù)據(jù)指標(biāo)共11天,所以網(wǎng)絡(luò)結(jié)構(gòu)中建立共11步時(shí)間片。節(jié)點(diǎn)pca1,pca2和pca3即主成分?jǐn)?shù)據(jù)λ1,λ2和λ3,其中節(jié)點(diǎn)pca1,pca2和pca3是節(jié)點(diǎn)Risk的父節(jié)點(diǎn),節(jié)點(diǎn)pca3是節(jié)點(diǎn)pca2的父節(jié)點(diǎn),節(jié)點(diǎn)pca2是節(jié)點(diǎn)pca1的父節(jié)點(diǎn),同時(shí)節(jié)點(diǎn)pca1、節(jié)點(diǎn)pca2、節(jié)點(diǎn)pca3以及節(jié)點(diǎn)Risk均是下一個(gè)時(shí)間片上本節(jié)點(diǎn)的父節(jié)點(diǎn),父節(jié)點(diǎn)與子節(jié)點(diǎn)存在因果關(guān)系,需要進(jìn)行參數(shù)學(xué)習(xí)來得到先驗(yàn)概率,構(gòu)建貝葉斯網(wǎng)絡(luò)模型。 2.3.2 確定節(jié)點(diǎn)概率 本文選用5名專家意見對(duì)本事件11天期間內(nèi)的Risk節(jié)點(diǎn)進(jìn)行打分,Risk1代表輿情熱度降低,Risk2代表輿情熱度波動(dòng)較小,Risk3代表輿情熱度升高。 2.3.3 數(shù)據(jù)離散化 由于主成分?jǐn)?shù)據(jù)是連續(xù)值,而貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)算法和參數(shù)學(xué)習(xí)算法要求各變量的輸入數(shù)據(jù)是離散值。因此,在結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)之前,需要預(yù)先對(duì)連續(xù)取值的數(shù)據(jù)進(jìn)行離散化處理。 2.3.4 參數(shù)學(xué)習(xí) 建立動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型并確定其結(jié)構(gòu)后,需要進(jìn)行動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí),以獲取網(wǎng)絡(luò)中各節(jié)點(diǎn)隨時(shí)間的先驗(yàn)概率分布。首先,建立一個(gè)數(shù)據(jù)量為1 000的隨機(jī)數(shù)據(jù)集進(jìn)行參數(shù)學(xué)習(xí),對(duì)先驗(yàn)概率進(jìn)行填充;然后,將XX房事件、鮑XX事件、XX連事件等5件輿情事件數(shù)據(jù)作為訓(xùn)練集,將訓(xùn)練集劃分為不同的時(shí)間片;最后,通過EM參數(shù)學(xué)習(xí)算法進(jìn)行參數(shù)學(xué)習(xí)。 2.3.5 進(jìn)行預(yù)測 參數(shù)學(xué)習(xí)確定貝葉斯網(wǎng)絡(luò)模型節(jié)點(diǎn)信息,將各節(jié)點(diǎn)的時(shí)序數(shù)據(jù)作為證據(jù)信息輸入到模型中進(jìn)行預(yù)測,預(yù)測該事件網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)狀態(tài)隨時(shí)間變化的概率。本實(shí)驗(yàn)將李XX事件作為預(yù)測數(shù)據(jù),輸入前5天的主成分?jǐn)?shù)據(jù)基pca1,pca2和pca3,然后對(duì)網(wǎng)絡(luò)中各節(jié)點(diǎn)隨時(shí)間變化的后驗(yàn)概率進(jìn)行更新。 在當(dāng)前輸入的證據(jù)信息下,得到突發(fā)事件網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)節(jié)點(diǎn)的隨時(shí)間變化的概率預(yù)測結(jié)果。結(jié)果表明,在接下來的6天時(shí)間內(nèi),網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)更大可能處于較小狀態(tài)(Risk1),極小概率會(huì)達(dá)到較大(Risk2)或者重大(Risk3)的狀態(tài)。 根據(jù)預(yù)測結(jié)果繪制預(yù)測模型得到的輿情風(fēng)險(xiǎn)Risk1,Risk2和Risk3的概率值與輿情熱度趨勢實(shí)際值的對(duì)比圖,單純貝葉斯算法用Brisk表示,PCA-貝葉斯用ZRisk表示,預(yù)測結(jié)果對(duì)比如圖1—3所示。 圖1 Risk1預(yù)測結(jié)果對(duì)比 圖2 Risk2預(yù)測結(jié)果對(duì)比 圖3 Risk3預(yù)測結(jié)果對(duì)比 通過對(duì)比可得知,主成分分析貝葉斯算法要比單純使用貝葉斯算法對(duì)輿情進(jìn)行預(yù)測的準(zhǔn)確性更高,預(yù)測結(jié)果更接近實(shí)際情況。且在主成分分析算法進(jìn)行濾過之后,貝葉斯算法的工作量大幅度減小。在指標(biāo)數(shù)量巨大的時(shí)候效果尤為明顯。此方法可以為以后輿情方面的大數(shù)據(jù)工作提供幫助。目前,視頻網(wǎng)站發(fā)展迅猛,尤其是短視頻一直深受民眾歡迎。視頻中所表達(dá)出來關(guān)于民眾的意愿與觀點(diǎn)也尤為重要,希望該方法能夠在視頻輿情的研究中發(fā)揮作用。2 實(shí)驗(yàn)研究
2.1 網(wǎng)絡(luò)輿情數(shù)據(jù)采集與標(biāo)準(zhǔn)化處理
2.2 降維
2.3 建立貝葉斯網(wǎng)絡(luò)模型進(jìn)行預(yù)測