亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于URL和PageRank的公安輿情關(guān)鍵人物評估

2019-03-16 08:46:32張俊豪

鐵道警察學院學報 2019年5期

張俊豪，李楊

（鐵道警察學院圖像與網(wǎng)絡(luò)偵查系，河南鄭州450053）

隨著計算機、互聯(lián)網(wǎng)技術(shù)特別是移動終端技術(shù)的快速發(fā)展，社交網(wǎng)絡(luò)已經(jīng)成為人們線上交流、獲取信息、發(fā)布信息的一個重要社交平臺。社交網(wǎng)絡(luò)帶給人們便利的同時，也給公安輿情的引導(dǎo)和治理提出了很大的挑戰(zhàn)。在公安網(wǎng)安部門進行輿情治理過程中，面臨的主要問題就是技術(shù)手段單一、決策不夠科學化。本文所提出的基于URL 和PageRank 的公安輿情關(guān)鍵人物評估算法（Keyman Assessment Based on PageRank and URL，KA-PU），就是根據(jù)社交網(wǎng)絡(luò)中真實的輿論消息傳播走向確定某一公安輿情中最關(guān)鍵的核心人物，進而為公安網(wǎng)安部門提供理論指導(dǎo)和技術(shù)支持。

一、研究綜述

評估公安輿情內(nèi)關(guān)鍵人物的話題影響力屬于社交網(wǎng)絡(luò)的研究范疇，類似于社交網(wǎng)絡(luò)中用戶影響力的劃分。近幾年，人們對用戶影響力的研究主要集中在Facebook、Twitter、新浪微博、貼吧、人人網(wǎng)以及微信等［1］，目前我國的公安輿情監(jiān)控的重要領(lǐng)域也主要集中于此。

（一）國外研究綜述

國外對用戶影響力的研究主要集中在用戶行為分析、用戶交互信息分析以及時間度分析三個主流層面上［2］。

國外最初通過用戶的好友數(shù)量進行劃分用戶影響力等級，比如Java 等人最初就是通過用戶的粉絲數(shù)目來決定用戶的影響力［3］。但是隨著社會各界重要人物的加入，研究者開始意識到，僅僅依靠粉絲數(shù)量衡量用戶影響力是遠遠不夠的，比如Kwak等人研究發(fā)現(xiàn)，社交網(wǎng)絡(luò)信息的發(fā)酵和傳播與用戶的粉絲數(shù)并無直接的關(guān)系，即單靠粉絲數(shù)量一個維度衡量用戶影響力是沒有說服力的［4］。2000 年之后，由于各類學科的大融合，部分研究者開始利用人類行為學分析用戶行為（發(fā)帖，轉(zhuǎn)帖、評論等），以此得到用戶影響力數(shù)值，并取得了很好的成效，基于用戶行為分析的用戶影響力，不僅能夠衡量用戶的局部影響力，還能夠衡量用戶的全局影響力，此種研究方法一直沿用到現(xiàn)在，并受到廣泛的推崇。用戶行為數(shù)據(jù)的來源非常廣泛，其中網(wǎng)絡(luò)爬蟲是最主流的一種方式，另外網(wǎng)絡(luò)日志也是重要數(shù)據(jù)來源，Goyal通過用戶的日志信息劃分各種行為對用戶影響力的貢獻比重，進而衡量用戶影響力［5］。Cha等人從微博用戶的粉絲數(shù)、微博轉(zhuǎn)發(fā)數(shù)以及用戶提及數(shù)三個方面衡量用戶影響力，最終發(fā)現(xiàn)微博轉(zhuǎn)發(fā)數(shù)是決定微博用戶影響力的最為關(guān)鍵因素［6］。Ye 等人在Cha的基礎(chǔ)上細化用戶的行為，主要包含評論、轉(zhuǎn)發(fā)、回復(fù)、提及等等，并進行逐一分析，運用不同的模型得出結(jié)論：評論是衡量微博用戶影響力的關(guān)鍵因素［7］。Bakshy E等人根據(jù)路徑追蹤的方法提出了一種URL 追蹤的用戶影響力評估模型［8］。Tang等人根據(jù)圖論等知識，計算出了微博用戶的話題影響力，主要衡量用戶在以特定話題下的局部影響力［9］。Agarwal等人分析了用戶的博文，并根據(jù)博文的傳播質(zhì)量和內(nèi)容屬性評價某一博文的重要性，進而挖掘出社交網(wǎng)絡(luò)中的“意見領(lǐng)袖”，之后結(jié)合用戶的行為特征以及博文的綜合影響力得到用戶的影響力范圍［10］。Romero 根據(jù)用戶之間的微博轉(zhuǎn)發(fā)率提出一種新穎的用戶影響力評估方法——IP-influence［11］。由于社交網(wǎng)絡(luò)的時間屬性，即用戶的影響力會隨著時間的推移而改變，所以國外的很多學者在研究用戶影響力時將時間作為一個重要參數(shù)，比如Alsaedi等人將時間維度加到TF-IDF 方法中來自動提取Twitter摘要，然后對結(jié)果進行評估［12］。Steeg根據(jù)用戶之間的交互信息以及演化過程找出了隱藏在社交網(wǎng)絡(luò)中真正的“大V”［13］。

（二）國內(nèi)研究綜述

國內(nèi)對用戶影響力的研究基本都出現(xiàn)在2006年之后，主要集中在PageRank算法、用戶行為、多學科融合等領(lǐng)域內(nèi)，并在近兩年趨于成熟?；赑ageRank 的微博用戶力研究模型是其中最早的一種評估模型，楊科根據(jù)PageRank算法提出了用于識別微博網(wǎng)絡(luò)領(lǐng)導(dǎo)小組的LeadersRank 算法，該算法能夠識別一組重要的微博用戶［14］。李軍等人根據(jù)微博的特性，提出了一種可以衡量用戶傳播能力的用戶影響力評估模型［15］。丁溫雪等人為了避免出現(xiàn)PageRank 算法中存在的主題漂移現(xiàn)象，提出了TSPR算法，該算法引入時間因子，并采用TF-IDF方法計算微博用戶之間的相似度，大大提升了微博用戶排名的準確率［16］。Zhai等人在微博用戶行為關(guān)系的基礎(chǔ)上，根據(jù)PageRank提出了一種微博用戶影響力評估算法［17］。毛佳昕等人根據(jù)用戶行為之間的關(guān)系提出了一個能夠預(yù)測用戶影響力大小的分析模型［18］。在國內(nèi)，隨著大數(shù)據(jù)的出現(xiàn)，多學科開始不斷融合，國內(nèi)的學者開始將社會學、心理學等各方面的知識運用到社交網(wǎng)絡(luò)上，比如肖云鵬等人根據(jù)動力學模型和傳染病模型提出了一種新型的用戶影響力評估模型［19］。王楠等人根據(jù)區(qū)域交互模型提出了一種新型的用戶影響力評估模型［20］。唐昌宏等人根據(jù)張量分解算法提出了一種影響力用戶識別算法［21］。

以上用戶影響力評估模型都可用于分析計算用戶的影響力，但是都沒能從宏觀的角度考慮用戶之間的關(guān)系，所以缺乏一定的準確性。本文將從輿情消息的傳播路徑出發(fā)，建立涉警輿情用戶的消息轉(zhuǎn)發(fā)網(wǎng)絡(luò)，并在此基礎(chǔ)之上更新用戶關(guān)系網(wǎng)絡(luò)，真正衡量用戶在某一話題下的用戶影響力。

二、PageRank算法簡介

PageRank 算法是谷歌的核心算法，主要是為了解決網(wǎng)頁排名問題，通過網(wǎng)頁之間的鏈接關(guān)系，建立馬爾科夫矩陣，再經(jīng)過不斷地迭代計算得到網(wǎng)頁權(quán)值的大小排名，權(quán)值越大，網(wǎng)頁就越重要。PageRank算法的核心思想主要有以下兩點［22］：

（1）網(wǎng)頁的鏈入鏈接越多，網(wǎng)頁越重要；

（2）網(wǎng)頁若被某一重要的網(wǎng)頁所指向，那么該網(wǎng)頁也很重要。

PageRank的計算公式如公式1所示：

公式1 中，e 為單位矩陣，P 代表網(wǎng)頁的權(quán)威向量值，d 代表阻尼系數(shù)，B 是根據(jù)網(wǎng)頁的鏈接關(guān)系得到的轉(zhuǎn)移矩陣。

三、基于URL和PageRank的關(guān)鍵人物評估分析

通過層次分析法統(tǒng)計分析用戶的幾種網(wǎng)絡(luò)行為可知，在公安輿情網(wǎng)絡(luò)中，真正影響話題發(fā)酵程度的核心因素是用戶的轉(zhuǎn)發(fā)行為，因為轉(zhuǎn)發(fā)是話題擴大影響的最根本途徑。因此，在考慮公安輿情內(nèi)的用戶話題影響力時，就需要通過消息的流向分析用戶的真實轉(zhuǎn)發(fā)網(wǎng)絡(luò)。

（一）微博用戶之間的真實網(wǎng)絡(luò)

通過公安輿情消息的轉(zhuǎn)發(fā)網(wǎng)絡(luò)確定關(guān)鍵人物的話題影響力時，不僅要考慮消息傳播的廣度，也要考慮消息傳播的深度。如圖1 所示，其顯示的是公安輿情內(nèi)某一特定消息的轉(zhuǎn)發(fā)傳播路徑。

圖1 微博消息的轉(zhuǎn)發(fā)路徑

在圖1 中，假設(shè)共有用A、B、C、D、E、F 六名用戶，其中箭頭指向代表著輿論消息的流向，從圖中可以看出，輿論消息以A用戶為源頭，經(jīng)用戶B、D、E轉(zhuǎn)發(fā)，流向用戶F。直觀地看，用戶F是直接深受用戶E的影響，但是根據(jù)社會學中的行為動力學，用戶F 轉(zhuǎn)發(fā)該條輿論消息其實是受用戶E、D、B、A 共同的影響，只不過每個用戶對用戶F 的實際作用力有所不同，這就是社交網(wǎng)絡(luò)中的蝴蝶效應(yīng)。

在利用PageRank 評估網(wǎng)絡(luò)用戶的話題影響力時，首先要確定的就是用戶的網(wǎng)絡(luò)關(guān)系圖，圖1是六名用戶的消息轉(zhuǎn)發(fā)關(guān)系圖，根據(jù)行為動力學可知，通過這種網(wǎng)絡(luò)關(guān)系簡單得到的用戶影響力是不夠準確的，比如在計算用戶的話題影響力時，根本就考慮不到用戶F 對用戶A 的影響，所以在評估用戶的話題影響力時，需要建立真正的用戶網(wǎng)絡(luò)關(guān)系圖。

為突出用戶之間的關(guān)系，可以把所有用戶的“間接關(guān)系”變?yōu)椤爸苯雨P(guān)系”。如在圖1 中，稱A→B→D→E→F 為某一特定消息傳播的一條URL 路徑，這條URL路徑上的所有用戶都是有“直接關(guān)系”或者“間接關(guān)系”的，把所有的“間接關(guān)系”變?yōu)椤爸苯雨P(guān)系”后，圖1中六名用戶的真實關(guān)系將如圖2所示。

圖2中，實線箭頭代表網(wǎng)絡(luò)用戶原始的“直接關(guān)系”，虛線箭頭代表將“間接關(guān)系”轉(zhuǎn)換后的“直接關(guān)系”，如用戶B指向用戶F代表著用戶F在接受特定消息時，用戶B 起到了橋梁作用，即根據(jù)PageRank算法思想可知，用戶B的話題影響力受用戶F的“間接”影響。在A→B→D→E→F 這條URL 路徑中，原本只有4 條用戶關(guān)系，經(jīng)轉(zhuǎn)發(fā)關(guān)系調(diào)整后，有10 條用戶關(guān)系，不難發(fā)現(xiàn)，若存在著一條由N名用戶組成的消息轉(zhuǎn)發(fā)路徑，那么存在的“直接關(guān)系”和“間接關(guān)系”則共有C2N條。

圖2 微博用戶真實關(guān)系網(wǎng)絡(luò)圖

（二）用戶之間的影響力分配

在公安輿情網(wǎng)絡(luò)中，用戶的話題影響力是靠消息傳播的廣度與深度決定的，所以用戶的話題影響力將由消息傳播路徑上的所有用戶共同決定，即輿論消息的傳播意味著影響力的傳播。

由圖2 可知，用戶的真實網(wǎng)絡(luò)關(guān)系圖是由用戶的“直接關(guān)系”和“間接關(guān)系”組成的，雖然“間接關(guān)系”也影響著用戶影響力權(quán)值的分配，但是作用力卻不同于“直接關(guān)系”。在圖2中，用戶F轉(zhuǎn)發(fā)用戶E的微博消息，那么用戶F 不僅對用戶E 的影響力有所影響，更對用戶A、B、D 的用戶影響力也有所影響，因為用戶A、B、D、E、F 同處于一條URL 路徑之上。根據(jù)行為動力學以及輿論消息的作用力可知，在輿論消息傳播過程中，隨著傳播深度的增加，消息的反饋作用力會逐漸減弱，即用戶F 對用戶A 的影響力貢獻值要遠遠小于對用戶E的影響力貢獻值。

在輿論消息的傳播路徑URL中，后面用戶對前面用戶的影響力貢獻值會隨著關(guān)系介數(shù)的增加而逐漸減小，其中衰變因子為α，本文根據(jù)行為動力學和層次分析法將衰變值α定為0.5。比如在圖2中，用戶F對用戶E、D、B、A的影響力貢獻值會依次減半。

根據(jù)用戶的真實網(wǎng)絡(luò)關(guān)系圖以及微博消息的傳播路徑URL，可確定用戶影響力的權(quán)值分配比例因子，即如公式2所示：

公式2 中B（u，v）代表用戶u 貢獻給用戶v 的話題影響力分配比例因子，n代表最開始節(jié)點到節(jié)點u的URL 路徑長度，（u，v）代表用戶u 到v 的路徑長度。比如在路徑A→B→D→E→F中，用戶F貢獻給用戶A的話題影響力分配比例因子為公式3所示：

同理，用戶D 貢獻給用戶A 的話題影響力分配比例因子為公式4所示：

值得注意的是，本算法還能有效剔除“僵尸粉”對用戶話題影響力的影響，因為本算法中用戶真實網(wǎng)絡(luò)結(jié)構(gòu)是根據(jù)用戶的消息轉(zhuǎn)發(fā)關(guān)系確定的，并不是通過關(guān)注關(guān)系得到的。

（三）算法核心

基于URL 和PageRank 的算法核心可總結(jié)為如下兩點：

（1）用戶的輿論消息傳播的廣度越大，用戶的話題影響力就越強；

（2）用戶的輿論消息傳播的深度越大，用戶的話題影響力就越強。

故本文KA-PU算法的核心可用公式5表示：

公式5 中，KA-PU（v）代表用戶v 的話題影響力，B（u，v）代表輿論消息的轉(zhuǎn)發(fā)者u 貢獻給用戶v的影響力分配比例因子，B為KA-PU算法中的轉(zhuǎn)移矩陣。URL（v）代表以用戶v 為起始節(jié)點的輿論消息傳播路徑上的所有節(jié)點集合。

綜上所述，KA-PU的核心算法如表1所示：

本算法中，根據(jù)Google 給出的阻尼因子d，取值為0.85，根據(jù)PageRank 迭代60 次與59 次的權(quán)值閾值差值，ε取值為0.0001。

四、實驗及結(jié)果分析

（一）實驗數(shù)據(jù)說明

本文的實驗數(shù)據(jù)來自于新浪網(wǎng)微博2018 年10月份的一個20人社區(qū)，話題為遼寧兩名重刑犯脫逃案件，本次公安輿情在該社區(qū)內(nèi)共出現(xiàn)了有代表性的10條微博消息，產(chǎn)生了856條“間接關(guān)系”。

表1 KA-PU算法

（二）實驗對比算法

本實驗采用PageRank 和基于用戶的粉絲數(shù)衡量關(guān)鍵人物評估算法（Keyman Assessment Based on the number of User’s Fans，KA-UF）作為對比算法，進行綜合的分析比較，采用P@N 作為實驗分析指標，衡量KA-PU 算法的準確性，P@N 的計算公式如公式6所示：

公式6 中，AN∩BN代表算法A（B）得到的前N 名用戶話題影響力的交集量，通常關(guān)注的是比較靠前的用戶排名，所以本文N的取值分別為5，10，15。

（三）實驗結(jié)果分析

采用KA-PU對用戶的話題影響力進行排序，最終的排序結(jié)果如圖3所示。本文中每一條微博都會產(chǎn)生一個話題影響力，最后將10條微博的話題影響力進行加權(quán)融合得到最后的話題影響力，具體參數(shù)由層次分析法確定［23］。

圖3 KA-PU排序結(jié)果

采用PageRank對用戶的話題影響力進行排序，排序結(jié)果如圖4所示。

圖4 PageRank排序結(jié)果

采用KA-UF對用戶的話題影響力進行排序，排序結(jié)果如圖5所示。

圖5 UIA-UF排序結(jié)果

從上面三個實驗結(jié)果來看，KA-PU排序結(jié)果與PageRank的排序結(jié)果具有一定的相似性，但與KAUF排序結(jié)果看似完全不同。

若以UIA-UF為基線模型，以PageRank和KA-PU為對比模型，那么對比模型所得結(jié)果在P@N指標下的表現(xiàn)如表2所示。

表2 以KA-UF為基線算法的P@N值測試結(jié)果

若將PageRank 為基線模型，以KA-UF 和本文的KA-PU算法為對比模型，那么對比模型所得結(jié)果在P@N指標下的表現(xiàn)如表3所示。

從以上兩表中可以看出本文的KA-PU 算法在準確性上都有所提升，并且通過具體的分析可知本文算法與對比算法的調(diào)整幅度非常大。這可以得出兩個結(jié)論：第一，PageRank 與UIA-UF 更為相似；第二，KA-PU比兩個對比算法都準確。

表3 以PageRank為基線算法的P@N值測試結(jié)果

在KA-PU 中，粉絲最多的ID18 用戶排名第4位，在PageRank中排名第10位，這說明了在KA-PU算法中，僅僅依靠粉絲數(shù)量并不能準確發(fā)現(xiàn)關(guān)鍵人物。另外，在PageRank算法和本文的算法中，ID4的排名都是第1 位，主要是因為在PageRank 算法中ID4用戶的粉絲影響力較高，粉絲數(shù)也較多，而在本文的算法中，ID4用戶的特定輿情消息（包含轉(zhuǎn)發(fā)的輿情消息）在傳播的廣度和深度上都比較大。在PageRank 中，ID7 用戶排名較為靠后，這是因為ID7用戶的粉絲影響力都不強，而在本算法中，排名較為靠前，這是因為ID7 用戶的粉絲以及粉絲的粉絲等轉(zhuǎn)發(fā)了用戶ID7的8條消息，類似的還有ID5用戶等。通過本算法可確定在本次公安輿情中，ID4 和ID7為最關(guān)鍵的核心人物。

從上面的分析可得知KA-PU 算法能夠從消息傳播的角度全面衡量用戶的話題影響力，結(jié)果更具有說服力。

KA-PU 算法能夠為公安網(wǎng)監(jiān)部門在輿情導(dǎo)控中提供建議，比如在進行輿情監(jiān)控時，可根據(jù)該算法確定影響公安輿情發(fā)展的關(guān)鍵人物，并對其進行實時監(jiān)控，另外通過本算法可以提取出公安輿情傳播的主體框架，借此，可對輿情的下一步發(fā)展以及輿情的導(dǎo)控做出科學的判斷。

五、小結(jié)

本文提出的基于URL和PageRank的KA-PU算法，能夠根據(jù)實際的輿情消息轉(zhuǎn)發(fā)路徑確定用戶之間的“間接關(guān)系”，并以此衡量公安輿情中關(guān)鍵人物的話題影響力，同時也能夠很好地避開“僵尸粉”的影響。實驗結(jié)果證明KA-PU具有更高的準確性和更好的說服力，能夠為公安輿情管控提供決策支持。