亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于PSO-SVM算法的炒作微博識(shí)別研究

2015-12-02 02:28:44王恩賢陶宏才

成都信息工程大學(xué)學(xué)報(bào) 2015年6期

王恩賢，陶宏才

(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院，四川成都611756)

0 引言

隨著互聯(lián)網(wǎng)應(yīng)用的快速發(fā)展和移動(dòng)終端的大規(guī)模普及，以微博為代表，國(guó)內(nèi)外微博用戶數(shù)量急劇增長(zhǎng)，微博已經(jīng)逐漸成為人們進(jìn)行社交的工具。與此同時(shí)，微博的炒作現(xiàn)象嚴(yán)重影響用戶體驗(yàn)及用戶安全，“網(wǎng)絡(luò)水軍”、“網(wǎng)絡(luò)推手”等利用微博散布謠言和虛假信息，操控網(wǎng)絡(luò)輿論，嚴(yán)重干擾了網(wǎng)絡(luò)秩序，也影響了社會(huì)的安定［1］。微博炒作的基本方式是通過(guò)微博營(yíng)銷公司，雇傭名人微博、草根大號(hào)及水軍團(tuán)等廣泛評(píng)論、轉(zhuǎn)發(fā)微博，在短時(shí)間內(nèi)造成熱門微博的假象，以此向世界各地傳播信息。

目前，在對(duì)微博炒作的研究方面，主要集中在微博問(wèn)政、微博傳播倫理研究和少量的微博炒作［2］。大部分研究停留在理論層面上，還沒(méi)有在技術(shù)層面上進(jìn)行深層次的探討。隨著Web的發(fā)展，社交類網(wǎng)站的影響能力和輻射人群日益壯大，消息的真?zhèn)我约笆欠翊嬖谌藶榈牟倏匮哉摰淖呦?，逐漸成為網(wǎng)絡(luò)輿情研究的新熱點(diǎn)。結(jié)合理論和技術(shù)研究，對(duì)炒作微博的特征進(jìn)行分析，構(gòu)建特征集，基于SVM(support vector machine)算法，加入粒子群PSO(particle swarm optimization)算法對(duì)SVM模型中的誤差懲罰因子參數(shù)和核函數(shù)參數(shù)進(jìn)行優(yōu)化，分析對(duì)比得到最佳分類模型，對(duì)炒作微博進(jìn)行有效的識(shí)別和檢測(cè)。研究開(kāi)發(fā)高效的炒作微博的識(shí)別方法，對(duì)微博的健康發(fā)展具有重要的意義和應(yīng)用價(jià)值。

1 SVM概述及PSO算法

1．1 SVM 概述

支持向量機(jī)根據(jù)有限的樣本信息，在模型的學(xué)習(xí)能力和復(fù)雜性之間尋求最佳結(jié)合［3］，通過(guò)選擇適當(dāng)?shù)暮瘮?shù)使學(xué)習(xí)機(jī)的期望風(fēng)險(xiǎn)達(dá)到最小，保證通過(guò)有限訓(xùn)練樣本得到小誤差分類器對(duì)獨(dú)立測(cè)試集的測(cè)試誤差比較小，從而得到一個(gè)具有最優(yōu)分類能力和推廣泛化能力的學(xué)習(xí)機(jī)［4］，通過(guò)利用Lagrange優(yōu)化方法可以把支持向量機(jī)最優(yōu)分類面問(wèn)題轉(zhuǎn)化為對(duì)偶問(wèn)題［5］。

對(duì)于非線性可分的情況，SVM利用核函數(shù)將低維輸入空間映射到高維特征空間使線性可分，在低維、高維、小樣本和大樣本等情況下，RBF核函數(shù)都表現(xiàn)出了很好的學(xué)習(xí)能力，得到了廣泛的應(yīng)用［6］。，文中選擇RBF函數(shù)作為SVM的核函數(shù)，最優(yōu)化問(wèn)題就取決于核參數(shù)g和懲罰因子c的選擇，這樣選擇較佳的參數(shù)可使分類模型具有較優(yōu)的性能和推廣能力。

1．2 粒子群算法

1995 年，Kennedy 和 Eberhart［7］提出了基于種群的粒子群算法(particle swarm optimization，PSO)。其基本思想［8］是模擬鳥(niǎo)群飛行過(guò)程中的群體協(xié)作避免迷失方向，由此實(shí)現(xiàn)群體目的最優(yōu)。PSO算法中所有的粒子都擁有一個(gè)由被優(yōu)化函數(shù)產(chǎn)生的適應(yīng)值(fitness)，以及決定飛行方向和距離的速度。PSO首先初始化一群隨機(jī)粒子，粒子追隨最優(yōu)粒子在解空間中不斷更新自己的位置、速度和適應(yīng)度值，從而產(chǎn)生下一代粒子。粒子飛行經(jīng)過(guò)的最好位置為局部最優(yōu)值，整個(gè)群體所經(jīng)歷過(guò)的最好位置為群體的最優(yōu)值。

文中將利用粒子群算法，優(yōu)化SVM中的核參數(shù)g和誤差懲罰因子c。首先，根據(jù)種群數(shù)量的設(shè)置，為參數(shù)c和g分別初始化一組粒子群，并隨機(jī)生成種群中粒子的速度和位置。然后，使用目標(biāo)函數(shù)計(jì)算種群中粒子的適應(yīng)度值，并根據(jù)計(jì)算出的適應(yīng)度值更新粒子種群的局部最優(yōu)的和全局最優(yōu)的c和g。最終，利用得到的較優(yōu)c和g參數(shù)對(duì)，構(gòu)造出PSO-SVM模型以識(shí)別炒作微博。

2 炒作微博特征分析與提取

2．1 社團(tuán)模塊度

熱門微博榜是通過(guò)微博的轉(zhuǎn)發(fā)、評(píng)論數(shù)量及頻率等進(jìn)行綜合排名的，為達(dá)到炒作的目的，炒作用戶一般聚集一群用戶，操作微博的輿論傳播。提取微博傳播網(wǎng)絡(luò)中的節(jié)點(diǎn)信息，通過(guò)網(wǎng)絡(luò)分析工具Pajek作網(wǎng)絡(luò)信息傳播，其傳播結(jié)構(gòu)如圖1、圖2所示。從圖1可見(jiàn)，熱門微博信息傳播方式是逐層擴(kuò)散出去的，并且傳播力度逐層減弱，呈現(xiàn)出核爆式的傳播。圖2為一條典型的炒作微博的信息傳播結(jié)構(gòu)圖，此微博的傳播完全圍繞著幾個(gè)大V(粉絲數(shù)10萬(wàn)以上)關(guān)鍵用戶進(jìn)行傳播，很少有離散的節(jié)點(diǎn)傳播路徑，具有典型的群體策劃現(xiàn)象。

圖1 熱門微博信息傳播結(jié)構(gòu)

圖2 炒作微博信息傳播結(jié)構(gòu)

為能夠衡量網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的劃分程度和聚集程度，Girvan和 Newman［9］定義了模塊性函數(shù)，定量地描述網(wǎng)絡(luò)社團(tuán)的劃分和緊密程度。所謂模塊性，即網(wǎng)絡(luò)中連接社團(tuán)結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)的邊所占的比例與另外一個(gè)隨機(jī)網(wǎng)絡(luò)中連接社團(tuán)結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)的邊所占比例的期望值相減得到的差值。隨機(jī)網(wǎng)絡(luò)的構(gòu)造，通過(guò)保持每個(gè)節(jié)點(diǎn)的社團(tuán)屬性不變，節(jié)點(diǎn)的邊根據(jù)節(jié)點(diǎn)的度隨機(jī)連接來(lái)進(jìn)行。如果隨機(jī)網(wǎng)絡(luò)的稠密程度期望值低于現(xiàn)實(shí)的社團(tuán)內(nèi)部連接稠密程度值，說(shuō)明得到較好的社團(tuán)結(jié)構(gòu)劃分。通常用Q函數(shù)對(duì)社團(tuán)模塊度水平進(jìn)行描述。

假設(shè)已劃分出網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)，節(jié)點(diǎn)vi所屬的社團(tuán)編號(hào)為σi，則網(wǎng)絡(luò)中社團(tuán)內(nèi)部的連邊所占比例為

在式(1)中，aij表示網(wǎng)絡(luò)鄰接矩陣中的元素，若vi和vj2節(jié)點(diǎn)無(wú)邊相連，aij=0，否則aij=1;若vi和vj是同一社團(tuán)的節(jié)點(diǎn)，即 σi= σj時(shí)，δ(σi，σj)=1 ，否則為0。網(wǎng)絡(luò)中邊的數(shù)目M=0．5∑ aij。在社團(tuán)結(jié)構(gòu)固定時(shí)，構(gòu)建出隨機(jī)連接邊的網(wǎng)絡(luò)，節(jié)點(diǎn)vi和vj之間存在連接邊的可能性為kikj/2M，其中ki和kj分別為節(jié)點(diǎn)vi和vj的度。由此，Q函數(shù)可以定義為

若社團(tuán)內(nèi)部節(jié)點(diǎn)間的邊數(shù)小于隨機(jī)連接得到的邊數(shù)，則Q小于0。若Q函數(shù)值接近1，表明社團(tuán)結(jié)構(gòu)內(nèi)部連接高度緊密。在實(shí)際應(yīng)用中，Q一般在0.3～0.7。

2．2 平均最短路徑

網(wǎng)絡(luò)信息傳播不僅依賴于小世界網(wǎng)絡(luò)中的最短路徑，還與網(wǎng)絡(luò)行為的多次社會(huì)性強(qiáng)化相關(guān)［10］。最短路徑是指2個(gè)節(jié)點(diǎn)間最小值的路徑，平均最短路徑是指社團(tuán)網(wǎng)絡(luò)中任意兩節(jié)點(diǎn)最短路徑的均值。若2條微博的傳播數(shù)相同，而傳播節(jié)點(diǎn)間的平均最短路徑相差較大，則認(rèn)為平均最短路徑大的微博，其傳播層數(shù)多，影響力大;而平均最短路徑小的微博，傳播多集中在某個(gè)或某幾個(gè)轉(zhuǎn)發(fā)者的粉絲之間，以至于傳播層數(shù)少，影響力小。利用平均最短路徑來(lái)判斷微博的擴(kuò)散范圍，通過(guò)計(jì)算微博傳播中節(jié)點(diǎn)平均最短路徑，判斷節(jié)點(diǎn)間的緊密程度，以此識(shí)別出炒作微博。

文中采用Floyd算法計(jì)算最短路徑，基本思想是從任意節(jié)點(diǎn)i到任意節(jié)點(diǎn)j的最短路徑存在2種可能，一是直接從節(jié)點(diǎn)i到j(luò)，二是從節(jié)點(diǎn)i經(jīng)過(guò)若干個(gè)節(jié)點(diǎn)k到j(luò)。設(shè)dpv表示節(jié)點(diǎn)p到節(jié)點(diǎn)v的最短路徑距離，對(duì)于網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)k，檢查dik+dkj＜dij是否成立。如果成立，說(shuō)明從節(jié)點(diǎn)i經(jīng)過(guò)k到節(jié)點(diǎn)j的路徑比i直接到j(luò)的路徑更短，便設(shè)置dij=dik+dkj。循環(huán)遍歷完所有的節(jié)點(diǎn)k，dij存儲(chǔ)的值就是節(jié)點(diǎn)i到節(jié)點(diǎn)j的最短路徑距離。具體算法描述為:

(1)從任意一條單邊的路徑開(kāi)始。設(shè)2點(diǎn)之間的距離是邊的權(quán)值，若2點(diǎn)之間沒(méi)有直接的邊相連，則權(quán)值設(shè)為無(wú)窮大。

(2)對(duì)每一對(duì)頂點(diǎn)p和v，查看是否存在一個(gè)頂點(diǎn)w使從頂點(diǎn)p到w再到v的路徑比己知的路徑更短。

(3)如果路徑更短，則更新。若存在未搜索節(jié)點(diǎn)，繼續(xù)步驟(2)，否則結(jié)束。

2．3 關(guān)鍵用戶屬性

在微博的傳播過(guò)程中，存在一些大V用戶，其轉(zhuǎn)發(fā)、評(píng)論等行為對(duì)微博的傳播起到至關(guān)重要的影響，這些重要的傳播節(jié)點(diǎn)稱為關(guān)鍵用戶。相關(guān)研究［11］發(fā)現(xiàn)，賬戶關(guān)注好友的質(zhì)量和賬戶狀態(tài)特征最能體現(xiàn)正常賬戶和炒作賬戶之間的區(qū)別。為了能夠衡量賬戶及其關(guān)注好友的質(zhì)量，定義聲望值FM反映賬戶的影響力。FM定義為

其中，Nf(u)和Ng(u)分別表示賬戶u的粉絲數(shù)和關(guān)注數(shù)。

提取炒作微博傳播過(guò)程中的關(guān)鍵用戶的屬性信息并作累積分布函數(shù)曲線(CDF)如圖3～6所示。

圖3 關(guān)鍵用戶平均關(guān)注數(shù)

圖4 關(guān)鍵用戶平均聲望值

圖5 關(guān)鍵用戶關(guān)注好友的平均聲望值

圖6 關(guān)鍵用戶關(guān)注好友的平均粉絲數(shù)

由圖3可以看出，正常微博中絕大部分的關(guān)鍵用戶平均關(guān)注數(shù)高于550，炒作微博中絕大部分的關(guān)鍵用戶平均關(guān)注數(shù)不足450。由圖4和圖5可以看出，絕大多數(shù)正常微博中關(guān)鍵用戶和關(guān)注好友的平均聲望值高于炒作微博的關(guān)鍵用戶和關(guān)注好友的平均聲望值。

由圖6可以看出，炒作微博中85%以上的關(guān)鍵用戶關(guān)注好友的平均粉絲數(shù)數(shù)量級(jí)為105，而正常微博中85%以上的關(guān)鍵用戶關(guān)注好友的平均粉絲數(shù)數(shù)量級(jí)為106。

炒作微博中的節(jié)點(diǎn)用戶質(zhì)量與正常微博中的節(jié)點(diǎn)用戶質(zhì)量有著明顯的區(qū)別，可以用反映賬戶質(zhì)量的相關(guān)特征加以區(qū)分炒作微博和正常微博。關(guān)鍵用戶關(guān)注好友的質(zhì)量通過(guò)好友平均粉絲數(shù)和平均聲望值反映，而關(guān)鍵用戶的狀態(tài)特征通過(guò)用戶平均聲望值和平均關(guān)注數(shù)體現(xiàn)。

3 基于SVM優(yōu)化算法的炒作微博識(shí)別方法

炒作微博識(shí)別框架基本流程圖如圖7所示，識(shí)別框架主要包括數(shù)據(jù)預(yù)處理、特征提取、模型建立及訓(xùn)練測(cè)試和決策分類等幾個(gè)主要步驟組成。數(shù)據(jù)預(yù)處理主要是對(duì)原始數(shù)據(jù)進(jìn)行分類、節(jié)點(diǎn)關(guān)系提取以及節(jié)點(diǎn)粉絲和關(guān)注數(shù)的計(jì)算。特征是通過(guò)微博的節(jié)點(diǎn)傳播途徑和節(jié)點(diǎn)信息來(lái)提取，提取出的特征包括社團(tuán)模塊度、平均最短路徑、關(guān)鍵用戶關(guān)注好友的平均聲望值和平均粉絲數(shù)以及關(guān)鍵用戶的平均聲望值和平均關(guān)注數(shù)。

在模型的建立過(guò)程中，通過(guò)粒子群算法PSO對(duì)SVM中的核參數(shù)g和懲罰因子c進(jìn)行優(yōu)化，PSO優(yōu)化SVM參數(shù)流程圖如圖8所示。Vapnike等［12］研究表明，核參數(shù)g和懲罰因子c是影響SVM性能的關(guān)鍵因素，設(shè)置c的取值范圍為［0.1，100］，g的取值范圍為［0.01，1000］。由于需要優(yōu)化的參數(shù)較少，所以種群粒子數(shù)目設(shè)為20，迭代步數(shù)為200。加速度因子c1和c2表示向局部最優(yōu)和全局最優(yōu)推進(jìn)的加速度權(quán)值，c1一般等于 c2，取值范圍在［0，4］［13］，文中都取 2。為能夠提高算法的搜索能力和分類能力，針對(duì)PSO算法容易早熟和后期容易在全局最優(yōu)解附近振蕩的現(xiàn)象，采用線性遞減權(quán)重法對(duì)慣性權(quán)重ω進(jìn)行調(diào)整，ωmax取值0.9，ωmin取值0.4。

圖7 識(shí)別框架流程圖

圖8 PSO優(yōu)化SVM參數(shù)流程圖

炒作微博的識(shí)別分為訓(xùn)練階段和測(cè)試階段，首先使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型，分析訓(xùn)練結(jié)果和準(zhǔn)確率。然后使用模型測(cè)試數(shù)據(jù)，得出測(cè)試數(shù)據(jù)對(duì)應(yīng)的分類結(jié)果，最后通過(guò)對(duì)比預(yù)先人工標(biāo)注的測(cè)試數(shù)據(jù)分類標(biāo)簽得出最終的分類準(zhǔn)確率。

4 實(shí)驗(yàn)結(jié)果與分析

4．1 數(shù)據(jù)集的獲取及分析

基于新浪微博實(shí)驗(yàn)平臺(tái)，利用API接口和網(wǎng)絡(luò)爬蟲(chóng)工具相結(jié)合，提取微博的傳播路徑和節(jié)點(diǎn)信息，計(jì)算每條微博關(guān)鍵節(jié)點(diǎn)的屬性信息和傳播節(jié)點(diǎn)之間的緊密程度，以判斷是否有社團(tuán)存在的可能性。從熱門微博中選擇飲品、娛樂(lè)等話題獲取實(shí)驗(yàn)數(shù)據(jù)集，剔除變量缺失的樣本數(shù)據(jù)，共獲得610個(gè)樣本。數(shù)據(jù)主要包括微博用戶的屬性信息(關(guān)注、粉絲和微博等)，好友屬性信息，轉(zhuǎn)發(fā)用戶屬性信息。

由于目前沒(méi)有標(biāo)準(zhǔn)的炒作微博數(shù)據(jù)集，所以需要以人工標(biāo)注的形式對(duì)微博進(jìn)行標(biāo)注。在標(biāo)注過(guò)程中，選擇房?jī)r(jià)、飲品和娛樂(lè)等話題數(shù)據(jù)標(biāo)注，以使數(shù)據(jù)集的標(biāo)注具有多樣性。每條熱門微博同時(shí)由2個(gè)人標(biāo)注，只有標(biāo)注結(jié)果一致才加入到數(shù)據(jù)集中，盡可能避免標(biāo)注時(shí)的人為主觀性因素。

使用SVM模型對(duì)數(shù)據(jù)進(jìn)行分類，發(fā)現(xiàn)2類數(shù)據(jù)具有明顯的區(qū)別。由圖9可見(jiàn)，炒作微博的社團(tuán)模塊度集中于0.8～0.9，超出了正常社團(tuán)的范圍［0.3，0.7］，并且平均最短路徑值集中于3～5，明顯背離了六度分隔理論，傳播層次少，傳播主要集中在某幾個(gè)轉(zhuǎn)發(fā)者的粉絲之間，體現(xiàn)出了節(jié)點(diǎn)間具有較強(qiáng)的緊密程度。對(duì)于炒作微博和正常微博，用戶的平均聲望值、平均關(guān)注數(shù)以及好友的平均聲望值和平均聲望值有著較為明顯的區(qū)別，反映出炒作微博的關(guān)鍵節(jié)點(diǎn)用戶及其好友的質(zhì)量與正常微博的賬戶質(zhì)量之間有著明顯的區(qū)別。

圖9 炒作微博與正常微博的分類

4．2 評(píng)價(jià)指標(biāo)

通過(guò)模型預(yù)測(cè)微博分類，為了能夠反映出分類結(jié)果的優(yōu)劣，定義以下幾個(gè)評(píng)價(jià)指標(biāo)衡量分類的質(zhì)量。

表1 炒作微博識(shí)別結(jié)果

表1所示為炒作微博識(shí)別結(jié)果。常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(P)，召回率(R)是正確識(shí)別出的炒作微博數(shù)量占總炒作微博數(shù)量的比例，誤報(bào)率(FP)是正常微博被識(shí)別為炒作微博的數(shù)量占總正常微博數(shù)量的比例，F(xiàn)1度量值是對(duì)P和R的加權(quán)調(diào)和平均，F(xiàn)1較高時(shí)說(shuō)明實(shí)驗(yàn)方法比較理想，計(jì)算公式如下:

準(zhǔn)確率

4．3 結(jié)果對(duì)比與分析

為驗(yàn)證模型的識(shí)別準(zhǔn)確率，基于Matlab R2012a和LibSVM實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)驗(yàn)。每條微博提取出了6個(gè)特征，即:社團(tuán)模塊度、平均最短路徑、關(guān)鍵用戶關(guān)注好友平均粉絲數(shù)、關(guān)鍵用戶關(guān)注好友平均聲望值、關(guān)鍵用戶平均聲望值、關(guān)鍵用戶平均關(guān)注數(shù)。提取社團(tuán)模塊度和平均最短路徑構(gòu)成2維特征向量Fcls2，微博的6個(gè)特征構(gòu)成6維特征向量Fall。

實(shí)驗(yàn)使用PRO算法對(duì)支持向量機(jī)的模型的核參數(shù)和懲罰因子進(jìn)行優(yōu)化，為衡量PRO算法優(yōu)化SVM的有效性，采用基于網(wǎng)格搜索法優(yōu)化的SVM作為參比模型進(jìn)行比較，然后以特征向量Fcls2和Fall作為2種模型的輸入，采用十折交叉驗(yàn)證的方式進(jìn)行評(píng)估，并依據(jù)3個(gè)評(píng)價(jià)指標(biāo)比較分類結(jié)果的優(yōu)劣，得到結(jié)果見(jiàn)表2和表3。

表2 采用不同的特征組合對(duì)炒作微博的SVM分類結(jié)果

表3 采用不同的特征組合對(duì)炒作微博的PSO-SVM分類結(jié)果

由表2和表3可以看出，使用6維組合特征向量的分類效果要優(yōu)于2維特征向量。主要原因在于，一些明星粉絲之間的口水戰(zhàn)和娛樂(lè)明星為了突出微博重要性而重復(fù)轉(zhuǎn)發(fā)，造成微博在傳播過(guò)程中的參與人群相對(duì)單一，傳播層次少，從而使社團(tuán)模塊度較大和平均最短路徑較小，最終被誤識(shí)別為炒作微博，因此使用2維特征向量Fcls2分類效果較差。炒作微博中的節(jié)點(diǎn)用戶質(zhì)量與正常微博中的節(jié)點(diǎn)用戶質(zhì)量有著明顯的區(qū)別，因此提取傳播網(wǎng)絡(luò)中的關(guān)鍵用戶屬性信息，組成6維特征向量Fall，用于衡量傳播網(wǎng)絡(luò)中用戶和好友的質(zhì)量，區(qū)分被誤識(shí)別為炒作微博的正常微博，從而使分類準(zhǔn)確率有較大提高。實(shí)驗(yàn)說(shuō)明社團(tuán)模塊度和平均最短路徑與關(guān)鍵用戶屬性特征具有優(yōu)勢(shì)互補(bǔ)的特性，兩者結(jié)合更能體現(xiàn)炒作微博的特性，提高分類準(zhǔn)確率。

對(duì)比SVM，使用PSO-SVM分類模型可以使炒作微博的分類準(zhǔn)確率達(dá)到90%以上，并且誤報(bào)率不到1%，F(xiàn)1度量值達(dá)到90%以上，說(shuō)明PSO對(duì)SVM的參數(shù)優(yōu)化具有明顯的效果，PSO-SVM分類模型比較理想，能夠高效地解決炒作微博的識(shí)別問(wèn)題，為微博的健康發(fā)展提供支持。

5 結(jié)束語(yǔ)

對(duì)炒作微博的傳播網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行分析，基于社團(tuán)模塊度、平均最短路徑和關(guān)鍵用戶屬性等特征，得出識(shí)別準(zhǔn)確率較高的PSO-SVM分類模型，該模型使用PSO對(duì)SVM中的參數(shù)進(jìn)行優(yōu)化，避免了人為選擇的隨機(jī)性，使參數(shù)選擇更合理。實(shí)驗(yàn)結(jié)果表明，文中方法能有效地識(shí)別出炒作微博，準(zhǔn)確率達(dá)到90%以上，具有一定的合理性和適用性，并且對(duì)明星或官方微博的影響因子進(jìn)行了深度細(xì)化，能夠較好克服微博名人效應(yīng)對(duì)識(shí)別準(zhǔn)確率的干擾。

［1］任一其，王雅雷，王國(guó)華，等.微博謠言的演化機(jī)理研究［J］.情報(bào)雜志，2012，31(5)：50-54.

［2］齊海鳳.網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)與事件跟蹤技術(shù)研究［D］.哈爾濱：哈爾濱工程大學(xué)，2008.

［3］ Dimitrios C，Takis K.Wavelet-based rotational invariant roughness features for texture classification and segmentation［J］.IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society，2002，11(8)：825-837.

［4］ Cortes C，Vapnik V.Support-Vector Networks［J］.Machine Learning，1995，20(3)：273-297.

［5］ Burges C J C.A Tutorial on Support Vector Machines for Pattern Recognition［J］.Data Mining ＆Knowledge Discovery，1998，2(2)：121-167.

［6］高錦.基于SVM的圖像分類［D］.西安：西北大學(xué)，2010.

［7］ KENNEDY J，EBERHART R.Particle swarm optimization［C］.Proc of IEEE International Conference on Neural Networks.Piscataway：IEEE Press，1995：1942-1948.

［8］ MATLAB中文論壇.MATLAB神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析［M］.北京：北京航空航天大學(xué)出版社，2010.

［9］ Newman M E J，Girvan M.Finding and evaluating community structure in networks［J］.Physical Review E Statistical Nonlinear＆Soft Matter Physics，2004，69：026-113.

［10］ LüL，Chen D B，Zhou T.Small world yields the most effective information spreading ［J］.New Journal of Physics，2011，(9-10)：825-834.

［11］張進(jìn)，劉琰，羅軍勇，等.基于特征分析的微博炒作賬戶識(shí)別方法［J］.計(jì)算機(jī)工程，2015，(4)：48-54.

［12］鄧乃揚(yáng).數(shù)據(jù)挖掘中的新方法［M］.北京：科學(xué)出版社，2004.

［13］周輝仁，鄭丕諤，王嵩，等.基于粒子群優(yōu)化算法LS-SVM財(cái)務(wù)預(yù)警［J］.計(jì)算機(jī)工程，2009，35(10)：280-282.

［14］ Girvan M，Newman M E J.Community structure in social and biological networks［J］.Proceedings of the National Academy of Sciences of the United States of America，2001，99(12)：7821-7826.

［15］ Newman M E J，Watts D J.Renormalization group analysis of the small-world network model［J］.Physics Letters A，1999，263(4)：341-346.

［16］ Bu Z，Xia Z，Wang J.A sock puppet detection algorithm on virtual spaces［J］.Knowledge-Based Systems，2013，37(2)：366-377.

［17］袁立庠.微博的傳播模式與傳播效果［J］.安徽師范大學(xué)學(xué)報(bào)：人文社會(huì)科學(xué)版，2011，39(6)：678-683.

［18］汪小帆，劉亞冰.復(fù)雜網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)算法綜述［J］.電子科技大學(xué)學(xué)報(bào)，2009，38(5)：537-543.