亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PSO-SVM算法的炒作微博識(shí)別研究

        2015-12-02 02:28:44王恩賢陶宏才
        關(guān)鍵詞:關(guān)鍵社團(tuán)分類

        王恩賢, 陶宏才

        (西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,四川成都611756)

        0 引言

        隨著互聯(lián)網(wǎng)應(yīng)用的快速發(fā)展和移動(dòng)終端的大規(guī)模普及,以微博為代表,國(guó)內(nèi)外微博用戶數(shù)量急劇增長(zhǎng),微博已經(jīng)逐漸成為人們進(jìn)行社交的工具。與此同時(shí),微博的炒作現(xiàn)象嚴(yán)重影響用戶體驗(yàn)及用戶安全,“網(wǎng)絡(luò)水軍”、“網(wǎng)絡(luò)推手”等利用微博散布謠言和虛假信息,操控網(wǎng)絡(luò)輿論,嚴(yán)重干擾了網(wǎng)絡(luò)秩序,也影響了社會(huì)的安定[1]。微博炒作的基本方式是通過(guò)微博營(yíng)銷公司,雇傭名人微博、草根大號(hào)及水軍團(tuán)等廣泛評(píng)論、轉(zhuǎn)發(fā)微博,在短時(shí)間內(nèi)造成熱門微博的假象,以此向世界各地傳播信息。

        目前,在對(duì)微博炒作的研究方面,主要集中在微博問(wèn)政、微博傳播倫理研究和少量的微博炒作[2]。大部分研究停留在理論層面上,還沒(méi)有在技術(shù)層面上進(jìn)行深層次的探討。隨著Web的發(fā)展,社交類網(wǎng)站的影響能力和輻射人群日益壯大,消息的真?zhèn)我约笆欠翊嬖谌藶榈牟倏匮哉摰淖呦?,逐漸成為網(wǎng)絡(luò)輿情研究的新熱點(diǎn)。結(jié)合理論和技術(shù)研究,對(duì)炒作微博的特征進(jìn)行分析,構(gòu)建特征集,基于SVM(support vector machine)算法,加入粒子群PSO(particle swarm optimization)算法對(duì)SVM模型中的誤差懲罰因子參數(shù)和核函數(shù)參數(shù)進(jìn)行優(yōu)化,分析對(duì)比得到最佳分類模型,對(duì)炒作微博進(jìn)行有效的識(shí)別和檢測(cè)。研究開(kāi)發(fā)高效的炒作微博的識(shí)別方法,對(duì)微博的健康發(fā)展具有重要的意義和應(yīng)用價(jià)值。

        1 SVM概述及PSO算法

        1.1 SVM 概述

        支持向量機(jī)根據(jù)有限的樣本信息,在模型的學(xué)習(xí)能力和復(fù)雜性之間尋求最佳結(jié)合[3],通過(guò)選擇適當(dāng)?shù)暮瘮?shù)使學(xué)習(xí)機(jī)的期望風(fēng)險(xiǎn)達(dá)到最小,保證通過(guò)有限訓(xùn)練樣本得到小誤差分類器對(duì)獨(dú)立測(cè)試集的測(cè)試誤差比較小,從而得到一個(gè)具有最優(yōu)分類能力和推廣泛化能力的學(xué)習(xí)機(jī)[4],通過(guò)利用Lagrange優(yōu)化方法可以把支持向量機(jī)最優(yōu)分類面問(wèn)題轉(zhuǎn)化為對(duì)偶問(wèn)題[5]。

        對(duì)于非線性可分的情況,SVM利用核函數(shù)將低維輸入空間映射到高維特征空間使線性可分,在低維、高維、小樣本和大樣本等情況下,RBF核函數(shù)都表現(xiàn)出了很好的學(xué)習(xí)能力,得到了廣泛的應(yīng)用[6]。,文中選擇RBF函數(shù)作為SVM的核函數(shù),最優(yōu)化問(wèn)題就取決于核參數(shù)g和懲罰因子c的選擇,這樣選擇較佳的參數(shù)可使分類模型具有較優(yōu)的性能和推廣能力。

        1.2 粒子群算法

        1995 年,Kennedy 和 Eberhart[7]提出了基于種群的粒子群算法(particle swarm optimization,PSO)。其基本思想[8]是模擬鳥(niǎo)群飛行過(guò)程中的群體協(xié)作避免迷失方向,由此實(shí)現(xiàn)群體目的最優(yōu)。PSO算法中所有的粒子都擁有一個(gè)由被優(yōu)化函數(shù)產(chǎn)生的適應(yīng)值(fitness),以及決定飛行方向和距離的速度。PSO首先初始化一群隨機(jī)粒子,粒子追隨最優(yōu)粒子在解空間中不斷更新自己的位置、速度和適應(yīng)度值,從而產(chǎn)生下一代粒子。粒子飛行經(jīng)過(guò)的最好位置為局部最優(yōu)值,整個(gè)群體所經(jīng)歷過(guò)的最好位置為群體的最優(yōu)值。

        文中將利用粒子群算法,優(yōu)化SVM中的核參數(shù)g和誤差懲罰因子c。首先,根據(jù)種群數(shù)量的設(shè)置,為參數(shù)c和g分別初始化一組粒子群,并隨機(jī)生成種群中粒子的速度和位置。然后,使用目標(biāo)函數(shù)計(jì)算種群中粒子的適應(yīng)度值,并根據(jù)計(jì)算出的適應(yīng)度值更新粒子種群的局部最優(yōu)的和全局最優(yōu)的c和g。最終,利用得到的較優(yōu)c和g參數(shù)對(duì),構(gòu)造出PSO-SVM模型以識(shí)別炒作微博。

        2 炒作微博特征分析與提取

        2.1 社團(tuán)模塊度

        熱門微博榜是通過(guò)微博的轉(zhuǎn)發(fā)、評(píng)論數(shù)量及頻率等進(jìn)行綜合排名的,為達(dá)到炒作的目的,炒作用戶一般聚集一群用戶,操作微博的輿論傳播。提取微博傳播網(wǎng)絡(luò)中的節(jié)點(diǎn)信息,通過(guò)網(wǎng)絡(luò)分析工具Pajek作網(wǎng)絡(luò)信息傳播,其傳播結(jié)構(gòu)如圖1、圖2所示。從圖1可見(jiàn),熱門微博信息傳播方式是逐層擴(kuò)散出去的,并且傳播力度逐層減弱,呈現(xiàn)出核爆式的傳播。圖2為一條典型的炒作微博的信息傳播結(jié)構(gòu)圖,此微博的傳播完全圍繞著幾個(gè)大V(粉絲數(shù)10萬(wàn)以上)關(guān)鍵用戶進(jìn)行傳播,很少有離散的節(jié)點(diǎn)傳播路徑,具有典型的群體策劃現(xiàn)象。

        圖1 熱門微博信息傳播結(jié)構(gòu)

        圖2 炒作微博信息傳播結(jié)構(gòu)

        為能夠衡量網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的劃分程度和聚集程度,Girvan和 Newman[9]定義了模塊性函數(shù),定量地描述網(wǎng)絡(luò)社團(tuán)的劃分和緊密程度。所謂模塊性,即網(wǎng)絡(luò)中連接社團(tuán)結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)的邊所占的比例與另外一個(gè)隨機(jī)網(wǎng)絡(luò)中連接社團(tuán)結(jié)構(gòu)內(nèi)部節(jié)點(diǎn)的邊所占比例的期望值相減得到的差值。隨機(jī)網(wǎng)絡(luò)的構(gòu)造,通過(guò)保持每個(gè)節(jié)點(diǎn)的社團(tuán)屬性不變,節(jié)點(diǎn)的邊根據(jù)節(jié)點(diǎn)的度隨機(jī)連接來(lái)進(jìn)行。如果隨機(jī)網(wǎng)絡(luò)的稠密程度期望值低于現(xiàn)實(shí)的社團(tuán)內(nèi)部連接稠密程度值,說(shuō)明得到較好的社團(tuán)結(jié)構(gòu)劃分。通常用Q函數(shù)對(duì)社團(tuán)模塊度水平進(jìn)行描述。

        假設(shè)已劃分出網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu),節(jié)點(diǎn)vi所屬的社團(tuán)編號(hào)為σi,則網(wǎng)絡(luò)中社團(tuán)內(nèi)部的連邊所占比例為

        在式(1)中,aij表示網(wǎng)絡(luò)鄰接矩陣中的元素,若vi和vj2節(jié)點(diǎn)無(wú)邊相連,aij=0,否則aij=1;若vi和vj是同一社團(tuán)的節(jié)點(diǎn),即 σi= σj時(shí),δ(σi,σj)=1 ,否則為0。網(wǎng)絡(luò)中邊的數(shù)目M=0.5∑ aij。在社團(tuán)結(jié)構(gòu)固定時(shí),構(gòu)建出隨機(jī)連接邊的網(wǎng)絡(luò),節(jié)點(diǎn)vi和vj之間存在連接邊的可能性為kikj/2M,其中ki和kj分別為節(jié)點(diǎn)vi和vj的度。由此,Q函數(shù)可以定義為

        若社團(tuán)內(nèi)部節(jié)點(diǎn)間的邊數(shù)小于隨機(jī)連接得到的邊數(shù),則Q小于0。若Q函數(shù)值接近1,表明社團(tuán)結(jié)構(gòu)內(nèi)部連接高度緊密。在實(shí)際應(yīng)用中,Q一般在0.3~0.7。

        2.2 平均最短路徑

        網(wǎng)絡(luò)信息傳播不僅依賴于小世界網(wǎng)絡(luò)中的最短路徑,還與網(wǎng)絡(luò)行為的多次社會(huì)性強(qiáng)化相關(guān)[10]。最短路徑是指2個(gè)節(jié)點(diǎn)間最小值的路徑,平均最短路徑是指社團(tuán)網(wǎng)絡(luò)中任意兩節(jié)點(diǎn)最短路徑的均值。若2條微博的傳播數(shù)相同,而傳播節(jié)點(diǎn)間的平均最短路徑相差較大,則認(rèn)為平均最短路徑大的微博,其傳播層數(shù)多,影響力大;而平均最短路徑小的微博,傳播多集中在某個(gè)或某幾個(gè)轉(zhuǎn)發(fā)者的粉絲之間,以至于傳播層數(shù)少,影響力小。利用平均最短路徑來(lái)判斷微博的擴(kuò)散范圍,通過(guò)計(jì)算微博傳播中節(jié)點(diǎn)平均最短路徑,判斷節(jié)點(diǎn)間的緊密程度,以此識(shí)別出炒作微博。

        文中采用Floyd算法計(jì)算最短路徑,基本思想是從任意節(jié)點(diǎn)i到任意節(jié)點(diǎn)j的最短路徑存在2種可能,一是直接從節(jié)點(diǎn)i到j(luò),二是從節(jié)點(diǎn)i經(jīng)過(guò)若干個(gè)節(jié)點(diǎn)k到j(luò)。設(shè)dpv表示節(jié)點(diǎn)p到節(jié)點(diǎn)v的最短路徑距離,對(duì)于網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)k,檢查dik+dkj<dij是否成立。如果成立,說(shuō)明從節(jié)點(diǎn)i經(jīng)過(guò)k到節(jié)點(diǎn)j的路徑比i直接到j(luò)的路徑更短,便設(shè)置dij=dik+dkj。循環(huán)遍歷完所有的節(jié)點(diǎn)k,dij存儲(chǔ)的值就是節(jié)點(diǎn)i到節(jié)點(diǎn)j的最短路徑距離。具體算法描述為:

        (1)從任意一條單邊的路徑開(kāi)始。設(shè)2點(diǎn)之間的距離是邊的權(quán)值,若2點(diǎn)之間沒(méi)有直接的邊相連,則權(quán)值設(shè)為無(wú)窮大。

        (2)對(duì)每一對(duì)頂點(diǎn)p和v,查看是否存在一個(gè)頂點(diǎn)w使從頂點(diǎn)p到w再到v的路徑比己知的路徑更短。

        (3)如果路徑更短,則更新。若存在未搜索節(jié)點(diǎn),繼續(xù)步驟(2),否則結(jié)束。

        2.3 關(guān)鍵用戶屬性

        在微博的傳播過(guò)程中,存在一些大V用戶,其轉(zhuǎn)發(fā)、評(píng)論等行為對(duì)微博的傳播起到至關(guān)重要的影響,這些重要的傳播節(jié)點(diǎn)稱為關(guān)鍵用戶。相關(guān)研究[11]發(fā)現(xiàn),賬戶關(guān)注好友的質(zhì)量和賬戶狀態(tài)特征最能體現(xiàn)正常賬戶和炒作賬戶之間的區(qū)別。為了能夠衡量賬戶及其關(guān)注好友的質(zhì)量,定義聲望值FM反映賬戶的影響力。FM定義為

        其中,Nf(u)和Ng(u)分別表示賬戶u的粉絲數(shù)和關(guān)注數(shù)。

        提取炒作微博傳播過(guò)程中的關(guān)鍵用戶的屬性信息并作累積分布函數(shù)曲線(CDF)如圖3~6所示。

        圖3 關(guān)鍵用戶平均關(guān)注數(shù)

        圖4 關(guān)鍵用戶平均聲望值

        圖5 關(guān)鍵用戶關(guān)注好友的平均聲望值

        圖6 關(guān)鍵用戶關(guān)注好友的平均粉絲數(shù)

        由圖3可以看出,正常微博中絕大部分的關(guān)鍵用戶平均關(guān)注數(shù)高于550,炒作微博中絕大部分的關(guān)鍵用戶平均關(guān)注數(shù)不足450。由圖4和圖5可以看出,絕大多數(shù)正常微博中關(guān)鍵用戶和關(guān)注好友的平均聲望值高于炒作微博的關(guān)鍵用戶和關(guān)注好友的平均聲望值。

        由圖6可以看出,炒作微博中85%以上的關(guān)鍵用戶關(guān)注好友的平均粉絲數(shù)數(shù)量級(jí)為105,而正常微博中85%以上的關(guān)鍵用戶關(guān)注好友的平均粉絲數(shù)數(shù)量級(jí)為106。

        炒作微博中的節(jié)點(diǎn)用戶質(zhì)量與正常微博中的節(jié)點(diǎn)用戶質(zhì)量有著明顯的區(qū)別,可以用反映賬戶質(zhì)量的相關(guān)特征加以區(qū)分炒作微博和正常微博。關(guān)鍵用戶關(guān)注好友的質(zhì)量通過(guò)好友平均粉絲數(shù)和平均聲望值反映,而關(guān)鍵用戶的狀態(tài)特征通過(guò)用戶平均聲望值和平均關(guān)注數(shù)體現(xiàn)。

        3 基于SVM優(yōu)化算法的炒作微博識(shí)別方法

        炒作微博識(shí)別框架基本流程圖如圖7所示,識(shí)別框架主要包括數(shù)據(jù)預(yù)處理、特征提取、模型建立及訓(xùn)練測(cè)試和決策分類等幾個(gè)主要步驟組成。數(shù)據(jù)預(yù)處理主要是對(duì)原始數(shù)據(jù)進(jìn)行分類、節(jié)點(diǎn)關(guān)系提取以及節(jié)點(diǎn)粉絲和關(guān)注數(shù)的計(jì)算。特征是通過(guò)微博的節(jié)點(diǎn)傳播途徑和節(jié)點(diǎn)信息來(lái)提取,提取出的特征包括社團(tuán)模塊度、平均最短路徑、關(guān)鍵用戶關(guān)注好友的平均聲望值和平均粉絲數(shù)以及關(guān)鍵用戶的平均聲望值和平均關(guān)注數(shù)。

        在模型的建立過(guò)程中,通過(guò)粒子群算法PSO對(duì)SVM中的核參數(shù)g和懲罰因子c進(jìn)行優(yōu)化,PSO優(yōu)化SVM參數(shù)流程圖如圖8所示。Vapnike等[12]研究表明,核參數(shù)g和懲罰因子c是影響SVM性能的關(guān)鍵因素,設(shè)置c的取值范圍為[0.1,100],g的取值范圍為[0.01,1000]。由于需要優(yōu)化的參數(shù)較少,所以種群粒子數(shù)目設(shè)為20,迭代步數(shù)為200。加速度因子c1和c2表示向局部最優(yōu)和全局最優(yōu)推進(jìn)的加速度權(quán)值,c1一般等于 c2,取值范圍在[0,4][13],文中都取 2。為能夠提高算法的搜索能力和分類能力,針對(duì)PSO算法容易早熟和后期容易在全局最優(yōu)解附近振蕩的現(xiàn)象,采用線性遞減權(quán)重法對(duì)慣性權(quán)重ω進(jìn)行調(diào)整,ωmax取值0.9,ωmin取值0.4。

        圖7 識(shí)別框架流程圖

        圖8 PSO優(yōu)化SVM參數(shù)流程圖

        炒作微博的識(shí)別分為訓(xùn)練階段和測(cè)試階段,首先使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型,分析訓(xùn)練結(jié)果和準(zhǔn)確率。然后使用模型測(cè)試數(shù)據(jù),得出測(cè)試數(shù)據(jù)對(duì)應(yīng)的分類結(jié)果,最后通過(guò)對(duì)比預(yù)先人工標(biāo)注的測(cè)試數(shù)據(jù)分類標(biāo)簽得出最終的分類準(zhǔn)確率。

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1 數(shù)據(jù)集的獲取及分析

        基于新浪微博實(shí)驗(yàn)平臺(tái),利用API接口和網(wǎng)絡(luò)爬蟲(chóng)工具相結(jié)合,提取微博的傳播路徑和節(jié)點(diǎn)信息,計(jì)算每條微博關(guān)鍵節(jié)點(diǎn)的屬性信息和傳播節(jié)點(diǎn)之間的緊密程度,以判斷是否有社團(tuán)存在的可能性。從熱門微博中選擇飲品、娛樂(lè)等話題獲取實(shí)驗(yàn)數(shù)據(jù)集,剔除變量缺失的樣本數(shù)據(jù),共獲得610個(gè)樣本。數(shù)據(jù)主要包括微博用戶的屬性信息(關(guān)注、粉絲和微博等),好友屬性信息,轉(zhuǎn)發(fā)用戶屬性信息。

        由于目前沒(méi)有標(biāo)準(zhǔn)的炒作微博數(shù)據(jù)集,所以需要以人工標(biāo)注的形式對(duì)微博進(jìn)行標(biāo)注。在標(biāo)注過(guò)程中,選擇房?jī)r(jià)、飲品和娛樂(lè)等話題數(shù)據(jù)標(biāo)注,以使數(shù)據(jù)集的標(biāo)注具有多樣性。每條熱門微博同時(shí)由2個(gè)人標(biāo)注,只有標(biāo)注結(jié)果一致才加入到數(shù)據(jù)集中,盡可能避免標(biāo)注時(shí)的人為主觀性因素。

        使用SVM模型對(duì)數(shù)據(jù)進(jìn)行分類,發(fā)現(xiàn)2類數(shù)據(jù)具有明顯的區(qū)別。由圖9可見(jiàn),炒作微博的社團(tuán)模塊度集中于0.8~0.9,超出了正常社團(tuán)的范圍[0.3,0.7],并且平均最短路徑值集中于3~5,明顯背離了六度分隔理論,傳播層次少,傳播主要集中在某幾個(gè)轉(zhuǎn)發(fā)者的粉絲之間,體現(xiàn)出了節(jié)點(diǎn)間具有較強(qiáng)的緊密程度。對(duì)于炒作微博和正常微博,用戶的平均聲望值、平均關(guān)注數(shù)以及好友的平均聲望值和平均聲望值有著較為明顯的區(qū)別,反映出炒作微博的關(guān)鍵節(jié)點(diǎn)用戶及其好友的質(zhì)量與正常微博的賬戶質(zhì)量之間有著明顯的區(qū)別。

        圖9 炒作微博與正常微博的分類

        4.2 評(píng)價(jià)指標(biāo)

        通過(guò)模型預(yù)測(cè)微博分類,為了能夠反映出分類結(jié)果的優(yōu)劣,定義以下幾個(gè)評(píng)價(jià)指標(biāo)衡量分類的質(zhì)量。

        表1 炒作微博識(shí)別結(jié)果

        表1所示為炒作微博識(shí)別結(jié)果。常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(P),召回率(R)是正確識(shí)別出的炒作微博數(shù)量占總炒作微博數(shù)量的比例,誤報(bào)率(FP)是正常微博被識(shí)別為炒作微博的數(shù)量占總正常微博數(shù)量的比例,F(xiàn)1度量值是對(duì)P和R的加權(quán)調(diào)和平均,F(xiàn)1較高時(shí)說(shuō)明實(shí)驗(yàn)方法比較理想,計(jì)算公式如下:

        準(zhǔn)確率

        4.3 結(jié)果對(duì)比與分析

        為驗(yàn)證模型的識(shí)別準(zhǔn)確率,基于Matlab R2012a和LibSVM實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)驗(yàn)。每條微博提取出了6個(gè)特征,即:社團(tuán)模塊度、平均最短路徑、關(guān)鍵用戶關(guān)注好友平均粉絲數(shù)、關(guān)鍵用戶關(guān)注好友平均聲望值、關(guān)鍵用戶平均聲望值、關(guān)鍵用戶平均關(guān)注數(shù)。提取社團(tuán)模塊度和平均最短路徑構(gòu)成2維特征向量Fcls2,微博的6個(gè)特征構(gòu)成6維特征向量Fall。

        實(shí)驗(yàn)使用PRO算法對(duì)支持向量機(jī)的模型的核參數(shù)和懲罰因子進(jìn)行優(yōu)化,為衡量PRO算法優(yōu)化SVM的有效性,采用基于網(wǎng)格搜索法優(yōu)化的SVM作為參比模型進(jìn)行比較,然后以特征向量Fcls2和Fall作為2種模型的輸入,采用十折交叉驗(yàn)證的方式進(jìn)行評(píng)估,并依據(jù)3個(gè)評(píng)價(jià)指標(biāo)比較分類結(jié)果的優(yōu)劣,得到結(jié)果見(jiàn)表2和表3。

        表2 采用不同的特征組合對(duì)炒作微博的SVM分類結(jié)果

        表3 采用不同的特征組合對(duì)炒作微博的PSO-SVM分類結(jié)果

        由表2和表3可以看出,使用6維組合特征向量的分類效果要優(yōu)于2維特征向量。主要原因在于,一些明星粉絲之間的口水戰(zhàn)和娛樂(lè)明星為了突出微博重要性而重復(fù)轉(zhuǎn)發(fā),造成微博在傳播過(guò)程中的參與人群相對(duì)單一,傳播層次少,從而使社團(tuán)模塊度較大和平均最短路徑較小,最終被誤識(shí)別為炒作微博,因此使用2維特征向量Fcls2分類效果較差。炒作微博中的節(jié)點(diǎn)用戶質(zhì)量與正常微博中的節(jié)點(diǎn)用戶質(zhì)量有著明顯的區(qū)別,因此提取傳播網(wǎng)絡(luò)中的關(guān)鍵用戶屬性信息,組成6維特征向量Fall,用于衡量傳播網(wǎng)絡(luò)中用戶和好友的質(zhì)量,區(qū)分被誤識(shí)別為炒作微博的正常微博,從而使分類準(zhǔn)確率有較大提高。實(shí)驗(yàn)說(shuō)明社團(tuán)模塊度和平均最短路徑與關(guān)鍵用戶屬性特征具有優(yōu)勢(shì)互補(bǔ)的特性,兩者結(jié)合更能體現(xiàn)炒作微博的特性,提高分類準(zhǔn)確率。

        對(duì)比SVM,使用PSO-SVM分類模型可以使炒作微博的分類準(zhǔn)確率達(dá)到90%以上,并且誤報(bào)率不到1%,F(xiàn)1度量值達(dá)到90%以上,說(shuō)明PSO對(duì)SVM的參數(shù)優(yōu)化具有明顯的效果,PSO-SVM分類模型比較理想,能夠高效地解決炒作微博的識(shí)別問(wèn)題,為微博的健康發(fā)展提供支持。

        5 結(jié)束語(yǔ)

        對(duì)炒作微博的傳播網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行分析,基于社團(tuán)模塊度、平均最短路徑和關(guān)鍵用戶屬性等特征,得出識(shí)別準(zhǔn)確率較高的PSO-SVM分類模型,該模型使用PSO對(duì)SVM中的參數(shù)進(jìn)行優(yōu)化,避免了人為選擇的隨機(jī)性,使參數(shù)選擇更合理。實(shí)驗(yàn)結(jié)果表明,文中方法能有效地識(shí)別出炒作微博,準(zhǔn)確率達(dá)到90%以上,具有一定的合理性和適用性,并且對(duì)明星或官方微博的影響因子進(jìn)行了深度細(xì)化,能夠較好克服微博名人效應(yīng)對(duì)識(shí)別準(zhǔn)確率的干擾。

        [1] 任一其,王雅雷,王國(guó)華,等.微博謠言的演化機(jī)理研究[J].情報(bào)雜志,2012,31(5):50-54.

        [2] 齊海鳳.網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)與事件跟蹤技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2008.

        [3] Dimitrios C,Takis K.Wavelet-based rotational invariant roughness features for texture classification and segmentation[J].IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society,2002,11(8):825-837.

        [4] Cortes C,Vapnik V.Support-Vector Networks[J].Machine Learning,1995,20(3):273-297.

        [5] Burges C J C.A Tutorial on Support Vector Machines for Pattern Recognition[J].Data Mining &Knowledge Discovery,1998,2(2):121-167.

        [6] 高錦.基于SVM的圖像分類[D].西安:西北大學(xué),2010.

        [7] KENNEDY J,EBERHART R.Particle swarm optimization[C].Proc of IEEE International Conference on Neural Networks.Piscataway:IEEE Press,1995:1942-1948.

        [8] MATLAB中文論壇.MATLAB神經(jīng)網(wǎng)絡(luò)30個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2010.

        [9] Newman M E J,Girvan M.Finding and evaluating community structure in networks[J].Physical Review E Statistical Nonlinear&Soft Matter Physics,2004,69:026-113.

        [10] LüL,Chen D B,Zhou T.Small world yields the most effective information spreading [J].New Journal of Physics,2011,(9-10):825-834.

        [11] 張進(jìn),劉琰,羅軍勇,等.基于特征分析的微博炒作賬戶識(shí)別方法[J].計(jì)算機(jī)工程,2015,(4):48-54.

        [12] 鄧乃揚(yáng).數(shù)據(jù)挖掘中的新方法[M].北京:科學(xué)出版社,2004.

        [13] 周輝仁,鄭丕諤,王嵩,等.基于粒子群優(yōu)化算法LS-SVM財(cái)務(wù)預(yù)警[J].計(jì)算機(jī)工程,2009,35(10):280-282.

        [14] Girvan M,Newman M E J.Community structure in social and biological networks[J].Proceedings of the National Academy of Sciences of the United States of America,2001,99(12):7821-7826.

        [15] Newman M E J,Watts D J.Renormalization group analysis of the small-world network model[J].Physics Letters A,1999,263(4):341-346.

        [16] Bu Z,Xia Z,Wang J.A sock puppet detection algorithm on virtual spaces[J].Knowledge-Based Systems,2013,37(2):366-377.

        [17] 袁立庠.微博的傳播模式與傳播效果[J].安徽師范大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版,2011,39(6):678-683.

        [18] 汪小帆,劉亞冰.復(fù)雜網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)算法綜述[J].電子科技大學(xué)學(xué)報(bào),2009,38(5):537-543.

        猜你喜歡
        關(guān)鍵社團(tuán)分類
        繽紛社團(tuán)
        高考考好是關(guān)鍵
        分類算一算
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        最棒的健美操社團(tuán)
        軍事文摘(2017年16期)2018-01-19 05:10:15
        教你一招:數(shù)的分類
        K-BOT拼插社團(tuán)
        獲勝關(guān)鍵
        NBA特刊(2014年7期)2014-04-29 00:44:03
        生意無(wú)大小,關(guān)鍵是怎么做?
        无码人妻精品一区二区三区不卡| 日本少妇又色又紧又爽又刺激| 六月婷婷亚洲性色av蜜桃| 伊人大杳焦在线| 亚洲色欲久久久久综合网| 亚洲av日韩片在线观看| 少妇特殊按摩高潮对白| 又黄又刺激的网站久久| 99久久伊人精品综合观看| 91av手机在线观看| 亚洲福利第一页在线观看| 亚洲高清国产成人精品久久| 免费视频成人片在线观看| 在线播放国产一区二区三区 | 午夜视频免费观看一区二区 | 免费看泡妞视频app| 精品99在线黑丝袜| 亚洲小少妇一区二区三区| 精品无码av无码专区| 国产99久久精品一区二区| 久久精品国产亚洲一区二区| 精品亚洲av一区二区| 18禁止看的免费污网站| 久久发布国产伦子伦精品| 欧美日韩国产高清| 中国男女黄色完整视频| 日日天干夜夜狠狠爱| 波多野结衣亚洲一区二区三区| 亚洲av偷拍一区二区三区| 开心五月激情五月五月天| 亚洲av无码久久精品狠狠爱浪潮| 亚洲毛片在线播放| 日本黄色高清视频久久| 免费a级毛片18禁网站| 亚洲欧洲无码一区二区三区| 亚洲欧洲美洲无码精品va| 日本免费观看视频一区二区| 无码国产精品一区二区免费式直播 | 国模精品一区二区三区| 亚洲av成人一区二区三区av| 一区二区三区国产偷拍|