劉 程,沙 灜,姜 波,郭 莉
(中國科學(xué)院 信息工程研究所,北京 100093)
新浪微博隱式組織發(fā)現(xiàn)
劉 程,沙 灜,姜 波,郭 莉
(中國科學(xué)院 信息工程研究所,北京 100093)
社交網(wǎng)絡(luò)中往往同時存在多種類型的賬號,如正常個體用戶、水軍、僵尸粉、藍(lán)V組織等。我們把其行為呈現(xiàn)為組織特性的個體賬號,定義為隱式組織。隱式組織通常背后有相應(yīng)的組織團(tuán)隊負(fù)責(zé)賬號的運(yùn)營,因此其行為模式呈現(xiàn)為組織的行為模式,有別于個體賬號。隱式組織的有效發(fā)現(xiàn)對于社交網(wǎng)絡(luò)中輿情傳播趨勢分析、廣告推薦等都有重要的意義。該文以新浪微博數(shù)據(jù)為例,在數(shù)據(jù)采集系統(tǒng)基礎(chǔ)上,共人工標(biāo)注了583個賬號,提取了22個特征,使用樸素貝葉斯和決策樹算法,實(shí)現(xiàn)了對隱式組織的有效識別,其準(zhǔn)確率達(dá)86.4%,并分析得出了特征的重要程度排序。實(shí)驗(yàn)證明了社交網(wǎng)絡(luò)中存在隱式組織,其行為特征是可以識別的。
社交網(wǎng)絡(luò);隱式組織;機(jī)器學(xué)習(xí)算法
隨著社交網(wǎng)絡(luò)的普及,社交網(wǎng)絡(luò)中的信息傳播和輿論導(dǎo)向作用越來越突出。這也吸引了大批人員來研究社交網(wǎng)絡(luò)中的信息傳播、網(wǎng)絡(luò)拓?fù)?、熱點(diǎn)預(yù)測等方面的內(nèi)容。
為了準(zhǔn)確地研究社交網(wǎng)絡(luò)中的內(nèi)容,首先要對社交網(wǎng)絡(luò)中的個體和組織進(jìn)行有效的區(qū)分。社交網(wǎng)絡(luò)中的個體是指以個人作為社交網(wǎng)絡(luò)中的一個用戶。社交網(wǎng)絡(luò)中的組織是指以團(tuán)體或集體作為社交網(wǎng)絡(luò)中的一個用戶,例如公司、機(jī)構(gòu)等團(tuán)體。在行為上社交網(wǎng)絡(luò)中的個體用戶和組織用戶具有明顯的差異,例如,組織用戶發(fā)布的信息重點(diǎn)在于宣傳,而個體用戶發(fā)布的信息則側(cè)重于個人觀點(diǎn)、心情等。只有實(shí)現(xiàn)對個體和組織的有效識別,才能夠?qū)崿F(xiàn)后續(xù)的準(zhǔn)確分析與預(yù)測,如關(guān)鍵人物的發(fā)現(xiàn)與跟蹤、社區(qū)的發(fā)現(xiàn)、熱點(diǎn)話題傳播趨勢分析等。
當(dāng)前對個體和組織的定義,主要集中在社會學(xué)領(lǐng)域,通常認(rèn)為: “組織是指一些在共同目標(biāo)指導(dǎo)下協(xié)同工作的粒子所組成的集合”。社交網(wǎng)絡(luò)通??醋魑锢砩鐣诨ヂ?lián)網(wǎng)上的映射,因此用戶同樣可以分為個體和組織。例如: 著名主持人何炅的新浪微博賬號,就可以看作一個個體。而那些具有藍(lán)色大V標(biāo)識的,例如新浪財經(jīng),則明顯可以看作一個組織(圖1)。
圖1 個體和組織
但是我們發(fā)現(xiàn),還有一類賬號,雖然標(biāo)識為個體賬號,但是其行為特征與組織基本一致,同樣以新浪微博賬號為例,例如: 時尚熊熊雜志、家居裝修等就具有這樣的典型特點(diǎn)。圖2是組織與隱式組織的微博截圖。圖2(a)是典型的組織賬號——新浪財經(jīng)和互聯(lián)網(wǎng)數(shù)據(jù)中心。從中可以發(fā)現(xiàn)組織賬號通常由多人參與維護(hù),信息量大,微博內(nèi)容能夠體現(xiàn)該組織的目的,體現(xiàn)出組織正規(guī)性,其微博往往具有較為固定的格式,博文內(nèi)容也比較正式、豐富,比較令人信服。從圖2可以發(fā)現(xiàn)其博文常含有標(biāo)題、鏈接等特征,相對較長,發(fā)帖較頻繁,間隔時間也比較均勻。圖2(b)為典型的隱式組織賬號——家居裝修,是一個沒有藍(lán)V標(biāo)識的個體賬號,但是特征與組織極為相似。微博通常具有固定的格式,含有標(biāo)題、鏈接等。其博文內(nèi)容也比較正式,博文較長,發(fā)帖較頻繁,間隔時間也比較均勻。本文將這樣的用戶定義為隱式組織。
圖2 組織和隱式組織微博
定義: 社交網(wǎng)絡(luò)中隱式組織是未帶有社交網(wǎng)站公開的組織標(biāo)識,由多人參與維護(hù)、存在其共同目的呈現(xiàn)組織行為特征的社交網(wǎng)絡(luò)賬戶。
隱式組織為了擴(kuò)大影響,他們同有標(biāo)識的組織一樣具有參與熱點(diǎn)話題的欲望,對信息的傳播往往起到促進(jìn)作用,這種促進(jìn)作用相對于有標(biāo)識的組織是很隱蔽的,而且隱式組織又不像意見領(lǐng)袖那樣引人注目。所以實(shí)現(xiàn)對隱式組織的有效識別對于社交網(wǎng)絡(luò)中輿情傳播趨勢分析、廣告推薦等都有重要的意義。
本文以新浪微博為例實(shí)現(xiàn)對隱式組織的有效識別。我們采集了2013年上半年的數(shù)據(jù),去除組織和原創(chuàng)微博數(shù)量小于20的用戶,共標(biāo)注了583個用戶,其中有523個個體和60個隱式組織。經(jīng)分析找出了文本特性、交互特性、時間特性三類特征,共22個,其中以三個主要特征為基礎(chǔ),篩選出50組特征組合。共有10個訓(xùn)練集和對應(yīng)的測試集,每個訓(xùn)練集由隨機(jī)選取的100個個體和30個隱式組織組成,對應(yīng)測試集則在剩余的用戶集中采用相同方式選取。將WEKA中決策樹算法(J48)和樸素貝葉斯算法,依據(jù)每組特征組合,分別進(jìn)行分類實(shí)驗(yàn),取10次結(jié)果的平均值,作為該組合的最終實(shí)驗(yàn)結(jié)果,其中樸素貝葉斯算法識別隱式組織的準(zhǔn)確率可達(dá)到86.4%。
本文的主要貢獻(xiàn)為:
(1) 提出社交網(wǎng)絡(luò)隱式組織的定義;
(2) 以新浪微博為例共提取了三類22個特征,實(shí)現(xiàn)對隱式組織的有效發(fā)現(xiàn),準(zhǔn)確率達(dá)86.4%;
(3) 對隱式組織的行為特征等屬性進(jìn)行了分析,發(fā)現(xiàn)博文長度、發(fā)帖時間間隔對個體與隱式組織有較好的區(qū)分度。
國內(nèi)外對個體、組織的研究主要出現(xiàn)在生物學(xué)和社會學(xué)領(lǐng)域。目前對社交網(wǎng)絡(luò)中個體、組織的研究相對較少,已有相關(guān)工作主要集中在水軍、Spammer和僵尸粉檢測方面。下面主要介紹現(xiàn)有的個體、組織等相關(guān)概念的定義;社交網(wǎng)絡(luò)中水軍、Spammer、僵尸粉的檢測研究等。
1) 個體、組織(群體)的相關(guān)定義
許永峰提出: “組織是指一些在共同目標(biāo)指導(dǎo)下協(xié)同工作的粒子所組成的集合”[1]。陳世明在研究群體行為時,提到群體系統(tǒng)的概念: “群體系統(tǒng)指的是由彼此之間以某種關(guān)系耦合在一起的大量個體組成的系統(tǒng)”[2]。于顯洋以社會學(xué)角度給出了群體的定義: “群體是為實(shí)現(xiàn)共同目標(biāo)的兩個以上保持持續(xù)性相互依賴、相互作用的個體的組合”[3]。
綜上所述,組織或群體的必要特征有: (1)要有多人參與,(2)要有共同目標(biāo)。只有滿足這兩個條件,才可以構(gòu)成組織或群體。
當(dāng)代漢語詞典中解釋個體: 單個的人或生物[4]。中國考試大辭典中解釋: 個體指構(gòu)成總體的每一個對象或基本單位[5]。因研究任務(wù)及性質(zhì)不同,個體既可指單個的人、事、物,也可指以群體為基本單位的一個個研究對象。
社交網(wǎng)絡(luò)作為物理世界中人類社會關(guān)系在互聯(lián)網(wǎng)上的映射,其也應(yīng)該可以分為個體和組織。其組織也應(yīng)該具有上述的兩個必要特征。
2) Spammer及水軍識別
Chen[6]提出了識別水軍的四個非語義和一個語義特征,包括: 回復(fù)比、平均間隔時間、活躍天數(shù)、新聞報道數(shù)、帖子相似度。實(shí)驗(yàn)方法使用LIBSVM、徑向基函數(shù)和十折交叉驗(yàn)證訓(xùn)練新浪數(shù)據(jù),搜狐數(shù)據(jù)做測試集,人工標(biāo)注數(shù)據(jù)集類別。實(shí)驗(yàn)得出: 語義特征有很好的輔助作用,但并不能完全依賴語義特征;非語義特征也非常有效,起到支柱作用。
Lin[7]基于漢語對Spam進(jìn)行識別,收集了2012年7月4日到10日的4 827條正常用戶的微博,1979條Spam微博。針對中文社交網(wǎng)絡(luò),選取的特征有詞匯特征、狀態(tài)特征和用戶特征,采用樸素貝葉斯、支持向量機(jī)(SVM)和Logistic Regression進(jìn)行分類,實(shí)驗(yàn)效果為: 樸素貝葉斯錯誤率7%,SVM錯誤率5.25%,Logistic Regression錯誤率6.5%。
Benevenuto[8]針對國外社交網(wǎng)絡(luò)Twitter進(jìn)行Spammer識別研究。采集到54 981 152個活躍用戶,1 963 263 821個關(guān)系和1 755 925 520條推文。采用支持向量機(jī),有約70%的Spamers用戶正確識別,96%的非Spamers被正確識別。共提取了62個特征,如表1所示。
表1 特征信息表
McCord[9]使用傳統(tǒng)分類器識別Twitter上的Spam,共選用六個特征,正確率達(dá)88%左右。Gianvecchio[10]研究在網(wǎng)絡(luò)聊天室識別機(jī)器人,他們將機(jī)器人按簡單到復(fù)雜分成16類,方法上在傳統(tǒng)基礎(chǔ)上做了改進(jìn),實(shí)驗(yàn)效果比傳統(tǒng)方法更準(zhǔn)確。Veloso[11]研究了基于文本的Spam檢測,先用一種模式發(fā)現(xiàn)算法發(fā)現(xiàn)模式,然后用發(fā)現(xiàn)的模式訓(xùn)練分類算法,識別準(zhǔn)確率達(dá)99%。國內(nèi)外對Spammer、網(wǎng)絡(luò)水軍及僵尸粉的檢測研究很多,都取得了較好的成績[12-16]。
綜上所述,目前社交網(wǎng)絡(luò)用戶分類通??梢苑殖蓛蓚€步驟: 特征提取、分類方法。特征主要采用文本特征和profile特征等。分類方法大多采用傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法。
我們基本研究思路如下: 首先給出社交網(wǎng)絡(luò)中隱式組織的定義;然后從內(nèi)容、行為等屬性中提取相關(guān)特征,基于新浪微博數(shù)據(jù)集,通過人工標(biāo)注構(gòu)建訓(xùn)練集和測試集;通過貝葉斯和決策樹分類方法實(shí)現(xiàn)對個體與隱式組織有效分類;最后對實(shí)驗(yàn)結(jié)果進(jìn)行分析。
3.1 社交網(wǎng)絡(luò)隱式組織
通過引言中隱式組織的定義,我們知道,社交網(wǎng)絡(luò)隱式組織是,未帶有社交網(wǎng)站公開的組織標(biāo)識,由多人參與維護(hù)、存在其共同目的的社交網(wǎng)絡(luò)賬戶。以新浪微博為例(圖3),組織用戶帶有公開的組織標(biāo)識——藍(lán)V,指以團(tuán)體或集體作為社交網(wǎng)絡(luò)中的一個用戶,例如公司、機(jī)構(gòu)等團(tuán)體。而標(biāo)識為名人、達(dá)人和普通用戶的,則可能是個體也可能是隱式組織。
圖3 新浪微博標(biāo)識與用戶對應(yīng)圖
經(jīng)過在國內(nèi)外不同的社交網(wǎng)站上進(jìn)行調(diào)研,可以發(fā)現(xiàn)個體和隱式組織用戶在文本和行為等方面的不同特征,如表2所示。
表2 個體和隱式組織特征對比表
3.2 特征選取與數(shù)據(jù)集人工標(biāo)注
根據(jù)個體和隱式組織的不同特點(diǎn),將數(shù)據(jù)集標(biāo)注為兩類: 個體和隱式組織。每一個用戶由三個人標(biāo),選被標(biāo)類別較多的為待標(biāo)用戶最終類別,以此來解決標(biāo)注分歧。實(shí)驗(yàn)采用了2013年新浪微博上半年的數(shù)據(jù)作為標(biāo)注數(shù)據(jù)集。共采用了514 585條微博,3 678個用戶,除去組織用戶和原創(chuàng)微博數(shù)小于20的用戶,共標(biāo)注了個體523個,隱式組織60個。
最終確定了文本特性、交互特性、時間特性三類共22個特征。如表3所示。
表3 特征說明表
在文本特性中,組織用戶需要有相對固定的格式表現(xiàn)內(nèi)容的可靠性,加上微博的短文本特性,使得組織用戶的博文size較大,并常常附上url,以便使瀏覽者更詳細(xì)地了解信息;相對應(yīng)的個體用戶比組織用戶的微博更靈活、隨意,博文意圖往往是表露心情,而表情符號是常用的表示心情的快捷方法,所以emotion(帶有表情的博文所占比例)特征偏多于組織用戶。在交互特性中,四個特征均一定程度地體現(xiàn)出用戶與他人交互的意愿,個體略高于組織用戶,其中reply區(qū)別較為明顯。在時間特性中,組織賬號是由指定的某個現(xiàn)實(shí)中的人或多人維護(hù)的,故組織的interval_minute和meanblog要比大多數(shù)個體用戶高,variance比多數(shù)個體用戶低。
3.3 隱式組織分類
使用WEKA中的分類方法。通過對22個特征進(jìn)行分析,我們以size、reply、interval_minute三個特征為主,共篩出50組特征組合。訓(xùn)練集由隨機(jī)選取的100個個體和30個隱式組織組成,對應(yīng)的測試集在剩余的數(shù)據(jù)集中隨機(jī)選取100個個體和30個隱式組織,共隨機(jī)選取十組。用樸素貝葉斯和決策樹算法在10組訓(xùn)練集和測試集、50組特征組合上進(jìn)行分類,取平均值作為實(shí)驗(yàn)結(jié)果。根據(jù)結(jié)果的Kappa statistic值對特征組合進(jìn)行排序,并得出特征重要程度排序。
4.1 實(shí)驗(yàn)結(jié)果
Kappa statistic用于評判分類器的分類結(jié)果與隨機(jī)分類的差異度,是各方面的綜合衡量指標(biāo),因此本文選用Kappa statistic值對結(jié)果進(jìn)行排序。由于篇幅的限制,實(shí)驗(yàn)結(jié)果不一一列出了。以下是兩種方法最佳的實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)一 實(shí)驗(yàn)方法采用J48算法,特征組合: size,reply,at,interval_minute。該實(shí)驗(yàn)的Kappa statistic 平均值為0.6654,是J48算法排序第一的組合。
表4 實(shí)驗(yàn)一分類結(jié)果
表5 實(shí)驗(yàn)一評價表
實(shí)驗(yàn)二 實(shí)驗(yàn)方法仍使用J48算法,特征組合: topic, combine_title, size, reply, topic_forward, combine_title_forward, combine_url_forward。該組和是J48算法正確率最高的特征組合。
表6 實(shí)驗(yàn)二分類結(jié)果
表7 實(shí)驗(yàn)二評價表
實(shí)驗(yàn)三 實(shí)驗(yàn)方法使用樸素貝葉斯算法,特征數(shù): 12,特征組合: title_topic, meanblog, variance, interval_minute, topic_forward, url_forward, combine_url, combine_url_forward, size, title, topic, forwardcomments。該實(shí)驗(yàn)的正確率和Kappa statistic在兩種方法的所有組合實(shí)驗(yàn)中最高,其中Kappa statistic達(dá)0.7102。
表8 實(shí)驗(yàn)三分類結(jié)果
表9 實(shí)驗(yàn)三評價表
我們依據(jù)50組特征組合實(shí)驗(yàn),選出Kappa statistic值大于0.5的特征組合,給每個特征打分,所得分?jǐn)?shù)是出現(xiàn)的次數(shù),未出現(xiàn)的特征分?jǐn)?shù)為0,分?jǐn)?shù)高說明該特征對個體和隱式組織的區(qū)分程度越好。據(jù)此規(guī)則,得出前10個特征排序表,如表10所示。
表10 特征排序表
該表與上節(jié)的特征分析基本吻合,證明了size、interval_minute對個體與隱式組織有較高的區(qū)分度。表中1、3、4、5、8、9都屬于文本特性,說明其是識別隱式組織的主要特征;其次時間特性interval_minute、meanblog以及交互特性reply、forwardcomments也非常有效;而3~9之間特征的重要度都差不多,說明這些特征之間有一定的相關(guān)性。
4.2 實(shí)驗(yàn)結(jié)果討論
本實(shí)驗(yàn)中,J48算法受特征的影響較大,四個特征已經(jīng)能夠達(dá)到很好的效果,隨著特征的增加,效果反而變差,可能原因是存在沖突的特征。樸素貝葉斯算法好于決策樹算法,受特征影響相對較小,但特征并沒有顯示出單調(diào)遞增、越多越準(zhǔn)確的特性,可能特征間有依賴,影響實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)中個體正確率、準(zhǔn)確率等各項評價指標(biāo)都比較高,而隱式組織的準(zhǔn)確率并不高,可能是因?yàn)闇y試集個體和隱式組織數(shù)量不均衡導(dǎo)致的。
對于SVM分類器: 由于訓(xùn)練樣本數(shù)量上的不均衡[17],以及樣本中可能含有噪聲和孤立點(diǎn)[18],導(dǎo)致使用SVM分類時效果較差,表11是21個特征組合的分類結(jié)果,其Kappa statistic值為0.2949。
表11 SVM分類結(jié)果
SVM對隱式組織識別的準(zhǔn)確率為40.4%??紤]到后續(xù)研究是面向大規(guī)模社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行快速的分類,因SVM占用內(nèi)存較多、速度慢,前期實(shí)驗(yàn)結(jié)果不理想,所以沒有將SVM加入到對比實(shí)驗(yàn)中。
特征排序體現(xiàn)了特征重要程度的大致分布。我們選了特征排序在第一的size、第二interval_minute進(jìn)行散點(diǎn)圖展示,圖上每個點(diǎn)代表一個用戶,橫坐標(biāo)是用戶的編號,縱坐標(biāo)是用戶的特征值,黑色的點(diǎn)代表該用戶是個體,同理,灰色是隱式組織。
圖4(a)是個體與隱式組織的size對比圖,很明顯隱式組織的size中心點(diǎn)比個體的中心點(diǎn)要高;圖4(b)中隱式組織interval_minute都比較集中在很低的值上,說明隱式組織的發(fā)帖一般都比較頻繁,而個體則相對時間間隔較長??梢娢覀兊奶卣髋判虮砟軌蝮w現(xiàn)出特征的重要程度。
圖4 個體與隱式組織的特征對比
本文首次提出了隱式組織概念,闡述了隱式組織的特點(diǎn),并對其進(jìn)行識別。實(shí)驗(yàn)使用樸素貝葉斯算法和J48算法進(jìn)行比較,多種評價指標(biāo)顯示樸素貝葉斯算法表現(xiàn)更好,識別隱式組織準(zhǔn)確率可達(dá)86.4%,識別個體的準(zhǔn)確率也達(dá)到89.8%。實(shí)驗(yàn)結(jié)果證明,隱式組織和個體用戶確實(shí)存在差別,利用傳統(tǒng)分類方法即可識別出隱式組織,但準(zhǔn)確率還有待提升。通過特征分析得出: 任何單個的特征不能夠?qū)㈦[式組織識別出來。下一步工作需進(jìn)一步提高標(biāo)注數(shù)據(jù)集的規(guī)模,考慮社交網(wǎng)絡(luò)結(jié)構(gòu)因素,提高隱式組織識別的準(zhǔn)確率。
[1] 許永峰, 張書玲.帶組織的粒子群優(yōu)化算法: OPSO[J].計算機(jī)應(yīng)用與軟件, 2008: 25(2): 234-236.
[2] 陳世明.基于局部信息的若干群體行為研究[D].華中科技大學(xué)博士學(xué)位論文, 2006.
[3] 于顯洋.組織社會學(xué)[M].北京: 中國人民大學(xué)出版社,2004: 162-172.
[4] 莫衡. 當(dāng)代漢語詞典[M]. 上海: 上海辭書出版社, 2001: 1-1605.
[5] 楊學(xué)為. 中國考試大辭典[M]. 上海: 上海辭書出版社, 2006: 1-506.
[6] Chen C, Wu K, Srinivasan V, et al. Battling the internet water army: Detection of hidden paid posters[C]//Proceedings of the 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. ACM, 2013: 116-120.
[7] Liu L, Jia K. Detecting spam in chinese microblogs-a study on sina weibo[C]//Proceedings of Computational Intelligence and Security (CIS), 2012 Eighth International Conference on IEEE, 2012: 578-581.
[8] Benevenuto F, Magno G, Rodrigues T, et al. Detecting spammers on twitter[C]//Proceedings of Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010, 6: 12.
[9] McCord M, Chuah M. Spam detection on twitter using traditional classifiers[M].Autonomic and Trusted Computing. Springer Berlin Heidelberg, 2011: 175-186.
[10] Gianvecchio S, Xie M, Wu Z, et al. Humans and bots in internet chat: measurement, analysis, and automated classification[J]. IEEE/ACM Transactions on Networking (TON), 2011, 19(5): 1557-1571.
[11] Veloso A, Meira W. Lazy associative classification for content-based spam detection[C]//Proceedings of Web Congress, 2006. LA-Web'06. Fourth Latin American. IEEE, 2006: 154-161.
[12] Wang A H. Don't follow me: Spam detection in twitter[C]//Proceedings of the 2010 International Conference on IEEE, 2010: 1-10.
[13] de Lima B V A, Machado V P. Machine learning algorithms applied in automatic classification of social network users[C]//Proceedings of CASoN. 2012: 58-62.
[14] Stringhini G, Kruegel C, Vigna G. Detecting spammers on social networks[C]//Proceedings of the 26th Annual Computer Security Applications Conference. ACM, 2010: 1-9.
[15] Costa H, Benevenuto F, Merschmann L H C. Detecting tip spam in location-based social networks[C]//Proceedings of the 28th Annual ACM Symposium on Applied Computing. ACM, 2013: 724-729.
[16] 王越, 張劍金, 劉芳芳. 一種多特征微博僵尸粉檢測方法與實(shí)現(xiàn)[J]. 中國科技論文, 2014, 9(1): 81-86.
[17] 刁翠霞, 陳思鳳, 劉業(yè)政. 基于SVM 求解不均衡數(shù)據(jù)集分類的主觀權(quán)重約束方法[J]. 管理工程學(xué)報, 2012, 26(3): 146-150.
[18] 安金龍. 支持向量機(jī)若干問題的研究[D].天津大學(xué)博士學(xué)位論文, 2004.
Detecting Implicit Organization on Sina Weibo
LIU Cheng, SHA Ying , JIANG Bo, Guo Li
(Institute of Information Engineering, CAS, Beijing 100093, China)
Various types of account tend to be existed in Social network, including normal individual users, online water army, zombie fans, official organizations and so on. We define the individual accounts whose behavior is rendered as organizational characteristic as impli-cit organization. With a team responsible for the operations, the impli-cit organization account bears no individuals' behavior pattern, but falls in the pattern of an official organization. The effective discovery of implicit organizations have important significance for analysis of public opinion trends in the spread of social networks, advertising recommendations and so on. This paper, taking the data of SinaWeibo as an example, investigates the classification of the individuals and the implicit organizations. We manually labeled a total of 583 accounts, and summarizing 22 related features to build a Naive Bayes model and a decision tree model. Experiments demonstrate an effective identification of implicit organization by 86.4% precision.
social network; implicit organization; machine learning algorithm
劉程(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樯鐣嬎恪?mail:liucheng4248@163.com沙灜(1973—),通信作者,副研究員,主要研究領(lǐng)域?yàn)樯鐣嬎恪?mail:shaying@iie.a(chǎn)c.cn姜波(1985—),博士研究生,主要研究領(lǐng)域?yàn)樯鐣嬎?。E?mail:jiangbo@iie.a(chǎn)c.cn
2015-03-11 定稿日期: 2015-06-19
中國科學(xué)院院戰(zhàn)略先導(dǎo)專項(XDA06030200);國家科技支撐計劃(2012BAH46B03);國家自然科學(xué)基金(61272427)
1003-0077(2017)02-0139-07
TP391
A