冉玉婷 陸向艷 曾佳琦 趙宇 張璽 崔琦萱
(廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,廣西南寧 530004)
微博平臺(tái)具有用戶相關(guān)性良好和信息擴(kuò)散迅速的特點(diǎn),為用戶快速交流信息提供了很大的便利,受到越來(lái)越多網(wǎng)民的青睞,近年來(lái)微博用戶數(shù)量迅猛增長(zhǎng),微博官方報(bào)告顯示其2019年9月的活躍用戶數(shù)已經(jīng)達(dá)到4.97億。但由于微博用戶數(shù)量龐大,微博中信息傳播速度極快,加之有效的信息真實(shí)性審核手段的缺失,微博平臺(tái)存在相當(dāng)多的不良和虛構(gòu)信息,這些虛假信息大多數(shù)由稱為“水軍”的賬戶群體發(fā)布,給整個(gè)網(wǎng)絡(luò)生態(tài)帶來(lái)了不良影響?;谔囟康暮屠骝?qū)動(dòng),相關(guān)組織或人員通過(guò)微博賬號(hào)買賣,并雇傭?qū)H松踔敛捎蒙缃粰C(jī)器人來(lái)充當(dāng)微博“水軍”,在其上散布大量具有導(dǎo)向性和煽動(dòng)性的不實(shí)言論,對(duì)營(yíng)商和輿論等產(chǎn)生諸多不良影響,給用戶甄別信息的真實(shí)性帶來(lái)困難。
微博水軍,是指基于特定目的通過(guò)雇傭人員或應(yīng)用社交機(jī)器人在微博上發(fā)布信息的用戶群體。按照發(fā)布信息目的進(jìn)行分類,微博水軍主要可以分成三類,即營(yíng)銷類水軍、公關(guān)類水軍、謠言類水軍[1]。營(yíng)銷類水軍主要由商家或企業(yè)擁有,除了簡(jiǎn)單轉(zhuǎn)發(fā)產(chǎn)品或商家信息,還會(huì)為了達(dá)到營(yíng)銷活動(dòng)的高曝光度及KPI而大量重復(fù)刷帖,或偽裝成消費(fèi)者發(fā)布對(duì)某商品的強(qiáng)烈夸贊性言論,以達(dá)到產(chǎn)品推廣或增加商家知名度及影響力的目的。公關(guān)類水軍是為了建立個(gè)人或團(tuán)體正面形象或應(yīng)對(duì)其負(fù)面新聞而存在的,例如某些明星團(tuán)隊(duì)雇傭水軍針對(duì)該明星的熱點(diǎn)事件進(jìn)行控評(píng),以起到言論導(dǎo)向的作用。雇傭謠言類水軍通常是一種惡意競(jìng)爭(zhēng)的手段,個(gè)人或組織通過(guò)制造并傳播對(duì)競(jìng)爭(zhēng)對(duì)手不利的謠言,破壞對(duì)手在公眾心中的形象,從而給自己創(chuàng)造搶占市場(chǎng)份額的有利條件。
微博水軍對(duì)整個(gè)網(wǎng)絡(luò)環(huán)境的破壞無(wú)疑是巨大的。一方面,水軍的存在導(dǎo)致企業(yè)無(wú)法與消費(fèi)者正常溝通,準(zhǔn)確判斷民眾喜好和市場(chǎng)趨勢(shì),企業(yè)對(duì)自身定位不準(zhǔn)可能帶來(lái)經(jīng)濟(jì)損失;另一方面,大體量的虛假消息和不實(shí)評(píng)論不僅干擾微博正常情況下良性的傳播模式,浪費(fèi)網(wǎng)絡(luò)資源[2],更會(huì)影響民眾對(duì)社會(huì)事件的正確認(rèn)知和評(píng)判,導(dǎo)致媒體公信力的喪失;更為嚴(yán)重的是,某些水軍發(fā)布的內(nèi)容包含對(duì)社會(huì)或政府的惡意攻擊,且極具煽動(dòng)性,以至于激化民眾情緒,危害國(guó)家安全。所以,如何自動(dòng)區(qū)分正常用戶和水軍用戶,有效鑒別水軍,從而促進(jìn)微博平臺(tái)良性健康運(yùn)營(yíng),改善用戶體驗(yàn),較大程度地增強(qiáng)各界對(duì)熱點(diǎn)事件的真?zhèn)伪孀R(shí)能力,維護(hù)網(wǎng)絡(luò)秩序,凈化網(wǎng)絡(luò)環(huán)境,成為了當(dāng)今社會(huì)具有實(shí)際意義的重要課題。與此同時(shí),反水軍檢測(cè)技術(shù)也在不斷發(fā)展,現(xiàn)代水軍擅長(zhǎng)隱藏于正常用戶之中,而中文表達(dá)和結(jié)構(gòu)的復(fù)雜性增加了文本分析的難度,面向中文語(yǔ)言環(huán)境的微博水軍識(shí)別技術(shù)還有較大的研究空間。
微博水軍常常為某一目的進(jìn)行活躍,發(fā)帖的導(dǎo)向性較強(qiáng),且?guī)в胁徽?dāng)性和虛假色彩,因此水軍和正常用戶具有不同的屬性和特征,大多數(shù)通過(guò)詳細(xì)人工甄別可以被發(fā)現(xiàn),但面對(duì)大量用戶其識(shí)別工作量巨大,人工難以實(shí)現(xiàn),因此需要借助自動(dòng)識(shí)別工具。當(dāng)前微博水軍自動(dòng)識(shí)別研究涌現(xiàn)出相當(dāng)多的方法,這些方法主要可分為四種[3-5]:基于用戶屬性特征、基于話題行為特征、微博內(nèi)容特征及微博傳播特征的識(shí)別方法。
微博用戶的屬性特征主要包括昵稱、粉絲數(shù)、所在地、注冊(cè)時(shí)間、微博數(shù)、粉絲數(shù)、關(guān)注數(shù)和信用等級(jí)等。對(duì)這些屬性特征進(jìn)行分析可以區(qū)分水軍和正常用戶,且屬性特性數(shù)據(jù)獲取相對(duì)較為容易,不需要經(jīng)過(guò)復(fù)雜的轉(zhuǎn)換。從整體來(lái)看,水軍賬戶的經(jīng)營(yíng)程度弱于正常用戶,其粉絲數(shù)、關(guān)注數(shù)和信用等級(jí)這三個(gè)屬性與正常用戶有明顯差別,其粉絲數(shù)和關(guān)注數(shù)比正常用戶較少,尤其是粉絲數(shù)。微博網(wǎng)絡(luò)中水軍賬戶會(huì)出現(xiàn)隨意關(guān)注正常用戶的行為,這些用戶微博進(jìn)行轉(zhuǎn)發(fā)評(píng)論以來(lái)幫助提高賬戶的人氣,而正常用戶由于對(duì)對(duì)方的身份和目的并不了解,往往會(huì)選擇置之不理。由于水軍賬戶發(fā)布的微博內(nèi)容大多數(shù)質(zhì)量不高,其粉絲數(shù)一般較少。正常用戶刷微博的意義在于了解新聞、時(shí)事政治、游戲娛樂(lè)、不同觀念之間的交流等內(nèi)容,大多會(huì)在相關(guān)界面上有較長(zhǎng)的停留時(shí)間,因此在線時(shí)長(zhǎng)較長(zhǎng),活躍程度較高,信用等級(jí)也較高,而水軍則相反比較低。
用戶話題行為是指用戶在微博發(fā)帖交流過(guò)程中進(jìn)行的發(fā)文、提及、轉(zhuǎn)發(fā)、評(píng)論等操作,在這些行為中,正常用戶和水軍用戶存在著較大的差異,這些差異也可為水軍識(shí)別分析提供依據(jù)。對(duì)于發(fā)文行為,正常用戶正常的微博用戶將微博視為社交媒體工具,一般而言會(huì)存在在微博上分享生活或所見(jiàn)所聞的行為,因此發(fā)布的微博中原創(chuàng)微博數(shù)量較多,相反水軍則較少;對(duì)于提及行為,出于交流和信息共享等社交目的,正常用戶提到與自己親密度高的其他用戶較為常見(jiàn),而水軍賬戶幾乎不存在出于社交目的的發(fā)帖行為,通常情況下,水軍賬號(hào)提及特征低于正常用戶;對(duì)于轉(zhuǎn)發(fā)行為,由于水軍受個(gè)人或團(tuán)體雇傭提供信息傳播等服務(wù),其轉(zhuǎn)發(fā)微博的頻率遠(yuǎn)遠(yuǎn)超過(guò)正常用戶。
圖1 識(shí)別水軍流程圖
對(duì)于微博用戶來(lái)說(shuō),微博的文本內(nèi)容是最為直接的個(gè)人表達(dá)。用戶在不同階段會(huì)有不同的經(jīng)歷,對(duì)于自己感興趣或未知的話題和事件具有探索傾向,情緒和興趣也將隨著時(shí)間的推移發(fā)生變化,所以,正常用戶通常不會(huì)發(fā)布大量重復(fù)的微博。而水軍用戶受命于其雇主,為了達(dá)到產(chǎn)品宣傳推廣或制造輿論等目的,會(huì)發(fā)布大量?jī)?nèi)容相似的博文,且出于降低時(shí)間成本的考慮,這些博文一般而言由模板快速生成,因此這些博文在文本上重復(fù)率極高,可以通過(guò)進(jìn)行微博內(nèi)容存相似度檢測(cè)來(lái)識(shí)別水軍。
基于微博傳播特征的識(shí)別方法主要是針對(duì)具有反偵察能力的水軍團(tuán)體的識(shí)別。微博水軍為了避免被發(fā)現(xiàn),會(huì)對(duì)賬號(hào)屬性和行為等特征進(jìn)行偽裝,用以上三種方法進(jìn)行識(shí)別難以發(fā)現(xiàn)?;趥鞑ヌ卣鞯淖R(shí)別方法是通過(guò)微博水軍的組織關(guān)系,即轉(zhuǎn)發(fā)、互粉、關(guān)注等網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)進(jìn)行來(lái)辨析水軍。研究表明水軍是一個(gè)有組織的,具有高度協(xié)作性的,緊密結(jié)合的群體,與正常用戶親密度低而與其他水軍之間存在緊密的關(guān)系網(wǎng)絡(luò),因此,可以從整體和全局的角度研究水軍,對(duì)于高度偽裝的水軍軍團(tuán)分析其在組織關(guān)系上與正常用戶的差異。
微博水軍自動(dòng)識(shí)別主要是采用基于機(jī)器學(xué)習(xí)的算法。算法流程如圖1所示,主要包含數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、特征向量構(gòu)建及分類器訓(xùn)練和測(cè)試等過(guò)程。首先獲取原始微博數(shù)據(jù),可以直接利用社交媒體提供的open API等數(shù)據(jù)獲取通道或采用網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)采集,然后對(duì)原始數(shù)據(jù)進(jìn)行去噪和規(guī)范化等預(yù)處理得到可被分析的用戶數(shù)據(jù)集,對(duì)處理后的數(shù)據(jù)集進(jìn)行分類標(biāo)注,將標(biāo)注好數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集兩部分;其次是對(duì)數(shù)據(jù)集進(jìn)行特征提取和向量化,選擇判別度較高的特征構(gòu)建可以用于識(shí)別新浪微博水軍用戶的用戶特征向量集。接下來(lái)是將訓(xùn)練特征向量輸入到訓(xùn)練器中得到具有分類能力的分類器;最后將測(cè)試集輸入到訓(xùn)練好的分類器中,得到預(yù)測(cè)結(jié)果,并對(duì)得到的測(cè)試結(jié)果進(jìn)行評(píng)估,若不能達(dá)到判別準(zhǔn)確度要求,則需要擴(kuò)大訓(xùn)練集或選擇其他的分類算法重新訓(xùn)練。
微博水軍受雇于特定組織和個(gè)人發(fā)布具有導(dǎo)向性或煽動(dòng)性的不實(shí)言論,對(duì)營(yíng)商和輿論等產(chǎn)生諸多不良影響。本文對(duì)微博水軍對(duì)網(wǎng)絡(luò)環(huán)境安全造成的危害、自動(dòng)甄別方法和流程進(jìn)行探討,為發(fā)現(xiàn)和治理微博水軍和凈化網(wǎng)絡(luò)環(huán)境提供參考。
數(shù)字技術(shù)與應(yīng)用2020年12期