摘要:針對(duì)當(dāng)前電影評(píng)論中存在過(guò)多的水軍評(píng)論而導(dǎo)致電影評(píng)論失真的問(wèn)題,分別討論了當(dāng)前三種主流水軍挖掘方法在網(wǎng)絡(luò)電影評(píng)論中運(yùn)用的可行性,之后通過(guò)對(duì)部分水軍賬號(hào)進(jìn)行分析,從而總結(jié)出電影評(píng)論網(wǎng)絡(luò)水軍的一些共性特點(diǎn)。
關(guān)鍵詞:電影評(píng)論,網(wǎng)絡(luò)水軍,數(shù)據(jù)挖掘
1.引言
網(wǎng)絡(luò)水軍一般是以盈利為目的,通過(guò)對(duì)網(wǎng)絡(luò)輿論的控制和引導(dǎo),為企業(yè)提供品牌炒作、產(chǎn)品營(yíng)銷(xiāo)、口碑維護(hù)、危機(jī)公關(guān)等服務(wù)。隨著近幾年電影市場(chǎng)的火爆,網(wǎng)絡(luò)水軍開(kāi)始大量滲透進(jìn)各大電影論壇中,其評(píng)論欺騙人們相信一部電影值得看或者將一部影片的貶得一文不值,這會(huì)誤導(dǎo)人們決定看什么電影,嚴(yán)重影響著許多電影的口碑走向,無(wú)形中對(duì)一些電影的收益產(chǎn)生重大影響,并危害國(guó)家的文化產(chǎn)業(yè)發(fā)展。
2.網(wǎng)絡(luò)水軍挖掘的常見(jiàn)方法
目前,按照研究方法的不同,網(wǎng)絡(luò)水軍挖掘研究可以分為基于用戶(hù)產(chǎn)生內(nèi)容特征、基于環(huán)境特征的識(shí)別方法和基于用戶(hù)相關(guān)特征。
2.1 基于用戶(hù)產(chǎn)生內(nèi)容特征
該方法根據(jù)具體的評(píng)論內(nèi)容來(lái)對(duì)疑似水軍進(jìn)行識(shí)別,早期的電影評(píng)論水軍往往發(fā)表許多內(nèi)容高度相似的影評(píng),來(lái)達(dá)到其最大化網(wǎng)絡(luò)影響且最大程度減少工作量的目的,因此具有顯著可識(shí)別的特征,此時(shí),結(jié)合機(jī)器學(xué)習(xí)中的自然語(yǔ)言處理、文本分類(lèi)、情感分類(lèi)等技術(shù),比較容易分辨出水軍的影評(píng)。但是,隨著當(dāng)今網(wǎng)絡(luò)環(huán)境的復(fù)雜化及水軍行業(yè)的專(zhuān)業(yè)化,其影評(píng)更加接近于正常用戶(hù),單單根據(jù)電影評(píng)論的內(nèi)容,很難對(duì)兩者進(jìn)行區(qū)分,因此當(dāng)前的電影評(píng)論水軍挖掘通過(guò)該方法并不能取得很好的效果。
2.2 基于環(huán)境特征的識(shí)別方法
網(wǎng)絡(luò)水軍的異常行為使其在網(wǎng)絡(luò)環(huán)境層級(jí)表現(xiàn)出不同于正常用戶(hù)的特點(diǎn),研究者們通常基于IP的黑名單信息、TCP腳印信息、路由信息以及機(jī)器人網(wǎng)站命令追蹤信息等聯(lián)系起來(lái)對(duì)水軍的網(wǎng)絡(luò)級(jí)別特征經(jīng)行分析,以實(shí)現(xiàn)對(duì)水軍的追蹤。另外,也有學(xué)者利用網(wǎng)絡(luò)服務(wù)提供商的水軍記錄行為,從ISP角度提出流量級(jí)別的特征,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)水軍行為的建模。此外,基于水軍在制造垃圾評(píng)論時(shí)的網(wǎng)絡(luò)負(fù)載突然加大這一特點(diǎn),近幾年通過(guò)網(wǎng)絡(luò)流量的角度去挖掘水軍特征也為這方面的研究提供了一條新思路??偟膩?lái)說(shuō),基于環(huán)境特征的識(shí)別方法其研究需要相應(yīng)的實(shí)驗(yàn)數(shù)據(jù)集,而獲取相應(yīng)的數(shù)據(jù)集存在相當(dāng)大的難度,因此該方法在電影評(píng)論領(lǐng)域的運(yùn)用并沒(méi)有得到大規(guī)模推廣。
2.3 基于用戶(hù)相關(guān)特征
基于用戶(hù)相關(guān)特征的方法又可以細(xì)分為基于用戶(hù)行為特征和基于用戶(hù)關(guān)系特征兩種方法。前者的經(jīng)典方法為通過(guò)人工標(biāo)記首先建立訓(xùn)練集,然后通過(guò)對(duì)已經(jīng)識(shí)別的網(wǎng)絡(luò)水軍進(jìn)行分析并定義其特征,利用weka中的三種特征選擇算法評(píng)價(jià)各個(gè)網(wǎng)絡(luò)水軍行為特征的分辨力,采用傳統(tǒng)監(jiān)督分類(lèi)方法,判斷未知用戶(hù)是否為網(wǎng)絡(luò)水軍。之后的方法大多圍繞該方法進(jìn)行改進(jìn),以提高水軍識(shí)別的準(zhǔn)確率。
后者是目前廣泛采用的用戶(hù)關(guān)系特征的識(shí)別研究,該方法基于社會(huì)網(wǎng)絡(luò)、圖模型理論的研究,通過(guò)網(wǎng)絡(luò)水軍不同于正常用戶(hù)的社交圈子的特點(diǎn),來(lái)將兩者進(jìn)行區(qū)分。由于電影評(píng)論領(lǐng)域的水軍往往會(huì)呈現(xiàn)高度的聚集性以及與普通用戶(hù)關(guān)系稀疏性的明顯特點(diǎn)。因此,網(wǎng)絡(luò)電影評(píng)論中的水軍更適合于通過(guò)用戶(hù)特征來(lái)進(jìn)行挖掘。
3.電影評(píng)論中的水軍特點(diǎn)
通過(guò)收集微博電影評(píng)論平臺(tái)水軍賬戶(hù)信息及其外圍用戶(hù)信息進(jìn)行分析,可以總結(jié)出疑似水軍用戶(hù)具有一些共同的特征。
首先,社交網(wǎng)絡(luò)中,正常用戶(hù)往往通過(guò)各種交互行為逐漸形成一個(gè)以用戶(hù)為中心的社交圈子,而水軍用戶(hù)賬號(hào)不具有正常的社會(huì)關(guān)系,其形成的社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)特殊。水軍用戶(hù)往往會(huì)關(guān)注大量用戶(hù),但并不關(guān)心這些用戶(hù)真實(shí)的社會(huì)網(wǎng)絡(luò)關(guān)系,其關(guān)注好友之間幾乎沒(méi)有連結(jié),也就是說(shuō),其賬戶(hù)雙邊的朋友關(guān)系比例很低。
其次,水軍的微博用戶(hù)等級(jí)低于合法用戶(hù)。水軍經(jīng)常會(huì)不斷注冊(cè)新用戶(hù)賬號(hào),但卻不會(huì)去刻意經(jīng)營(yíng)這些賬號(hào),因此這些賬號(hào)本身不會(huì)有太多戶(hù)主的日常生活記錄,其個(gè)人主頁(yè)點(diǎn)擊率也會(huì)十分低。
另外,水軍的賬戶(hù)往往會(huì)在短時(shí)間內(nèi)同時(shí)發(fā)布大量的評(píng)論,對(duì)于電影的評(píng)分,出于雇傭者的要求,其給分極端(極高或極低)。
最后,水軍賬戶(hù)的轉(zhuǎn)發(fā)率低于合法用戶(hù)。其發(fā)布的評(píng)論往往更加主觀,即提出自己的意見(jiàn)來(lái)影響別人,而不是去傳播別人的意見(jiàn)。
4 結(jié)語(yǔ)
網(wǎng)絡(luò)的快速發(fā)展極大地便利了我們生活的同時(shí),也使我們面臨著網(wǎng)絡(luò)水軍的騷擾。當(dāng)前中國(guó)各大電影論壇為人們交流電影和交流彼此的經(jīng)驗(yàn)提供了極好的平臺(tái),而電影評(píng)論水軍的介入擾亂了正常的秩序,妨礙了用戶(hù)的利益。水軍研究作為數(shù)據(jù)挖掘領(lǐng)域近幾年的熱點(diǎn),今后將會(huì)得到國(guó)內(nèi)外更廣泛的研究。因此,結(jié)合網(wǎng)絡(luò)電影評(píng)論水軍的特點(diǎn),綜合其內(nèi)容、行為、關(guān)系和環(huán)境等特征,努力提高網(wǎng)絡(luò)水軍識(shí)別的準(zhǔn)確率,對(duì)于維護(hù)網(wǎng)絡(luò)環(huán)境,恢復(fù)網(wǎng)絡(luò)秩序,促進(jìn)中國(guó)電影市場(chǎng)與文化產(chǎn)業(yè)蓬勃發(fā)展,具有十分重要的意義。
參考文獻(xiàn):
[1]Chen G, Cai W, Huang J, et al. Uncovering and Characterizing Internet Water Army in Online Forums[C]// IEEE International Conference on Data Science in Cyberspace. IEEE, 2016:169-178.
[2] 莫倩, 楊珂. 網(wǎng)絡(luò)水軍識(shí)別研究*[J]. 軟件學(xué)報(bào), 2014(7):1505-1526.
[3]程曉濤, 劉彩霞, 劉樹(shù)新. 基于關(guān)系圖特征的微博水軍發(fā)現(xiàn)方法[J]. 自動(dòng)化學(xué)報(bào), 2015, 41(9):1533-1541.
[4]Zeng K, Wang X, Zhang Q, et al. Behavior Modeling of Internet Water Army in Online Forums[J]. Ifac Proceedings Volumes, 2014, 47(3):9858-9863.
作者簡(jiǎn)介:胡曉康(1992—),男,山西臨汾人,山西財(cái)經(jīng)大學(xué)2015(管理科學(xué)與工程)學(xué)術(shù)碩士研究生,研究方向:信息與知識(shí)管理.endprint