曲強,于洪濤,黃瑞陽
基于注意力機制的社交垃圾文本檢測方法
曲強,于洪濤,黃瑞陽
(國家數(shù)字交換系統(tǒng)工程技術研究中心,河南 鄭州 450002)
在社交網(wǎng)絡中,大量的垃圾文本嚴重威脅用戶的信息安全與社交網(wǎng)站的信用體系。針對噪聲性與稀疏性問題,提出一種基于注意力機制的卷積神經(jīng)網(wǎng)絡檢測方法。在經(jīng)典卷積神經(jīng)網(wǎng)絡的基礎上,該方法增加了過濾層,并在過濾層設計基于樸素貝葉斯權重技術的注意力機制,解決了噪聲性問題。并且,它改變了池化層原有的策略,采用基于注意力機制的池化策略,緩解了稀疏性問題。結果表明,相對于其他檢測方法,所提方法的檢測準確率在4個數(shù)據(jù)集上分別提高了1.32%、2.15%、0.07%、1.63%。
社交網(wǎng)絡;信息安全;垃圾文本;注意力機制
隨著移動互聯(lián)網(wǎng)技術的廣泛應用,在線社交網(wǎng)絡由于具有便捷、靈活、內涵豐富的特性而快速成為人們生活重要的組成部分,如Facebook、Twitter、Google、新浪微博、微信等流行社交網(wǎng)絡。目前,在線社交網(wǎng)絡的用戶數(shù)量呈指數(shù)級別增長,據(jù)統(tǒng)計,2018年春節(jié)期間微信和WeChat的合并月活躍賬戶數(shù)超過10億。社交網(wǎng)絡由于蘊含的巨大用戶隱私信息及其廣闊的商業(yè)價值,成為不法分子圖謀不軌的目標。大量發(fā)送垃圾文本是不法分子攻擊社交網(wǎng)絡的重要手段之一。其中,本文中的垃圾文本指:以為商品營造虛假事實、威脅網(wǎng)絡安全等為目的,大量發(fā)送的商品推銷文本、虛假評論文本、熱點事件的謠言等文本內容。根據(jù)2013年的社交網(wǎng)絡垃圾文本統(tǒng)計報告,2013年1–6月,社交垃圾文本數(shù)量增長355%,每200條社交文本中有1條是垃圾文本,它們對5%的社交應用App造成一定程度的威脅。社交網(wǎng)絡的垃圾文本不僅惡化社交網(wǎng)絡環(huán)境,影響用戶體驗,危害用戶信息安全,而且對社交網(wǎng)絡的可用性以及安全性造成一定程度的影響[1]。
針對社交網(wǎng)絡垃圾文本的危害,國內外學者對社交網(wǎng)絡垃圾文本檢測方法進行了大量的理論研究。Ratkiewicz等[2-3]提出基于關鍵詞的檢測方法,該類方法利用統(tǒng)計的方法提取垃圾文本中頻繁出現(xiàn)的關鍵詞,并根據(jù)這些關鍵詞檢測垃圾文本。該方法計算復雜度較低,并且取得了一定的檢測效果,但存在以下兩個問題:①該方法需要人工設計提取的關鍵詞,不具有普適性;②該方法提取關鍵詞特征表示,在計算機中表示為0/1,并且其維度大小為關鍵詞數(shù)目,因此關鍵詞特征表示存在稀疏性問題[4]。
為解決基于關鍵詞方法存在的非普適性問題與稀疏性問題,研究者提出基于神經(jīng)網(wǎng)絡的檢測方法。例如,CNN[5]、RNN[6]、LSTM[7]、GRU[8]等神經(jīng)網(wǎng)絡方法。其中,CNN模型利用卷積核與池化核可以有效提取文本的深層認知特征;RNN等模型利用時序神經(jīng)單元提取文本的時序特征。但它們都存在以下2個問題:①該方法對原始文本進行檢測,缺乏合理的處理文本噪聲單詞的機制;②該方法池化層策略雖然選取了具有顯著區(qū)分能力的特征,如最大池化策略選取最突出的特征,平均池化策略選取平均的特征等,但這些池化策略目的單一,并且不能動態(tài)地進行優(yōu)化,即不能自動選取貢獻最大的文本特征。
為實現(xiàn)自動選取貢獻最大的文本特征,研究人員提出注意力機制模型,即根據(jù)句子中每個單詞對于分類結果的貢獻程度,賦予每個單詞不同的權重,以此表示模型對于每個單詞的注意力。目前,基于注意力機制的深度神經(jīng)網(wǎng)絡方法根據(jù)利用信息類型的不同可以分為兩類:利用外部信息的方法和不利用外部信息的方法。①在利用外部信息的方法中,AHNN[9]、AP-CNN方法[10]利用CNN模型提取文本整體含義,輔助LSTM模型進行注意力表示,但模型中的CNN模型僅起到輔助生成作用,并且使用文本信息的外部信息幫助,計算復雜度較高。②在不利用外部性信息的方法中,Semantic-CNN方法[11]在過濾層加入注意力機制,提出利用語義特征進行初始化過濾,來提升文本分類的實驗精度。AP-BiRNN[12]、AP-BiLSTM方法[13]在特征表示層與分類層間加入注意力機制,進一步識別有效特征單詞,提升了文本分類精度。雖然基于注意力機制的神經(jīng)網(wǎng)絡方法利用注意力機制可以提取足夠的特征表示,緩解稀疏性,但是依舊存在噪聲性[4]問題。
針對基于關鍵詞方法面臨的稀疏性問題,基于神經(jīng)網(wǎng)絡與注意力機制方法面臨的噪聲性問題,在不借助外部信息的情況下,本文提出基于注意力機制的卷積神經(jīng)網(wǎng)絡(MA-CNN)檢測方法,主要內容如下。
1) MA-CNN在原始CNN模型基礎上增加過濾層,并且在過濾層融合關鍵詞提取的思想,設計基于樸素貝葉斯權重技術[14]的注意力機制。通過提取具有檢測效果的關鍵詞,該方法有效降低了文本中噪聲含量,解決了噪聲性問題。
2) MA-CNN在池化層融合注意力機制的思想,采用基于注意力機制的池化策略。通過注意力機制給具有檢測效果的單詞賦予較高的權重,有效提取文本的特征表示,緩解稀疏性問題。需要說明的是,本文中的注意力機制池化策略與目前流行的RNN注意力機制不同,不同之處在于RNN注意力機制是基于每個時刻單元重新賦予權重,而本文中的注意力機制池化策略是基于每個核內部單元重新賦予權重。
3) 最后,本文在Youtube、Opinion、Telephone與E-mail這4個數(shù)據(jù)集上進行實驗,結果表明,相比于傳統(tǒng)深度神經(jīng)網(wǎng)絡方法與基于注意力機制的深度神經(jīng)網(wǎng)絡方法,本文提出方法的檢測準確率在4個數(shù)據(jù)集上分別提高了1.32%、2.15%、0.07%、1.63%。
針對社交網(wǎng)絡文本的噪聲性與稀疏性問題,本文提出基于注意力機制的卷積神經(jīng)網(wǎng)絡模型,該模型分為5層,分別是過濾層、嵌入層、卷積層、池化層以及分類層。
基于樸素貝葉斯權重技術的注意力機制:根據(jù)式(1)計算每個單詞的樸素貝葉斯權重,然后按照條件選取一定數(shù)量的關鍵詞,從而過濾噪聲。
2014年,YoonKim提出新的CNN模型[5],解決了文本分類問題并且取得了良好的效果。本文提出的MA-CNN模型在卷積層沿用了YoonKim設計模型的卷積核結構,但在池化層放棄了原來的最大池化策略,采用新的注意力機制池化策略,圖1展示了僅帶有大小為2卷積核的MA-CNN模型的卷積層、池化層以及分類層設計。
圖1 卷積核為2的MA-CNN模型
Figure 1 The MA-CNN model with convolution kernel size of two
針對CNN池化策略單一并且不能動態(tài)更新的問題,MA-CNN模型在池化層放棄了原來的最大池化策略,根據(jù)注意力機制的思想,提出基于注意力機制的池化策略。
基于交叉熵的定義,本文中Loss函數(shù)定義如式(6)所示,根據(jù)損失函數(shù)的梯度求導,可以進行反向傳播學習。
(1) 數(shù)據(jù)集
為驗證MA-CNN方法的檢測效果,本文通過在4個數(shù)據(jù)集上進行實驗,進一步評價MA-CNN的檢測效果。本文使用的4個數(shù)據(jù)集情況如表1所示。
表1 實驗數(shù)據(jù)集
1) Youtube數(shù)據(jù)集
該數(shù)據(jù)集是利用Youtube的API爬取形成的,包含2015年1?3月的5個訪問次數(shù)最多的視頻的評論數(shù)據(jù),共1 005條垃圾評論信息和956條正常評論信息。
2) Opinion數(shù)據(jù)集
該數(shù)據(jù)集由幾個網(wǎng)站的數(shù)據(jù)集組成,包含400條來自TripAdvisor網(wǎng)站的可信積極評論,400條來自Expedia、Hotels.com、Orbitz、Priceline、TripAdvisor、Yelp等網(wǎng)站的可信消極評論,400條來自Amazon Mechanical Turk的虛假積極評論,400條來自Amazon Mechanical Turk的虛假消極評論。
3) SMS數(shù)據(jù)集
該數(shù)據(jù)集由4個SMS數(shù)據(jù)集組成,包含來自Grumbletext Web Site的425條垃圾信息,來自NUS SMS中心的3 375條正常信息,來自Caroline Tag's PhD論文的450條正常信息,來自SMS Corpus 0.1的1 002條正常信息和433條垃圾信息。
4) E-mail數(shù)據(jù)集
該數(shù)據(jù)集通過郵件系統(tǒng)采集形成,包含1 813條垃圾郵件信息與2 788條正常郵件信息。
(2) 實驗環(huán)境
本文使用的實驗環(huán)境為Ubuntu16.04系統(tǒng),8個CPU處理器以及23.5 GB內存,編程語言為Python3.6,編程框架為Tensorflow。
(3) 實驗設置
在過濾層,MA-CNN使用基于樸素貝葉斯權重技術的注意力機制。在嵌入層,MA-CNN使用隨機化的表示方法,單詞表示向量維度為128維。在卷積層,MA-CNN使用核大小為3、4、5的3種卷積核,每種卷積核數(shù)目為100個。在池化層,MA-CNN采用基于注意力機制的池化策略。在分類層,MA-CNN采用softmax函數(shù)。在實驗中,訓練集與測試集的比例為9:1,實驗過程進行10次,取10次檢測準確率的均值作為最終的結果。
(4) 評價指標
本文采用檢測準確率評價實驗各個方法的實驗效果,這里的檢測準確率是所有社交文本的檢測準確率,不僅包含垃圾文本的檢測準確率,而且包含正常文本的檢測準確率。因此,檢測準確率的計算方法如式(7)所示。
其中,TP表示真實類別為正常文本,模型預測類別仍為正常文本的文本數(shù)目;表示真實類別為垃圾文本,模型預測類別仍為垃圾文本的文本數(shù)目;表示真實類別為垃圾文本,模型預測類別卻為正常文本的文本數(shù)目;表示真實類別為正常文本,模型預測類別仍為垃圾文本的文本數(shù)目。
在實驗部分中,本文首先將提出的MA-CNN方法與6種方法進行對比,包含4種傳統(tǒng)的深度神經(jīng)網(wǎng)絡方法與2種目前流行的基于注意力機制的深度神經(jīng)網(wǎng)絡方法(semantic-CNN、AP-BiLSTM),驗證MA-CNN方法的檢測性能效果。其次,在CNN模型的基礎上,分別對嵌入層表示方法、卷積層激活函數(shù)以及池化層注意力機制對檢測結果的影響進行了探討。
實驗1 不同檢測方法的檢測性能對比
根據(jù)表2的實驗結果,在4個經(jīng)典的深度神經(jīng)網(wǎng)絡算法中,CNN模型在Youtube、Opinion與SMS這3個數(shù)據(jù)集上的檢測準確率比較高,而LSTM模型在E-mail數(shù)據(jù)集上的檢測準確率比較高,可以看出CNN模型在文本分類與檢測的效果一般好于循環(huán)神經(jīng)網(wǎng)絡模型。因為卷積神經(jīng)網(wǎng)絡更加注重文本內容的深度語義特征,而循環(huán)神經(jīng)網(wǎng)絡更加注重文本字符的時間序列特征,所以對于文本分類與檢測這種偏向于區(qū)分語義特征的任務而言,卷積神經(jīng)網(wǎng)絡,即CNN模型的檢測效果表現(xiàn)得更好。由于CNN模型良好的檢測效果,因此在后續(xù)對于各個層次的機制與方法的實驗中,實驗選取的基礎模型是CNN模型,不是循環(huán)神經(jīng)網(wǎng)絡模型。
表2 不同檢測方法的檢測性能對比
另外,將6種方法在各個數(shù)據(jù)集上檢測效果比較好的方法與本文提出的MA-CNN模型進行對比,相對于每個數(shù)據(jù)集上的最佳算法,MA-CNN模型在4個數(shù)據(jù)集上分別有1.32%、2.15%、0.07%、1.63%的提升,驗證了MA-CNN模型可以有效檢測社交網(wǎng)絡垃圾文本。
實驗2 嵌入層表示方法的影響
在CNN模型的基礎上,本部分實驗由嵌入層表示方法對檢測準確率的影響進行探究,分別采用4種表示方法:隨機化方法、SkipGram方法、CBOW方法與Glove方法。
根據(jù)表3的實驗結果,使用不同的表示方法的CNN模型在不同數(shù)據(jù)集上表現(xiàn)性能不一般。例如,對于SMS數(shù)據(jù)集,使用Random+CNN模型的檢測準確率最高;對于Youtube與E-mail數(shù)據(jù)集,使用CBOW+CNN模型的檢測準確率最高;對于Opinion數(shù)據(jù)集,使用Glove+CNN模型的檢測準確率最高。盡管對于這4個數(shù)據(jù)集,使用SkipGram+CNN模型的檢測準確率都不是最高,但檢測準確率穩(wěn)定在比較高的水平。
表3 嵌入層表示方法的影響
實驗3 卷積層激活函數(shù)的影響
在CNN模型的基礎上,本部分實驗由卷積層激活函數(shù)對于檢測準確率的影響進行探究,分別采用relu函數(shù)、sigmoid函數(shù)、tanh函數(shù)、softplus函數(shù)、softsign函數(shù)與leakly-relu函數(shù)這6種常用的激活函數(shù)。
根據(jù)表4的實驗結果,使用不同的激活函數(shù)CNN模型在不同數(shù)據(jù)集上表現(xiàn)性能不一??傮w而言,使用sigmoid函數(shù)、tanh函數(shù)與softsign函數(shù)的CNN模型表現(xiàn)性能很差,與每個數(shù)據(jù)集的最高檢測準確率有比較大的差距。而使用relu函數(shù)、softplus函數(shù)與leakly-relu函數(shù)的CNN模型表現(xiàn)性能較好,其中,relu+CNN模型在Opinion與SMS數(shù)據(jù)集上表現(xiàn)最好,領先其他方法0.56%與0.41%;使用softplus+CNN模型在Youtube與E-mail數(shù)據(jù)集上表現(xiàn)最好,領先其他方法0.51%與0.22%。
表4 卷積層激活函數(shù)的影響
實驗4 池化層池化策略的影響
在CNN模型的基礎上,本部分實驗對池化層池化策略對檢測準確率的影響進行探究,分別采用最大池化策略、最小池化策略、平均池化策略與注意力機制池化策略這4種池化策略,如圖2所示。
圖2 池化層池化策略的影響
Figure 2 The influence of pooling strategies in the pooling layer
根據(jù)圖2的實驗結果,使用不同的池化策略在不同的數(shù)據(jù)集上表現(xiàn)性能不一??傮w而言,相對于傳統(tǒng)的3種池化策略,基于注意力機制的池化策略在Opinion、SMS、E-mail數(shù)據(jù)集上取得了最好的效果。但在Youtube數(shù)據(jù)集上,相對于最大池化策略,使用注意力機制策略的CNN的檢測準確率下降了1.04%。
針對卷積神經(jīng)網(wǎng)絡方法檢測社交網(wǎng)絡垃圾信息的噪聲性與稀疏性問題,本文提出了一種注意力機制的卷積神經(jīng)網(wǎng)絡(MA-CNN)檢測方法。該方法首先在過濾層融合了關鍵詞提取的思想,采用了基于樸素貝葉斯權重技術的注意力機制,降低文本中的噪聲含量,解決了稀疏性問題。其次,在池化層融合了注意力機制的思想,采用了基于注意力機制的池化策略,緩解了稀疏性問題。未來,將利用遷移學習的思想進一步解決社交網(wǎng)絡垃圾文本檢測中的標注瓶頸問題。
[1] ZAFARANI, REZA, HUAN LIU. 10 bits of surprise: detecting malicious users with minimum information[C]//The 24th ACM International on Conference on Information and Knowledge Management. 2015: 423-431.
[2] RATKIEWICZ, JACOB, et al. Detecting and tracking political abuse in social media[C]//ICWSM. 2011: 297-304.
[3] BENEVENUTO, FABRICIO, et al. Detecting spammers on twitter[C]//Collaboration, Electronic Messaging, Anti-abuse and Spam Conference. 2010: 12.
[4] SONG G E. Short text classification: a survey[J]. Journal of Multimedia, 2014, 9(5): 635.
[5] YOON K. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.
[6] MIKOLOV, TOMAS, et al. Recurrent neural network based language model[C]//Eleventh Annual Conference of the International Speech Communication Association. 2010.
[7] PASCANU R, MIKOLOV T, BENGIO Y. On the difficulty of training recurrent neural networks[C]// International Conference on Machine Learning. 2013: 1310-1318.
[8] TANG D Y, QIN B, LIU T. Document modeling with gated recurrent neural network for sentiment classification[C]//The 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 1422-1432.
[9] ZHANG X M, LI H, QU H. AHNN: an attention-based hybrid neural network for sentence modeling[C]//National CCF Conference on Natural Language Processing and Chinese Computing. 2017: 731-740.
[10] ZHANG Y, ER M J, WANG N. Attention pooling-based convolutional neural network for sentence modelling[J]. Information Sciences 373, 2016: 388-403.
[11] LI S, ZHAO Z, LIU T, et al. Initializing convolutional filters with semantic features for text classification[C]//The 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 1884-1889.
[12] DU C S, HUANG L. Text classification research with attention-based recurrent neural networks[C]// International Journal of Computers Communications & Control. 2018: 50-61.
[13] ZHOU P, SHI W, TIAN J. Attention-based bidirectional long short-term memory networks for relation classification[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 207-212.
[14] WANG S D, MANNING C D. Manning. Baselines and bigrams: simple, good sentiment and topic classification[C]//The 50th Annual Meeting of the Association for Computational Linguistics. 2012: 90-94.
[15] GOLDBERG Y, LEVY O. Word2vec explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J]. arXiv preprint arXiv:1402.3722, 2014.
[16] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//The 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1532-1543.
Attention-based approach of detecting spam in social networks
QU Qiang, YU Hongtao, HUANG Ruiyang
National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China
In social networks, a large amount of spam has seriously threaten users' information security and the credit system of social websites. Aiming at the noise and sparsity problems, an attention-based CNN method was proposed to detect spam. On the basis of classical CNN, this method added a filter layer in which an attention mechanism based on Naive Bayesian weighting technology was designed to solve the noise issue. What’s more, instead of the original pooling strategy, it adapted an attention-based pooling policy to alleviate the sparsity problem. Compared with other methods, the results show that the accuracy has increased by 1.32%,2.15%,0.07%,1.63% on four different data sets.
social networks, information security, spam, attention system
The National Natural Science Foundation Innovation Group Project (No.61521003)
TP309
A
10.11959/j.issn.2096?109x.2020002
曲強(1994? ),男,黑龍江齊齊哈爾人,國家數(shù)字交換系統(tǒng)工程技術研究中心碩士生,主要研究方向為網(wǎng)絡空間安全、大數(shù)據(jù)分析與處理、復雜網(wǎng)絡異常用戶檢測。
于洪濤(1970? ),男,遼寧丹東人,博士,國家數(shù)字交換系統(tǒng)工程技術研究中心研究員,主要研究方向為網(wǎng)絡大數(shù)據(jù)分析與處理。
黃瑞陽(1986? ),男,福建漳州人,博士,國家數(shù)字交換系統(tǒng)工程技術研究中心助理研究員,主要研究方向為文本挖掘、圖挖掘。
論文引用格式:曲強, 于洪濤, 黃瑞陽. 基于注意力機制的社交垃圾文本檢測方法[J]. 網(wǎng)絡與信息安全學報, 2020, 6(1): 54-61.
QU Q, YU H T, HUANG R Y. Attention-based approach of detecting spam in social networks[J]. Chinese Journal of Network and Information Security, 2020, 6(1): 54-61.
2019?03?25;
2019?07?11
于洪濤,yht_ndsc@139.com
國家自然科學基金創(chuàng)新群體基金資助項目(No.61521003)