孟旭陽(yáng) 徐雅斌
摘 ?要: 為了有效解決社交網(wǎng)絡(luò)中對(duì)敏感詞進(jìn)行變形處理而逃避被檢測(cè)和過(guò)濾的問(wèn)題,首先識(shí)別敏感詞及敏感詞的變形詞,并采用敏感詞指紋匯聚方法將敏感詞的變形詞與原詞進(jìn)行關(guān)聯(lián)。在此基礎(chǔ)上,采用語(yǔ)義指紋技術(shù)檢測(cè)重復(fù)發(fā)布的敏感內(nèi)容。其次,建立基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型(MTL?CNN),綜合敏感性和情感傾向兩個(gè)方面對(duì)發(fā)布文本進(jìn)行檢測(cè)。對(duì)比實(shí)驗(yàn)結(jié)果表明,提出的敏感內(nèi)容檢測(cè)方法具有較高的處理速率和檢測(cè)準(zhǔn)確率。
關(guān)鍵詞: 社交網(wǎng)絡(luò); 敏感內(nèi)容; 指紋匯聚; 情感傾向; 多任務(wù)學(xué)習(xí); 處理速率; 檢測(cè)準(zhǔn)確率
中圖分類(lèi)號(hào): TN915?34; TP391 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)15?0072?07
Research on sensitive content detection in social networks
MENG Xuyang1, 2, XU Yabin1, 2
(1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science & Technology University, Beijing 100101, China;
2. School of Computer, Beijing Information Science & Technology University, Beijing 100101, China)
Abstract: In order to solve the problem in social networks that the sensitive words are often processed by distortion for exception from detection and filtering, the deformable words of sensitive words are identified, and the sensitive words fingerprint convergence method is used to associate the variant words of the sensitive words with original sensitive words. On this basis, the semantic fingerprint technology is used to detect repetitively published sensitive content. A multi?task learning based convolutional neural network (MTL?CNN) model is established to detect the published texts in the aspects of comprehensive sensitivity and emotional tendency. The comparison experiment results show that the proposed sensitive content detection method has high processing speed and detection accuracy.
Keywords: social network; sensitive content; fingerprint convergence; emotional tendency; multi?task learning; processing speed; detection accuracy
0 ?引 ?言
社交網(wǎng)絡(luò)已經(jīng)成為廣大網(wǎng)民溝通交流的重要平臺(tái)和獲取信息的重要入口。然而,社交網(wǎng)絡(luò)的廣泛應(yīng)用同樣給敏感內(nèi)容的傳播提供了網(wǎng)絡(luò)空間。少數(shù)人借助社交網(wǎng)絡(luò)發(fā)布暴力恐怖信息和政治敏感內(nèi)容。如何高效、準(zhǔn)確地實(shí)現(xiàn)敏感內(nèi)容檢測(cè),減少誤判、漏判現(xiàn)象,打造健康安全的社交網(wǎng)絡(luò)環(huán)境成為巨大挑戰(zhàn)?;陉P(guān)鍵詞匹配的檢測(cè)方法[1?4],忽略了變形詞與原詞之間的關(guān)聯(lián)性?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的敏感內(nèi)容檢測(cè)方法[5?8]準(zhǔn)確率較低。文獻(xiàn)[9?11]在敏感主題的基礎(chǔ)上考慮情感傾向因素獲得較高的準(zhǔn)確率,但需要訓(xùn)練兩個(gè)模型,效率不高。文獻(xiàn)[12?14]采用深度學(xué)習(xí)方法,獲得了較好的效果。
針對(duì)現(xiàn)有研究中存在的問(wèn)題,本文提出的敏感內(nèi)容檢測(cè)方法不僅可以有效提高檢測(cè)的準(zhǔn)確性,而且能夠很好的滿足檢測(cè)的實(shí)時(shí)性。
1 ?敏感內(nèi)容檢測(cè)框架
本文提出的敏感內(nèi)容檢測(cè)框架主要由三部分組成,如圖1所示。
1) 敏感詞指紋匯聚:在對(duì)用戶待發(fā)布文本進(jìn)行預(yù)處理的基礎(chǔ)上,識(shí)別敏感詞和各種變形偽裝敏感詞。通過(guò)本文提出的敏感詞指紋匯聚方法,對(duì)識(shí)別出的敏感變形詞打上指紋值將其與原詞關(guān)聯(lián)。其中,根據(jù)是否出現(xiàn)敏感詞、變形情況等判斷文本是否為可疑文本。
2) 通過(guò)語(yǔ)義指紋技術(shù)快速自動(dòng)檢測(cè)重復(fù)敏感內(nèi)容:對(duì)1)中判斷為可疑文本的內(nèi)容,采用本文改進(jìn)的基于語(yǔ)義指紋的快速相似敏感內(nèi)容檢測(cè)算法生成文本的語(yǔ)義指紋,并與事先建好的敏感文本指紋庫(kù)(D_stf)進(jìn)行快速匹配,實(shí)現(xiàn)快速自動(dòng)檢測(cè)重復(fù)敏感內(nèi)容。
3) 基于多任務(wù)學(xué)習(xí)的敏感內(nèi)容檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型:對(duì)于在敏感指紋庫(kù)沒(méi)有比對(duì)成功的可疑文本采用基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行檢測(cè)。若檢測(cè)結(jié)果為敏感文本,則將其語(yǔ)義指紋添加到D_stf庫(kù)中,方便下次敏感內(nèi)容重復(fù)檢測(cè)。
2 ?敏感詞檢測(cè)
2.1 ?敏感詞變形詞匯識(shí)別
基于原始的敏感關(guān)鍵詞通過(guò)與敏感詞庫(kù)進(jìn)行匹配即可。然而,為了躲避檢測(cè),敏感關(guān)鍵詞都進(jìn)行了變形處理。比如,夾雜特殊符號(hào)“#”“*”“&”等,拼音/拼音首字母代替字,繁體字代替,同音字代替等。
經(jīng)分析發(fā)現(xiàn),同音字替換由于前后都不成詞,往往在分詞時(shí)會(huì)出現(xiàn)連續(xù)單字(3個(gè)及3個(gè)以上),而正常文本很少出現(xiàn)這種情況。除此之外,敏感詞常出現(xiàn)在偽裝現(xiàn)象(如拼音替代)附近,因此只需對(duì)偽裝現(xiàn)象周?chē)脑~進(jìn)行重點(diǎn)檢測(cè)即可,避免傳統(tǒng)方法要將整個(gè)文本轉(zhuǎn)化為拼音與敏感詞庫(kù)匹配而導(dǎo)致效率低下的問(wèn)題。
因此,本文在已有方法的基礎(chǔ)上做出改進(jìn),改進(jìn)部分的敏感詞變形詞匯識(shí)別算法如下:
輸入:社交網(wǎng)絡(luò)中的待發(fā)布文本T,敏感關(guān)鍵詞表D。
輸出:成功識(shí)別的敏感詞變形詞匯集合[S]。
1) 去除文本中夾雜的特殊符號(hào),進(jìn)行繁簡(jiǎn)轉(zhuǎn)化;
2) 分詞處理,若分詞結(jié)果中出現(xiàn)連續(xù)3個(gè)及以上的單字,則將連續(xù)單字轉(zhuǎn)化為對(duì)應(yīng)的拼音;
3) 若分詞結(jié)果中出現(xiàn)拼音/拼音首字母,則以此拼音/拼音首字母為中心,將前后4個(gè)詞匯均轉(zhuǎn)為漢字對(duì)應(yīng)的拼音/拼音首字母;
4) 判斷步驟2)、步驟3)中連續(xù)的拼音或拼音首字母序列組合是否為敏感詞匯所對(duì)應(yīng)的拼音或拼音首字母。若是,則成功識(shí)別為詞庫(kù)中該敏感詞匯的變形詞匯,并加入集合[S]。
2.2 ?敏感詞指紋匯聚
雖然對(duì)敏感詞進(jìn)行了變形偽裝,但其語(yǔ)義并沒(méi)有發(fā)生變化。針對(duì)這種情況,本文提出將各種變形詞打上指紋并與原詞進(jìn)行關(guān)聯(lián),即實(shí)現(xiàn)敏感詞指紋匯聚,從語(yǔ)義角度保證變形詞與原詞的關(guān)聯(lián)性。
敏感詞指紋(F)定義:使用Jenkins Hash[15]哈希函數(shù)對(duì)原始的敏感詞[wi]進(jìn)行哈希處理,得到一個(gè)[k]位的哈希值即為該敏感詞[wi]的指紋值[fi],每類(lèi)敏感詞的指紋具有唯一性。
例如:敏感詞[wi]=“打砸搶燒”,為了便于說(shuō)明問(wèn)題,使用Jenkins Hash函數(shù)得到二進(jìn)制hash值為100110,即[wi]對(duì)應(yīng)的指紋值[fi]=“100110”(此處示例[k]=6)。注意,實(shí)際實(shí)驗(yàn)采用64位指紋。
敏感詞指紋匯聚是指將敏感詞[wi]的各種變體詞匯[wi_j]均映射到原始敏感詞的指紋[fi]上。這樣無(wú)論多少個(gè)變體詞匯,每個(gè)變體詞匯[wi_j]均代表這個(gè)原始的敏感詞[wi]。以“打砸搶燒”為例,敏感詞指紋匯聚原理及過(guò)程如圖2所示。
本文共收集2 289個(gè)敏感關(guān)鍵詞,首先通過(guò)哈希函數(shù)計(jì)算每個(gè)敏感詞的指紋值,并構(gòu)建如圖2所示的敏感指紋詞庫(kù)(D_sw)。從圖2中可看出,當(dāng)敏感詞[wi]=“打砸搶燒”,對(duì)應(yīng)的敏感詞指紋[fi]=“100110”,識(shí)別出的各種變形偽裝詞匯都將其打上指紋[fi],則此時(shí)[n]個(gè)詞匯[wi_1,wi_2,wi_3,…,wi_n]對(duì)應(yīng)的指紋均為[fi],與原詞[wi]關(guān)聯(lián)。
3 ?相似敏感內(nèi)容檢測(cè)
3.1 ?語(yǔ)義指紋的生成
由于受社交網(wǎng)絡(luò)信息傳播的時(shí)效性影響,不法分子會(huì)經(jīng)常重復(fù)發(fā)布相同或相似的敏感內(nèi)容來(lái)保證傳播效果。為保證檢測(cè)的實(shí)時(shí)性,采用語(yǔ)義指紋技術(shù)快速自動(dòng)檢測(cè)這些重復(fù)發(fā)布的敏感內(nèi)容。
Simhash[16?17]算法不僅檢測(cè)的準(zhǔn)確率高、速度快,同時(shí)還可根據(jù)指紋距離反映出文本內(nèi)容間的差異程度,被認(rèn)為是目前文本相似檢測(cè)處理中最有效的算法之一[18]。
但是,由于在社交網(wǎng)絡(luò)中充滿了口語(yǔ)化表達(dá),加之還存在著敏感詞變形偽裝現(xiàn)象,經(jīng)典Simhash算法對(duì)相似敏感內(nèi)容的檢測(cè)性能并不是很理想。為此,本文對(duì)Simhash算法進(jìn)行改進(jìn),形成SWFC?SFG語(yǔ)義指紋生成方法,對(duì)應(yīng)算法如下:
輸入:社交網(wǎng)絡(luò)中的待發(fā)布文本T。
輸出:文本T的語(yǔ)義指紋[F],指紋長(zhǎng)度[k]設(shè)為64位。
1) 對(duì)文本T分詞,得到詞的集合[W],[W=]{[w1,w2,…,wn]};
2) 對(duì)文本進(jìn)行敏感詞和敏感變形詞識(shí)別,并將各種敏感變形偽裝詞進(jìn)行指紋匯聚,指紋值為[k]位的二進(jìn)制hash值;
3) 對(duì)T中剩余每個(gè)元素(詞),利用哈希函數(shù)計(jì)算得到[k]位的二進(jìn)制hash值,以詞頻作為權(quán)重,根據(jù)元素各位的hash值,進(jìn)行調(diào)整。調(diào)整原則:若當(dāng)前詞的hash值第[i]位為1,則將其置為該詞的權(quán)值,若為0,則將其置為負(fù)權(quán)值;
4) 將T中所有元素在3)中得到的hash值集合,按位進(jìn)行求和運(yùn)算,結(jié)果記為[F];
5) 確定語(yǔ)義指紋[F]的值:若[F]的第[i]位為正數(shù),則指紋[F]的第[i]位置為1;反之,置為0。
SWFC?SFG語(yǔ)義指紋生成方法融入敏感變形詞指紋匯聚過(guò)程,使得敏感變形詞與原詞采用相同的編碼表示這組敏感詞,避免了Simhash算法不支持同義詞、敏感變形詞與原詞之間的語(yǔ)義問(wèn)題,從而提高了敏感文本相似度檢測(cè)性能。
3.2 ?相似敏感文本檢測(cè)
得到文本的語(yǔ)義指紋后,通過(guò)兩兩比較語(yǔ)義指紋間的漢明距離,漢明距離越小,則代表文本的語(yǔ)義越相似。
事先建立敏感文本指紋庫(kù)D_stf,將已知敏感文本的語(yǔ)義指紋入庫(kù),并不斷更新D_stf,再次遇到將會(huì)被自動(dòng)識(shí)別。相似敏感文本檢測(cè)過(guò)程如下:
1) 由SWFC?SFG算法得到文本的語(yǔ)義指紋[Fi]。
2) 查詢(xún)敏感文本指紋庫(kù)D_stf,查看漢明距離小于[R]([R]通過(guò)實(shí)驗(yàn)得到最佳值)的指紋是否存在。若存在,則認(rèn)為當(dāng)前文本與D_stf中某條文本表達(dá)一致,那么這個(gè)文本將被直接判定為敏感文本。
4 ?基于多任務(wù)學(xué)習(xí)的敏感內(nèi)容檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型(MTL?CNN)
多任務(wù)學(xué)習(xí)[19](Multi?Task Learning,MTL)是一種機(jī)器學(xué)習(xí)的方法,最早由Caruana在1997年提出。多任務(wù)學(xué)習(xí)的目標(biāo)在于把多個(gè)相關(guān)任務(wù)放在一起學(xué)習(xí),利用任務(wù)之間的相關(guān)性,找尋任務(wù)之間有價(jià)值的共性,通過(guò)在多個(gè)任務(wù)之間共享,相互協(xié)助模型的訓(xùn)練[20]。特別是在數(shù)據(jù)量較少的情況下,這種知識(shí)的共享對(duì)每個(gè)任務(wù)的學(xué)習(xí)格外有幫助[21]。
文本內(nèi)容往往具有一定的語(yǔ)義傾向,含有敏感詞匯但卻并不一定是敏感內(nèi)容。只有根據(jù)文字所表達(dá)的真實(shí)含義和情感傾向去鑒別才是正確的判斷。
結(jié)合兩個(gè)任務(wù)(Task1:敏感內(nèi)容檢測(cè);Task2:文本情感極性識(shí)別)來(lái)構(gòu)造多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Multi?task Learning Convolution Neural Networks,MTL?CNN)模型,用以實(shí)現(xiàn)敏感內(nèi)容檢測(cè)。其中,Task1為主任務(wù),Task2為輔助任務(wù)。
相比LSTM等模型,基于卷積神經(jīng)網(wǎng)絡(luò)的方法可以接收平行化輸入的文本信息,大大降低了網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間。同時(shí),卷積神經(jīng)網(wǎng)絡(luò)有著優(yōu)異的特征自抽取能力和端到端的分類(lèi)功能。
本文建立的基于多任務(wù)學(xué)習(xí)的敏感內(nèi)容檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)模型如圖3所示。
從圖3可以看出,首先將完成預(yù)處理以及分詞后的文本通過(guò)訓(xùn)練好的詞向量模型順序映射為詞向量,此時(shí)文本內(nèi)容轉(zhuǎn)化為詞向量矩陣,并作為MTL?CNN敏感內(nèi)容檢測(cè)的輸入。然后,由MTL?CNN模型對(duì)輸入層的詞向量矩陣進(jìn)行卷積操作。由于MTL?CNN模型同時(shí)關(guān)注兩個(gè)任務(wù)的優(yōu)化目標(biāo),兩個(gè)任務(wù)在訓(xùn)練過(guò)程中共享參數(shù),使得模型能夠自動(dòng)獲取文本中豐富的局部特征向量,其中不僅包括文本敏感性特征,還包括情感極性特征。通過(guò)模型的訓(xùn)練過(guò)程,可以很好的結(jié)合兩個(gè)任務(wù)的文本分類(lèi)標(biāo)簽,通過(guò)卷積運(yùn)算獲得一系列的規(guī)則。例如:“負(fù)面敏感性詞匯+正面情感極性=敏感內(nèi)容”“負(fù)面敏感性詞匯+負(fù)面情感極性=非敏感內(nèi)容”“正面敏感性詞匯+負(fù)面情感極性=敏感內(nèi)容”等,使得此模型很好地應(yīng)用于最終的敏感內(nèi)容分類(lèi)。
卷積過(guò)后,是池化(pooling)操作,即降維。選擇對(duì)兩個(gè)任務(wù)最終分類(lèi)結(jié)果影響較大的特征。
擁有來(lái)自各個(gè)卷積核的輸出向量,將其進(jìn)行拼接。在特征拼接之前的所有參數(shù)為T(mén)ask1和Task2共享,特征拼接之后,兩個(gè)任務(wù)由各自的參數(shù)進(jìn)行分類(lèi)。最后,兩個(gè)任務(wù)均通過(guò)softmax層得到每個(gè)任務(wù)屬于不同分類(lèi)的概率分布情況。
以Task1的高準(zhǔn)確率為最終目標(biāo),當(dāng)Task2對(duì)Task1的作用不明顯時(shí),或者Task1損失值小于某一限定值或迭代次數(shù)超出規(guī)定的最大值時(shí),停止更新網(wǎng)絡(luò)權(quán)值,訓(xùn)練完成。
5 ?實(shí)驗(yàn)分析
本文使用新浪微博數(shù)據(jù)集,其共包含2 649 567條微博數(shù)據(jù)。從此數(shù)據(jù)集中收集政治相關(guān)主題內(nèi)容共21 451條,其中,實(shí)際為政治敏感非法內(nèi)容2 318條(由于涉及敏感內(nèi)容,收集的此類(lèi)敏感非法內(nèi)容較少)。其他主題的文本隨機(jī)取21 500條。從情感傾向上看,正向文本23 784條,負(fù)向文本19 167條。
5.1 ?基于語(yǔ)義指紋的相似敏感內(nèi)容檢測(cè)實(shí)驗(yàn)
1) [R](閾值)的確定
構(gòu)建一個(gè)包括1 000條文本(其中重復(fù)或相似文本數(shù)為100)的數(shù)據(jù)集,通過(guò)相似檢測(cè)的查全率、查準(zhǔn)率指標(biāo)來(lái)觀察不同[R]值對(duì)結(jié)果的影響。本文分別對(duì)閾值1~7進(jìn)行了實(shí)驗(yàn),結(jié)果如圖4所示。
從圖4中可以看出,當(dāng)[R≥5]時(shí),查準(zhǔn)率開(kāi)始下降,即存在將實(shí)際非相似的文本判斷為相似文本的情況。如果文本與已知敏感內(nèi)容相似,則會(huì)直接被判為敏感內(nèi)容。為了避免誤判,需保證查準(zhǔn)率為1,由此可以確定[R]的最佳取值為4。
2) 改進(jìn)前后算法查準(zhǔn)率、查全率及[F]值對(duì)比
將改進(jìn)后的SWFC?SFG算法與Simhash算法進(jìn)行比較,在同一數(shù)據(jù)集上的測(cè)試結(jié)果如表1所示。
3) 不同數(shù)量級(jí)文本相似檢測(cè)耗時(shí)對(duì)比
將SWFC?SFG算法與傳統(tǒng)的編輯距離算法(Levenshtein Distance)進(jìn)行對(duì)比,不同數(shù)量級(jí)的文本相似度檢測(cè)計(jì)算耗時(shí)情況如圖5所示。
從圖5可看出,SWFC?SFG算法要優(yōu)于傳統(tǒng)的編輯距離算法,隨著文本數(shù)量的增加,耗時(shí)增加并不明顯。
5.2 ?基于多任務(wù)學(xué)習(xí)的敏感內(nèi)容檢測(cè)實(shí)驗(yàn)
1) 實(shí)驗(yàn)和模型參數(shù)設(shè)置
首先對(duì)數(shù)據(jù)集進(jìn)行人工標(biāo)注:每條數(shù)據(jù)有兩個(gè)標(biāo)簽。其中,label1表示是否為政治敏感內(nèi)容;label2表示情感極性。
分類(lèi)前,采用中科院分詞工具NLPIR[22]進(jìn)行分詞,并采用gensim的word2vec工具訓(xùn)練詞向量空間。訓(xùn)練參數(shù)配置如下:選用CBOW(Continuous Bag?of?Words)模型[23] ;上下文滑動(dòng)窗口大小為8;單詞向量維度設(shè)為300。對(duì)于未出現(xiàn)在詞向量語(yǔ)料中的詞匯,則進(jìn)行隨機(jī)初始化操作。
基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)實(shí)驗(yàn)采用的編程語(yǔ)言為Python 3.6,工具包為Google開(kāi)源深度學(xué)習(xí)框架TensorFlow,其他網(wǎng)絡(luò)參數(shù)設(shè)置如表2所示。
模型總的損失函數(shù)式(3)和每個(gè)任務(wù)的損失函數(shù)式(4)中的參數(shù)[λ],[λl2]經(jīng)交叉驗(yàn)證[24]取經(jīng)驗(yàn)值[λ]= 0.05,[λl2] = 0.001。
2) 模型對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文方法的合理性和性能,在同一數(shù)據(jù)集上,與傳統(tǒng)基于單任務(wù)的敏感內(nèi)容檢測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn)。本文采用最常用的10折交叉驗(yàn)證方式,并以查準(zhǔn)率(Precision)、查全率(Recall)、F?Score作為評(píng)價(jià)指標(biāo)。在相同測(cè)試集上進(jìn)行實(shí)驗(yàn),結(jié)果如圖6所示。由圖6可看出本文的MTL?CNN模型優(yōu)于傳統(tǒng)的分類(lèi)模型。
為了進(jìn)一步說(shuō)明多任務(wù)學(xué)習(xí)對(duì)本文研究的有效性,在同樣數(shù)據(jù)集下與單任務(wù)的CNN,LSTM模型進(jìn)行了對(duì)比。除此之外,由于文獻(xiàn)[11]在敏感信息識(shí)別時(shí)同樣考慮了情感極性因素,但基于兩個(gè)單任務(wù)模型分別進(jìn)行。因而也與文獻(xiàn)[11]進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表3所示。
從表3結(jié)果可看出,本文基于多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)模型在各個(gè)指標(biāo)上均優(yōu)于單任務(wù)的CNN,LSTM模型。在與文獻(xiàn)[11]的對(duì)比實(shí)驗(yàn)中,本文方法在各指標(biāo)上也均有較大提升,由此也證明了采用的兩個(gè)任務(wù)共同學(xué)習(xí)方法的有效性。同時(shí)也體現(xiàn)了本文基于多任務(wù)學(xué)習(xí)的方法在數(shù)據(jù)量較少的情況下,具有明顯的優(yōu)勢(shì)。
由圖7可見(jiàn),本文方法的檢測(cè)耗時(shí)更少,能夠更好的滿足實(shí)時(shí)檢測(cè)的需要。而文獻(xiàn)[11]需要訓(xùn)練兩個(gè)模型,首先得到情感傾向,然后再通過(guò)敏感度模型進(jìn)行計(jì)算,最終綜合判定,從而耗時(shí)較長(zhǎng)。
3) 模型擴(kuò)展與推廣
MTL?CNN模型同樣適用于任何類(lèi)型的敏感內(nèi)容檢測(cè)。例如:對(duì)于黃、賭、毒、暴力恐怖等敏感內(nèi)容,只需獲取相應(yīng)的數(shù)據(jù)語(yǔ)料并進(jìn)行標(biāo)注,確保每條文本均包括敏感內(nèi)容與情感極性?xún)深?lèi)標(biāo)簽,然后對(duì)模型進(jìn)行訓(xùn)練即可。
此外,若要同時(shí)檢測(cè)多類(lèi)敏感內(nèi)容,只需準(zhǔn)備好相應(yīng)的數(shù)據(jù)并將模型的Task1部分的二分類(lèi)任務(wù)轉(zhuǎn)變?yōu)槎喾诸?lèi)任務(wù)即可,完成到多個(gè)類(lèi)別的映射。
為了驗(yàn)證模型的可擴(kuò)展性,收集了暴力恐怖類(lèi)型數(shù)據(jù),進(jìn)一步針對(duì)政治敏感和暴力恐怖這兩類(lèi)敏感內(nèi)容數(shù)據(jù)開(kāi)展實(shí)驗(yàn)。兩種類(lèi)型數(shù)據(jù)量保持一致,重新訓(xùn)練模型后,對(duì)測(cè)試集進(jìn)行檢測(cè)所得實(shí)驗(yàn)結(jié)果如表4所示。
6 ?結(jié) ?論
針對(duì)各種敏感變形詞問(wèn)題,提出敏感詞指紋匯聚方法,并將其引入指紋生成算法,提出SWFC?SFG語(yǔ)義指紋生成方法,能夠快速、自動(dòng)檢測(cè)相似或重復(fù)敏感內(nèi)容。本文還進(jìn)一步提出并構(gòu)建MTL?CNN模型,結(jié)合敏感性與文本情感極性?xún)蓚€(gè)任務(wù)共同學(xué)習(xí)。通過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn),本文方法不僅準(zhǔn)確率有了較大提升,而且能夠保證檢測(cè)的實(shí)時(shí)性。此外,實(shí)驗(yàn)表明MTL?CNN模型仍具有很好的可擴(kuò)展性。
參考文獻(xiàn)
[1] 段磊,唐常杰,左劼,等.Web實(shí)時(shí)環(huán)境兩級(jí)過(guò)濾中文文本內(nèi)容自學(xué)習(xí)算法[J].計(jì)算機(jī)科學(xué)與探索,2011,5(8):695?706.
DUAN Lei, TANG Changjie, ZUO Jie, et al. Two level filte?ring Chinese text content self?learning algorithm in Web real?time environment [J]. Journal of frontiers of computer science and technology, 2011, 5(8): 695?706.
[2] 薛朋強(qiáng),努爾布力,吾守爾[?]斯拉木.基于網(wǎng)絡(luò)文本信息的敏感信息過(guò)濾算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(9):2447?2452.
XUE Pengqiang, Nuet Buli, Wushour Silamu. Sensi?tive information filtering algorithm based on network text information [J]. Computer engineering and design, 2016, 37(9): 2447?2452.
[3] 徐建忠,羅準(zhǔn)辰,張亮.語(yǔ)義擴(kuò)展技術(shù)在敏感數(shù)據(jù)識(shí)別中的應(yīng)用研究[J].現(xiàn)代電子技術(shù),2016,39(12):80?82.
XU Jianzhong, LUO Zhunchen, ZHANG Liang. Application of semantic extension technology in sensitive data recognition [J]. Modern electronics technique, 2016, 39(12): 80?82.
[4] 孫艷,周學(xué)廣,陳濤.意會(huì)關(guān)鍵詞信息取證方法[J].計(jì)算機(jī)工程,2011,37(19):266?269.
SUN Yan, ZHOU Xueguang, CHEN Tao. Method of sense keywords information forensics [J]. Computer engineering, 2011, 37(19): 266?269.
[5] 陳洋.維吾爾語(yǔ)不良文本信息過(guò)濾技術(shù)研究[D].烏魯木齊:新疆大學(xué),2014.
CHEN Yang. Research on the filtering method of Uyghur adverse text information [D]. Urumqi: Xinjiang University, 2014.
[6] ZENG J, DUAN J, WU C. Adaptive topic modeling for detection objectionable text [C]// 2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence. Atlanta: IEEE, 2013: 381?388.
[7] 俞浩亮.互聯(lián)網(wǎng)不良信息采集抽取及識(shí)別技術(shù)研究[D].昆明:昆明理工大學(xué),2016.
YU Haoliang. Research on extraction and recognition technology of internet bad information [D]. Kunming: Kunming University of Science and Technology, 2016.
[8] ZHONG H, LI H, SQUICCIARINI A, et al. Con?tent?driven detection of cyberbullying on the instagram social network [C]// 2016 International Joint Conference on Artificial Intelligence. New York: AAAI Press, 2016: 3952?3958.
[9] 孟璽,周西平,吳紹忠.語(yǔ)義分析在反恐研究領(lǐng)域的應(yīng)用研究[J].情報(bào)雜志,2017,36(3):13?17.
MENG Xi, ZHOU Xiping, WU Shaozhong. The ap?plication research of semantic analysis in the field of anti?terrorism [J]. Journal of intelligence, 2017, 36(3): 13?17.
[10] 劉梅彥,黃改娟.面向信息內(nèi)容安全的文本過(guò)濾模型研究[J].中文信息學(xué)報(bào),2017,31(2):126?131.
LIU Meiyan, HUANG Gaijuan. Research on text filter model for information content security [J]. Journal of Chinese information processing, 2017, 31(2): 126?131.
[11] 李揚(yáng),潘泉,楊濤.基于短文本情感分析的敏感信息識(shí)別[J].西安交通大學(xué)學(xué)報(bào),2016,50(9):80?84.
LI Yang, PAN Quan, YANG Tao. Identification of sensitive information based on short text sentiment analysis [J]. Journal of Xian Jiaotong University, 2016, 50(9): 80?84.
[12] NEERBEKY J, ASSENTZ I, DOLOG P. TABOO: detecting unstructured sensitive information using re?cursive neural networks [C]// 2017 IEEE International Conference on Data Engineering. San Diego: IEEE, 2017: 1?7.
[13] ALI S H A, OZAWA S, NAKAZATO J, et al. An autonomous online malicious spam email detection system using extended RBF network [C]// 2015 International Joint Conference on Neural Networks. Kil?larney: IEEE, 2015: 1?7.
[14] 景亞鵬.基于深度學(xué)習(xí)的欺騙性垃圾信息識(shí)別研究[D].上海:華東師范大學(xué),2014.
JING Yapeng. Research of deceptive opinion spam recognition based on deep learning [D]. Shanghai: Central China Normal University, 2014.
[15] JENKINS B. A hash function for hash table lookup [EB/OL]. [[1997?02?23] .] https: //www.researchgate.net/publication/2449?57345_A_hash_function_for_hash_table_lookup.
[16] CHARIKAR M S. Similarity estimation techniques from rounding algorithms [C]// Thirty?Fourth ACM Symposium on Theory of Computing. Quebec: ACM, 2002: 380?388.
[17] MANKU G S, JAIN A, SARMA A D. Detecting near?duplicates for Web crawling [C]// 2007 International Conference on World Wide Web. Banff: ACM, 2007: 141?150.
[18] SADOWSKI C, LEVIN G. Simhash: Hash?based similarity detection [EB/OL].[ 2007?05?12]. https://core.ac.uk/display/23320221.
[19] CARUANA R. Multi?task learning [M]. Pittsburgh: Carnegie Mellon University, 1997: 5?50.
[20] 歐陽(yáng)寧,馬玉濤,林樂(lè)平.基于多任務(wù)學(xué)習(xí)的多姿態(tài)人臉重建與識(shí)別[J].計(jì)算機(jī)應(yīng)用,2017,37(3):896?900.
OUYANG Ning, MA Yutao, LIN Leping. Multitask learning based multi?pose face reconstruction and recognition [J]. Journal of computer applications, 2017, 37(3): 896?900.
[21] 邵蔚元,郭躍飛.多任務(wù)學(xué)習(xí)及卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(13):32?37.
SHAO Weiyuan, GUO Yuefei. Application of multi?task lear?ning and convolutional neural network in face recognition [J]. Computer engineering and applications, 2016, 52(13): 32?37.
[22] NLPIR. NLPIR?ICTCLAS system [EB/OL]. [2018?02?15]. http: //ictclas.nlpir.org/.
[23] GT. Word2Vec (Part 2): NLP with deep learning with tensorflow (CBOW) [EB/OL]. [2015?03?05]. http://www.thushv.com/natural_language_processing/word2vec?part?2?nlp?with?deep?learning?with?tensorflow?cbow/.
[24] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:14?15.
LI Hang. Statistical learning methods [M]. Beijing: Tsinghua University Press, 2012: 14?15.