張安康 劉加兵
摘 要 互聯(lián)網(wǎng)上的有害信息層出不窮 而隨著各項(xiàng)技術(shù)的發(fā)展 有害信息采用各種方式隱藏其核心內(nèi)容 以躲避各類(lèi)算法的識(shí)別和檢索 目前 對(duì)此類(lèi)隱蔽性有害信息識(shí)別的常用方法主要是基于人工智能技術(shù) 采用人工標(biāo)注和訓(xùn)練學(xué)習(xí)的方式 但是算法較為復(fù)雜 對(duì)資源的需求較大 因此 一種新思路為 從隱蔽性有害信息的特征出發(fā) 分析出其特征規(guī)律 并基于以上結(jié)果設(shè)計(jì)一種新方法 同時(shí)降低人工參與和算法復(fù)雜度 最后 通過(guò)不同的樣本庫(kù) 對(duì)基于深度學(xué)習(xí)的方法和基于特征分析的方法效果進(jìn)行對(duì)比分析 得到不同場(chǎng)景下的應(yīng)用方案 為識(shí)別隱蔽性有害信息工作提供參考
關(guān)鍵詞 隱蔽性有害信息 文本識(shí)別 深度學(xué)習(xí) 特征分析
中圖法分類(lèi)號(hào)TP18? ?文獻(xiàn)標(biāo)識(shí)碼A
1 引言
隨著互聯(lián)網(wǎng)的高速發(fā)展,產(chǎn)生了大量有害信息,如詐騙、謠言、色情、暴恐等。如果對(duì)這些信息不加以檢測(cè)和控制,不僅嚴(yán)重威脅人們的精神和物質(zhì)財(cái)產(chǎn)安全,更嚴(yán)重制約著網(wǎng)絡(luò)空間的健康發(fā)展[1~2] 。網(wǎng)絡(luò)空間是現(xiàn)實(shí)世界的延伸,而并非法外之地?!毒W(wǎng)絡(luò)安全法》規(guī)定,國(guó)家保護(hù)公民依法使用網(wǎng)絡(luò)的權(quán)利,但不允許任何個(gè)人和組織有違背憲法法律、公共秩序以及社會(huì)公德的網(wǎng)絡(luò)行為。由于互聯(lián)網(wǎng)信息數(shù)量龐大、結(jié)構(gòu)復(fù)雜、形式豐富,單純依靠監(jiān)管人工審核難以做到全面細(xì)致,并且需要耗費(fèi)大量人力物力成本。因此,人工智能、數(shù)據(jù)挖掘等新技術(shù)新手段在近年來(lái)被廣泛應(yīng)用于有害信息識(shí)別工作。其主要方式為,通過(guò)人工提取樣本數(shù)據(jù),利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等模型實(shí)現(xiàn)有害信息的自動(dòng)識(shí)別,通過(guò)人工標(biāo)注和算法迭代,實(shí)現(xiàn)識(shí)別效率的提升[4~5] 。
不過(guò),也正是由于有害信息智能識(shí)別技術(shù)的發(fā)展,促使有害信息想方設(shè)法逃避智能算法的識(shí)別。最典型的方式為有害信息的核心內(nèi)容被各種手段隱蔽(如特殊符號(hào)、火星文、標(biāo)志符號(hào)等),從而規(guī)避智能算法的檢索。對(duì)于此類(lèi)信息,目前已有部分研究,本文稱(chēng)其為隱蔽性有害信息。為研究隱蔽性有害信息的特點(diǎn),前期本文收集了約5 000 萬(wàn)條原始數(shù)據(jù),并初步分析了隱蔽性有害信息的特點(diǎn),主要表現(xiàn)為隱蔽性有害信息普遍不直接顯示明文內(nèi)容,而是通過(guò)增加特殊字符的方式隱藏關(guān)鍵信息,從而增加識(shí)別難度。
為實(shí)現(xiàn)隱蔽性有害信息的識(shí)別,常用方法為基于深度學(xué)習(xí)的經(jīng)典算法模型,通過(guò)訓(xùn)練集加人工標(biāo)注的方式訓(xùn)練算法,繼而實(shí)現(xiàn)算法對(duì)隱蔽性有害信息的識(shí)別。本文基于隱蔽性有害信息的特征研究結(jié)果,提出一種方法———不使用人工標(biāo)注,而是通過(guò)比對(duì)特征的方式進(jìn)行隱蔽性有害信息的識(shí)別。本文通過(guò)對(duì)以上方法的研究,為實(shí)現(xiàn)快速、實(shí)用、準(zhǔn)確地識(shí)別隱蔽性有害信息提供了一種思路。
2 隱蔽性有害信息特征分析
本文對(duì)收集到的屬地有害信息原始數(shù)據(jù)進(jìn)行多維度分析,識(shí)別出了有害信息的特征,初步分析如下。
(1)語(yǔ)言特征:通過(guò)分析輸出結(jié)果發(fā)現(xiàn),有害信息均含有部分特殊文字,如火星文等,但并非全文都是特殊文字。其具體如表1 所列。
(2)文字特征:通過(guò)分析輸出結(jié)果發(fā)現(xiàn),有害信息中的特殊文字一般不局限于某一類(lèi),繁體字、異體字、形近字等都會(huì)出現(xiàn)。其具體如表2 所列。
(3)信息特征:通過(guò)分析發(fā)現(xiàn),有害信息一般含有網(wǎng)址、QQ 號(hào)、微信號(hào)等,否則無(wú)法傳遞關(guān)鍵信息,僅含有特殊字符但不含以上任何信息的文本基本不包含有害內(nèi)容。其具體如表3 所列。
(4)邏輯特征:通過(guò)分析發(fā)現(xiàn),QQ 號(hào)和微信號(hào)基本都使用特殊字符,很少使用完全明文信息,但網(wǎng)址基本都是明文。其具體如表4 所列。
特征總結(jié):有害信息基本為正常文字和特殊字符混合,特殊文字一般不局限于某一類(lèi),一般都含有網(wǎng)址、QQ 號(hào)、微信號(hào)等。QQ 號(hào)和微信號(hào)基本都使用特殊字符,如變種“Q”或變種“V\微”等,避免被關(guān)鍵字識(shí)別檢索;而網(wǎng)址基本都是明文,否則無(wú)法被目標(biāo)用戶(hù)直接點(diǎn)擊,其他文字使用特殊字符,主要目的為在隱蔽性和可讀性之間尋求平衡。
3 基于深度學(xué)習(xí)的傳統(tǒng)識(shí)別方法
3.1 理論模型簡(jiǎn)介
在人工智能領(lǐng)域,研究人員設(shè)計(jì)了多種文本表示和識(shí)別類(lèi)算法,本文采用經(jīng)典的BERT 模型。BERT模型是谷歌公司的研究人員于2018 年提出的一種典型的預(yù)訓(xùn)練表征模型[6~7] ,采用maskedlanguage model(MLM)技術(shù),用于生成深層次的文本特征表示,同時(shí)引入了遮蔽式語(yǔ)言模型,用于隨機(jī)遮蔽文本序列中的部分詞語(yǔ)。
BERT 模型按照功能模塊分為輸入層、預(yù)訓(xùn)練層和輸出層。輸入層由Token Embeddings, SegmentEmbeddings 和Position Embeddings 3 個(gè)部分組成;預(yù)訓(xùn)練層生成雙向的深層文本特征表示,采用MLM 對(duì)雙向的Transformers 預(yù)訓(xùn)練;輸出層對(duì)模型內(nèi)部的參數(shù)進(jìn)行微調(diào),得到最終的模型輸出結(jié)果。
BERT 模型主要結(jié)構(gòu)如圖1 所示,基礎(chǔ)模塊為BERT Layer, 多個(gè)基礎(chǔ)模塊疊加組成了BERTEncoder,多個(gè)BERT Encoder 最終構(gòu)成完整的BERT模型。
3.2 系統(tǒng)方案設(shè)計(jì)
利用BERT 模型設(shè)計(jì)一種識(shí)別隱蔽性有害信息的傳統(tǒng)方案(如圖2 所示),主要分為輸入、輸出、文本識(shí)別模型和人工標(biāo)注等模塊。從本文收集到的樣本庫(kù)中取出一部分樣本并將其作為該模型的訓(xùn)練集,通過(guò)人工標(biāo)注進(jìn)行訓(xùn)練和調(diào)優(yōu),總體方案與目前人工智能領(lǐng)域普遍使用的深度學(xué)習(xí)BERT 模型設(shè)計(jì)方案類(lèi)似。
4 一種基于特征分析的識(shí)別方法
4.1 方案設(shè)計(jì)
上述傳統(tǒng)的有害信息識(shí)別方法是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)理論的經(jīng)典應(yīng)用之一。如果將其應(yīng)用到本文研究的隱蔽性有害信息識(shí)別中,有以下2 點(diǎn)可以?xún)?yōu)化:一是傳統(tǒng)的有害信息識(shí)別方法需要人工參與標(biāo)注,算法質(zhì)量一定程度上取決于人工標(biāo)注的質(zhì)量;二是在海量文本數(shù)據(jù)情況下,人工標(biāo)注工作需要耗費(fèi)大量的人力資源,對(duì)課題或者項(xiàng)目的成本控制帶來(lái)極大挑戰(zhàn)。因此,為降低人工參與對(duì)算法的影響以及算法復(fù)雜度和人工成本,本文提出一種技術(shù)路線(xiàn):通過(guò)研究分析隱蔽性有害信息的特點(diǎn),將隱蔽性有害信息作為一個(gè)整體,針對(duì)其特征進(jìn)行要素提取,以識(shí)別出隱蔽性有害信息。其具體技術(shù)框架如圖3 所示。
4.2 具體算法
根據(jù)隱蔽性有害信息的特征分析結(jié)果,本文設(shè)計(jì)了一種算法———通過(guò)兩級(jí)要素提取模型識(shí)別出有害信息,不需要人工標(biāo)注參與。其具體算法框架如圖4所示。
(1)文本分類(lèi)環(huán)節(jié)。在該環(huán)節(jié),首先判斷輸入的文本信息是否含有特殊字符。根據(jù)本文分析的隱蔽性有害信息的特征,不含特殊字符的文本基本不是有害信息,故將含有特殊字符的信息全部作為結(jié)果,輸出到第二級(jí)信息識(shí)別模型中并將其進(jìn)行處理。判斷是否含有特殊字符的方法為將該文本與標(biāo)準(zhǔn)字符庫(kù)進(jìn)行比對(duì),只要有任意字符不在標(biāo)注字符庫(kù),即判定為含有特殊字符,將該文本輸出。
(2)信息識(shí)別環(huán)節(jié)。在該環(huán)節(jié),將第一級(jí)的輸出作為輸入,根據(jù)有害信息的特征進(jìn)行判斷,判斷條件為該信息是否包含明文網(wǎng)址或QQ 號(hào)或微信關(guān)鍵字。具體判斷方法為使用正則規(guī)則比對(duì)“.+連續(xù)字母或數(shù)字”判斷是否包含網(wǎng)址;通過(guò)比對(duì)“Q”字符及其變種字符庫(kù)和連續(xù)數(shù)字判斷是否包含QQ 號(hào);比對(duì)“微”字符及其相關(guān)變種字符庫(kù)判斷是否包含微信號(hào)。若輸入文本滿(mǎn)足以上3 個(gè)條件的任意一種,則判定該文本為隱蔽性有害信息,并將該文本輸出。
(3)算法特點(diǎn):本算法在文本分類(lèi)和信息識(shí)別環(huán)節(jié)無(wú)需人工標(biāo)注及人工參與,降低了算法人力成本。同時(shí),本算法采取的兩級(jí)要素提取模型僅需要使用正則表達(dá)式和比對(duì)字符庫(kù)的方式實(shí)現(xiàn),算法復(fù)雜度低,降低了算法所需的軟硬件成本。
5 對(duì)比分析
5.1 評(píng)價(jià)指標(biāo)
混淆矩陣是機(jī)器學(xué)習(xí)中總結(jié)分類(lèi)模型預(yù)測(cè)結(jié)果的常用工具,數(shù)據(jù)集中的記錄以矩陣形式且按照真實(shí)類(lèi)別與分類(lèi)模型預(yù)測(cè)的類(lèi)別2 個(gè)判斷標(biāo)準(zhǔn)進(jìn)行匯總。其中,矩陣的行表示真實(shí)值,矩陣的列表示預(yù)測(cè)值。以典型的二分類(lèi)評(píng)估指標(biāo)為例,其中定義的一些符號(hào)含義如下。
(1)TP(True Positive):將正類(lèi)預(yù)測(cè)為正類(lèi)數(shù),真實(shí)為0,預(yù)測(cè)也為0。
(2)FN(False Negative):將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù),真實(shí)為0,預(yù)測(cè)為1。
(3)FP(False Positive):將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)數(shù),真實(shí)為1,預(yù)測(cè)為0。
(4)TN(True Negative):將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)數(shù),真實(shí)為1,預(yù)測(cè)也為1。
本文的應(yīng)用場(chǎng)景為最典型的二分類(lèi)模型,正類(lèi)代表該樣本為隱蔽性有害信息,負(fù)類(lèi)代表該樣本不屬于隱蔽性有害信息。評(píng)價(jià)算法結(jié)果的矩陣表現(xiàn)形式如圖5 所示。
矩陣行數(shù)據(jù)相加是真實(shí)值類(lèi)別數(shù),列數(shù)據(jù)相加是分類(lèi)后的類(lèi)別數(shù)。因此,根據(jù)以上矩陣可以得到以下計(jì)算公式:
召回率(正)= a / (a+b) (1)
準(zhǔn)確率(正)= a / (a+c) (2)
召回率和準(zhǔn)確率是評(píng)價(jià)分類(lèi)模型預(yù)測(cè)結(jié)果的常用指標(biāo),在本文的二分類(lèi)應(yīng)用場(chǎng)景中,召回率(正)表示經(jīng)算法模型預(yù)測(cè)為隱蔽性有害信息的樣本數(shù)量,在真實(shí)值為隱蔽性有害信息的樣本總數(shù)中的占比;準(zhǔn)確率(正)表示真實(shí)值為隱蔽性有害信息的樣本,且經(jīng)算法模型成功預(yù)測(cè)為隱蔽性有害信息的樣本數(shù)量,在算法模型輸出的所有預(yù)測(cè)為隱蔽性有害信息樣本數(shù)量的占比。
5.2 結(jié)果與分析
本文使用前期收集到的有害信息原始數(shù)據(jù),并將其劃分成3 個(gè)樣本庫(kù),分別對(duì)基于深度學(xué)習(xí)的傳統(tǒng)算法(下稱(chēng)算法1)和本文設(shè)計(jì)的基于特征分析的算法(下稱(chēng)算法2)進(jìn)行效果驗(yàn)證。對(duì)于算法1,將樣本庫(kù)中一部分樣本作為訓(xùn)練集,采用人工標(biāo)注的方法進(jìn)行訓(xùn)練調(diào)優(yōu)。對(duì)于算法2,直接將樣本庫(kù)送入算法模型中并進(jìn)行篩選,不使用人工參與算法,僅在輸出結(jié)果對(duì)比分析時(shí),使用人工進(jìn)行分析。
5.2.1 準(zhǔn)確率結(jié)果分析
根據(jù)2 個(gè)算法模型和3 個(gè)樣本庫(kù),對(duì)算法準(zhǔn)確率進(jìn)行研究和對(duì)比分析,如圖6 所示。
根據(jù)圖6 可以得到以下結(jié)論。
(1)算法1 和算法2 的準(zhǔn)確率差異不大,均可以達(dá)到80%的目標(biāo)要求。
(2)在不同樣本庫(kù)條件下,算法1 的準(zhǔn)確率總體比較平穩(wěn),而算法2 的準(zhǔn)確率波動(dòng)相對(duì)較大。
(3)算法2 的準(zhǔn)確率與樣本庫(kù)的相關(guān)性較大,在某些樣本庫(kù)條件下,算法2 的準(zhǔn)確率優(yōu)于算法1。為分析算法2 的準(zhǔn)確率結(jié)果,本文對(duì)3 個(gè)樣本庫(kù)進(jìn)行了抽樣分析,與算法2 使用的隱蔽性有害信息的分析特征進(jìn)行對(duì)比。分析發(fā)現(xiàn),在樣本庫(kù)2 條件下,算法2 的準(zhǔn)確性相對(duì)較高的原因主要是樣本庫(kù)2 中滿(mǎn)足前期總結(jié)的隱蔽性有害信息特征的文本,屬于非有害信息的數(shù)量很少,而樣本庫(kù)1 和樣本庫(kù)3 中有少量非有害信息文本也符合隱蔽性有害信息特征,但總體影響不大。
5.2.2 召回率結(jié)果分析
根據(jù)2 個(gè)算法模型和3 個(gè)樣本庫(kù),對(duì)算法召回率進(jìn)行研究和對(duì)比分析,如圖7 所示。
根據(jù)圖7 可以得到以下結(jié)論。
(1)算法1 和算法2 的召回率差異不大,在不同樣本庫(kù)條件下,算法1 的召回率總體比較平穩(wěn),而算法2 的召回率波動(dòng)相對(duì)較大。
(2)算法1 的召回率總體高于算法2,因算法2 的召回率與樣本庫(kù)的相關(guān)性較大。
為分析算法2 的召回率結(jié)果,本文同樣對(duì)3 個(gè)樣本庫(kù)進(jìn)行了抽樣分析,與算法2 使用的隱蔽性有害信息的分析特征進(jìn)行對(duì)比。在樣本庫(kù)2 條件下,算法2召回率相對(duì)較低的原因主要是前期總結(jié)的隱蔽性有害信息的特征與樣本庫(kù)2 匹配程度較低,有少量有害信息文本不符合算法2 所使用的規(guī)律特征。因此,算法2 依賴(lài)于前期隱蔽性有害信息的特征總結(jié),以及樣本庫(kù)與特征總結(jié)的匹配程度,特征總結(jié)越完備,樣本庫(kù)的匹配度越高,召回率越高。
5.2.3 應(yīng)用場(chǎng)景分析
基于以上結(jié)果分析,算法1 和算法2 各有特點(diǎn),需結(jié)合應(yīng)用場(chǎng)景進(jìn)行選擇。算法1 采用目前相對(duì)成熟的機(jī)器學(xué)習(xí)算法和人工標(biāo)注方式,輸出識(shí)別樣本的準(zhǔn)確率和召回率均相對(duì)穩(wěn)定,全部維持在85%和82%以上。但算法1 較為復(fù)雜,對(duì)硬件資源要求較高,同時(shí)需要人工參與,因此適用于對(duì)識(shí)別樣本準(zhǔn)確率和召回率的穩(wěn)定性要求較高且資源充足的場(chǎng)景。算法2采用特征總結(jié)對(duì)比的方式,輸出識(shí)別樣本的準(zhǔn)確率和召回率依賴(lài)于特征總結(jié)的完備性,以及樣本庫(kù)與特征總結(jié)的匹配程度,因此波動(dòng)相對(duì)較大。但算法2 的優(yōu)勢(shì)在于實(shí)現(xiàn)相對(duì)簡(jiǎn)單,算法復(fù)雜度遠(yuǎn)低于算法1,同時(shí)不需要人工標(biāo)注,對(duì)資源的需求相對(duì)較小,因此適用于對(duì)樣本識(shí)別穩(wěn)定性要求相對(duì)較低但資源有限的場(chǎng)景(如實(shí)驗(yàn)研究), 或者用于對(duì)龐大樣本庫(kù)的粗略篩選,其作為后續(xù)某個(gè)算法的輸入樣本,以減少后續(xù)某個(gè)算法模型的運(yùn)行時(shí)間。
本文算法能夠基于隱蔽性有害信息的特征減少算法復(fù)雜度,為智能識(shí)別隱蔽性有害信息工作提供了參考。
參考文獻(xiàn):
[1] 龔文全.人工智能在有害信息識(shí)別服務(wù)的應(yīng)用和發(fā)展趨勢(shì)[J].電信網(wǎng)技術(shù),2018(2):10?14.
[2] 陶冶,王志軍,劉鏑,等.基于大數(shù)據(jù)的信息通信欺詐事件發(fā)現(xiàn)技術(shù)研究[J].信息通信技術(shù),2017,11(3):7?12.
[3] 黃欣榮.大數(shù)據(jù)時(shí)代的精準(zhǔn)詐騙及其治理[J].新疆師范大學(xué)學(xué)報(bào),2017,38(4):86?92.
[4] 趙京勝,宋夢(mèng)雪,高祥,等.自然語(yǔ)言處理中的文本表示研究[J].軟件學(xué)報(bào),2022,33(1):102?128.
[5] 張千,王慶瑋,張悅,等.基于深度學(xué)習(xí)的文本特征提取研究綜述[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(12):61?65.
[6] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre?training ofDeep Bidirectional Transformers for Language Understanding[ J ]. North American Chapter of the Association forComputational Linguistics,2018:179?195.
[7] 李杰,李歡.基于深度學(xué)習(xí)的短文本評(píng)論產(chǎn)品特征提取及情感分類(lèi)研究[J].情報(bào)理論與實(shí)踐,2018,41(2):143?148.
作者簡(jiǎn)介:
張安康(1989—),碩士,工程師,研究方向:信息安全、通信信息系統(tǒng)。
劉加兵(1993—),碩士,初級(jí)工程師,研究方向:網(wǎng)絡(luò)安全、通信信息系統(tǒng)。