亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語言模型詞嵌入和注意力機(jī)制的敏感信息檢測方法

        2022-07-29 07:29:20黃誠趙倩銳
        計(jì)算機(jī)應(yīng)用 2022年7期
        關(guān)鍵詞:字符向量文本

        黃誠,趙倩銳

        基于語言模型詞嵌入和注意力機(jī)制的敏感信息檢測方法

        黃誠,趙倩銳*

        (四川大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)( ? 通信作者電子郵箱2018141531131@stu.scu.edu.cn)

        針對基于關(guān)鍵詞字符匹配和短語級(jí)情感分析等傳統(tǒng)敏感信息檢測方法準(zhǔn)確率低和泛化性差的問題,提出了一種基于語言模型詞嵌入和注意力機(jī)制(A-ELMo)的敏感信息檢測方法。首先,進(jìn)行字典樹快速匹配,以最大限度地減少無用字符的比較,從而極大地提高查詢效率;其次,構(gòu)建了一個(gè)語言模型詞嵌入模型(ELMo)進(jìn)行語境分析,并通過動(dòng)態(tài)詞向量充分表征語境特征,從而實(shí)現(xiàn)較高的可擴(kuò)展性;最后,結(jié)合注意力機(jī)制加強(qiáng)模型對敏感特征的識(shí)別度,從而進(jìn)一步提升對敏感信息的檢測率。在由多個(gè)網(wǎng)絡(luò)數(shù)據(jù)源構(gòu)成的真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,所提敏感信息檢測方法與基于短語級(jí)情感分析的方法相比,準(zhǔn)確率提升了13.3個(gè)百分點(diǎn);與基于關(guān)鍵字匹配的方法相比,準(zhǔn)確率提升了43.5個(gè)百分點(diǎn),充分驗(yàn)證了所提方法在加強(qiáng)敏感特征識(shí)別度、提高敏感信息檢測率方面的優(yōu)越性。

        敏感信息;語言模型詞嵌入;語境分析;注意力機(jī)制;字典樹

        0 引言

        隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)的快速發(fā)展,社交網(wǎng)絡(luò)的規(guī)模不斷壯大,推動(dòng)著商業(yè)、文化、教育等領(lǐng)域的革新迭代。社交網(wǎng)絡(luò)每天產(chǎn)生的信息量數(shù)以億計(jì),信息類別龐雜,涉及行業(yè)眾多。可見,社交網(wǎng)絡(luò)已經(jīng)成為了社會(huì)信息傳遞的重要途徑。得益于此,廣大的網(wǎng)民可以利用社交平臺(tái)分享自己對事件的觀點(diǎn)、看法。然而,隨著社交網(wǎng)絡(luò)的發(fā)展及網(wǎng)民規(guī)模的增長,也有越來越多的不法分子利用互聯(lián)網(wǎng)的匿名性,在社交平臺(tái)發(fā)表惡意評(píng)論或觀點(diǎn),傳播暴力、反動(dòng)、色情、賭博等敏感信息,也有邪教組織開始利用社交網(wǎng)絡(luò)進(jìn)行邪教思想傳播,目前我國已有多起利用微信群、QQ群等傳播邪教信息的案件發(fā)生。

        近年來,研究者們開始關(guān)注敏感信息檢測問題,并積極開展相關(guān)研究和探索[1-3]?,F(xiàn)有的研究工作更多關(guān)注對敏感詞本身的檢測,檢測方法一般采用關(guān)鍵字匹配方法,即根據(jù)現(xiàn)有語料庫設(shè)置敏感詞,構(gòu)建出對應(yīng)的詞庫,在實(shí)際檢測過程中將待檢測文本與詞庫進(jìn)行比對,如果比對結(jié)果不為空,系統(tǒng)就將其標(biāo)記為敏感信息并發(fā)出警告。這種方法的優(yōu)勢在于實(shí)現(xiàn)難度較低、誤報(bào)率低,但是也存在明顯的不足,如檢測結(jié)果過于依賴詞庫,僅關(guān)注敏感詞本身,對于敏感詞的上下文信息考慮不足,不能很好地解決一詞多義問題,且敏感詞需要大量人工選擇和標(biāo)記,難以適用于大規(guī)模的語料環(huán)境。

        為了彌補(bǔ)上述缺陷,本文提出了一種基于語言模型詞嵌入和注意力機(jī)制(Attention mechanism-based Embedding from Language Model, A-ELMo)的敏感信息檢測方法。該方法將注意力機(jī)制與語言模型詞嵌入(Embedding from Language Model, ELMo)結(jié)合,加強(qiáng)模型對敏感特征的識(shí)別度,提升模型對敏感信息的檢測率,從而對文中的敏感詞進(jìn)行有效分類和判定。本文的主要工作如下:

        1)采用語言模型詞嵌入(ELMo)替代傳統(tǒng)的Word2Vec、GloVe等模型,通過運(yùn)用動(dòng)態(tài)詞向量來表征多義詞,以解決固定詞向量不能很好表征多義詞的問題,并通過在真實(shí)敏感信息上實(shí)驗(yàn)測試,驗(yàn)證了該模型的有效性。

        1 相關(guān)工作

        目前,越來越多的學(xué)者注意到基于關(guān)鍵字匹配方法存在過于依賴詞庫,對敏感詞以外的信息考慮不足等缺陷,并提出一系列方法來改進(jìn)基于關(guān)鍵字匹配的敏感詞檢測方法[4-7]。鄧一貴等[8]提出了一種基于決策樹的信息過濾算法,該算法考慮了敏感詞以外的要素,并以此確定敏感詞權(quán)重,建立了敏感詞檢測模型。付聰?shù)龋?]考慮了敏感詞的變形體檢測問題,研究了敏感詞的拼音、簡稱、拆分三種變形體,分別針對三種變形體提出了相應(yīng)的識(shí)別算法,實(shí)驗(yàn)結(jié)果表明可以有效檢測敏感詞。上述方法的檢測對象不再局限于敏感詞本身,而是考慮了詞頻、變體等其他要素,提升了對敏感信息的檢測效果;但本質(zhì)上仍是基于關(guān)鍵字匹配方法,檢測對象盡管由敏感詞延伸至拼音、簡稱等變體,但仍僅關(guān)注對象本身,缺乏對上下文信息的考慮,因此其效果有待進(jìn)一步提高。

        為彌補(bǔ)敏感詞匹配僅考慮檢測對象本身的缺陷,李揚(yáng)等[10]提出了基于情感分析的敏感詞檢測方法,該方法考慮了實(shí)際數(shù)據(jù)中敏感詞的分布特性、情感極性等要素,以此提升對文本敏感性的判別效果。姚艷秋等[11]提出了一種基于Laplace平滑情感判定的文本分類方法,該方法使用Laplace算法對詞典進(jìn)行擴(kuò)充,然后對文本進(jìn)行詞間、句型、句間等規(guī)則分析,并計(jì)算情感值,最后在此基礎(chǔ)上對情感文本進(jìn)行分類。胡思才等[12]提出了一種基于擴(kuò)展的情感詞典和卡方模型的中文情感特征選擇方法,該方法考慮了情感極值對分類的影響,通過基于字頻的相似度計(jì)算,提出了帶有情感極性的詞典建立方法,并將帶有情感極性的詞典與卡方模型結(jié)合,提出了基于卡方模型的情感詞分類方法,實(shí)驗(yàn)結(jié)果表明該方法可以一定程度上提升情感詞分類的效果。上述方法通過對詞典進(jìn)行擴(kuò)充、情感極性分析等,一定程度考慮了上下文信息,然而,通過對句子打分或情感極性評(píng)價(jià)來進(jìn)行情感分類的方法過于片面,實(shí)際情況中,一段文本包含多個(gè)情感詞,即使同一個(gè)情感詞也會(huì)因?yàn)樾揎棇ο蟛煌w現(xiàn)不一樣的情感傾向,所以僅在整體文本的粒度上考慮情感詞的特性和極值不足以對其中的敏感詞進(jìn)行有效識(shí)別。明弋洋等[13]提出了一種基于短語級(jí)情感分析的敏感信息檢測方法,該方法考慮到了敏感信息所在的語境語義,同時(shí)考慮了句子的語法規(guī)則,在一定程度上提升了上下文信息不同時(shí)的檢測效果,但是該方法的泛化性較差,不僅依賴情感詞庫,而且依賴所使用的語法規(guī)則,現(xiàn)實(shí)中的中文句式種類龐雜,依靠經(jīng)驗(yàn)建立的語法規(guī)則難以適用。Guo等[14]提出一種從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法,利用了基于內(nèi)容和基于上下文的提取機(jī)制,但是沒有考慮到真實(shí)的語境信息。Wang等[15]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和最新的預(yù)訓(xùn)練基于變換器的雙向編碼器表示(Bidirectional Encoder Representations from Transformers, BERT)技術(shù)的網(wǎng)絡(luò)敏感信息分類模型,提高了詞嵌入的泛化能力,但并未考慮短文本評(píng)論的互動(dòng)關(guān)系,影響了短文本的預(yù)測效果。薛朋強(qiáng)等[16]提出了一種基于確定有窮自動(dòng)機(jī)的改進(jìn)算法,該算法使用決策樹分流提高了查詢效率以及借助拼音縮小了查詢的范圍,但較難識(shí)別多形式的同義詞。Fu等[17]提出了一種基于變異識(shí)別和關(guān)聯(lián)分析的敏感詞檢測方法,給出了變異識(shí)別和相似度計(jì)算的方法,主要包括同義詞、代用詞、縮略語和詞形變化,然后結(jié)合規(guī)則對敏感詞進(jìn)行判斷,但其運(yùn)行成本太大,很難運(yùn)用于不斷變化形式的網(wǎng)絡(luò)敏感詞。此外,文獻(xiàn)[18-19]從多種角度檢測敏感信息,但是仍未從根本上解決誤報(bào)問題。

        可見,盡管現(xiàn)有研究對基于關(guān)鍵字匹配的敏感詞檢測方法進(jìn)行了不同程度的改進(jìn),但仍然存在不能很好表征多義詞、檢測時(shí)準(zhǔn)確率低、誤報(bào)率高的問題,本文提出一種基于語言模型詞嵌入和注意力機(jī)制的敏感信息檢測方法,利用語言模型詞嵌入可以有效表征多義詞,結(jié)合注意力機(jī)制可以進(jìn)一步提升對敏感信息的檢測率,降低誤報(bào)率。

        2 字典樹和ELMo模型

        2.1 字典樹

        字典樹[17]是一種類似于哈希樹的變種多叉搜索樹,又稱為trie或前綴樹,主要用于字符串的快速檢索和存儲(chǔ),其中根節(jié)點(diǎn)不存儲(chǔ)任何字符,其余每個(gè)節(jié)點(diǎn)存儲(chǔ)一個(gè)字符,根節(jié)點(diǎn)遍歷至葉子節(jié)點(diǎn)的完整路徑代表一個(gè)字符串,搜索字符串時(shí)將目標(biāo)字符串與路徑上的字符串進(jìn)行比較。與哈希樹不同的是,一個(gè)節(jié)點(diǎn)的所有后代都必須有一個(gè)共同的前綴,這樣可以最大限度地減少無用字符的比較,極大提高查詢效率。

        2.2 ELMo模型

        詞嵌入是現(xiàn)在自然語言處理中最常用的單詞表示法,從早期的獨(dú)熱編碼到神經(jīng)網(wǎng)絡(luò)語言模型訓(xùn)練得到的分布式詞向量[20],以及之后的眾多嵌入式靜態(tài)詞向量都無法解決一詞多義的問題。就Word2Vec而言,其本質(zhì)上是一個(gè)靜態(tài)模型,也就是說Word2Vec采用固定的詞向量表征策略,詞匯一旦經(jīng)過轉(zhuǎn)換后,其詞向量是固定不變的,不會(huì)因?yàn)樯舷挛男畔⒉煌淖?,這種情況對于多義詞是非常不友好的。例如英文中的Bank這個(gè)單詞,既有河岸的意思,又有銀行的意思,但在使用Word2Vec進(jìn)行詞向量表征的預(yù)訓(xùn)練時(shí),對于多義詞Word2Vec會(huì)輸出一個(gè)混合多義詞的詞向量,但這個(gè)詞向量是固定的,不會(huì)隨語境改變。

        ELMo是一種在詞向量或詞嵌入中表示詞匯的新方法,與Word2Vec、GloVe等同屬于詞向量嵌入模型,其中包含字符級(jí)CNN、雙向長短期記憶(Long Short-Term Memory, LSTM)等子模塊。ELMo的提出就是為了解決這種語境問題,動(dòng)態(tài)地去更新詞的詞嵌入。ELMo的本質(zhì)思想是:事先用語言模型在一個(gè)大的語料庫上學(xué)習(xí)好詞的詞嵌入。在實(shí)際使用中,既能以詞匯為單位生成詞向量作為ELMo模型的輸入,也能以字符為單位生成字符向量作為輸入。為了避免詞典外的詞語無法被表示以及詞匯過多造成的存儲(chǔ)空間利用率低的問題,本文以字符為單位生成字符向量,再將字符向量作為CNN的輸入,生成的詞向量作為ELMo的輸入,在使用過程中僅需保存字符向量和模型參數(shù),減少了存儲(chǔ)空間的占用。

        (2)生產(chǎn)階段。從檢驗(yàn)單證的監(jiān)管部門責(zé)任及信息采集實(shí)現(xiàn),到生產(chǎn)階段的產(chǎn)品等級(jí)劃分及層級(jí)包裝形成在倉儲(chǔ)和運(yùn)輸環(huán)節(jié)可追溯的包裝體系建設(shè)。

        3 基于A-ELMo模型的敏感信息檢測方法

        本文提出的基于A-ELMo的敏感信息檢測方法優(yōu)勢在于:1)采用ELMo替代傳統(tǒng)的Word2Vec、GloVe等模型,通過運(yùn)用動(dòng)態(tài)詞向量來表征多義詞,有效彌補(bǔ)傳統(tǒng)方法不能很好處理一詞多義的缺陷;2)在ELMo語言模型之上引入注意力機(jī)制,根據(jù)敏感程度賦予詞匯不同的權(quán)重,加強(qiáng)了模型對敏感信息的識(shí)別;3)引入了字典樹匹配,在進(jìn)行情感分析前,先使用結(jié)巴(jieba)函數(shù)將文本切分成詞,輸入字典樹對敏感詞進(jìn)行快速匹配,有效減少了需要A-ELMo分析的詞匯數(shù)量,提高了檢測效率。如圖1所示,收到待檢測文本后,首先將文本按一定的規(guī)則進(jìn)行分句,再以分句為單位進(jìn)行分詞,獲得輸入字符;其次,構(gòu)建敏感詞所對應(yīng)的字典樹,從根節(jié)點(diǎn)開始,將輸入字符依次向下匹配,判斷輸入內(nèi)容是否包含敏感詞,如果包含,則使用A-ELMo進(jìn)行情感分析,分析的結(jié)果用于判斷該句子是否需要報(bào)警。

        圖1 基于A-ELMo的敏感信息檢測方法流程

        英文有天然的空格作為分隔符來區(qū)分單詞,而中文的單詞之間不存在分隔符,分詞后會(huì)產(chǎn)生大量的單詞字符,若將所有待檢測文本作為ELMo輸入會(huì)影響時(shí)間及準(zhǔn)確率。為解決這一問題,本文將對數(shù)據(jù)進(jìn)行預(yù)處理并使用字典樹判斷,作為初步篩選,減少需要輸入到ELMo的字符數(shù)量。首先,是對待檢測文本按一定的規(guī)則進(jìn)行分句,以句子為單位進(jìn)行處理。由于在關(guān)鍵字匹配階段采用的是字典樹快速匹配,所以需要對句子進(jìn)行分詞??紤]到待檢測的文本是以句子為單位,每個(gè)句子所含分詞有限,本文對各種類型敏感詞庫中的敏感詞構(gòu)建相應(yīng)的字典樹,利用不同字符串有相同的前綴來構(gòu)建節(jié)點(diǎn),不僅在一定程度上縮小了存儲(chǔ)空間,也提高了字符串檢索的速度和檢測的準(zhǔn)確率。對于輸入的待檢測文本,先用jieba函數(shù)切分成詞后,再依次輸入字典樹進(jìn)行匹配,從而快速匹配出敏感詞。

        如果匹配到敏感詞匯,則進(jìn)一步輸入A-ELMo進(jìn)行情感分析,模型結(jié)構(gòu)如圖1中A-ELMo情感分析部分所示,包含注意力機(jī)制和ELMo。ELMo的詞向量是在雙層雙向語言模型上計(jì)算的,由兩層雙向的長短期記憶網(wǎng)絡(luò)疊在一起,每層都有前向和后向兩種迭代。將句子處理為詞向量后,輸入雙向語言模型中第一層;前向迭代中包含了該詞以及該詞之前的一些詞匯或語境的信息;后向迭代中包含了該詞之后的信息;這兩種迭代的信息組成了中間詞向量;這些中間詞向量被輸入到模型的下一層;最終表示(ELMo)就是原始詞向量和兩個(gè)中間詞向量的加權(quán)和。因?yàn)殡p向語言模型的輸入度量是字符而不是詞匯,該模型能捕捉詞的內(nèi)部結(jié)構(gòu)信息。比如“反動(dòng)”和“反動(dòng)的”,即使不了解這兩個(gè)詞的上下文,雙向語言模型也能夠識(shí)別出它們在一定程度上的相關(guān)性。

        本文所提模型結(jié)合了前、后向語言模型,最大化其聯(lián)合似然函數(shù),如式(3)所示:

        如圖2所示,敏感性越高的詞匯其權(quán)重越高。生成ELMo向量后再使用一個(gè)全連接層神經(jīng)網(wǎng)絡(luò)層[21]和SoftMax[22]函數(shù)進(jìn)行分類。

        在報(bào)警決策階段,本文制定了如下規(guī)則[8]:當(dāng)正向敏感信息所在句子的情感是積極的,負(fù)向敏感信息所在的句子情感是消極的,則不報(bào)警;反之則報(bào)警。對于中性敏感詞,無論其所在情感傾向如何,都做出報(bào)警決策。

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 實(shí)驗(yàn)設(shè)置

        本文從敏感信息檢測方法、詞嵌入模型及語言模型訓(xùn)練效率三個(gè)方面對所提基于A-ELMo的敏感信息檢測方法的性能表現(xiàn)進(jìn)行了實(shí)驗(yàn)驗(yàn)證。搭建實(shí)驗(yàn)環(huán)境為Intel Core i7-9700 CPU @3.00 GHz,8 GB RAM,Windows 10 OS,編程語言為Python 3.7。采用準(zhǔn)確率、召回率以及精確率作為評(píng)估所提方法性能表現(xiàn)的3種評(píng)價(jià)指標(biāo)。

        將本文方法與常用于敏感信息檢測的短語級(jí)情感分析法[6]及關(guān)鍵詞匹配法進(jìn)行了對比實(shí)驗(yàn)。將本文采用的A-ELMo和GloVe[23]、Word2Vec[24]、FastText[25]、文獻(xiàn)[26]方法、文獻(xiàn)[27]方法等進(jìn)行了實(shí)驗(yàn)對比。其中:Word2Vec和GloVe均采用固定詞向量表征+詞匯級(jí)別的詞向量嵌入方式,F(xiàn)astText采用固定詞向量表征+字符級(jí)別的詞向量嵌入方式,文獻(xiàn)[26]方法采用注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)檢測敏感信息,文獻(xiàn)[27]方法采用自注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)檢測敏感信息。此外,還將本文方法與無詞向量嵌入的情況進(jìn)行了消融實(shí)驗(yàn)對比,無詞向量嵌入實(shí)驗(yàn)中去除了A-ELMo,將詞在語料庫中的索引經(jīng)過簡單編碼后作為輸入。在訓(xùn)練效率上,本文將A-ELMo中的Bi-LSTM替換成其他具有相同功能的模型進(jìn)行了消融實(shí)驗(yàn)對比。

        4.2 數(shù)據(jù)描述

        本文爬取了人民網(wǎng)、新華網(wǎng)、央視新聞等網(wǎng)頁上的486篇新聞報(bào)道作為白樣本,另外從境外中文網(wǎng)站下載了357篇博客文章作為黑樣本,組合形成本文所使用的數(shù)據(jù)集。其中,486篇新聞報(bào)道包含了15 800個(gè)“共產(chǎn)黨”“中國政府”等敏感詞匯,但均屬于正常的新聞報(bào)道;357篇博客文章包含類似敏感詞匯9 350個(gè),均屬于敏感文章。本文將新聞報(bào)道和博客文章按自然句劃分,并按句子長度設(shè)置閾值進(jìn)行過濾,提取并選擇實(shí)驗(yàn)數(shù)據(jù)如表1所示。在實(shí)驗(yàn)過程中,按7∶3劃分訓(xùn)練、測試數(shù)據(jù)。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        4.3 預(yù)訓(xùn)練

        在進(jìn)行情感分析之前,需要對ELMo進(jìn)行預(yù)訓(xùn)練,以獲得上下文相關(guān)的詞向量信息。原始數(shù)據(jù)包括正常的新聞數(shù)據(jù)集和敏感信息數(shù)據(jù)集,預(yù)處理首先去除內(nèi)容中的空行、特殊符號(hào),過濾詞語少于3個(gè)的句子,利用jieba分詞進(jìn)行每句話的切詞處理。

        本文使用Word2Vec工具的skip-gram[28]模型作為字符向量表征模型,在獲得字符向量后,將其作為輸入來初始化字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)的嵌入層,學(xué)習(xí)分詞語料,獲得模型參數(shù)。

        4.4 結(jié)果分析

        將本文所提的敏感信息檢測方法與短語級(jí)情感分析方法[13]、關(guān)鍵字匹配方法進(jìn)行對比實(shí)驗(yàn),在準(zhǔn)確率、召回率、精確率3個(gè)指標(biāo)上進(jìn)行了性能對比,結(jié)果如表2所示。

        表2 3種方法在3個(gè)指標(biāo)上的性能對比 單位:%

        本文方法不僅與關(guān)鍵字匹配方法相比,在檢測的準(zhǔn)確率和速度上有提升,在準(zhǔn)確率、召回率上較基于短語級(jí)情感分析的不良信息檢測方法[13]也有較大提升。另外,雖然模型訓(xùn)練所用的數(shù)據(jù)集不是真正敏感信息數(shù)據(jù)集,而是采用大量公開數(shù)據(jù)集進(jìn)行訓(xùn)練,但在所選的測試數(shù)據(jù)集上已取得較高的召回率。

        考慮到不同的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)會(huì)造成不同的結(jié)果,本文將數(shù)據(jù)隨機(jī)化后,按照4∶1的比例切分訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明,本文的方法在新的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)下依舊保持良好的檢測效果,相較于現(xiàn)有的短語級(jí)情感分析、關(guān)鍵字匹配有明顯的提升。

        表3 3種方法經(jīng)數(shù)據(jù)隨機(jī)化后的在3個(gè)指標(biāo)上的性能對比 單位:%

        此外,將本文方法分別與FastText[25]、Word2Vec[24]、GloVe[23]、文獻(xiàn)[26]方法、文獻(xiàn)[27]方法及無詞向量嵌入情況分別進(jìn)行了充分的實(shí)驗(yàn)對比,結(jié)果如表4所示。

        表4 7種方法所用的詞嵌入模型在3個(gè)指標(biāo)上的性能對比 單位:%

        為了研究LSTM的訓(xùn)練效率,將本文A-ELMo的Bi-LSTM部分替換成具有相同功能(可作為語言模型)的一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)、層級(jí)softmax[22]、Transformer[19]進(jìn)行對比,其中層級(jí)softmax為FastText[25]工作中使用的方法、Transformer為文獻(xiàn)[19]中使用的方法,1D-CNN是大量用于序列建模的基準(zhǔn)方法。不同方法達(dá)到各自最佳測試性能對應(yīng)的訓(xùn)練時(shí)間如表5所示。

        表5 4種語言模型在4個(gè)指標(biāo)上的性能對比

        實(shí)驗(yàn)結(jié)果表明:盡管Bi-LSTM的訓(xùn)練時(shí)間相較于其他方法更長,但其測試效果有顯著提高;此外,由于Bi-LSTM能提取更為抽象的語義,且與ELMo的詞嵌入更加適配,可以更好解決一詞多義問題,因此其檢測準(zhǔn)確率明顯優(yōu)于其他方法。

        5 結(jié)語

        針對基于關(guān)鍵詞字符匹配和短語級(jí)情感分析方法等傳統(tǒng)敏感信息檢測方法準(zhǔn)確率低和泛化性差的問題,本文提出了一種基于語言模型詞嵌入和注意力機(jī)制(A-ELMo)的敏感信息檢測方法。該方法采用了ELMo進(jìn)行語境分析,有效降低了一詞多義對檢測效果的影響,并結(jié)合注意力機(jī)制,增強(qiáng)了模型對敏感特征的識(shí)別度,進(jìn)一步提升對敏感信息的檢測率。在由多個(gè)網(wǎng)絡(luò)數(shù)據(jù)源構(gòu)成的真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了所提方法在檢測敏感信息上的有效性。

        從實(shí)驗(yàn)結(jié)果來看,所提方法的精確率相較準(zhǔn)確率和召回率依然具備一定的提升空間,可以在未來工作中考慮運(yùn)用在線學(xué)習(xí)的方法來進(jìn)一步提高檢測精確率,減少誤報(bào)。

        [1] QIAO H, TIAN Z, LI W L, et al. A sensitive information detection method based on network traffic restore[C]// Proceedings of the 12th International Conference on Measuring Technology and Mechatronics Automation. Piscataway: IEEE, 2020: 832-836.

        [2] XU Y Y, LI Y X, ZHANG Z Y. Sensitive text classification and detection method based on sentiment analysis[J]. International Core Journal of Engineering, 2021, 7(5): 60-66.

        [3] DIAS M, BONé J, FERREIRA J C, et al. Named entity recognition for sensitive data discovery in Portuguese[J]. Applied Sciences, 2020, 10(7): No.2303.

        [4] ESIN Y E, ALAN O, ALPASLAN F N. Improvement on corpus- based word similarity using vector space models[C]// Proceedings of the 24th International Symposium on Computer and Information Sciences. Piscataway: IEEE, 2009: 280-285.

        [5] SUNDERMEYER M, SCHLüTER R, NEY H. LSTM Neural networks for language modeling[C]// Proceedings of the Interspeech 2012. [S.l.]: International Speech Communication Association, 2012: 194-197.

        [6] LIU W Y, WEN Y D, YU Z D, et al. Large-margin softmax loss for convolutional neural networks[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 507-516.

        [7] GUTHRIE D, ALLISON B, LIU W, et al. A closer look at skip-gram modelling[C]// Proceedings of the 5th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2006: 1222-1225.

        [8] 鄧一貴,伍玉英. 基于文本內(nèi)容的敏感詞決策樹信息過濾算法[J]. 計(jì)算機(jī)工程, 2014, 40(9):300-304.(DENG Y G, WU Y Y. Information filtering algorithm of test content-based sensitive words decision tree[J]. Computer Engineering, 2014, 40(9): 300-304.)

        [9] 付聰,余敦輝,張靈莉. 面向中文敏感詞變形體的識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用研究, 2019, 36(4):988-991.(FU C, YU D H, ZHANG L L. Study on identification method for change from of Chinese sensitive words[J]. Application Research of Computers, 2019, 36(4): 988-991.)

        [10] 李揚(yáng),潘泉,楊濤. 基于短文本情感分析的敏感信息識(shí)別[J]. 西安交通大學(xué)學(xué)報(bào), 2016, 50(9):80-84.(LI Y, PAN Q, YANG T. Sensitive information recognition based on short text sentiment analysis[J]. Journal of Xi’an Jiaotong University, 2016, 50(9): 80-84.)

        [11] 姚艷秋,鄭雅雯,呂妍欣. 基于LS-SO算法的情感文本分類方法[J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2019, 57(2):375-379.(YAO Y Q, ZHENG Y W, LYU Y X. Emotional text classification method based on LS-SO algorithm[J]. Journal of Jilin University (Science Edition), 2019, 57(2): 375-379.)

        [12] 胡思才,孫界平,琚生根,等. 基于擴(kuò)展的情感詞典和卡方模型的中文情感特征選擇方法[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 56(1):37-44.(HU S C, SUN J P, JU S G, et al. Chinese emotion feature selection method based on the extended emotion dictionary and the chi-square model[J]. Journal of Sichuan University (Natural Science Edition), 2019, 56(1): 37-44.)

        [13] 明弋洋,劉曉潔. 基于短語級(jí)情感分析的不良信息檢測方法[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 56(6):1042-1048.(MING Y Y, LIU X J. Sensitive information detection based on phrase-level sentiment analysis[J]. Journal of Sichuan University (Natural Science Edition), 2019, 56(6):1042-1048.)

        [14] GUO Y Y, LIU J Y, TANG W W, et al. ExSense: extract sensitive information from unstructured data[J]. Computers and Security, 2021, 102: No.102156.

        [15] WANG Y J, SHEN X J, YANG Y J. The classification of Chinese sensitive information based on BERT-CNN[C]// Proceedings of the 2019 International Symposium on Intelligence Computation and Applications, CCIS 1205. Singapore: Springer, 2020: 269-280.

        [16] 薛朋強(qiáng),努爾布力,吾守爾·斯拉木. 基于網(wǎng)絡(luò)文本信息的敏感信息過濾算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2016, 37(9):2447-2452.(XUE P Q, NURBOL, ISLAM W. Sensitive information filtering algorithm based on text information network[J]. Computer Engineering and Design, 2016, 37(9): 2447-2452.)

        [17] FU Y, YU Y, WU X P. A sensitive word detection method based on variants recognition[C]// Proceedings of the 2019 International Conference on Machine Learning, Big Data and Business Intelligence. Piscataway: IEEE, 2019: 47-52.

        [18] DING M, WANG X, WU C M, et al. Research on automated detection of sensitive information based on BERT[J]. Journal of Physics: Conference Series, 2021, 1757: No.012088.

        [19] BIGONHA M A S, FERREIRA K, SOUZA P, et al. The usefulness of software metric thresholds for detection of bad smells and fault prediction[J]. Information and Software Technology, 2019, 115: 79-92.

        [20] 李丹陽,趙亞慧,羅夢江,等. 基于字典樹語言模型的專業(yè)課查詢文本校對方法[J]. 延邊大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 46(3):260-264.(LI D Y, ZHAO Y H, LUO M J, et al. Query text proofreading method of professional courses based on trie tree language model[J]. Journal of Yanbian University (Natural Science), 2020, 46(3): 260-264.)

        [21] LOPEZ M M, KALITA J. Deep learning applied to NLP[EB/OL]. (2017-03-09) [2021-03-13].https://arxiv.org/pdf/1703.03091.pdf.

        [22] 周飛燕,金林鵬,董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017, 40(6):1229-1251.(ZHOU F Y, JIN L P, DONG J. Review of convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(6):1229-1251.)

        [23] PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1532-1543.

        [24] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07) [2021-03-13].https://arxiv.org/pdf/1301.3781.pdf.

        [25] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 427-431.

        [26] SHARMIN S, CHAKMA D. Attention-based convolutional neural network for Bangla sentiment analysis[J]. AI and Society, 2021, 36(1): 381-396.

        [27] LIU Y, YANG C Y, YANG J. A graph convolutional network-based sensitive information detection algorithm[J]. Complexity, 2021, 2021: No.6631768.

        [28] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

        HUANG Cheng, born in 1987, Ph. D., associate professor. His research interests include network security, attack and defense technology.

        ZHAO Qianrui, born in 2000. Her research interests include cyberspace security.

        Sensitive information detection method based on attention mechanism-based ELMo

        HUANG Cheng, ZHAO Qianrui*

        (,,610065,)

        In order to solve the problems of low accuracy and poor generalization of the traditional sensitive information detection methods such as keyword character matching-based method and phrase-level sentiment analysis-based method, a sensitive information detection method based on Attention mechanism-based Embedding from Language Model (A-ELMo) was proposed. Firstly, the quick matched of trie tree was performed to reduce the comparison of useless words significantly, thereby improving the query efficiency greatly. Secondly, an Embedding from Language Model (ELMo) was constructed for context analysis, and the dynamic word vectors were used to fully represent the context characteristics to achieve high scalability. Finally, the attention mechanism was combined to enhance the identification ability of the model for sensitive features, and further improve the detection rate of sensitive information. Experiments were carried out on real datasets composed of multiple network data sources. The results show that the accuracy of the proposed sensitive information detection method is improved by 13.3 percentage points compared with that of the phrase-level sentiment analysis-based method, and the accuracy of the proposed method is improved by 43.5 percentage points compared with that of the keyword matching-based method, verifying that the proposed method has advantages in terms of enhancing identification ability of sensitive features and improving the detection rate of sensitive information.

        sensitive information; Embedding from Language Model (ELMo); context analysis; attention mechanism; trie tree

        This work is partially supported by National Natural Science Foundation of China (61902265), Key Research and Development Program of Science and Technology Department of Sichuan Province (2020YFG0076).

        1001-9081(2022)07-2009-06

        10.11772/j.issn.1001-9081.2021050877

        2021?05?27;

        2021?08?27;

        2021?08?30。

        國家自然科學(xué)基金資助項(xiàng)目(61902265);四川省科技廳重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020YFG0076)。

        TP183

        A

        黃誠(1987—),男,重慶云陽人,副教授,博士,CCF會(huì)員,主要研究方向:網(wǎng)絡(luò)安全、攻防技術(shù); 趙倩銳(2000—),女,四川巴中人,主要研究方向:網(wǎng)絡(luò)空間安全。

        猜你喜歡
        字符向量文本
        尋找更強(qiáng)的字符映射管理器
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        在808DA上文本顯示的改善
        消失的殖民村莊和神秘字符
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        向量垂直在解析幾何中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲午夜福利在线观看| 青青草激情视频在线播放| 精品人妻系列无码人妻漫画| 夜鲁很鲁在线视频| 青草热久精品视频在线观看| 日本女优在线观看一区二区三区| 亚洲三级中文字幕乱码| 久久婷婷五月综合色欧美| 国产精品福利自产拍久久| 免费一级a毛片在线播出| 少妇人妻av一区二区三区| 国产精品久久久久久妇女| 久久精品人人做人人综合| 粉嫩极品国产在线观看| 激情在线视频一区二区三区| 中国国产不卡视频在线观看| 无码人妻久久一区二区三区不卡| 亚洲男女免费视频| 久久久99精品国产片| 熟女人妻中文字幕av| 中文字字幕在线精品乱码| 欧美成人精品三级在线观看| 中文字幕人妻在线少妇完整版| 人人妻人人澡人人爽国产| 日韩人妻无码免费视频一区二区三区 | 欧美激情一区二区三区| 麻豆乱码国产一区二区三区| 国产裸体AV久无码无遮挡| 国产亚洲午夜精品久久久| 亚洲av综合a色av中文| 久久永久免费视频| 日本女优中文字幕四季视频网站 | 久久亚洲av午夜福利精品一区 | 成午夜精品一区二区三区| 激情综合欧美| 人妻熟女妇av北条麻记三级| 蜜桃18禁成人午夜免费网站| 久久人人爽人人爽人人av| 亚洲先锋影院一区二区| 国产精品亚洲一区二区三区在线| 成年女人a毛片免费视频|